爬蟲CrawlSpider模板的用法-創新互聯

本篇內容介紹了“爬蟲Crawl Spider模板的用法”的有關知識，在實際案例的操作過程中，不少人都會遇到這樣的困境，接下來就讓小編帶領大家學習一下如何處理這些情況吧！希望大家仔細閱讀，能夠學有所成！

創新互聯建站是專業的筠連網站建設公司，筠連接單;提供做網站、成都做網站,網頁設計,網站設計,建網站,PHP網站建設等專業做網站服務;采用PHP框架,可快速的進行筠連網站開發網頁制作和功能擴展;專業做搜索引擎喜愛的網站,專業的做網站團隊,希望更多企業前來合作!

1.Spider模板

scrapy默認創建的spider模板就是basic模板，創建spider文件的命令是：scrapy genspider dribbble dribbble.com，查看spider模板的命令是：scrapy genspider --list；
在項目中明確指明使用crawl生成模板生成spider的命令是：scrapy genspider -t crawl csdn www.csdn.net ；

import scrapy
from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class CsdnSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['www.csdn.net']
    start_urls = ['https://www.csdn.net/']
    rules = (
        Rule(LinkExtractor(allow=r'Items/'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        return item

2.CrawlSpider類介紹

CrawlSpider是Spider的派生類，目的是對全站信息爬取更加簡單，爬取那些具有一定規則網站的常用的爬蟲，它基于Spider并有一些獨特屬性；

3.rules規則列表

語法：Rule(link_extractor, callback=None, cb_kwargs=None, follow=None, process_links=None, process_request=None)，rules是Rule對象的集合，用于匹配目標網站并排除干擾；
link_extractor：是一個LinkExtractor對象，其定義了如何從爬取到的頁面提取鏈接；
callback：從link_extractor中每獲取到鏈接得到Responses時，會調用參數所指定的值作為回調函數，該回調函數接收一個response作為其一個參數；
cb_kwargs：用于作為**kwargs參數，傳遞給callback；
follow：是一個布爾值，指爬取了之后，是否還繼續從該頁面提取鏈接，然后繼續爬下去, 默認是False；
process_links：指定spider中哪個的函數將會被調用，從link_extractor中獲取到鏈接列表時將會調用該函數。該方法主要用來過濾；
process_request：指定處理函數，根據該Rule提取到的每個Request時，該函數將會被調用，可以對Request進行處理，該函數必須返回Request或者None；

4.LinkExtractors

LinkExtractors 的目的是提取鏈接，每個LinkExtractor有唯一的公共方法是extract_links()，它接收一個 Response對象，并返回一個scrapy.link.Link對象；
Link Extractors要實例化一次，并且 extract_links 方法會根據不同的 response 調用多次提取鏈接；

主要參數：

allow：滿足括號中”正則表達式”的值會被提取，如果為空，則全部匹配；
deny：與這個正則表達式(或正則表達式列表)不匹配的url一定不提取；
allow_domains：會被提取的連接的；
deny_domains：一定不會被提取鏈接的domains；
restrict_xpaths：使用xpath表達式，和allow共同作用過濾鏈接；

5.爬取CSDN的文章, 且提取URL和文章標題

from scrapy.linkextractors import LinkExtractor
from scrapy.spiders import CrawlSpider, Rule
class DoubanSpider(CrawlSpider):
    name = 'csdn'
    allowed_domains = ['blog.csdn.net']
    start_urls = ['https://blog.csdn.net']
    # 指定鏈接提取的規律
    rules = (
        # follow:是指爬取了之后，是否還繼續從該頁面提取鏈接，然后繼續爬下去
        Rule(LinkExtractor(allow=r'.*/article/.*'), callback='parse_item', follow=True),
    )
    def parse_item(self, response):
        print('-'*100)
        print(response.url)
        title = response.css('h2::text').extract()[0]
        print(title)
        print('-' * 100)
        return None

“爬蟲Crawl Spider模板的用法”的內容就介紹到這里了，感謝大家的閱讀。如果想了解更多行業相關的知識可以關注創新互聯-成都網站建設公司網站，小編將為大家輸出更多高質量的實用文章！

網站題目：爬蟲CrawlSpider模板的用法-創新互聯
轉載來源：http://m.newbst.com/article48/hpgep.html

成都網站建設公司_創新互聯，為您提供動態網站、服務器托管、手機網站建設、標簽優化、定制網站、網站導航

聲明：本網站發布的內容（圖片、視頻和文字）以用戶投稿、用戶轉載內容為主，如果涉及侵權請盡快告知，我們將會在第一時間刪除。文章觀點不代表本網站立場，如需處理請聯系客服。電話：028-86922220；郵箱：631063699@qq.com。內容未經允許不得轉載，或轉載時需注明來源：創新互聯

猜你還喜歡下面的內容