Python编程基础之(五)Scrapy爬虫框架

经过前面四章的学习,我们已经可以使用Requests库、Beautiful Soup库和Re库,编写基本的Python爬虫程序了。那么这一章就来学习一个专业的网络爬虫框架--Scrapy。没错,是框架,而不是像前面介绍的函数功能库。

Scrapy是一个快速、功能强大的网络爬虫框架。

可能大家还不太了解什么是框架,爬虫框架其实是实现爬虫功能的一个软件结构和功能组件的集合。

简而言之, Scrapy就是一个爬虫程序的半成品,可以帮助用户实现专业的网络爬虫。

使用Scrapy框架,不需要你编写大量的代码,Scrapy已经把大部分工作都做好了,允许你调用几句代码便自动生成爬虫程序,可以节省大量的时间。

当然,框架所生成的代码基本是一致的,如果遇到一些特定的爬虫任务时,就不如自己使用Requests库搭建来的方便了。

PyCharm安装

测试安装:

出现框架版本说明安装成功。

掌握Scrapy爬虫框架的结构是使用好Scrapy的重中之重!

先上图:

整个结构可以简单地概括为: “5+2”结构和3条数据流

5个主要模块(及功能):

(1)控制所有模块之间的数据流。

(2)可以根据条件触发事件。

(1)根据请求下载网页。

(1)对所有爬取请求进行调度管理。

(1)解析DOWNLOADER返回的响应--response。

(2)产生爬取项--scraped item。

(3)产生额外的爬取请求--request。

(1)以流水线方式处理SPIDER产生的爬取项。

(2)由一组操作顺序组成,类似流水线,每个操作是一个ITEM PIPELINES类型。

(3)清理、检查和查重爬取项中的HTML数据并将数据存储到数据库中。

2个中间键:

(1)对Engine、Scheduler、Downloader之间进行用户可配置的控制。

(2)修改、丢弃、新增请求或响应。

(1)对请求和爬取项进行再处理。

(2)修改、丢弃、新增请求或爬取项。

3条数据流:

(1):图中数字 1-2

1:Engine从Spider处获得爬取请求--request。

2:Engine将爬取请求转发给Scheduler,用于调度。

(2):图中数字 3-4-5-6

3:Engine从Scheduler处获得下一个要爬取的请求。

4:Engine将爬取请求通过中间件发送给Downloader。

5:爬取网页后,Downloader形成响应--response,通过中间件发送给Engine。

6:Engine将收到的响应通过中间件发送给Spider处理。

(3):图中数字 7-8-9

7:Spider处理响应后产生爬取项--scraped item。

8:Engine将爬取项发送给Item Pipelines。

9:Engine将爬取请求发送给Scheduler。

任务处理流程:从Spider的初始爬取请求开始爬取,Engine控制各模块数据流,不间断从Scheduler处获得爬取请求,直至请求为空,最后到Item Pipelines存储数据结束。

作为用户,只需配置好Scrapy框架的Spider和Item Pipelines,也就是数据流的入口与出口,便可完成一个爬虫程序的搭建。Scrapy提供了简单的爬虫命令语句,帮助用户一键配置剩余文件,那我们便来看看有哪些好用的命令吧。

Scrapy采用命令行创建和运行爬虫

PyCharm打开Terminal,启动Scrapy:

Scrapy基本命令行格式:

具体常用命令如下:

下面用一个例子来学习一下命令的使用:

1.建立一个Scrapy爬虫工程,在已启动的Scrapy中继续输入:

执行该命令,系统会在PyCharm的工程文件中自动创建一个工程,命名为pythonDemo。

2.产生一个Scrapy爬虫,以教育部网站为例http://www.moe.gov.cn:

命令生成了一个名为demo的spider,并在Spiders目录下生成文件demo.py。

命令仅用于生成demo.py文件,该文件也可以手动生成。

观察一下demo.py文件:

3.配置产生的spider爬虫,也就是demo.py文件:

4.运行爬虫,爬取网页:

如果爬取成功,会发现在pythonDemo下多了一个t20210816_551472.html的文件,我们所爬取的网页内容都已经写入该文件了。

以上就是Scrapy框架的简单使用了。

Request对象表示一个HTTP请求,由Spider生成,由Downloader执行。

Response对象表示一个HTTP响应,由Downloader生成,有Spider处理。

Item对象表示一个从HTML页面中提取的信息内容,由Spider生成,由Item Pipelines处理。Item类似于字典类型,可以按照字典类型来操作。



如果您对数据采集和爬虫感兴趣,我可以向您介绍一下八爪鱼采集器。八爪鱼采集器是一款功能全面、操作简单、适用范围广泛的互联网数据采集器,可以帮助您快速获取所需的数据。八爪鱼采集器提供了智能识别和灵活的自定义采集规则设置,无需编程和代码知识即可轻松上手。如果您想了解更多关于八爪鱼采集器的信息,请前往官网了解更多详情。八爪鱼为用户准备了一系列简洁易懂的教程,帮助大家快速掌握采集技巧,轻松应对各类网站数据采集,请前往官网教程与帮助了解更多详情。

  • Python缂栫▼鍩虹涔(浜)Scrapy鐖櫕妗嗘灦
    绛旓細2锛欵ngine灏嗙埇鍙栬姹傝浆鍙戠粰Scheduler锛岀敤浜庤皟搴︺傦紙2锛夛細鍥句腑鏁板瓧 3-4-5-6 3锛欵ngine浠嶴cheduler澶勮幏寰椾笅涓涓鐖彇鐨勮姹傘4锛欵ngine灏嗙埇鍙栬姹傞氳繃涓棿浠跺彂閫佺粰Downloader銆5锛氱埇鍙栫綉椤靛悗锛孌ownloader褰㈡垚鍝嶅簲--response锛岄氳繃涓棿浠跺彂閫佺粰Engine銆6锛欵ngine灏嗘敹鍒扮殑鍝嶅簲閫氳繃涓棿浠跺彂閫佺粰Spider澶勭悊銆傦紙...
  • 鐢python缂栫▼鍐欏嚭s=1/1+1/2+鈥+1/100?
    绛旓細s += 1/i print(s)杩欐牱灏卞彲浠ュ緱鍒 1/1 + 1/2 + ... + 1/100 鐨勫拰浜嗐傛垨鑰呬娇鐢╯um()鍑芥暟鍜岀敓鎴愬櫒琛ㄨ揪寮 s = sum(1/i for i in range(1, 101))print(s)鎴栬呬娇鐢╪umpy搴 import numpy as np s = np.sum(1/np.arange(1,101))print(s)
  • Python鍩虹鐭ヨ瘑-瀛︿範
    绛旓細娣卞叆鎺㈢储Python缂栫▼涓栫晫锛岄鍏堥渶瑕佸畨瑁呭拰閰嶇疆銆備粠Python瀹樼綉涓嬭浇閫傚悎浣犵殑绯荤粺鐗堟湰锛屽畨瑁呭寘瀹屾垚鍚庯紝鍒繕浜嗚缃幆澧冨彉閲忥紝灏哖ython璺緞娣诲姞鍒扮郴缁熷彉閲忎腑锛岃繖鏍穚ip鍜宑onda杩欎袱涓己澶х殑鍖呯鐞嗗櫒灏辫兘椤虹晠杩愪綔浜嗐鍩虹瑕佺礌锛孭ython鐨勫彉閲忓拰鏁版嵁绫诲瀷鏄紪绋嬬殑鍩虹煶銆傞氳繃绠鍗曠殑x=10锛堟暣鏁帮級銆亂=3.14锛堟诞鐐规暟锛夈亃="...
  • Python鍩虹缂栫▼鈥斺旀爣鍑嗗簱涔媐ileinput涓巘ime妯″潡
    绛旓細fileinput妯″潡涓竴浜涢噸瑕佺殑鍑芥暟锛屼篃鏄垜浠湪瀹為檯寮鍙戜腑闇瑕佺粡甯哥敤鍒扮殑锛屽叿浣撳涓嬭〃鎵绀猴細fileinput.input()锛 fileinput妯″潡涓渶閲嶈鐨勫嚱鏁帮紝瀹冭繑鍥炰竴涓彲鍦╢or寰幆涓繘琛岃凯浠g殑瀵硅薄銆俧ileinput. filename()锛 杩斿洖褰撳墠鏂囦欢锛堝嵆姝e湪澶勭悊鐨勮鎵灞炵殑鏂囦欢锛夌殑鏂囦欢鍚嶃俧ileinput. lineno()锛 杩斿洖褰...
  • Python缂栫▼5绉嶅父鐢ㄥ伐鍏锋槸浠涔?
    绛旓細Selenium鏄渶浣崇殑Python鑷姩鍖栧伐鍏蜂箣涓銆傚畠閫傜敤浜嶱ython娴嬭瘯鐨勮嚜鍔ㄥ寲锛屽父甯哥敤浣淲eb搴旂敤绋嬪簭鐨勮嚜鍔ㄥ寲妗嗘灦銆傛垜浠彲浠ュ埄鐢⊿elenium锛岄氳繃璁稿缂栫▼璇█(鍖呮嫭Java銆丆#銆丳ython銆乺uby浠ュ強鍏朵粬璁稿绋嬪簭鍛樺拰瀛︾敓浣跨敤鐨勮瑷)鏉ョ紪鍐欐祴璇曡剼鏈備綘杩樺彲浠ュ湪Selenium涓泦鎴怞unit鍜孴estNG绛夊伐鍏凤紝鏉ョ鐞嗘祴璇曠敤渚嬪苟鐢熸垚鎶ュ憡銆5銆...
  • 骞茶揣鍒嗕韩!python鍩虹璇硶浣犱簡瑙e悧?
    绛旓細1銆Python缂栫▼锛氫氦浜掑紡缂栫▼ 浜や簰寮忕紪绋嬩笉闇瑕佸垱寤鸿剼鏈枃浠讹紝鏄氳繃 Python 瑙i噴鍣ㄧ殑浜や簰妯″紡杩涙潵缂栧啓浠g爜銆俵inux绯荤粺涓綘鍙渶瑕佸湪鍛戒护琛屼腑杈撳叆 “ Python ” 鍛戒护鍗冲彲鍚姩浜や簰寮忕紪绋,鎻愮ず绐楀彛濡備笅锛歱ython Python 2.7.9 (default, Sep 17 2016, 20:26:04)[GCC 4.9.2] on linux2 Type ...
  • python鍩虹閮芥湁鍝簺鍐呭鍛?
    绛旓細闃舵涓锛歅ython寮鍙戝熀纭 Python鍏ㄦ爤寮鍙戜笌浜哄伐鏅鸿兘涔婸ython寮鍙戝熀纭鐭ヨ瘑瀛︿範鍐呭鍖呮嫭锛Python鍩虹璇硶銆佹暟鎹被鍨嬨佸瓧绗︾紪鐮併佹枃浠舵搷浣溿佸嚱鏁般佽楗板櫒銆佽凯浠e櫒銆佸唴缃柟娉曘佸父鐢ㄦā鍧楃瓑銆傞樁娈典簩锛歅ython楂樼骇缂栫▼鍜屾暟鎹簱寮鍙 Python鍏ㄦ爤寮鍙戜笌浜哄伐鏅鸿兘涔婸ython楂樼骇缂栫▼鍜屾暟鎹簱寮鍙戠煡璇嗗涔犲唴瀹瑰寘鎷細闈㈠悜瀵硅薄寮鍙戙丼ocket...
  • python鏍囧噯搴撴湁鍝簺?杩欎簲涓父鐢╬ython鏍囧噯搴撳繀瑕佺煡閬!
    绛旓細浜斾釜甯哥敤python鏍囧噯搴擄細1銆乻ys sys鍖呰鐢ㄤ簬绠$悊Python鑷韩鐨勮繍琛岀幆澧冦侾ython鏄竴涓В閲婂櫒(interpreter)锛屼篃鏄竴涓繍琛屽湪鎿嶄綔绯荤粺涓婄殑绋嬪簭銆傛垜浠彲浠ャ恠ys銆戝寘鏉ユ帶鍒惰繖涓绋嬪簭杩愯鐨勮澶氬弬鏁帮紝姣斿璇碢ython杩愯鎵鑳藉崰鎹殑鍐呭瓨鍜孋PU锛孭ython鎵瑕佹壂鎻忕殑璺緞绛夈傚彟涓涓噸瑕佸姛鑳芥槸鍜孭ython鑷繁鐨勫懡浠よ浜掑姩锛屼粠鍛戒护...
  • 鏂版墜python鍏ラ棬鏁欑▼
    绛旓細1銆佷簡瑙Python缂栫▼鍩虹锛氶鍏堢涓鐐癸紝瑕佽兘澶熺湅鎳備簡瑙e彉閲忋佸熀纭璇硶銆佺紪绋嬭鑼冪瓑锛岃繖浜涗簨鑳藉涓婃墜缂栧啓Python浠g爜鐨勫墠鎻愩傚叾娆$浜岀偣锛屽浜庢暟鎹粨鏋勶紝瀛楃涓层佸垪琛ㄣ佸瓧鍏哥瓑闇瑕佹瘮杈冪啛缁冭繍鐢ㄣ傚垰寮濮嬬殑杩欓儴鍒嗗氨鍋氫竴浜涚畝鍗曠殑缁冧範锛屾瀯閫犲嚭涓涓暟鎹被鍨嬶紝鐒跺悗鍐嶅疄鐜板熀鏈殑鐢ㄦ硶銆傛瘮濡備綘鑷繁鏋勯犱竴涓垪琛紝瀹炵幇鍒楄〃涓...
  • Python缃戠粶缂栫▼鍩虹鍐呭鎻愯
    绛旓細鍦Python缂栫▼鐨勪笘鐣岄噷锛岀綉缁滅紪绋嬫槸涓涓笉鍙垨缂虹殑棰嗗煙銆傛湰涔︽繁鍏ユ祬鍑哄湴璁茶В浜哖ython杩涜缃戠粶缂栫▼鐨勫熀鐭筹紝甯姪璇昏呭缓绔嬭捣鎵庡疄鐨鍩虹銆傞鍏堬紝瀹冩兜鐩栦簡缃戠粶閫氫俊鐨勫熀纭姒傚康锛屽寘鎷琁P鍦板潃銆佸崗璁爤銆佺綉缁滆繛鎺ョ瓑锛岃繖浜涢兘鏄悊瑙g綉缁滈氫俊杩愪綔鍘熺悊鐨勫叧閿傞殢鐫娣卞叆锛岃鑰呭皢瀛︿範楂樼骇缃戠粶鎿嶄綔鎶宸э紝濡備綍璁捐鍜屽疄鐜版洿澶嶆潅銆...
  • 扩展阅读:学python后到底能干什么 ... python编程入门自学免费 ... python手机版下载官方 ... python初学编程必背 ... 学python编程大概多少钱 ... python编程免费网站 ... c++和python先学哪个 ... 高中python编程例题 ... 幼儿python编程入门 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网