python爬虫框架哪个好用

说实话感觉大同小异。各有优缺点吧~

常见python爬虫框架
1)Scrapy:很强大的爬虫框架,可以满足简单的页面爬取(比如可以明确获知url pattern的情况)。用这个框架可以轻松爬下来如亚马逊商品信息之类的数据。但是对于稍微复杂一点的页面,如weibo的页面信息,这个框架就满足不了需求了。
2)Crawley: 高速爬取对应网站的内容,支持关系和非关系数据库,数据可以导出为JSON、XML等
3)Portia:可视化爬取网页内容
4)newspaper:提取新闻、文章以及内容分析
5)python-goose:java写的文章提取工具
6)Beautiful Soup:名气大,整合了一些常用爬虫需求。缺点:不能加载JS。
7)mechanize:优点:可以加载JS。缺点:文档严重缺失。不过通过官方的example以及人肉尝试的方法,还是勉强能用的。
8)selenium:这是一个调用浏览器的driver,通过这个库你可以直接调用浏览器完成某些操作,比如输入验证码。
9)cola:一个分布式爬虫框架。项目整体设计有点糟,模块间耦合度较高。

资料来源:网页链接

希望我的回答对你有帮助~



1、Scrapy
是用纯 Python 实现一个为了爬取网站数据、提取结构性数据而编写的应用框架, 用途非常广泛。
可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中,也可以应用在获取API所返回的数据(例如 Amazon Associates Web Services ) 或者通用的网络爬虫。

request 库 简单易用

  • python鐨勭埇铏鏋鏈夊摢浜?
    绛旓細4.Beautiful Soup 鏄竴涓彲浠ヤ粠HTML鎴朮ML鏂囦欢涓彁鍙栨暟鎹殑Python搴.瀹冭兘澶熼氳繃浣犲枩娆㈢殑杞崲鍣ㄥ疄鐜版儻鐢ㄧ殑鏂囨。瀵艰埅,鏌ユ壘,淇敼鏂囨。鐨勬柟寮.Beautiful Soup浼氬府浣犺妭鐪佹暟灏忔椂鐢氳嚦鏁板ぉ鐨勫伐浣滄椂闂淬傝繕鏈夊緢澶氾紝姣斿Newspaper锛孏rab锛孋ola绛夌瓑 鐖櫕妗嗘灦瀛︿範鍙互鐪嬩竴涓嬮粦椹▼搴忓憳瑙嗛搴撶殑瀛︿範瑙嗛锛屽厤璐瑰涔犲摝锛佸緢楂樺叴鑳...
  • python鐖櫕鐢浠涔妗嗘灦
    绛旓細python鐖櫕妗嗘灦姒傝堪 鐖櫕妗嗘灦涓姣旇緝濂界敤鐨勬槸 Scrapy 鍜孭ySpider銆俻yspider涓婃墜鏇寸畝鍗曪紝鎿嶄綔鏇村姞绠渚匡紝鍥犱负瀹冨鍔犱簡 WEB 鐣岄潰锛屽啓鐖櫕杩呴燂紝闆嗘垚浜唒hantomjs锛屽彲浠ョ敤鏉ユ姄鍙杍s娓叉煋鐨勯〉闈係crapy鑷畾涔夌▼搴﹂珮锛屾瘮 PySpider鏇村簳灞備竴浜涳紝閫傚悎瀛︿範鐮旂┒锛岄渶瑕佸涔犵殑鐩稿叧鐭ヨ瘑澶氾紝涓嶈繃鑷繁鎷挎潵鐮旂┒鍒嗗竷寮忓拰澶氱嚎绋嬬瓑绛夋槸闈炲父...
  • Python缂栫▼鍩虹涔(浜)Scrapy鐖櫕妗嗘灦
    绛旓細浣滀负鐢ㄦ埛锛屽彧闇閰嶇疆濂絊crapy妗嗘灦鐨凷pider鍜孖tem Pipelines锛屼篃灏辨槸鏁版嵁娴佺殑鍏ュ彛涓庡嚭鍙o紝渚垮彲瀹屾垚涓涓鐖櫕绋嬪簭鐨勬惌寤恒係crapy鎻愪緵浜嗙畝鍗曠殑鐖櫕鍛戒护璇彞锛屽府鍔╃敤鎴蜂竴閿厤缃墿浣欐枃浠讹紝閭f垜浠究鏉ョ湅鐪嬫湁鍝簺濂界敤鐨勫懡浠ゅ惂銆係crapy閲囩敤鍛戒护琛屽垱寤哄拰杩愯鐖櫕 PyCharm鎵撳紑Terminal锛屽惎鍔⊿crapy锛歋crapy鍩烘湰鍛戒护琛屾牸寮忥細鍏蜂綋...
  • Python缂栫▼缃戦〉鐖櫕宸ュ叿闆嗕粙缁
    绛旓細Python-Goose鐢≒ython閲嶅啓锛屼緷闈犱簡Beautiful Soup銆傜粰瀹氫竴涓枃绔犵殑URL, 鑾峰彇鏂囩珷鐨勬爣棰樺拰鍐呭寰堜究鍒╋紝鐢ㄨ捣鏉ラ潪甯竛ice銆備互涓婂氨鏄疨ython缂栫▼缃戦〉鐖櫕宸ュ叿闆嗕粙缁嶏紝甯屾湜瀵逛簬杩涜Python缂栫▼鐨勫ぇ瀹惰兘鏈夋墍甯姪锛屽綋鐒禤ython缂栫▼瀛︿範涓嶆闇瑕佽繘琛屽伐鍏峰涔狅紝杩樻湁寰堝鐨勭紪绋嬬煡璇嗭紝涔熼渶瑕濂藉ソ瀛﹁捣鏉ュ摝锛屽姞娌!
  • python鐨勭埇铏鏋鏈夊摢浜?
    绛旓細鎵浠ュ湪妗嗘灦璁捐涓垜浠洿鎺ュ姞鍏ュ畠灏卞ソ浜嗭紝鑷充簬浣跨敤浠涔堝簱鏉ヨ繘琛屼笅杞介兘鏄彲浠ョ殑锛屼綘鍙互鐢 httpclient 涔熷彲浠ョ敤okhttp鍦ㄦ湰鏂囦腑鎴戜滑浣跨敤涓涓秴杞婚噺绾х殑缃戠粶璇锋眰搴 oh-my-request (娌¢敊锛屽氨鏄湪涓嬫悶鐨)銆備紭绉鐨勬鏋惰璁′細灏嗚繖涓笅杞界粍浠剁疆涓哄彲鏇挎崲锛屾彁渚涢粯璁ょ殑鍗冲彲銆鐖櫕璋冨害鍣紝璋冨害鍣ㄥ拰鎴戜滑鍦ㄥ紑鍙 web 搴...
  • 鏈甯哥敤Python寮婧妗嗘灦鏈夊摢浜
    绛旓細webpy: 杞婚噺绾х殑Python Web妗嗘灦webpy鐨勮璁$悊蹇靛姏姹傜簿绠锛圞eep it simple and powerful锛夛紝婧愮爜寰堢畝鐭紝鍙彁渚涗竴涓鏋舵墍蹇呴』鐨勪笢瑗匡紝涓嶄緷璧栧ぇ閲忕殑绗笁鏂规ā鍧楋紝瀹冩病鏈塙RL璺敱銆佹病鏈夋ā鏉夸篃娌℃湁鏁版嵁搴撶殑璁块棶銆係crapy锛Python鐨勭埇铏鏋Scrapy鏄竴涓浣跨敤Python缂栧啓鐨勶紝杞婚噺绾х殑锛岀畝鍗曡交宸э紝骞朵笖浣跨敤璧锋潵闈炲父鐨...
  • 涓夋璧,鏁欎綘瀹氬埗鑷繁鐨勪釜鎬python鐖櫕,浠g爜閮界渷浜嗘湁鏈ㄦ湁~
    绛旓細鍖呮嫭scrapy绠浠嬨佸鐞嗗墠绔痡s鐢熸垚鐨勭炕椤甸摼鎺ャ乤jax璇锋眰鐨勫鐞嗐佹暟鎹浆鎹佸弽鐖櫕绛栫暐浠ュ強濡備綍鎻愰珮鎶撳彇鏁堢巼銆傚鏋滀綘鏈変换浣曢棶棰樻垨寤鸿锛屼綔鑰呴潪甯告杩庡苟鎵胯浼氬敖蹇洖搴旓紝鍏卞悓鎻愬崌妗嗘灦鐨勫疄鐢ㄦу拰鏄撶敤鎬с倃ebWalker锛氬畾鍒朵綘鐨勬暟鎹姄鍙栨梾绋嬶紝璁╂瘡涓姝ラ兘杞绘澗楂樻晥銆備綔鑰咃細涓浣嶇儹琛蜂簬鎺㈢储鐨Python寮鍙戣呫
  • 娴佺晠鐨python绗竴鐗堝拰绗簩鐗鍝釜濂
    绛旓細绗簩鐗堝ソ銆1銆佹祦鐣呯殑python绗竴鐗堟兜鐩栦簡Python3.3鐗堟湰鐨勬墍鏈夌煡璇嗙偣銆傜浜岀増浣跨敤Python3.7鐗堟湰浠f浛浜哖ython3.3鐗堟湰銆2銆佺涓鐗堟瘡涓煡璇嗙偣閮借瑙e緱闈炲父璇︾粏锛屽苟涓旈厤鏈夊ぇ閲忕殑绀轰緥鍜岀粌涔犻锛屾柟渚胯鑰呯悊瑙e拰鎺屾彙銆傗滄鍒欒〃杈惧紡鈥濆拰鈥淪crapy鐖櫕妗嗘灦鈥濆湪瀹為檯寮鍙戜腑鐨勫簲鐢ㄩ潪甯稿箍娉涳紝灏嗗叾浠庣涓鐗堜腑鐨勭14绔...
  • python鐖櫕鑳藉骞蹭粈涔
    绛旓細Python鐖櫕宸ヤ綔鍘熺悊Python鐖櫕閫氳繃URL绠$悊鍣紝鍒ゆ柇鏄惁鏈夊緟鐖琔RL锛屽鏋滄湁寰呯埇URL锛岄氳繃璋冨害鍣ㄨ繘琛屼紶閫掔粰涓嬭浇鍣紝涓嬭浇URL鍐呭锛屽苟閫氳繃璋冨害鍣ㄤ紶閫佺粰瑙f瀽鍣紝瑙f瀽URL鍐呭锛屽苟灏嗕环鍊兼暟鎹拰鏂癠RL鍒楄〃閫氳繃璋冨害鍣ㄤ紶閫掔粰搴旂敤绋嬪簭锛屽苟杈撳嚭浠峰间俊鎭殑杩囩▼銆侾ython鐖櫕甯哥敤妗嗘灦鏈夛細grab锛氱綉缁鐖櫕妗嗘灦锛堝熀浜巔ycurl/multicur...
  • 瀛python鏈鎯宠鎻愬崌鐨勬槸鍝簺鍦版柟
    绛旓細瀛︿細 scrapy锛屼綘鍙互鑷繁鍘绘惌寤轰竴浜鐖櫕妗嗘灦锛屼綘灏卞熀鏈叿澶Python鐖櫕宸ョ▼甯堢殑鎬濈淮浜嗐4.瀛︿範鏁版嵁搴撶煡璇嗭紝搴斿澶ц妯℃暟鎹瓨鍌ㄤ笌鎻愬彇 Python瀹㈡爤閫佺孩鍖呫佺焊璐ㄤ功 鐖洖鏉ョ殑鏁版嵁閲忓皬鐨勬椂鍊欙紝浣犲彲浠ョ敤鏂囨。鐨勫舰寮忔潵瀛樺偍锛屼竴鏃︽暟鎹噺澶т簡锛岃繖灏辨湁鐐硅涓嶉氫簡銆傛墍浠ユ帉鎻′竴绉嶆暟鎹簱鏄繀椤荤殑锛屽涔犵洰鍓姣旇緝涓绘祦鐨 ...
  • 扩展阅读:爬虫一单多少钱 ... 爬虫自学难度大吗 ... 学了python再学c++好学吗 ... 十大爬虫框架排行榜 ... python爬虫教程全套 ... 学python后到底能干什么 ... 为什么爬虫会坐牢 ... 网络爬虫软件有哪些 ... 学python最佳年龄 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网