如何优化 Python 爬虫的速度 请教一个问题,怎么提高 python 爬虫的爬取效率

\u5982\u4f55\u4f18\u5316 Python \u722c\u866b\u7684\u901f\u5ea6

1.\u4f7f\u7528\u5f00\u6e90\u7684\u722c\u866b\u5e93scrapy\uff0c\u539f\u751f\u652f\u6301\u591a\u7ebf\u7a0b\uff0c\u8fd8\u53ef\u4ee5\u8bbe\u5b9a\u6293\u53d6\u901f\u7387\uff0c\u5e76\u53d1\u7ebf\u7a0b\u6570\u7b49\u7b49\u53c2\u6570\uff1b\u9664\u6b64\u4e4b\u5916\uff0cscrapy\u5bf9\u722c\u866b\u63d0\u53d6HTML\u5185\u5bb9\u4e5f\u6709\u826f\u597d\u7684\u652f\u6301\u3002
2.\u4f18\u5316\u65b9\u6cd5\u6709\uff0c\u5f00\u542fgzip\uff0c\u591a\u7ebf\u7a0b\uff0c\u5bf9\u4e8e\u5b9a\u5411\u91c7\u96c6\u53ef\u4ee5\u7528\u6b63\u5219\u53d6\u4ee3xpath\uff0c\u7528pycurl\u4ee3\u66ffurlib\u3002

\u5f88\u591a\u722c\u866b\u5de5\u4f5c\u8005\u90fd\u9047\u5230\u8fc7\u6293\u53d6\u975e\u5e38\u6162\u7684\u95ee\u9898\uff0c\u5c24\u5176\u662f\u9700\u8981\u91c7\u96c6\u5927\u91cf\u6570\u636e\u7684\u60c5\u51b5\u4e0b\u3002\u90a3\u4e48\u5982\u4f55\u63d0\u9ad8\u722c\u866b\u91c7\u96c6\u6548\u7387\u5c31\u5341\u5206\u5173\u952e\uff0c\u4e00\u5757\u4e86\u89e3\u5982\u4f55\u63d0\u9ad8\u722c\u866b\u91c7\u96c6\u6548\u7387\u95ee\u9898\u3002
1.\u5c3d\u53ef\u80fd\u51cf\u5c11\u7f51\u7ad9\u8bbf\u95ee\u6b21\u6570
\u5355\u6b21\u722c\u866b\u7684\u4e3b\u8981\u628a\u65f6\u95f4\u6d88\u8017\u5728\u7f51\u7edc\u8bf7\u6c42\u7b49\u5f85\u54cd\u5e94\u4e0a\u9762\uff0c\u6240\u4ee5\u80fd\u51cf\u5c11\u7f51\u7ad9\u8bbf\u95ee\u5c31\u51cf\u5c11\u7f51\u7ad9\u8bbf\u95ee\uff0c\u65e2\u51cf\u5c11\u81ea\u8eab\u7684\u5de5\u4f5c\u91cf\uff0c\u4e5f\u51cf\u8f7b\u7f51\u7ad9\u7684\u538b\u529b\uff0c\u8fd8\u964d\u4f4e\u88ab\u5c01\u7684\u98ce\u9669\u3002
\u7b2c\u4e00\u6b65\u8981\u505a\u7684\u5c31\u662f\u6d41\u7a0b\u4f18\u5316\uff0c\u5c3d\u91cf\u7cbe\u7b80\u6d41\u7a0b\uff0c\u907f\u514d\u5728\u591a\u4e2a\u9875\u9762\u91cd\u590d\u83b7\u53d6\u3002
\u968f\u540e\u53bb\u91cd\uff0c\u540c\u6837\u662f\u5341\u5206\u91cd\u8981\u7684\u624b\u6bb5\uff0c\u4e00\u822c\u6839\u636eurl\u6216\u8005id\u8fdb\u884c\u552f\u4e00\u6027\u5224\u522b\uff0c\u722c\u8fc7\u7684\u5c31\u4e0d\u518d\u7ee7\u7eed\u722c\u4e86\u3002
2.\u5206\u5e03\u5f0f\u722c\u866b
\u5373\u4fbf\u628a\u5404\u79cd\u6cd5\u5b50\u90fd\u7528\u5c3d\u4e86\uff0c\u5355\u673a\u5355\u4f4d\u65f6\u95f4\u5185\u80fd\u722c\u7684\u7f51\u9875\u6570\u4ecd\u662f\u6709\u9650\u7684\uff0c\u9762\u5bf9\u5927\u91cf\u7684\u7f51\u9875\u9875\u9762\u961f\u5217\uff0c\u53ef\u8ba1\u7b97\u7684\u65f6\u95f4\u4ecd\u662f\u5f88\u957f\uff0c\u8fd9\u79cd\u60c5\u51b5\u4e0b\u5c31\u5fc5\u987b\u8981\u7528\u673a\u5668\u6362\u65f6\u95f4\u4e86\uff0c\u8fd9\u5c31\u662f\u5206\u5e03\u5f0f\u722c\u866b\u3002
\u7b2c\u4e00\u6b65\uff0c\u5206\u5e03\u5f0f\u5e76\u4e0d\u662f\u722c\u866b\u7684\u672c\u8d28\uff0c\u4e5f\u5e76\u4e0d\u662f\u5fc5\u987b\u7684\uff0c\u5bf9\u4e8e\u4e92\u76f8\u72ec\u7acb\u3001\u4e0d\u5b58\u5728\u901a\u4fe1\u7684\u4efb\u52a1\u5c31\u53ef\u624b\u52a8\u5bf9\u4efb\u52a1\u5206\u5272\uff0c\u968f\u540e\u5728\u591a\u4e2a\u673a\u5668\u4e0a\u5404\u81ea\u6267\u884c\uff0c\u51cf\u5c11\u6bcf\u53f0\u673a\u5668\u7684\u5de5\u4f5c\u91cf\uff0c\u8d39\u65f6\u5c31\u4f1a\u6210\u500d\u51cf\u5c11\u3002
\u4f8b\u5982\u6709200W\u4e2a\u7f51\u9875\u9875\u9762\u5f85\u722c\uff0c\u53ef\u4ee5\u75285\u53f0\u673a\u5668\u5404\u81ea\u722c\u4e92\u4e0d\u91cd\u590d\u768440W\u4e2a\u7f51\u9875\u9875\u9762\uff0c\u76f8\u5bf9\u6765\u8bf4\u5355\u673a\u8d39\u65f6\u5c31\u7f29\u77ed\u4e865\u500d\u3002
\u53ef\u662f\u5982\u679c\u5b58\u5728\u7740\u9700\u8981\u901a\u4fe1\u7684\u72b6\u51b5\uff0c\u4f8b\u5982\u4e00\u4e2a\u53d8\u52a8\u7684\u5f85\u722c\u961f\u5217\uff0c\u6bcf\u722c\u4e00\u6b21\u8fd9\u4e2a\u961f\u5217\u5c31\u4f1a\u53d1\u751f\u53d8\u5316\uff0c\u5373\u4fbf\u5206\u5272\u4efb\u52a1\u4e5f\u5c31\u6709\u4ea4\u53c9\u91cd\u590d\uff0c\u56e0\u4e3a\u5404\u4e2a\u673a\u5668\u5728\u7a0b\u5e8f\u8fd0\u884c\u65f6\u7684\u5f85\u722c\u961f\u5217\u90fd\u4e0d\u4e00\u6837\u4e86\u2014\u2014\u8fd9\u79cd\u60c5\u51b5\u4e0b\u53ea\u80fd\u7528\u5206\u5e03\u5f0f\uff0c\u4e00\u4e2aMaster\u5b58\u50a8\u961f\u5217\uff0c\u5176\u4ed6\u591a\u4e2aSlave\u5404\u81ea\u6765\u53d6\uff0c\u8fd9\u6837\u5171\u4eab\u4e00\u4e2a\u961f\u5217\uff0c\u53d6\u7684\u60c5\u51b5\u4e0b\u4e92\u65a5\u4e5f\u4e0d\u4f1a\u91cd\u590d\u722c\u53d6\u3002IPIDEA\u63d0\u4f9b\u9ad8\u533f\u7a33\u5b9a\u7684IP\u540c\u65f6\u66f4\u6ce8\u91cd\u7528\u6237\u9690\u79c1\u7684\u4fdd\u62a4\uff0c\u4fdd\u969c\u7528\u6237\u7684\u4fe1\u606f\u5b89\u5168\u3002\u542b\u6709240\uff0b\u56fd\u5bb6\u5730\u533a\u7684ip\uff0c\u652f\u6301API\u6279\u91cf\u4f7f\u7528\uff0c\u652f\u6301\u591a\u7ebf\u7a0b\u9ad8\u5e76\u53d1\u4f7f\u7528\u3002

从以下的五个方面去进行优化测试:

1、cpu瓶颈的话可以通过分布式的方式来解决 更多的结点去处理分发的任务就好了

2、本地带宽的瓶颈通过云服务器解决(一般都有100MB的方案提供) 定时定量的去购买使用可以节约成本(毕竟不是搜索引擎不会一直开着的)

3、目标服务器的带宽限制(基于IP的)通过跨区的服务器解决 云服务器提供商有多个机房的 分散节点所在的机房可以缓解问题 有提供动态ip的就更好了

4、目标服务器的访问限制,老渔哥提示搜一下<反爬虫>策略就差不多了解了 根据自己的编程能力来应对 给两个库投石问路 SeleniumPhantomJS 对于验证码相关的可以考虑购买服务(有外包的, 最高级别是人肉的一定可以搞定, 量要考虑一下价格不菲)真的不建议自己搞。

目标网站系统比较知名的话(discuz)可以网上搜搜 足够简单的话可以用opencv(有python绑定的版本而且跨平台) thredshold(二值化)处理颜色, eroded/dilate(腐蚀膨胀)处理噪点, findContours(查找轮廓)处理字符分割,穷举旋转和简单扭曲再匹配字库差不多就可以处理2010以前的简单二维码了(当然cpu开销还是很大的)

5、目标服务器的带宽上限限制 这么做的话你的爬虫就成了攻击了不讨论----以下内容常规的爬虫可能不会涉

爬虫确实对单个ip的访问限制挺严格的,但是对于http访问来说,并不一定需要抓取别人做好的代理。国外的GAE,AWS,以及各种免费的虚拟主机,用python,php都有现成的代理服务,写个自动化脚本不停地去配置、删除代理服器就可以了。
要是仅仅短期使用的话其实用不着这么麻烦,在访问的http request里添加x-forward-for标签,client随机生成,
宣称自己是一台透明代理服务器,像【618爬虫代理服务器,百万级IP池】代理其他人的访问就能绕过许多限制了,一般服务商不会限制透明代理。

爬虫在抓取一个网站数据的时候,有非常大的几率会被拉黑封锁。使用代理IP更换不同IP,对方网站每次都以为是新用户。
如果工作任务量大,抓取速度快,目标服务器会容易发现,所以就需要用代理IP来换IP后再抓取。

扩展阅读:爬虫一单多少钱 ... 新手怎么入门python爬虫 ... 价格适中的python爬虫 ... 为什么爬虫会坐牢 ... python手机版下载官方 ... python最简单的小爬虫 ... python爬虫接单多少钱 ... python简单的爬虫教程 ... python爬虫完整代码 ...

本站交流只代表网友个人观点,与本站立场无关
欢迎反馈与建议,请联系电邮
2024© 车视网