如何入门 Python 爬虫如何入门 Python 爬虫

\u5982\u4f55\u5165\u95e8 Python \u722c\u866b?

\u201c\u5165\u95e8\u201d\u662f\u826f\u597d\u7684\u52a8\u673a\uff0c\u4f46\u662f\u53ef\u80fd\u4f5c\u7528\u7f13\u6162\u3002\u5982\u679c\u4f60\u624b\u91cc\u6216\u8005\u8111\u5b50\u91cc\u6709\u4e00\u4e2a\u9879\u76ee\uff0c\u90a3\u4e48\u5b9e\u8df5\u8d77\u6765\u4f60\u4f1a\u88ab\u76ee\u6807\u9a71\u52a8\uff0c\u800c\u4e0d\u4f1a\u50cf\u5b66\u4e60\u6a21\u5757\u4e00\u6837\u6162\u6162\u5b66\u4e60\u3002
\u5982\u679c\u4f60\u60f3\u8981\u5165\u95e8Python\u722c\u866b\uff0c\u4f60\u9700\u8981\u505a\u5f88\u591a\u51c6\u5907\u3002\u9996\u5148\u662f\u719f\u6089python\u7f16\u7a0b\uff1b\u5176\u6b21\u662f\u4e86\u89e3HTML\uff1b
\u8fd8\u8981\u4e86\u89e3\u7f51\u7edc\u722c\u866b\u7684\u57fa\u672c\u539f\u7406\uff1b\u6700\u540e\u662f\u5b66\u4e60\u4f7f\u7528python\u722c\u866b\u5e93\u3002
\u5982\u679c\u4f60\u4e0d\u61c2python\uff0c\u90a3\u4e48\u9700\u8981\u5148\u5b66\u4e60python\u8fd9\u95e8\u975e\u5e38easy\u7684\u8bed\u8a00\u3002\u7f16\u7a0b\u8bed\u8a00\u57fa\u7840\u8bed\u6cd5\u65e0\u975e\u662f\u6570\u636e\u7c7b\u578b\u3001\u6570\u636e\u7ed3\u6784\u3001\u8fd0\u7b97\u7b26\u3001\u903b\u8f91\u7ed3\u6784\u3001\u51fd\u6570\u3001\u6587\u4ef6IO\u3001\u9519\u8bef\u5904\u7406\u8fd9\u4e9b\uff0c\u5b66\u8d77\u6765\u4f1a\u663e\u67af\u71e5\u4f46\u5e76\u4e0d\u96be\u3002
\u521a\u5f00\u59cb\u5165\u95e8\u722c\u866b\uff0c\u4f60\u751a\u81f3\u4e0d\u9700\u8981\u53bb\u5b66\u4e60python\u7684\u7c7b\u3001\u591a\u7ebf\u7a0b\u3001\u6a21\u5757\u4e4b\u7c7b\u7684\u7565\u96be\u5185\u5bb9\u3002\u627e\u4e00\u4e2a\u9762\u5411\u521d\u5b66\u8005\u7684\u6559\u6750\u6216\u8005\u7f51\u7edc\u6559\u7a0b\uff0c\u82b1\u4e2a\u5341\u51e0\u5929\u529f\u592b\uff0c\u5c31\u80fd\u5bf9python\u57fa\u7840\u6709\u4e2a\u4e09\u56db\u5206\u7684\u8ba4\u8bc6\u4e86\u3002

\u7f51\u7edc\u722c\u866b\u7684\u542b\u4e49\uff1a
\u7f51\u7edc\u722c\u866b\uff0c\u5176\u5b9e\u4e5f\u53ef\u4ee5\u53eb\u505a\u7f51\u7edc\u6570\u636e\u91c7\u96c6\u66f4\u5bb9\u6613\u7406\u89e3\u3002\u5c31\u662f\u901a\u8fc7\u7f16\u7a0b\u5411\u7f51\u7edc\u670d\u52a1\u5668\u8bf7\u6c42\u6570\u636e\uff08HTML\u8868\u5355\uff09\uff0c\u7136\u540e\u89e3\u6790HTML\uff0c\u63d0\u53d6\u51fa\u81ea\u5df1\u60f3\u8981\u7684\u6570\u636e\u3002
\u8fd9\u4f1a\u6d89\u53ca\u5230\u6570\u636e\u5e93\u3001\u7f51\u7edc\u670d\u52a1\u5668\u3001HTTP\u534f\u8bae\u3001HTML\u3001\u6570\u636e\u79d1\u5b66\u3001\u7f51\u7edc\u5b89\u5168\u3001\u56fe\u50cf\u5904\u7406\u7b49\u975e\u5e38\u591a\u7684\u5185\u5bb9\u3002\u4f46\u5bf9\u4e8e\u521d\u5b66\u8005\u800c\u8a00\uff0c\u5e76\u4e0d\u9700\u8981\u638c\u63e1\u8fd9\u4e48\u591a\u3002

\u7b2c\u4e00 \u4f60\u662f\u5426\u6709PYTHON \u8bed\u8a00\u57fa\u7840\uff1f
\u7b2c\u4e8c \u4f60\u662f\u5426\u6709 HTML \u8bed\u8a00\u57fa\u7840\uff1f
\u7b2c\u4e09 \u4f60\u662f\u4f1a\u6b63\u5219\u8868\u8fbe\u5f0f\uff1f

\u5982\u679c\u4f60\u6ee1\u8db3\u4ee5\u4e0a\u4e09\u70b9\u6761\u4ef6\uff0c\u90a3\u4e48\u606d\u559c\u4f60 \u53ef\u4ee5\u5f00\u59cb\u5b66\u4e60SPIDER\u4e86\u3002
\u9996\u5148\u722c\u866b\u7684\u57fa\u672c\u539f\u7406\u90fd\u662f\u901a\u8fc7\u83b7\u53d6\u6574\u4e2aHTML \u9875\u9762 \uff0c\u7136\u540e\u901a\u8fc7\u6b63\u5219\u8868\u8fbe\u5f0f \u5206\u6790 \u8fc7\u6ee4\u6389\u4e0d\u60f3\u8981\u7684\u5185\u5bb9 \u5728\u628a\u60f3\u8981\u7684\u5185\u5bb9 \u8f93\u51fa \u4fdd\u5b58\u3002
python \u722c\u866b\u4e3b\u8981\u7528\u5230\u7684mod
1 re
2 urllib and urllib2 or beautiful soup or ...
\u7b2c\u4e00\u4e2a\u6b63\u5219 \u7b2c\u4e8c\u4e2a\u524d\u4e24\u4e2a\u662f\u7528\u6765\u63d0\u4ea4 HTML request \u548c\u83b7\u5f97HTML respones\u7684 \u540e\u9762\u7684OR \u8ddf\u7684\u90fd\u662f \u5c01\u88c5\u4e3a\u4e86\u66f4\u7b80\u5355\u5904\u7406\u6807\u8bb0\u8bed\u8a00\u7684\u6a21\u5757\u3002

爬虫我也是接触了1个月，从python小白到现在破译各种反爬虫机制，我给你说说我的方向：

1、学习使用解析网页的函数，例如：

import urllib.request

if __name__ == '__main__':

url = "..."

data = urllib.request.urlopen(url).read() #urllib.request.urlopen(需要解析的网址)

data = data.decode('unicode_escape','ignore') #用unicode_escape方式解码

print(data)

2、学习正则表达式：

正则表达式的符号意义在下面，而正则表达式是为了筛选出上面data中的信息出来，例如：

def get_all(data):
reg = r'(search.+)(" )(mars_sead=".+title=")(.+)(" data-id=")'
all = re.compile(reg);
alllist = re.findall(all, data)
return alllist

3、将得到的结果压进数组：

if __name__ == '__main__':

info = []

info.append(get_all(data))

4、将数组写进excel：

import xlsxwriter

if __name__ == '__main__':

info = []

info.append(get_all(data))

workbook = xlsxwriter.Workbook('C:\\Users\\Administrator\\Desktop\\什么文件名.xlsx') # 创建一个Excel文件
worksheet = workbook.add_worksheet() # 创建一个工作表对象

for i in range(0,len(info)):

worksheet.write(行, 列, info[i], font)#逐行逐列写入info[i]

workbook.close()#关闭excel

一个简单的爬虫搞定，爬虫的进阶不教了，你还没接触过更加看不懂

先长话短说summarize一下：

你需要学习

基本的爬虫工作原理
基本的http抓取工具，scrapy
Bloom Filter: Bloom Filters by Example
如果需要大规模网页抓取，你需要学习分布式爬虫的概念。其实没那么玄乎，你只要学会怎样维护一个所有集群机器能够有效分享的分布式队列就好。最简单的实现是python-rq: https://github.com/nvie/rq
rq和Scrapy的结合：darkrho/scrapy-redis · GitHub
后续处理，网页析取(grangier/python-goose · GitHub)，存储(Mongodb)

扩展阅读：免费网络爬虫网站 ... 爬虫python官网 ... 学python后到底能干什么 ... python编程入门自学 ... 爬虫python全套教程 ... 新手怎么入门python爬虫 ... 免费爬虫数据抓取软件 ... python爬虫实例入门 ... 爬虫入门自学网站 ...

车视网

如何入门 Python 爬虫 如何入门 Python 爬虫

如何入门 Python 爬虫如何入门 Python 爬虫