如何用Python爬虫抓取网页内容? 如何用python抓取网页特定内容

\u5982\u4f55\u7528Python\u722c\u53d6\u6570\u636e\uff1f

\u65b9\u6cd5/\u6b65\u9aa4

\u5728\u505a\u722c\u53d6\u6570\u636e\u4e4b\u524d\uff0c\u4f60\u9700\u8981\u4e0b\u8f7d\u5b89\u88c5\u4e24\u4e2a\u4e1c\u897f\uff0c\u4e00\u4e2a\u662furllib,\u53e6\u5916\u4e00\u4e2a\u662fpython-docx\u3002

\u8bf7\u70b9\u51fb\u8f93\u5165\u56fe\u7247\u63cf\u8ff0
\u7136\u540e\u5728python\u7684\u7f16\u8f91\u5668\u4e2d\u8f93\u5165import\u9009\u9879\uff0c\u63d0\u4f9b\u8fd9\u4e24\u4e2a\u5e93\u7684\u670d\u52a1

\u8bf7\u70b9\u51fb\u8f93\u5165\u56fe\u7247\u63cf\u8ff0
urllib\u4e3b\u8981\u8d1f\u8d23\u6293\u53d6\u7f51\u9875\u7684\u6570\u636e\uff0c\u5355\u7eaf\u7684\u6293\u53d6\u7f51\u9875\u6570\u636e\u5176\u5b9e\u5f88\u7b80\u5355\uff0c\u8f93\u5165\u5982\u56fe\u6240\u793a\u7684\u547d\u4ee4\uff0c\u540e\u9762\u5e26\u94fe\u63a5\u5373\u53ef\u3002

\u8bf7\u70b9\u51fb\u8f93\u5165\u56fe\u7247\u63cf\u8ff0
\u6293\u53d6\u4e0b\u6765\u4e86\uff0c\u8fd8\u4e0d\u7b97\uff0c\u5fc5\u987b\u8981\u8fdb\u884c\u8bfb\u53d6\uff0c\u5426\u5219\u65e0\u6548\u3002

\u8bf7\u70b9\u51fb\u8f93\u5165\u56fe\u7247\u63cf\u8ff0
5
\u63a5\u4e0b\u6765\u5c31\u662f\u6293\u7801\u4e86\uff0c\u4e0d\u8f6c\u7801\u662f\u5b8c\u6210\u4e0d\u4e86\u4fdd\u5b58\u7684\uff0c\u5c06\u8bfb\u53d6\u7684\u51fd\u6570read\u8f6c\u7801\u3002\u518d\u968f\u4fbf\u6807\u8bb0\u4e00\u4e2a\u6bd4\u5982XA\u3002

\u8bf7\u70b9\u51fb\u8f93\u5165\u56fe\u7247\u63cf\u8ff0
6
\u6700\u540e\u518d\u8f93\u5165\u4e09\u53e5\uff0c\u7b2c\u4e00\u53e5\u7684\u610f\u601d\u662f\u65b0\u5efa\u4e00\u4e2a\u7a7a\u767d\u7684word\u6587\u6863\u3002
\u7b2c\u4e8c\u53e5\u7684\u610f\u601d\u662f\u5728\u6587\u6863\u4e2d\u6dfb\u52a0\u6b63\u6587\u6bb5\u843d\uff0c\u5c06\u53d8\u91cfXA\u6293\u53d6\u4e0b\u6765\u7684\u4e1c\u897f\u5bfc\u8fdb\u53bb\u3002
\u7b2c\u4e09\u53e5\u7684\u610f\u601d\u662f\u4fdd\u5b58\u6587\u6863docx\uff0c\u540d\u5b57\u5728\u62ec\u53f7\u91cc\u9762\u3002

\u8bf7\u70b9\u51fb\u8f93\u5165\u56fe\u7247\u63cf\u8ff0
7
\u8fd9\u4e2a\u722c\u4e0b\u6765\u7684\u662f\u6e90\u4ee3\u7801\uff0c\u5982\u679c\u8fd8\u9700\u8981\u7b5b\u9009\u7684\u8bdd\u9700\u8981\u81ea\u5df1\u53bb\u6dfb\u52a0\u5404\u79cd\u6b63\u5219\u8868\u8fbe\u5f0f\u3002

\u6700\u7b80\u5355\u53ef\u4ee5\u7528urllib\uff0cpython2.x\u548cpython3.x\u7684\u7528\u6cd5\u4e0d\u540c\uff0c\u4ee5python2.x\u4e3a\u4f8b\uff1a

import urllibhtml = urllib.open(url)text = html.read()\u590d\u6742\u4e9b\u53ef\u4ee5\u7528requests\u5e93\uff0c\u652f\u6301\u5404\u79cd\u8bf7\u6c42\u7c7b\u578b\uff0c\u652f\u6301cookies\uff0cheader\u7b49
\u518d\u590d\u6742\u4e9b\u7684\u53ef\u4ee5\u7528selenium\uff0c\u652f\u6301\u6293\u53d6javascript\u4ea7\u751f\u7684\u6587\u672c

\u6211\u8bbe\u8ba1\u4e86\u7b80\u5355\u7684\u722c\u866b\u95ef\u5173\u7f51\u7ad9 www.heibanke.com/lesson/crawler_ex00/
\u65b0\u624b\u5982\u679c\u80fd\u81ea\u5df1\u628a\u4e09\u5173\u95ef\u8fc7\uff0c\u76f8\u4fe1\u4e00\u5b9a\u4f1a\u6709\u6240\u6536\u83b7\u3002
\u9898\u89e3\u5728\u8bfe\u7a0b\u91cc\u6709\u63d0\u5230http://study.163.com/course/courseMain.htm?courseId=1000035

爬虫流程
其实把网络爬虫抽象开来看，它无外乎包含如下几个步骤
模拟请求网页。模拟浏览器，打开目标网站。
获取数据。打开网站之后，就可以自动化的获取我们所需要的网站数据。
保存数据。拿到数据之后，需要持久化到本地文件或者数据库等存储设备中。
那么我们该如何使用 Python 来编写自己的爬虫程序呢，在这里我要重点介绍一个 Python 库：Requests。
Requests 使用
Requests 库是 Python 中发起 HTTP 请求的库，使用非常方便简单。
模拟发送 HTTP 请求
发送 GET 请求
当我们用浏览器打开豆瓣首页时，其实发送的最原始的请求就是 GET 请求
import requests
res = requests.get('http://www.douban.com')
print(res)
print(type(res))
>>>
<Response [200]>
<class 'requests.models.Response'>

首先,你要安装requests和BeautifulSoup4,然后执行如下代码.

import requests
from bs4 import BeautifulSoup

iurl = 'http://news.sina.com.cn/c/nd/2017-08-03/doc-ifyitapp0128744.shtml'

res = requests.get(iurl)

res.encoding = 'utf-8'

#print(len(res.text))

soup = BeautifulSoup(res.text,'html.parser')

#标题
H1 = soup.select('#artibodyTitle')[0].text

#来源
time_source = soup.select('.time-source')[0].text


#来源
origin = soup.select('#artibody p')[0].text.strip()

#原标题
oriTitle = soup.select('#artibody p')[1].text.strip()

#内容
raw_content = soup.select('#artibody p')[2:19]
content = []
for paragraph in raw_content:
    content.append(paragraph.text.strip())
'@'.join(content)    
#责任编辑
ae = soup.select('.article-editor')[0].text

这样就可以了

python缃戠粶鐖櫕鍏蜂綋鏄鎬庢牱鐨?
绛旓細Python缃戠粶鐖櫕鏄浣跨敤Python缂栧啓鐨勪竴绉嶇綉缁滄暟鎹噰闆嗗伐鍏枫侾ython鎻愪緵浜嗕赴瀵岀殑搴撳拰妯″潡锛屼娇寰楃紪鍐欑綉缁滅埇铏彉寰楃畝鍗曞拰楂樻晥銆傞氳繃缂栧啓Python绋嬪簭锛屽彲浠ユā鎷熶汉绫诲湪娴忚鍣ㄤ腑璁块棶缃戦〉鐨勮涓猴紝鑷姩鎶撳彇缃戦〉涓婄殑鏁版嵁銆侾ython缃戠粶鐖櫕鍙互閫氳繃鍙戦丠TTP璇锋眰鑾峰彇缃戦〉鍐呭锛岀劧鍚庝娇鐢ㄨВ鏋愬簱瀵圭綉椤佃繘琛岃В鏋愶紝鎻愬彇鎵闇鐨勬暟鎹侾ython...

缃戠粶铚樿洓濡備綍鎶撳彇椤甸潰缃戠粶铚樿洓濡備綍鎶撳彇椤甸潰鏁版嵁
绛旓細濡備綍鐢≒ython鐖櫕鎶撳彇缃戦〉鍐呭锛熺埇缃戠▼搴忚繘绋瀹為檯涓婏紝鎶借薄鍦扮湅缃戠粶鐖櫕锛屽畠鍖呮嫭浠ヤ笅姝ラ璇锋眰缃戦〉銆傛ā鎷熸祻瑙堝櫒锛屾墦寮鐩爣缃戠珯銆傝幏鍙栨暟鎹傛墦寮缃戠珯鍚庯紝鎴戜滑鍙互鑷姩鑾峰彇鎴戜滑闇瑕佺殑缃戠珯鏁版嵁銆備繚瀛樻暟鎹傝幏寰楁暟鎹悗锛屾偍闇瑕佸皢瀹冩寔涔呭寲鍒版湰鍦版枃浠舵垨鏁版嵁搴撳拰鍏朵粬瀛樺偍璁惧涓傞偅涔堟垜浠浣曠敤Python鏉ョ紪鍐欒嚜宸辩殑鐖櫕鍛...

姣曚笟鐢熷繀鐪Python鐖櫕蹇呭宸ュ叿
绛旓細鍙渶涓琛屼唬鐮佸氨鍙互瀹屾垚HTTP璇锋眰銆傜劧鍚庤交鏉鑾峰彇鐘舵佺爜銆佺紪鐮併佸唴瀹癸紝鐢氳嚦鎸塉SON鏍煎紡杞崲鏁版嵁銆傝櫧鐒惰繖绉嶇畝鍗曡姹傜敤鍒殑搴撲篃涓嶅鏉傦紝浣嗗叾瀹鍦鍐呴儴锛 Requests宸插府浣犲畬鎴愪簡 Python鐖櫕蹇呭宸ュ叿娣诲姞headers銆佽嚜鍔ㄨВ鍘嬬缉銆佽嚜鍔ㄨВ鐮佺瓑鎿嶄綔銆傚啓杩囪绋嬩腑"鏌ュぉ姘"鐨勫悓瀛︼紝寰堝彲鑳借俯杩噂zip鍘嬬缉鐨勫潙锛鐢≧equests ...

鐢≒ython鐖櫕鍙互鐖繃鍘荤殑缃戠珯鍚?
绛旓細棣栧厛鎴戜滑瑕佺煡閬撲粈涔堟槸鐖櫕锛熺埇铏氨鏄竴涓嚜鍔ㄦ姄鍙栫綉椤垫暟鎹殑绋嬪簭锛屾槸鎼滅储寮曟搸鐨勯噸瑕佺粍鎴愰儴鍒嗐傞氳繃璁＄畻鏈虹▼搴忓湪缃戠粶涓嶆柇閫氳繃瀹氬埗鐨勫叆鍙ｇ綉鍧鍘绘彁鍙栫綉椤电殑閾炬帴锛屽苟鏍规嵁杩欎簺閾炬帴鍐嶅害鎶撳彇鎻愬彇鏇存繁鐨勫叾瀹冩湭鐭ョ殑閾炬帴锛屼互姝や笅鍘,鏈缁堣幏鍙栨兂瑕佺殑鍐呭銆傛帴涓嬫潵鎴戜滑灏辫鎬濊濡備綍鐢ㄧ埇铏姄鍙栫綉椤鏁版嵁锛1.棣栧厛瑕佹槑纭綉椤电殑涓夊ぇ...

濡備綍鍦scrapy妗嗘灦涓,鐢╬ython瀹炵幇鐖櫕鑷姩璺宠浆椤甸潰鏉ユ姄鍘缃戦〉鍐呭??
绛旓細鐖櫕璺熻釜涓嬩竴椤电殑鏂规硶鏄嚜宸辨ā鎷熺偣鍑讳笅涓椤佃繛鎺ワ紝鐒跺悗鍙戝嚭鏂扮殑璇锋眰銆傝鐪嬶細item1 = Item()yield item1item2 = Item()yield item2req = Request(url='涓嬩竴椤电殑閾炬帴', callback=self.parse)yield req 娉ㄦ剰浣跨敤yield鏃朵笉瑕佺敤return璇彞銆

濡備綍鍦scrapy妗嗘灦涓,鐢╬ython瀹炵幇鐖櫕鑷姩璺宠浆椤甸潰鏉ユ姄鍘缃戦〉鍐呭??
绛旓細鏍规嵁鏋舵瀯鍥句粙缁嶄竴涓婼crapy涓殑鍚勫ぇ缁勪欢鍙婂叾鍔熻兘锛歋crapy寮曟搸锛圗ngine锛夛細璐熻矗鎺у埗鏁版嵁娴鍦绯荤粺鐨勬墍鏈夌粍寤轰腑娴佸姩锛屽苟鍦ㄧ浉搴斿姩浣滃彂鐢熻Е鍙戜簨浠躲傝皟搴﹀櫒锛圫cheduler锛夛細浠庡紩鎿庢帴鏀禦equest骞跺皢瀹冧滑鍏ラ槦锛屼互渚夸箣鍚庡紩鎿庤姹俽equest鏃舵彁渚涚粰寮曟搸銆備笅杞藉櫒锛圖ownloader锛夛細璐熻矗鑾峰彇椤甸潰鏁版嵁骞舵彁渚涚粰寮曟搸锛岃屽悗鎻愪緵缁橲pider銆係pi...

Python鐖缃戦〉
绛旓細3銆佺幇鏈夌殑椤圭洰 google project缃戠珯鏈変竴涓」鐩彨鍋歴inawler锛屽氨鏄笓闂ㄧ殑鏂版氮寰崥鐖櫕锛岀敤鏉鎶撳彇寰崥鍐呭銆傜綉绔欎笂涓嶅幓锛岃繖涓綘鎳傜殑銆備笉杩囧彲浠ョ櫨搴︿竴涓嬧減ython缂栧啓鐨勬柊娴井鍗氱埇铏紙鐜板湪鐨勭櫥闄嗘柟娉曡鏂扮殑涓鍒欏井鍗氾級鈥滐紝鍙互鎵惧埌涓涓弬鑰冪殑婧愮爜锛屼粬鏄鐢╬ython2鍐欑殑銆傚鏋滅敤python3鍐欙紝鍏跺疄鍙互浣跨敤urllib....

python鐖櫕鎬庝箞鍋?
绛旓細鍏蜂綋姝ラ鏁翠綋鎬濊矾娴佺▼ 绠鍗曚唬鐮佹紨绀哄噯澶囧伐浣滀笅杞藉苟瀹夎鎵闇瑕佺殑python搴擄紝鍖呮嫭锛氬鎵闇瑕佺殑缃戦〉杩涜璇锋眰骞惰В鏋愯繑鍥炵殑鏁版嵁瀵逛簬鎯宠鍋氫竴涓畝鍗曠殑鐖櫕鑰岃█锛岃繖涓姝ュ叾瀹炲緢绠鍗曪紝涓昏鏄閫氳繃requests搴撴潵杩涜璇锋眰锛岀劧鍚庡杩斿洖鐨勬暟鎹繘琛屼竴涓В鏋愶紝瑙ｆ瀽涔嬪悗閫氳繃瀵逛簬鍏冪礌鐨勫畾浣嶅拰閫夋嫨鏉鑾峰彇鎵闇瑕佺殑鏁版嵁鍏冪礌锛岃繘鑰岃幏鍙栧埌...

python3濡備綍鍒╃敤requests妯″潡瀹炵幇鐖彇椤甸潰鍐呭鐨勫疄渚嬭瑙
绛旓細$ sudo apt-get install python3-bs4娉細杩欓噷鎴浣跨敤鐨勬槸python3鐨勫畨瑁呮柟寮忥紝濡傛灉浣犵敤鐨勬槸python2,鍙互浣跨敤涓嬮潰鍛戒护瀹夎銆$ sudo pip install beautifulsoup44.requests妯″潡娴呮瀽1锛夊彂閫佽姹傞鍏堝綋鐒舵槸瑕佸鍏 Requests 妯″潡锛>>> import requests鐒跺悗锛岃幏鍙栫洰鏍鎶撳彇缃戦〉銆傝繖閲屾垜浠ヤ笅涓轰緥锛>>> r = requests...

python缃戦〉鐖櫕鏁欑▼
绛旓細Python涓埇铏浉鍏崇殑鍖呭緢澶氾細urllib銆乺equests銆乥s4銆乻crapy銆乸yspider 绛夛紝鎴戜滑鍙互鎸夌収requests 璐熻矗杩炴帴缃戠珯锛岃繑鍥缃戦〉锛孹path 鐢ㄤ簬瑙ｆ瀽缃戦〉锛屼究浜庢娊鍙栨暟鎹2.浜嗚В闈炵粨鏋勫寲鏁版嵁鐨勫瓨鍌鐖櫕鎶撳彇鐨勬暟鎹粨鏋勫鏉浼犵粺鐨勭粨鏋勫寲鏁版嵁搴撳彲鑳藉苟涓嶆槸鐗瑰埆閫傚悎鎴戜滑浣跨敤銆傛垜浠墠鏈熸帹鑽愪娇鐢∕ongoDB 灏卞彲浠ャ3. 鎺屾彙涓浜涘父鐢...

扩展阅读：免费爬虫数据抓取软件 ... python爬虫接单网app ... 爬虫python官网 ... 爬虫抓取客户电话号码 ... 免费爬虫网站 ... 新手怎么入门python爬虫 ... python爬虫教程全套 ... 永久免费的爬虫软件 ... 用爬虫软件抓取手机号 ...

车视网

如何用Python爬虫抓取网页内容? 如何用python抓取网页特定内容