如何用python抓微博数据 怎样用python爬新浪微博大V所有数据

\u5982\u4f55\u901a\u8fc7python\u8c03\u7528\u65b0\u6d6a\u5fae\u535a\u7684API\u6765\u722c\u53d6\u6570\u636e

1\uff1a\u5b89\u88c5python(\u8fd9\u4e2a\u4e0d\u591a\u8bf4\u5566)
2\uff1a\u4e0b\u8f7d\u65b0\u6d6a\u5fae\u535aSDK\u7684python\u5305\uff0c\u89e3\u538b\u4e3aweibopy\u76ee\u5f55

3\uff1a\u7533\u8bf7AppKey\uff0c

\u6d41\u7a0b\uff1a

1\uff1a\u901a\u8fc7oAuth\u8ba4\u8bc1
\u6309\u6211\u7684\u7406\u89e3\u7b80\u5316\u5982\u4e0b\uff1a
\u7528\u6237\u5728\u65b0\u6d6a\u5fae\u535a\u7ed9\u7684\u9875\u9762\u8f93\u5165\u8d26\u53f7\u5bc6\u7801\uff0c\u7136\u540e\u5fae\u535a\u7ed9\u5e94\u7528\u4e00\u4e2aPIN\u7801\uff0c\u8fd9\u6837\u5e94\u7528\u901a\u8fc7PIN\u7801\u624d\u6709\u6743\u9650\u8bbf\u95ee\u8be5\u7528\u6237\u7684\u4fe1\u606f\uff0c\u800c\u5e94\u7528\u5728\u6574\u4e2a\u8fc7\u7a0b\u4e2d\u662f\u63a5\u89e6\u4e0d\u5230\u5bc6\u7801\u7684\uff0c\u6240\u4ee5\u7528\u6237\u89c9\u5f97\u5f88\u5b89\u5168\uff0c\u540e\u679c\u5f88\u6ee1\u610f
2\uff1a\u83b7\u5f97\u8ba4\u8bc1\u4e4b\u540e\uff0c\u5c31\u53ef\u4ee5\u4f7f\u7528\u5fae\u535aSDK\u63d0\u4f9b\u7684API\u83b7\u5f97\u4fe1\u606f\u5566
3\uff1a\u5982\u679c\u60f3\u8bbe\u8ba1web\u6216\u8005\u5ba2\u6237\u7aef\u5e94\u7528\u7684\u8bdd\uff0c\u90a3\u5c31\u7ee7\u7eed\u52a0\u4e2aGUI\u597d\u5566(\u672a\u5b8c\u6210)

\u4ee3\u7801\uff1a

#!/usr/bin/python

import webbrowser

from weibopy.auth import OAuthHandler
from weibopy.api import API

AppKey = '2525355147'
AppSecret = '2e2c7bcdfc362eace266d1f2bf83fe6b'

my_auth = OAuthHandler(AppKey , AppSecret)
webbrowser.open(my_auth.get_authorization_url())
verifier = raw_input('PIN: ').strip()
my_auth.get_access_token(verifier)

my_api = API(my_auth)
for comment in my_api.mentions():
object = comment
id = object.__getattribute__("id")
text = object.__getattribute__("text")
print str(id) + " : " + text

\u5148\u4e0a\u7ed3\u8bba\uff0c\u901a\u8fc7\u516c\u5f00\u7684api\u5982\u679c\u60f3\u722c\u5230\u67d0\u5927v\u7684\u6240\u6709\u6570\u636e\uff0c\u9700\u8981\u6ee1\u8db3\u4ee5\u4e0b\u4e24\u4e2a\u6761\u4ef6\uff1a
1\u3001\u5728\u4f60\u7684\u722c\u866b\u5f00\u59cb\u8fd0\u884c\u65f6\uff0c\u8be5\u5927v\u7684\u6240\u6709\u5fae\u535a\u53d1\u5e03\u91cf\u6ca1\u6709\u8d85\u8fc7\u56de\u6eaf\u67e5\u8be2\u7684\u4e0a\u9650\uff0c\u65b0\u6d6a\u662f2000\uff0ctwitter\u662f3200\u3002
2\u3001\u722c\u866b\u7a0b\u5e8f\u5fc5\u987b\u4e0d\u95f4\u65ad\u8fd0\u884c\u3002
\u65b0\u6d6a\u5fae\u535a\u7684api\u57fa\u672c\u5b8c\u5168\u7167\u642ctwitter\uff0c\u5176\u4e2d\u63a5\u53e3\u7684\u53c2\u6570\u7279\u6027\u4e0e\u5e95\u5c42\u7684NoSQL\u5bc6\u4e0d\u53ef\u5206\uff0c\u5efa\u8bae\u5148\u770b\u70b9Nosql\u6570\u636e\u5e93\u7684\u8bbe\u8ba1\u7406\u5ff5\u6709\u52a9\u4e8e\u66f4\u597d\u7684\u7406\u89e3api\u8bbe\u8ba1\u3002
\u4e00\u822c\u6765\u8bf4\uff0c\u5982\u679c\u51b3\u5b9a\u722c\u67d0\u4e2a\u5927v\uff0c\u7b2c\u4e00\u6b65\u5148\u8bd5\u83b7\u53d6\u8be5\u7528\u6237\u7684\u57fa\u672c\u4fe1\u606f\uff0c\u4e2d\u95f4\u4f1a\u5305\u542b\u4e00\u6761\u6700\u65b0\u7684status\uff0c\u8bb0\u4e0b\u5176\u4e2d\u7684id\u53f7\u4f5c\u4e3a\u57fa\u51c6\uff0c\u547d\u540d\u4e3abaseId\u3002
\u63a5\u53e3\u4e2d\u6700\u91cd\u8981\u7684\u4e24\u4e2a\u53c2\u6570\uff1a
since_id\uff1a\u8fd4\u56deID\u6bd4since_id\u5927\u7684\u5fae\u535a\uff08\u5373\u6bd4since_id\u65f6\u95f4\u665a\u7684\u5fae\u535a\uff09\uff0c\u9ed8\u8ba4\u4e3a0\u3002
max_id\uff1a\u8fd4\u56deID\u5c0f\u4e8e\u6216\u7b49\u4e8emax_id\u7684\u5fae\u535a\uff0c\u9ed8\u8ba4\u4e3a0\u3002
\u51fa\u4e8e\u5404\u79cd\u539f\u56e0\uff0c\u83b7\u53d6statuses\u7684\u63a5\u53e3\uff0c\u56fa\u5b9a\u4e3a\u6309id\u964d\u5e8f\u6392\u5217\uff08scan_index_forward=false\uff09\uff0c\u5373\u6700\u65b0\u7684statuses\u8fd4\u56de\u5728\u524d\u3002\u5047\u8bbe\u8be5\u5fae\u535a\u7b2c\u4e00\u5929\u4e0a\u7ebf\uff0c\u5c31\u4e00\u4e2a\u7528\u6237\uff0c\u53d1\u4e86\u4e00\u767e\u6761\uff0cid\u662f1\u5230100\u3002\u800c\u4f60\u5728\u8be5\u7528\u6237\u53d1\u4e86\u7b2c50\u6761\u7684\u65f6\u5019\u5f00\u59cb\u8fd0\u884c\u7684\u722c\u866b\uff0c\u5373baseId=50\u3002
\u5047\u8bbe\u6309\u6bcf\u6b21\u83b7\u53d610\u6761\u5386\u53f2\u6570\u636e\u9012\u5f52\uff0c\u5148\u5c06max_id\u8bbe\u4e3abaseId\uff0c\u83b7\u53d6\u8be5\u7528\u6237id\u4e3a41\uff0d50\u7684\u5fae\u535a\uff0c\u518d\u5c06max_id\u8bbe\u4e3a41\u91cd\u590d\u5faa\u73af\uff0c\u76f4\u5230\u8fd4\u56de\u5fae\u535a\u6570\u91cf\u4e3a1\u62160\u3002\u8fd9\u6b65\u6ca1\u6709\u95ee\u9898\u3002
\u83b7\u53d6\u7528\u6237\u6700\u65b0\u7684statuses\u5c31\u6709\u4e9b\u86cb\u75bc\u4e86\uff0csince_id\uff1d50\uff0c\u540c\u6837\u83b7\u53d610\u6761\u6570\u636e\uff0c\u8fd4\u56de\u7684\u5e76\u4e0d\u662fid\u503c\u4e3a51\uff0d60\u7684\u6570\u636e\uff0c\u800c\u662f100-91\u7684\u6570\u636e\u3002\u7b80\u5355\u8bf4\u5c31\u662f\u4f60\u6ca1\u6cd5\u4ecesince_id\u9010\u6b65\u66f4\u65b0\u5230\u7528\u6237\u5f53\u524dstatus\uff0c\u800c\u662f\u5f97\u4e00\u53e3\u6c14\u4ece\u7528\u6237\u5f53\u524dstatus\u66f4\u65b0\u5230\u4e0a\u6b21\u722c\u866b\u8fd0\u884c\u65f6\u5f97\u5230\u7684\u6700\u540e\u4e00\u6761status\u3002\u5047\u8bbe\u4f60\u7684\u722c\u866b\u4e00\u4e2a\u6708\u624d\u8fd0\u884c\u4e00\u6b21\uff0c\u8be5\u7528\u6237\u5728\u8fd9\u671f\u95f4\u53d1\u4e862300\u6761\u5fae\u535a\uff0c\u6839\u636e\u9650\u5236\u4f60\u53ea\u80fd\u66f4\u65b02000\u6761\uff0c\u8fd9\u5176\u4e2d\u6700\u8001\u7684300\u6761\u5728\u4f60\u7684\u7cfb\u7edf\u5185\u5c31\u4f1a\u51fa\u73b0\u201c\u65ad\u6863\u201d\u3002
\u6700\u540e\u4e00\u6761\uff0c\u4ee5\u4e0a\u53ea\u9488\u5bf9\u516c\u5f00\u7684api\uff0cstackoverflow\u4e0atwitter API\u53ef\u4ee5\u7533\u8bf7\u6743\u9650\u7a81\u7834\u6570\u91cf\u9650\u5236\u548c\u66f4\u6539\u6392\u5e8f\u673a\u5236\uff0c\u5fae\u535a\u4e5f\u5e94\u8be5\u6709\u7c7b\u4f3c\u673a\u5236\u3002

用Python写爬虫爬取微博数据的思路如下:
1、用base64加密用户名之后仿造一个预登陆,用正则匹配得到各项参数。

2、用上一步里得到的参数,拼接密码明文,再用RSA加密得到密文,并构造POST的form data。

3、使用构造好的form data仿造登录请求

4、用正则匹配获得跳转的目标链接。

5、为了保持登陆,用cookiejar一类的工具绑定一个cookie就行了。
推荐学习《Python教程》。

  • 濡備綍鐢╬ython鎶撳井鍗氭暟鎹
    绛旓細鐢≒ython鍐欑埇铏埇鍙寰崥鏁版嵁鐨勬濊矾濡備笅锛1銆佺敤base64鍔犲瘑鐢ㄦ埛鍚嶄箣鍚庝豢閫犱竴涓鐧婚檰锛岀敤姝e垯鍖归厤寰楀埌鍚勯」鍙傛暟銆2銆佺敤涓婁竴姝ラ噷寰楀埌鐨勫弬鏁帮紝鎷兼帴瀵嗙爜鏄庢枃锛屽啀鐢≧SA鍔犲瘑寰楀埌瀵嗘枃锛屽苟鏋勯燩OST鐨刦orm data銆3銆佷娇鐢ㄦ瀯閫犲ソ鐨刦orm data浠块犵櫥褰曡姹 4銆佺敤姝e垯鍖归厤鑾峰緱璺宠浆鐨勭洰鏍囬摼鎺ャ5銆佷负浜嗕繚鎸佺櫥闄嗭紝鐢╟ookiejar...
  • 鎬庢牱鐢╬ython鐖柊娴寰崥澶鎵鏈鏁版嵁
    绛旓細2銆佺埇铏▼搴忓繀椤讳笉闂存柇杩愯銆傛柊娴寰崥鐨刟pi鍩烘湰瀹屽叏鐓ф惉twitter锛屽叾涓帴鍙g殑鍙傛暟鐗规т笌搴曞眰鐨凬oSQL瀵嗕笉鍙垎锛屽缓璁厛鐪嬬偣Nosql鏁版嵁搴撶殑璁捐鐞嗗康鏈夊姪浜庢洿濂界殑鐞嗚Вapi璁捐銆備竴鑸潵璇达紝濡傛灉鍐冲畾鐖煇涓ぇv锛岀涓姝ュ厛璇曡幏鍙栬鐢ㄦ埛鐨勫熀鏈俊鎭紝涓棿浼氬寘鍚竴鏉℃渶鏂扮殑status锛岃涓嬪叾涓殑id鍙蜂綔涓哄熀鍑嗭紝鍛藉悕涓篵aseI...
  • python鐖櫕:寰崥璇勮鍒嗘瀽
    绛旓細1銆佸彸鍑汇愭鏌ャ戯紝鎵惧埌銆怤etwork銆2銆佺‘瀹氭瘡椤电殑鍐呭URL 杩欓噷鏄椤甸儴鍒 婊戝姩涔嬪悗鏄剧ず姣忛〉鍐呭鐨刄RL锛3銆佹瘡椤电殑URL鍦板潃 浠庣浜岄〉寮濮嬬殑URL鍦板潃澶氱殑閮ㄥ垎鏄痬ax_id锛屽垰濂借繖涓弬鏁扮殑鍊兼槸鍓嶄竴椤电殑杩斿洖鍐呭锛4銆佷粙缁嶇涓椤电殑鐖彇 姣斿鎴戜滑鍙互鑾峰彇绗竴涓敤鎴风殑鐩稿叧淇℃伅锛氭渶缁堟垜浠彲浠ョ湅鍒扮涓椤电埇鍙栫殑鏁版嵁灞...
  • 濡備綍鐢╬ython瀹炵幇鐖彇寰崥鐩稿唽鎵鏈夊浘鐗?
    绛旓細涓夌鏂规:1.鐩存帴鐢≒ython鐨剅equests搴撶洿鎺ョ埇鍙锛屼笉杩囪繖涓渶瑕佹墜鍔ㄥ仛鐨勪簨鎯呭氨姣旇緝澶氫簡锛屽熀鏈笂灏辩湅浣犵殑Python鍔熷姏浜 2.浣跨敤scrapy鐖櫕妗嗘灦锛岃繖涓鏋跺鏋滀笉鐔熸倝鐨勮瘽鍙兘鑷繁鍏堝幓浜嗚В涓嬭繖涓鏋舵庝箞鐢 3.浣跨敤鑷姩娴嬭瘯妗嗘灦selemium妯℃嫙鐧诲綍鎿嶄綔锛屽強鍥剧墖鐖彇锛岃繖涓浜庡ぇ澶氭暟浼氱偣Python缂栫爜鐨勪汉鏉ヨ鏄渶濂界殑閫夋嫨...
  • 鍏充簬python,xpath閲囬泦杩寰崥鏁版嵁鐨勯棶棰
    绛旓細1銆侀紶鏍囨寚鍒板彂琛ㄦ椂闂翠笂锛屽彸閿偣鍑诲鏌ュ厓绱 2銆侀紶鏍囨斁鍦ㄥ脊鍑烘潵鐨勮摑鑹插尯鍩熶笂锛屽彸閿偣鍑籧opy xpath 3銆佺矘璐村緱鍒皒path锛屽悗闈㈠姞涓'/title'锛屽氨鏄彁鍙栨椂闂寸殑xpath //*[@id="v6_pl_content_homefeed"]/div[1]/div[2]/div[1]/div[1]/div[3]/div[5]/a[1]/title ...
  • 濡備綍鐢╬ython瀹炵幇鐖彇寰崥鐩稿唽鎵鏈夊浘鐗?
    绛旓細鐢╯crapy锛岀埇铏鏋跺氨鍙互锛屼笁姝ワ紝鍏朵腑绗簩姝ユ槸鏍稿績 瀹氫箟item绫 寮鍙憇pider绫 寮鍙憄ipeline 濡傛灉浣犳兂瀛︿範鏇村锛屼綘鍙互鐪嬨婄柉鐙python璁蹭箟銆
  • python 鏂版氮寰崥鐖櫕,姹傚姪
    绛旓細绗竴绉嶆槸濉啓璐﹀彿瀵嗙爜涔嬪悗鎵цjs妯℃嫙鐐瑰嚮鈥滅櫥褰曗濇寜閽,鍗氫富涔嬪墠鍐欒繃涓涓狫ava鐖櫕灏辨槸鍒╃敤杩欎釜鏂规硶,浣嗘槸鐜板湪鎵句笉鍒板伐绋嬩簡,鍦姝や笉鍐嶈禈杩般傜浜岀闇瑕佷竴瀹欻TTP鍩虹,鎻愪氦鍖呭惈鎵闇淇℃伅鐨凥TTP POST璇锋眰銆傛垜浠渶瑕乄ireshark 宸ュ叿鏉鎶撳彇鐧诲綍寰崥鏃舵垜浠彂鍑哄拰鎺ユ敹鐨鏁版嵁鍖呫傚涓嬪浘鎴戞姄鍙栦簡鍦ㄧ櫥褰曟椂鍙戝嚭鍜屾帴鏀剁殑鏁版嵁鍖匴ireshark...
  • 濡備綍閫氳繃python璋冪敤鏂版氮寰崥鐨凙PI
    绛旓細1.涓嬭浇SDK 浣跨敤python璋冪敤API鐨勮瘽锛岄鍏堣鍘讳笅涓涓狿ython鐨凷DK锛宻inaweibopy 杩炴帴鍦板潃鍦ㄦ锛 http://michaelliao.github.com/sinaweibopy/ 鍙互浣跨敤pip寰堝揩鐨勫鍏ワ紝github杩炴帴閲岀殑wiki涔熸湁鍏ラ棬鐨勪娇鐢ㄦ柟娉曪紝寰堝鏄撶湅鎳傘2.鐞嗚В鏂版氮寰崥鐨勬巿鏉冩満鍒 鍦ㄨ皟鐢ˋPI涔嬪墠锛岄鍏堣鎼炴噦浠涔堝彨OAuth 2锛屽嵆鏂版氮寰崥鐨...
  • 鎬庝箞鍒╃敤python鎴朢鍒嗘瀽鎴戠殑寰崥鎴栬呮湅鍙嬪湀
    绛旓細1. 鎶撳彇浠ユ煇涓煄甯備负鍙戝井鍗氱殑鍦扮悊浣嶇疆鐨寰崥鏁版嵁锛屽苟涓旀姄鍙栧彂寰崥鐨勭敤鎴风殑鐩稿叧淇℃伅 2. 瀵规暟鎹竻娲楋紝閫氳繃鐢ㄦ埛璧勬枡绛涢夊嚭鏄惁鍦熻憲灞呮皯锛岃繕鏄梾娓稿嚭宸箣绫荤殑鏁版嵁 3. 瀵规暟鎹垎鏋愶紝閫氳繃鍙戝井鍗氱殑鏃堕棿鍟婏紝鏌愪釜鍦扮偣鍙戝井鍗氱殑娆℃暟鍟婏紝鍙戝井鍗氬嚭鐜版渶澶氱殑鍏抽敭璇 杩欎簺搴旇鑳藉緱鍒颁竴浜涙湁鎰忔濈殑鏁版嵁 涓. 鑷劧璇█澶勭悊 寰...
  • Python鐖綉椤
    绛旓細google project缃戠珯鏈変竴涓」鐩彨鍋歴inawler锛屽氨鏄笓闂ㄧ殑鏂版氮寰崥鐖櫕锛岀敤鏉鎶撳彇寰崥鍐呭銆傜綉绔欎笂涓嶅幓锛岃繖涓綘鎳傜殑銆備笉杩囧彲浠ョ櫨搴︿竴涓嬧減ython缂栧啓鐨勬柊娴井鍗氱埇铏紙鐜板湪鐨勭櫥闄嗘柟娉曡鏂扮殑涓鍒欏井鍗氾級鈥滐紝鍙互鎵惧埌涓涓弬鑰冪殑婧愮爜锛屼粬鏄鐢╬ython2鍐欑殑銆傚鏋滅敤python3鍐欙紝鍏跺疄鍙互浣跨敤urllib.request妯℃嫙鏋勫缓涓涓甫...
  • 扩展阅读:python抓取数据犯法 ... python编程代码大全 ... python获取屏幕上的数据 ... python爬虫爬取网页数据 ... python通过api获取数据 ... python爬取数据存入excel ... 如何爬取微博评论数据 ... 用python抓取微博评论 ... python从软件界面抓取数据 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网