什么是robots协议?网站中的robots.txt写法和作用 网站robots文件的作用是什么?

\u4ec0\u4e48\u662frobots.txt\u6587\u4ef6\uff1f\u5728\u7f51\u7ad9\u4f18\u5316\u4e2d\u6709\u4ec0\u4e48\u4f5c\u7528

robots.txt \u4e5f\u5c31 robots\u534f\u8bae\uff0c\u662f\u641c\u7d22\u5f15\u64ce\u4e2d\u8bbf\u95ee\u7f51\u7ad9\u7684\u65f6\u5019\u8981\u67e5\u770b\u7684\u7b2c\u4e00\u4e2a\u6587\u4ef6\u3002\u901a\u8fc7robots.txt\u6587\u4ef6\u544a\u8bc9\u641c\u7d22\u5f15\u64ce\u8718\u86db\u54ea\u4e9b\u9875\u9762\u53ef\u4ee5\u6293\u53d6\uff0c\u54ea\u4e9b\u9875\u9762\u4e0d\u80fd\u6293\u53d6\u3002

Robots.txt\u6587\u4ef6\u7684\u4f5c\u7528\uff1a
1\u3001\u5c4f\u853d\u7f51\u7ad9\u5185\u7684\u6b7b\u94fe\u63a5\u3002
2\u3001\u5c4f\u853d\u641c\u7d22\u5f15\u64ce\u8718\u86db\u6293\u53d6\u7ad9\u70b9\u5185\u91cd\u590d\u5185\u5bb9\u548c\u9875\u9762\u3002
3\u3001\u963b\u6b62\u641c\u7d22\u5f15\u64ce\u7d22\u5f15\u7f51\u7ad9\u9690\u79c1\u6027\u7684\u5185\u5bb9\u3002
\u56e0\u6b64\u5efa\u7acbrobots.txt\u6587\u4ef6\u662f\u5f88\u6709\u5fc5\u8981\u7684\uff0c\u7f51\u7ad9\u4e2d\u91cd\u590d\u7684\u5185\u5bb9\u3001\u9875\u9762\u6216\u8005404\u4fe1\u606f\u8fc7\u591a\uff0c\u641c\u7d22\u5f15\u64ce\u8718\u86db\u5c31\u4f1a\u8ba4\u4e3a\u8be5\u7f51\u7ad9\u4ef7\u503c\u8f83\u4f4e\uff0c\u4ece\u800c\u964d\u4f4e\u5bf9\u8be5\u7f51\u7ad9\u7684\u201c\u5370\u8c61\u5206\u201d\uff0c\u8fd9\u5c31\u662f\u6211\u4eec\u7ecf\u5e38\u542c\u5230\u7684\u201c\u964d\u4f4e\u6743\u91cd\u201d\uff0c\u8fd9\u6837\u7f51\u7ad9\u7684\u6392\u540d\u5c31\u4e0d\u597d\u4e86\u3002
robots.txt\u6587\u4ef6\u9700\u8981\u6ce8\u610f\u7684\u6700\u5927\u95ee\u9898\u662f\uff1a\u5fc5\u987b\u653e\u7f6e\u5728\u4e00\u4e2a\u7ad9\u70b9\u7684\u6839\u76ee\u5f55\u4e0b\uff0c\u800c\u4e14\u6587\u4ef6\u540d\u5fc5\u987b\u5168\u90e8\u5c0f\u5199\u3002
robots.txt\u6587\u4ef6\u7684\u57fa\u672c\u8bed\u6cd5\u53ea\u6709\u4e24\u6761\uff0c\u7b2c\u4e00\u6761\u662f\uff1aUser-agent\uff0c\u5373\u641c\u7d22\u5f15\u64ce\u8718\u86db\u7684\u540d\u79f0\uff1b\u7b2c\u4e8c\u6761\u662f\uff1aDisallow\uff0c\u5373\u8981\u62e6\u622a\u7684\u90e8\u5206\u3002
\u4e0b\u9762\u6211\u4eec\u770b\u4e00\u4e0b\u64b0\u5199\u57fa\u672c\u7684robots.txt\u6587\u4ef6\u6240\u9700\u8981\u77e5\u9053\u7684\u4e00\u4e9b\u8bed\u6cd5\u548c\u4f5c\u7528\u3002
\uff081\uff09\uff0c\u5141\u8bb8\u6240\u6709\u7684\u641c\u7d22\u5f15\u64ce\u8bbf\u95ee\u7f51\u7ad9\u7684\u6240\u6709\u90e8\u5206\u6216\u8005\u5efa\u7acb\u4e00\u4e2a\u7a7a\u767d\u7684\u6587\u672c\u6587\u6863\uff0c\u547d\u540d\u4e3arobots.txt\u3002
User-agent:*Disallow:\u6216\u8005User-agent:*Allow:/
\uff082\uff09\uff0c\u7981\u6b62\u6240\u6709\u641c\u7d22\u5f15\u64ce\u8bbf\u95ee\u7f51\u7ad9\u7684\u6240\u6709\u90e8\u5206\u3002
User-agent:*Disallow:/
\uff083\uff09\uff0c\u7981\u6b62\u767e\u5ea6\u7d22\u5f15\u4f60\u7684\u7f51\u7ad9\u3002
User-agent:BaiduspiderDisallow:/
\uff084\uff09\uff0c\u7981\u6b62Google\u7d22\u5f15\u4f60\u7684\u7f51\u7ad9\u3002
User-agent:GooglebotDisallow:/
\uff085\uff09\uff0c\u7981\u6b62\u9664\u767e\u5ea6\u4ee5\u5916\u7684\u4e00\u5207\u641c\u7d22\u5f15\u64ce\u7d22\u5f15\u4f60\u7684\u7f51\u7ad9\u3002
User-agent:BaiduspiderDisallow:User-agent:*Disallow:/
\uff086\uff09\uff0c\u7981\u6b62\u9664Google\u4ee5\u5916\u7684\u4e00\u5207\u641c\u7d22\u5f15\u64ce\u7d22\u5f15\u4f60\u7684\u7f51\u7ad9\u3002
User-agent:GooglebotDisallow:User-agent:*Disallow:/
\uff087\uff09\uff0c\u7981\u6b62\u548c\u5141\u8bb8\u641c\u7d22\u5f15\u64ce\u8bbf\u95ee\u67d0\u4e2a\u76ee\u5f55\uff0c\u5982\uff1a\u7981\u6b62\u8bbf\u95eeadmin\u76ee\u5f55\uff1b\u5141\u8bb8\u8bbf\u95eeimages\u76ee\u5f55\u3002
User-agent:*Disallow:/admin/Allow:/images/
\uff088\uff09\uff0c\u7981\u6b62\u548c\u5141\u8bb8\u641c\u7d22\u5f15\u64ce\u8bbf\u95ee\u67d0\u4e2a\u540e\u7f00\uff0c\u5982\uff1a\u7981\u6b62\u8bbf\u95eeadmin\u76ee\u5f55\u4e0b\u6240\u6709php\u6587\u4ef6\uff1b\u5141\u8bb8\u8bbf\u95eeasp\u6587\u4ef6\u3002
User-agent:*Disallow:/admin/*.php$Allow:/admin/*.asp$
\uff089\uff09\uff0c\u7981\u6b62\u7d22\u5f15\u7f51\u7ad9\u4e2d\u6240\u6709\u7684\u52a8\u6001\u9875\u9762\uff08\u8fd9\u91cc\u9650\u5236\u7684\u662f\u6709\u201c\uff1f\u201d\u7684\u57df\u540d\uff0c\u5982\uff1aindex.php?id=8\uff09\u3002
User-agent:*Disallow:/*?*

Robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”(Robots Exclusion Protocol),网站通过Robots协议告诉搜索引擎哪些页面可以抓取,哪些页面不能抓取。
文件写法
User-agent: * 这里的*代表的所有的搜索引擎种类,*是一个通配符
Disallow: /admin/ 这里定义是禁止爬寻admin目录下面的目录
Disallow: /require/ 这里定义是禁止爬寻require目录下面的目录
Disallow: /ABC/ 这里定义是禁止爬寻ABC目录下面的目录
Disallow: /cgi-bin/*.htm 禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。
Disallow: /*?* 禁止访问网站中所有包含问号 (?) 的网址
Disallow: /.jpg$ 禁止抓取网页所有的.jpg格式的图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下面的adc.html文件。
Allow: /cgi-bin/ 这里定义是允许爬寻cgi-bin目录下面的目录
Allow: /tmp 这里定义是允许爬寻tmp的整个目录
Allow: .htm$ 仅允许访问以".htm"为后缀的URL。
Allow: .gif$ 允许抓取网页和gif格式图片
Sitemap: 网站地图 告诉爬虫这个页面是网站地图
文件用法
例1. 禁止所有搜索引擎访问网站的任何部分
User-agent: *
Disallow: /
实例分析:淘宝网的 Robots.txt文件
User-agent: Baiduspider
Disallow: /
User-agent: baiduspider
Disallow: /
很显然淘宝不允许百度的机器人访问其网站下其所有的目录。
例2. 允许所有的robot访问 (或者也可以建一个空文件 “/robots.txt” file)
User-agent: *
Allow: /
例3. 禁止某个搜索引擎的访问
User-agent: BadBot
Disallow: /
例4. 允许某个搜索引擎的访问
User-agent: Baiduspider
allow:/
例5.一个简单例子
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即搜索引擎不会访问这三个目录。
需要注意的是对每一个目录必须分开声明,而不要写成 “Disallow: /cgi-bin/ /tmp/”。
User-agent:后的*具有特殊的含义,代表“any robot”,所以在该文件中不能有“Disallow: /tmp/*” or “Disallow:*.gif”这样的记录出现。
User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/
Robot特殊参数:
允许 Googlebot:
如果您要拦截除Googlebot以外的所有漫游器不能访问您的网页,可以使用下列语法:
User-agent:
Disallow: /
User-agent: Googlebot
Disallow:
Googlebot 跟随指向它自己的行,而不是指向所有漫游器的行。
“Allow”扩展名:
Googlebot 可识别称为“Allow”的 robots.txt 标准扩展名。其他搜索引擎的漫游器可能无法识别此扩展名,因此请使用您感兴趣的其他搜索引擎进行查找。“Allow”行的作用原理完全与“Disallow”行一样。只需列出您要允许的目录或页面即可。
您也可以同时使用“Disallow”和“Allow”。例如,要拦截子目录中某个页面之外的其他所有页面,可以使用下列条目:
User-agent: Googlebot
Allow: /folder1/myfile.html
Disallow: /folder1/
这些条目将拦截 folder1 目录内除 myfile.html 之外的所有页面。
如果您要拦截 Googlebot 并允许 Google 的另一个漫游器(如 Googlebot-Mobile),可使用”Allow”规则允许该漫游器的访问。例如:
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Allow:
使用 * 号匹配字符序列:
您可使用星号 (*) 来匹配字符序列。例如,要拦截对所有以 private 开头的子目录的访问,可使用下列条目: User-Agent: Googlebot
Disallow: /private*/
要拦截对所有包含问号 (?) 的网址的访问,可使用下列条目:
User-agent: *
Disallow: /*?*
使用 $ 匹配网址的结束字符
您可使用 $字符指定与网址的结束字符进行匹配。例如,要拦截以 .asp 结尾的网址,可使用下列条目: User-agent: Googlebot
Disallow: /*.asp$
您可将此模式匹配与 Allow 指令配合使用。例如,如果 ? 表示一个会话 ID,您可排除所有包含该 ID 的网址,确保 Googlebot 不会抓取重复的网页。但是,以 ? 结尾的网址可能是您要包含的网页版本。在此情况下,可对 robots.txt 文件进行如下设置:
User-agent: *
Allow: /*?$
Disallow: /*?
Disallow: / *?
一行将拦截包含 ? 的网址(具体而言,它将拦截所有以您的域名开头、后接任意字符串,然后是问号 (?),而后又是任意字符串的网址)。
Allow: /*?$ 一行将允许包含任何以 ? 结尾的网址(具体而言,它将允许包含所有以您的域名开头、后接任意字符串,然后是问号 (?),问号之后没有任何字符的网址)。
尽管robots.txt已经存在很多年了,但是各大搜索引擎对它的解读都有细微差别。Google与百度都分别在自己的站长工具中提供了robots工具。如果您编写了robots.txt文件,建议您在这两个工具中都进行测试,因为这两者的解析实现确实有细微差别。

  • robots鍗忚鐨勭畝浠
    绛旓細robots.txt鏂囦欢鏄竴涓枃鏈枃浠讹紝浣跨敤浠讳綍涓涓父瑙佺殑鏂囨湰缂栬緫鍣紝姣斿Windows绯荤粺鑷甫鐨凬otepad锛屽氨鍙互鍒涘缓鍜岀紪杈戝畠 銆俽obots.txt鏄竴涓鍗忚锛岃屼笉鏄竴涓懡浠ゃ俽obots.txt鏄悳绱㈠紩鎿庝腑璁块棶缃戠珯鐨勬椂鍊欒鏌ョ湅鐨勭涓涓枃浠躲俽obots.txt鏂囦欢鍛婅瘔铚樿洓绋嬪簭鍦ㄦ湇鍔″櫒涓浠涔鏂囦欢鏄彲浠ヨ鏌ョ湅鐨勩傚綋涓涓悳绱㈣湗铔涜闂竴...
  • robots鏄粈涔?
    绛旓細浠ヤ笂鍐呭鍙傝冪櫨搴︾櫨绉-鏈哄櫒浜哄崗璁俶cp016鏄浠涔涓滆タ锛熸槸mcp016鐨勫崥瀹紝鐢变簬璇缃戠珯鐨剅obots.txt鏂囦欢瀛樺湪闄愬埗鎸囦护銆俇C娴忚鍣robot鍗忚闄愬埗鎶撳彇鎬庝箞瑙e喅锛熸墦寮璁剧疆锛岄夋嫨root锛屾妸闄愬埗鎶撳彇鏇存敼涓哄厑璁 robots鏂囦欢涓埌搴曡涓嶈灞忚斀JS鍜宑ss锛焤obots.txt鏂囦欢涓笉闇瑕佷笓闂ㄥ睆钄紺SSJS绛夋枃浠 鍥犱负robots.txt鍙槸缁欐悳绱㈠紩鎿...
  • robots浠涔鎰忔
    绛旓細鍦ㄧ綉缁鍗忚涓锛宺obots.txt鏄疻eb绔欑偣绠$悊鑰呯敤鏉ュ憡璇夋悳绱㈠紩鎿庢満鍣ㄤ汉鍝簺椤甸潰涓嶅簲璇ヨ鐖櫕鎶撳彇鐨勬爣鍑嗗崗璁傛悳绱㈠紩鎿庣埇铏湪璁块棶缃戠珯鏃朵細浼樺厛鏌ユ壘绔欑偣鏍圭洰褰曚笅鐨剅obots.txt鏂囦欢锛岄氳繃鍒嗘瀽鏂囦欢鍐呭鏉ュ喅瀹氬摢浜涢〉闈㈠彲浠ヨ闂紝鍝簺椤甸潰绂佹璁块棶銆俽obots.txt鐨勭敤娉曪細1銆佸垱寤簉obots.txt鏂囦欢锛岄氬父锛岃繖涓枃浠跺簲璇ヤ繚瀛樺湪缃戠珯鐨...
  • robots鍗忚鍔熻兘
    绛旓細Robots鍗忚鏄竴绉嶇敤浜庢寚瀵兼悳绱㈠紩鎿庣埇铏姄鍙缃戦〉鐨勮鍒欙紝瀹冨畾涔変簡鍝簺椤甸潰鍙互璁块棶锛屽摢浜涘簲璇ヨ蹇界暐銆傞氳繃缂栧啓robots.txt鏂囦欢锛缃戠珯绠$悊鍛樺彲浠ユ湁鏁堝湴绠$悊鏈嶅姟鍣ㄥ甫瀹斤紝閬垮厤鎶撳彇涓嶅繀瑕佺殑澶ф枃浠跺鍥剧墖銆侀煶涔愬拰瑙嗛锛屽苟缁存姢缃戠珯缁撴瀯鐨勬竻鏅版с傛枃浠朵腑鍖呭惈濡備笅鐨勮鍒欑ず渚嬶細User-agent: * 浠h〃鎵鏈夋悳绱㈠紩鎿庯紝* 浣滀负...
  • robot鍙互闄愬埗鐖櫕绋嬪簭閲囬泦鏌愪簺缃戦〉鐨勬暟鎹槸瀵圭殑杩樻槸閿欑殑
    绛旓細瀵圭殑銆Robots鍗忚鏄竴绉嶇敤浜缃戠珯绠$悊鑰呴氱煡缃戠粶鐖櫕鍝簺椤甸潰鍙互琚埇鍙栫殑鍗忚銆傞氳繃鍦ㄧ綉绔欑殑鏍圭洰褰曚笅鏀剧疆涓涓悕涓簉obots.txt鐨勬枃浠讹紝缃戠珯绠$悊鑰呭彲浠ユ寚瀹氬摢浜涢〉闈㈠彲浠ヨ鐖彇锛屽摢浜涢〉闈笉鍙互琚埇鍙栥傜埇铏▼搴忓湪璁块棶缃戠珯鏃朵細棣栧厛鏌ョ湅robots.txt鏂囦欢锛屾牴鎹叾涓殑瑙勫垯鏉ュ垽鏂槸鍚﹀彲浠ヨ闂拰閲囬泦鏌愪簺缃戦〉鐨勬暟鎹傚叓鐖...
  • WordPress缃戠珯鎬庢牱姝g‘璁剧疆robots.txt
    绛旓細Robots鍗忚锛堜篃绉颁负鐖櫕鍗忚銆佹満鍣ㄤ汉鍗忚绛夛級鐨勫叏绉版槸鈥滅綉缁滅埇铏帓闄ゆ爣鍑嗏濓紙Robots Exclusion Protocol锛夛紝缃戠珯閫氳繃Robots鍗忚鍛婅瘔鎼滅储寮曟搸鍝簺椤甸潰鍙互鎶撳彇锛屽摢浜涢〉闈笉鑳芥姄鍙栥傛悳绱㈠紩鎿庢満鍣ㄤ汉璁块棶缃戠珯鏃讹紝棣栧厛浼氬鎵剧珯鐐规牴鐩綍鏈夋病鏈 robots.txt鏂囦欢锛屽鏋滄湁杩欎釜鏂囦欢灏辨牴鎹枃浠剁殑鍐呭纭畾鏀跺綍鑼冨洿锛屽鏋滄病鏈夊氨...
  • robots鏂囦欢鏄浠涔
    绛旓細璇︾粏瑙i噴濡備笅锛Robots鏂囦欢鐨勬蹇靛拰鐢ㄩ旓細Robots鏂囦欢锛屼篃琚О涓衡robots.txt鈥濓紝鏄竴涓函鏂囨湰鏂囦欢锛岄伒寰壒瀹氱殑瑙勫垯涓鍗忚銆傚畠琚斁缃湪缃戠珯鏍圭洰褰曚笅锛岀敤浜庡憡鐭ユ悳绱㈠紩鎿庣殑鐖櫕鏈哄櫒浜哄浣曚笌缃戠珯杩涜浜や簰銆傚叿浣撴潵璇达紝杩欎釜鏂囦欢鍙互鎸囧鎼滅储寮曟搸鐖櫕鍝簺椤甸潰闇瑕佹姄鍙栵紝鍝簺椤甸潰涓嶉渶瑕佹姄鍙栵紝鐢氳嚦鍙互瀹氫箟鐖櫕鍦ㄨ闂綉绔欐椂...
  • 濡備綍鍐robots.txt鏂囦欢鎵嶈兘闆嗕腑缃戠珯鏉冮噸
    绛旓細濡備綍鍐檙obots.txt鏂囦欢鎵嶈兘闆嗕腑缃戠珯鏉冮噸锛熶竴锛浠涔堟槸robots鍗忚robots鍗忚锛堜篃绉颁负鐖櫕鍗忚銆佺埇铏鍒欍佹満鍣ㄤ汉鍗忚绛夛級涔熷氨鏄痳obots.txt锛岀綉绔欓氳繃robots鍗忚鍛婅瘔鎼滅储寮曟搸鍝簺椤甸潰鍙互鎶撳彇锛屽摢浜涢〉闈笉甯屾湜琚姄鍙栥• Robots鍗忚鏄綉绔欏浗闄呬簰鑱旂綉鐣岄氳鐨勯亾寰疯鑼冿紝鍏剁洰鐨勬槸淇濇姢缃戠珯鏁版嵁鍜屾晱鎰熶俊鎭佺‘淇濈敤鎴...
  • robots鍗忚鐨勫姛鑳
    绛旓細Robots鍗忚鐢ㄦ潵鍛婄煡鎼滅储寮曟搸鍝簺椤甸潰鑳借鎶撳彇锛屽摢浜涢〉闈笉鑳借鎶撳彇锛涘彲浠ュ睆钄戒竴浜缃戠珯涓姣旇緝澶х殑鏂囦欢锛屽锛氬浘鐗囷紝闊充箰锛岃棰戠瓑锛岃妭鐪佹湇鍔″櫒甯﹀锛涘彲浠ュ睆钄界珯鐐圭殑涓浜涙閾炬帴銆傛柟渚挎悳绱㈠紩鎿庢姄鍙栫綉绔欏唴瀹癸紱璁剧疆缃戠珯鍦板浘杩炴帴锛屾柟渚垮紩瀵艰湗铔涚埇鍙栭〉闈 User-agent: * 杩欓噷鐨*浠h〃鐨勬墍鏈夌殑鎼滅储寮曟搸绉嶇被锛*鏄竴涓...
  • 濡備綍鍒╃敤robots鏉ユ彁楂樻姄鍙栨晥鐜
    绛旓細鍔ㄦ缃戠珯骞朵笉鍊煎緱鎷呭績锛屾悳绱㈠紩鎿庡彲浠ユ甯告姄鍙栧姩鎬侀摼鎺ワ紝浣嗗埄鐢╮obots鏂囦欢鍙互杞绘澗鎻愰珮鍔ㄦ佺綉绔欑殑鎶撳彇鏁堢巼銆傛垜浠兘鐭ラ亾锛robots鍗忚(涔熺О涓鐖櫕鍗忚銆佹満鍣ㄤ汉鍗忚绛)鐨勫叏绉版槸鈥滅綉缁滅埇铏帓闄ゆ爣鍑嗏(Robots Exclusion Protocol)锛岀綉绔欓氳繃Robots鍗忚鍛婅瘔鎼滅储寮曟搸鍝簺椤甸潰鍙互鎶撳彇锛屽摢浜涢〉闈笉鑳芥姄鍙栥俁obots鍗忚鐨勬湰璐ㄦ槸...
  • 扩展阅读:robot游戏官网 ... war robots官网 ... roblox正版下载 ... roblox官网下载入口 ... shopify官网入口 ... war robots国际服 ... roblox国际服下载安装 ... war robot国际服下载 ... robam是什么牌子的燃气灶 ...

    本站交流只代表网友个人观点,与本站立场无关
    欢迎反馈与建议,请联系电邮
    2024© 车视网