关于 /robots.txt

简介

网站所有者通过 /robots.txt 向网络爬虫解释说明他的网站; 这被称作 机器人排除协议 .

工作原理如下: 一个网络爬虫想访问该网站的 URL http://www.example.com/welcome.html , 在它访问 URL 之前, 它先检查 http://www.example.com/robots.txt, 看到:

User-agent: *
Disallow: /

User-agent: * 指这个内容对所有类型爬虫有效. Disallow: / 指爬虫不该访问该网站的任意页面.

两点重要的注意事项:

所以, 不要试图通过 /robots.txt 来隐藏信息.

/robots.txt 是一个事实标准, 它不属于任何标准制定机构. 这有两个历史描述文件:

以及两个补充资源:

简单回答是: 网站的根目录.

robots.txt 是全小写的, 不能是 Robots.TXT .

User-agent: *
Disallow: /

User-agent: *
Disallow:

或留空该文件或者不放置该文件.

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /junk/

User-agent: BadBot
Disallow: /

User-agent: Google
Disallow:

User-agent: *
Disallow: /

这当前有点尴尬, 因为没有 “允许” 字段. 简单的方法是将所有禁止的文件放入一个单独的目录, 比如“stuff”, 并将那个允许访问的文件放在该目录的上一层:

User-agent: *
Disallow: /~joe/stuff/

或者明确禁止每个文件:

User-agent: *
Disallow: /~joe/junk.html
Disallow: /~joe/foo.html
Disallow: /~joe/bar.html