禁止搜索引擎收录的方法


使用robots.txt

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

我在robots.txt中设置了禁止百度收录我网站的内容,为何还出现在百度搜索结果中?

如果其他网站链接了您robots.txt文件中设置的禁止收录的网页,那么这些网页仍然可能会出现在百度的搜索结果中,但您的网页上的内容不会被抓取、建入索引和显示,百度搜索结果中展示的仅是其他网站对您相关网页的描述。

使用 Meta 标签

禁止搜索引擎跟踪网页的链接,而只对网页建索引

如果您不想搜索引擎追踪此网页上的链接,且不传递链接的权重,请将此元标记置入网页的 <HEAD> 部分:
<meta name="robots" content="nofollow">

如果您不想百度追踪某一条特定链接,百度还支持更精确的控制,请将此标记直接写在某条链接上:
<a href="signin.php" rel="nofollow">sign in</a>

要允许其他搜索引擎跟踪,但仅防止百度跟踪您网页的链接,请将此元标记置入网页的<HEAD> 部分:
<meta name="Baiduspider" content="nofollow">

禁止搜索引擎在搜索结果中显示网页快照,而只对网页建索引

要防止所有搜索引擎显示您网站的快照,请将此元标记置入网页的<HEAD>部分: 
<meta name="robots" content="noarchive">

要允许其他搜索引擎显示快照,但仅防止百度显示,请使用以下标记:
<meta name="Baiduspider" content="noarchive">

注:此标记只是禁止百度显示该网页的快照,百度会继续为网页建索引,并在搜索结果中显示网页摘要。
例1. 禁止所有搜索引擎访问网站的任何部分

User-agent: *
Disallow: /

例2. 允许所有的robot访问
(或者也可以建一个空文件 "/robots.txt")

User-agent: *
Allow: /

例3. 仅禁止Baiduspider访问您的网站

User-agent: Baiduspider
Disallow: /

例4. 仅允许Baiduspider访问您的网站

User-agent: Baiduspider
Allow: /

User-agent: *
Disallow: /

例5. 仅允许Baiduspider以及Googlebot访问

User-agent: Baiduspider
Allow: /

User-agent: Googlebot
Allow: /

User-agent: *
Disallow: /

例6. 禁止spider访问特定目录 
在这个例子中,该网站有三个目录对搜索引擎的访问做了限制,即robot不会访问这三个目录。需要注意的是对每一个目录必须分开声明,而不能写成 "Disallow: /cgi-bin/ /tmp/"。

User-agent: *
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例7. 允许访问特定目录中的部分url

User-agent: *
Allow: /cgi-bin/see
Allow: /tmp/hi
Allow: /~joe/look
Disallow: /cgi-bin/
Disallow: /tmp/
Disallow: /~joe/

例8. 使用"*"限制访问url
禁止访问/cgi-bin/目录下的所有以".htm"为后缀的URL(包含子目录)。

User-agent: *
Disallow: /cgi-bin/*.htm

例9. 使用"$"限制访问url
仅允许访问以".htm"为后缀的URL。

User-agent: *
Allow: /*.htm$
Disallow: /

例10. 禁止访问网站中所有的动态页面

User-agent: *
Disallow: /*?*

例11. 禁止Baiduspider抓取网站上所有图片
仅允许抓取网页,禁止抓取任何图片。

User-agent: Baiduspider
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.gif$
Disallow: /*.png$
Disallow: /*.bmp$

例12. 仅允许Baiduspider抓取网页和.gif格式图片
允许抓取网页和gif格式图片,不允许抓取其他格式图片

User-agent: Baiduspider
Allow: /*.gif$
Disallow: /*.jpg$
Disallow: /*.jpeg$
Disallow: /*.png$
Disallow: /*.bmp$

例13. 仅禁止Baiduspider抓取.jpg格式图片

User-agent: Baiduspider
Disallow: /*.jpg$