首页 SEO技术正文

浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路

seo秀 SEO技术 2019-05-25 04:24:59 52 20
网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。,比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果。,以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。,

网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。

浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路

比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果。

浅谈屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路

以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。

1、通过 robots.txt 文件屏蔽

可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话)。我通过分析我自己博客的服务器日志文件,给出以下建议(同时欢迎网友补充):

User-agent: Baiduspider

Disallow: /

User-agent: Googlebot

Disallow: /

User-agent: Googlebot-Mobile

Disallow: /

User-agent: Googlebot-Image

Disallow:/

User-agent: Mediapartners-Google

Disallow: /

User-agent: Adsbot-Google

Disallow: /

User-agent:Feedfetcher-Google

Disallow: /

User-agent: Yahoo! Slurp

Disallow: /

User-agent: Yahoo! Slurp China

Disallow: /

User-agent: Yahoo!-AdCrawler

Disallow: /

User-agent: YoudaoBot

Disallow: /

User-agent: Sosospider

Disallow: /

User-agent: Sogou spider

Disallow: /

User-agent: Sogou web spider

Disallow: /

User-agent: MSNBot

Disallow: /

User-agent: ia_archiver

Disallow: /

User-agent: Tomato Bot

Disallow: /

User-agent: *

Disallow: /

2、通过 meta tag 屏蔽

在所有的网页头部文件添加,添加如下语句:

<meta name="robots" content="noindex, nofollow">

3、通过服务器(如:Linux/nginx )配置文件设置

直接过滤 spider/robots 的IP 段。

小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。

这里有一个badbot ip 数据库:http://www.spam-whackers.com/bad.bots.htm

4、通过搜索引擎提供的站长工具,删除网页快照

比如,有的时候百度不严格遵守 robots.txt 协议,可以通过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心:http://tousu.baidu.com/webmaster/add

如下图是我的一个网页投诉:

大概3天左右的时间过去,这个网页的百度快照也被删除,说明此种方法也能起效,当然这是不得而为之,属于亡羊补牢。

5、补充更新

可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问,然后直接返回403 状态码屏蔽之。比如:由于api 权限与微博信息隐私保护原因,Xweibo 2.0 版本后禁止搜索引擎收录。

关于如何屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页,您有其他什么更好的建议或者方法,也欢迎发表评论!期待与您交流。

本文作者:Bruce

原文地址:http://www.wuzhisong.com/blog/67/

版权声明:欢迎转载,但必须以超链接方式注明本文原始出处!

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论

精彩评论
2021-01-04 16:03:06

感谢前行路上击倒我的人,因为,躺着真的好舒服。

2020-02-07 23:42:26

其实你不丑,只是,你美得不明显。

2020-11-16 00:02:24

当我看你搂着她,我却没有任何感觉的时候,我就知道我的快乐回来了。

2020-03-23 15:08:40

今天真是幸运的一天,终于实现了身价翻倍,因为猪价又翻了番。

2019-09-06 00:18:52

你不是脾气好,是气到内出血又不敢刚。

2020-06-03 05:42:19

钱包里放老婆的照片,是为了提醒自己记住,钱包里的钱是怎么没的。

2019-07-01 11:50:07

贪图小利,难成大事,要贪就贪大的。

2020-02-20 08:39:49

人生就像打电话,不是你先挂就是我先挂。

2019-08-21 14:11:20

那些人人羡慕的社会精英,其实过得不如你想象那样好。但肯定比你强得多的多。

2019-06-11 12:30:51

转角一般不会遇到爱,只会遇到乞丐。

2020-01-03 11:22:09

小三是个好东西,她带走了不爱你的狗东西。 ???

2020-12-20 18:25:38

小时候哭着哭着就笑了,长大后笑着笑着就哭了。

2020-06-20 12:24:54

同甘共苦你不陪,荣华富贵你是谁?

2020-10-01 17:14:36

你的晚安,只是想让我闭嘴。