网站建设好了,当然是希望网页被搜索引擎收录的越多越好,但有时候我们也会碰到网站不需要被搜索引擎收录的情况。
比如,你要启用一个新的域名做镜像网站,主要用于PPC 的推广,这个时候就要想办法屏蔽搜索引擎蜘蛛抓取和索引我们镜像网站的所有网页。因为如果镜像网站也被搜索引擎收录的话,很有可能会影响官网在搜索引擎的权重,这肯定是我们不想看到的结果。
以下列举了屏蔽主流搜索引擎爬虫(蜘蛛)抓取/索引/收录网页的几种思路。注意:是整站屏蔽,而且是尽可能的屏蔽掉所有主流搜索引擎的爬虫(蜘蛛)。
1、通过 robots.txt 文件屏蔽
可以说 robots.txt 文件是最重要的一种渠道(能和搜索引擎建立直接对话)。我通过分析我自己博客的服务器日志文件,给出以下建议(同时欢迎网友补充):
User-agent: Baiduspider
Disallow: /
User-agent: Googlebot
Disallow: /
User-agent: Googlebot-Mobile
Disallow: /
User-agent: Googlebot-Image
Disallow:/
User-agent: Mediapartners-Google
Disallow: /
User-agent: Adsbot-Google
Disallow: /
User-agent:Feedfetcher-Google
Disallow: /
User-agent: Yahoo! Slurp
Disallow: /
User-agent: Yahoo! Slurp China
Disallow: /
User-agent: Yahoo!-AdCrawler
Disallow: /
User-agent: YoudaoBot
Disallow: /
User-agent: Sosospider
Disallow: /
User-agent: Sogou spider
Disallow: /
User-agent: Sogou web spider
Disallow: /
User-agent: MSNBot
Disallow: /
User-agent: ia_archiver
Disallow: /
User-agent: Tomato Bot
Disallow: /
User-agent: *
Disallow: /
2、通过 meta tag 屏蔽
在所有的网页头部文件添加,添加如下语句:
<meta name="robots" content="noindex, nofollow">
3、通过服务器(如:Linux/nginx )配置文件设置
直接过滤 spider/robots 的IP 段。
小注:第1招和第2招只对“君子”有效,防止“小人”要用到第3招(“君子”和“小人”分别泛指指遵守与不遵守 robots.txt 协议的 spider/robots),所以网站上线之后要不断跟踪分析日志,筛选出这些 badbot 的ip,然后屏蔽之。
这里有一个badbot ip 数据库:http://www.spam-whackers.com/bad.bots.htm
4、通过搜索引擎提供的站长工具,删除网页快照
比如,有的时候百度不严格遵守 robots.txt 协议,可以通过百度提供的“网页投诉”入口删除网页快照。百度网页投诉中心:http://tousu.baidu.com/webmaster/add
如下图是我的一个网页投诉:
大概3天左右的时间过去,这个网页的百度快照也被删除,说明此种方法也能起效,当然这是不得而为之,属于亡羊补牢。
5、补充更新
可以通过检测 HTTP_USER_AGENT 是否为爬虫/蜘蛛访问,然后直接返回403 状态码屏蔽之。比如:由于api 权限与微博信息隐私保护原因,Xweibo 2.0 版本后禁止搜索引擎收录。
关于如何屏蔽搜索引擎爬虫(蜘蛛)抓取/索引/收录网页,您有其他什么更好的建议或者方法,也欢迎发表评论!期待与您交流。
本文作者:Bruce
原文地址:http://www.wuzhisong.com/blog/67/
版权声明:欢迎转载,但必须以超链接方式注明本文原始出处!
版权声明
本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。
- 上一篇: 百度优化不得不重视的几个重要因数
- 下一篇: 学习SEO牛人的SEO技巧二:国平的可控SEO
评论
西安大明宫电影院
回复感谢前行路上击倒我的人,因为,躺着真的好舒服。
西安园林工程
回复其实你不丑,只是,你美得不明显。
西安打砸日系车
回复当我看你搂着她,我却没有任何感觉的时候,我就知道我的快乐回来了。
西安外事学院专科
回复今天真是幸运的一天,终于实现了身价翻倍,因为猪价又翻了番。
西安钢管舞培训
回复你不是脾气好,是气到内出血又不敢刚。
西安北站在哪
回复钱包里放老婆的照片,是为了提醒自己记住,钱包里的钱是怎么没的。
西安治疗前列腺
回复贪图小利,难成大事,要贪就贪大的。
西安珠宝
回复人生就像打电话,不是你先挂就是我先挂。
西安婚宴预订
回复那些人人羡慕的社会精英,其实过得不如你想象那样好。但肯定比你强得多的多。
西安广告网
回复转角一般不会遇到爱,只会遇到乞丐。
西安新都酒店
回复小三是个好东西,她带走了不爱你的狗东西。 ???
西安杨森etms
回复小时候哭着哭着就笑了,长大后笑着笑着就哭了。
西安短信群发公司
回复同甘共苦你不陪,荣华富贵你是谁?
西安事变的历史意义
回复你的晚安,只是想让我闭嘴。