首页 SEO技术正文

解决因服务器而导致蜘蛛抓取失败的原因

seo秀 SEO技术 2019-05-25 04:24:25 33 20
服务器是网站生存的基础,不论是什么原因造成的服务器封禁,都直接影响蜘蛛的抓取,影响网站的用户体验,不利于seo工作的展开。我其将以自己的亲身经历,结合网络上一些朋友对这类问题的分析,总结出造成服务器封禁的三点主要原因:,一、服务器不稳定,现在的服务器多如牛毛,价格也各不相同,质量方面也是相差甚远,站长们往往在选择的时候都是“只认价不认质”, 有的空间商为了节省资源,故意屏蔽掉spider(蜘蛛)的IP,导致spider抓取失败,网站页面就无法被搜索引擎收录。,

服务器是网站生存的基础,不论是什么原因造成的服务器封禁,都直接影响蜘蛛的抓取,影响网站的用户体验,不利于seo工作的展开。我其将以自己的亲身经历,结合网络上一些朋友对这类问题的分析,总结出造成服务器封禁的三点主要原因:

解决因服务器而导致蜘蛛抓取失败的原因

一、服务器不稳定

解决因服务器而导致蜘蛛抓取失败的原因

现在的服务器多如牛毛,价格也各不相同,质量方面也是相差甚远,站长们往往在选择的时候都是“只认价不认质”, 有的空间商为了节省资源,故意屏蔽掉spider(蜘蛛)的IP,导致spider抓取失败,网站页面就无法被搜索引擎收录。

解决方法:选择有实力的正规空间商,尽可能保证您的网站稳定。服务器和空间的稳定性需要一定的技术实力来保障,一些没有实力的空间商,可能无力提供良好的服务,服务的稳定性无法保证。我们可以很形像的打个比喻:如果将“人”比喻为网站内容,那么服务器就是我们的“家”,它为我们挡风避雨,为我们的生存提供了一个优良的环境,而服务器的好坏将影响我们所能承受的风险。我想,谁都不愿意住在没有安全保障的屋子里,拿自己的生命开玩笑,同理,网站也是如此!如果您现在的服务器不理想,有必要另选时,请暂时让旧服务器能够使用一段时间,并且做301跳转,尽量减少更换服务器带来的一系列损失。

二、人为操作失误

对搜索引擎蜘蛛认识不够,对一些冒充搜索引擎spider的IP无法正确判断,继而误封搜索引擎IP。这样会导致搜索引擎不能成功抓取网站,无法成功抓取新网页,以及将之前已经成功抓取并收录的页面判定为无效链接,然后搜索引擎将会对这些死链接进行清除,继而网站页面收录减少,最终导致网站在搜索引擎的排名下降。

解决方法:正确认识各搜索引擎蜘蛛,而搜索引擎使用的 IP 地址会随时发生变化,为确保能够正确识别各搜索引擎IP,您可以使用DNS反查方式来确定抓取来源的IP是否属于正规搜索引擎,防止误封。

例如查Baiduspider:在linux平台下,您可以使用host ip命令反解ip来判断是否来自Baiduspide的抓取。Baiduspider的hostname以 *.baidu.com 或 *.baidu.jp 的格式命名,非 *.baidu.com 或 *.baidu.jp 即为冒充。

$ host 123.125.66.120

120.66.125.123.in-addr.arpa domain name pointer

baiduspider-123-125-66-120.crawl.baidu.com.

host 119.63.195.254

254.195.63.119.in-addr.arpa domain name pointer

BaiduMobaider-119-63-195-254.crawl.baidu.jp.

三、保护性的偶然封禁

1、如果网站的访问量过大,超过自身负荷,服务器会根据自身负荷进行保护性的偶然封禁。这种封禁是短暂性的,只要访问量下降到服务器的承受范围之内,那么服务器就会正常工作。

2、还有一种情况是spider造成的,搜索引擎为了达到对目标资源较好的检索效果,蜘蛛需要对您的网站保持一定量的抓取。搜索引擎会根据服务器承受能力,网站质量,网站更新等综合因素来进行调整, 建立一个合理的站点抓取压力。但是会有一些例外,在压力控制不好的情况下,服务器会根据自身负荷进行保护性的偶然封禁。

解决方法:1、如果是访问量造成的压力,那么恭喜你,说明你的网站已经拥有可观的访问人数,我们就应该升级服务器,来满足不段增长的访问量。2、如果是spider造成的,我们可以采用如下方式来减轻spider对服务器产生的压力:A、利用robots文件,屏蔽掉不想被spider抓取的页面。B、采用nofollow标签,屏蔽不想被spider爬行的链接。C、页面中较长的CSS、JS代码移到外部文件。D、删减多余代码。应当注意的是,以上两种情况在返回的代码中尽量不要使用404,建议返回503(其含义是“Service Unavailable”)。这样spider会过段时间再来尝试抓取这个链接,如果那个时间站点空闲,那它就会被成功抓取了。

最后,希望站长尽量保持站点的稳定,对于暂时不想被搜索引擎抓取的页面,使用正确的返回码告知搜索引擎,如果确实不想被搜索引擎抓取或者索引,可以写robots信息告知。

作者:奕杉其

文章来源:重庆seo http://www.137sv.com/seotechnique/27.html转载请注明来源,并保留来源的完整性,谢谢。

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

评论

精彩评论
2019-09-07 04:50:54

如果一个人秒回了你,那只能说明,他刚好在玩手机。

2019-08-21 22:42:59

不告白不是怕你拒绝,而是怕你拒绝之后,跟别人一起嘲笑我。

2020-12-26 04:00:45

失败并不可怕,可怕的是你还相信这句话。\\n

2019-12-24 15:08:59

我从你眼里看到了两样东西,一样是真诚,而另一样是眼屎。

2020-11-27 11:17:59

真正努力过的人,就会明白,天赋是有多么重要。

2020-03-05 10:12:51

很多次我都觉得坚持不住了,然后我就放弃了。

2019-10-24 18:18:37

打麻将三缺一,斗地主二缺一,我谈个恋爱咋还一缺一?

2019-07-08 17:56:01

我的原则,只有三个字,看心情。

2019-09-14 08:02:50

你给小草一点爱,小草还你一片绿!

2020-12-07 04:07:05

玩手机时间长要让眼睛休息,把视线投向窗外,想一想为什么自己这么穷。

2020-11-27 16:51:17

运动一周瘦不下来不要紧,因为运动十周也瘦不下来的。

2019-09-04 06:03:39

每天叫醒我的不是闹钟,而是膀胱。

2020-10-30 17:01:00

我交朋友,从不在乎他有没有钱,反正都没有我穷。

2020-09-15 03:33:52

情人节不出意外的话,一个人过,出意外的话在医院过。

2020-06-25 23:07:01

武则天证明了,成功和性别没关系,你证明了成功和你没关系。

2020-03-23 19:38:31

我这不是胖,是美丽在膨胀。