搜索引擎蜘蛛爬行规律探秘之一蜘蛛如何抓取链接
搜索引擎蜘蛛,对于我们来说非常神秘,本文的配图使用蜘蛛侠的原因就在于此。当然我们也不是百度的也不是Google的,所以只能说探秘,而不是揭秘。本文内容比较简单,只是给不知道的朋友一个分享的途径,高手和牛人请绕行吧。
传统意义上,我们感觉搜索引擎蜘蛛(spider)爬行,应该类似于真正的蜘蛛在蜘蛛网上爬行。也就是比如百度蜘蛛找到一个链接,顺着这个链接爬行到一个页面,然后再顺着这个页面里面的链接继续爬……这个类似于蜘蛛网,也类似于一棵大树。这个理论虽然正确,但是不准确。
搜索引擎内部是有一个网址索引库的,所以搜索引擎蜘蛛是从搜索引擎的服务器出发,顺着搜索引擎已有的网址爬行一个网页,并将网页内容抓取回来。页面采集回来之后,搜索引擎会对其进行分析,将内容和链接分开,内容暂时先不说。分析出来链接之后,搜索引擎并不会马上去派蜘蛛进行抓取,而是把链接和锚文本记录下来交给网址索引库进行分析、对比和计算,最后放入网址索引库。进入了网址索引库之后,才会有蜘蛛去抓取。
也就是如果出现了某个网页的外链,并不一定会立刻有蜘蛛去抓取这个页面,而是会有一个分析计算的过程。即便是这个外链在蜘蛛抓取之后被删除了,这个链接也有可能已经被搜索引擎记录,以后还有抓取的可能。而且下次如果蜘蛛再去抓取这个外链所在页面,发现链接不存在了,或者外链所在页面出现了404,那么只是减少了这个外链的权重,应该不会去网址索引库删除这个链接。
所以说已经不存在的页面上的链接,也有作用。今天就分享这些,以后继续跟大家分享我自己分析的内容,如果有不准确的地方,请大家批评指正。
转载请注明来自逍遥博客@LiboSEO,本文地址:http://liboseo.com/1060.html
除非注明,逍遥博客文章均为原创,转载请注明出处和链接!
发表评论
西安市黄河小学
回复我生平最讨厌一个字,略!尤其是题不会做时。
西安二手笔记本
回复承诺就像放屁,当时惊天动地,过后苍白无力。
西安百度推广
回复好想把房子卖了,去环游世界,可惜房东不同意。
西安市工商局红盾网
回复钱虽然难赚,但是容易花啊。
西安芝麻开门
回复只要努力的时间足够长,搞不好,你还可以失败的更彻底。
西安火车站列车时刻表
回复好看的锁骨千篇一律,有趣的肚腩弹来弹去。
西安空气质量指数
回复我努力规划着我们的未来,而你却默默的策划着离开。
西安人才招聘会
回复穿白色衣服上班,并不代表你可以不背黑锅。
西安达内
回复哪有什么来日方长,挥手便是人走茶凉。
西安花店
回复生命中必然要放弃某些人,不是你不在乎,是他们不在乎。
西安外国语大学高职部
回复世上什么事逼急了,都能做出来,除了数学题。
西安空姐
回复喜欢一个人是藏不住的,就算躲在衣柜里,还是会被她老公发现。
西安第二炮兵工程学院
回复时间就是金钱,我在浪费时间?不~我只是在炫富!
西安天厚
回复终于中了500万,兑奖的时候,笑醒了。
西安最好的妇科医院
回复无毒的身躯扛下有毒的疫苗,你是教育我从小就要坚强!
西安seo关键字优化
回复夜太美,尽管再危险,总有人黑着眼眶修着仙。
西安国旅旅行社
回复其实命运,真不是喜欢和你开玩笑,它是很认真的想弄死你。