顶部右侧 | 自行修改 顶部左侧内容
当前位置:网站首页 > SEO技术 > 正文

搜索引擎优化教程(二):了解搜索引擎的工作原理

seo秀 2019-05-12 1 浏览 0 评论

一、了解爬行器或爬行蜘蛛,我们知道,之所以我们能够在百度、谷歌中很快地找到我们需要的信息,就是因为在百度和谷歌这样的搜索引擎中,已经预先为我们收录了大量的信息。不管是哪方面的信息,不管是很早以前的,还是最近更新的,都能够在搜索引擎中找到。,那么,既然搜索引擎需要预先收录这些大量的信息,那么它就必须到这个浩瀚的互联网世界是抓取这些信息。据报道,全球网民已经达到十几亿的规模了,那么这十几亿网民中,可想而知,每天能够产生多少信息?搜索引擎又有何能耐把这么多的信息收录在自己的信息库中?它又如何做到以最快的速度取得这些信息的呢?,

一、了解爬行器或爬行蜘蛛

我们知道,之所以我们能够在百度、谷歌中很快地找到我们需要的信息,就是因为在百度和谷歌这样的搜索引擎中,已经预先为我们收录了大量的信息。不管是哪方面的信息,不管是很早以前的,还是最近更新的,都能够在搜索引擎中找到。

那么,既然搜索引擎需要预先收录这些大量的信息,那么它就必须到这个浩瀚的互联网世界是抓取这些信息。据报道,全球网民已经达到十几亿的规模了,那么这十几亿网民中,可想而知,每天能够产生多少信息?搜索引擎又有何能耐把这么多的信息收录在自己的信息库中?它又如何做到以最快的速度取得这些信息的呢?

首先,了解什么是爬行器(crawler),或叫爬行蜘蛛(spider)。称谓很多,但指的都是同一种东西,都是描述搜索引擎派出的蜘蛛机器人在互联网上探测新信息。而各个搜索引擎对自己的爬行器都有不同的称谓:百度的叫Baiduspider;Google的叫Googlebot,MSN的叫MSNbot,Yahoo则称为Slurp。这些爬行器其实是用计算机语言编制的程序,用以在互联网中不分昼夜的访问各个网站,将访问的每个网页信息以最快的速度带回自己的大本营。

二、搜索引擎每次能带回多少信息

要想这些爬行蜘蛛每次能够最大最多的带回信息,仅仅依靠一个爬行蜘蛛在互联网上不停的抓取网页肯定是不够的。所以,搜索引擎通过都会派出很多个爬行蜘蛛,让它们通过浏览器上安装的搜索工具栏,或网站主从搜索引擎提交页面提交而来的网站为入口开始爬行,爬行到各个网页,然后通过每个网页的超级链接进入下一个页面,这样不断的继续下去……

搜索引擎并不会将整个网页的信息全部都取回来,有些网页信息量很大,搜索引擎都只会取得每个网页最有价值的信息,一般如:标题、描述、关键词等。所以,通过只会取得一个页面的头部信息,而且也只会跟着少量的链接走。百度大概一次最多能抓走120KB的信息,谷歌大约能带走100KB左右的信息,因此,如果想你的网站大部分网页信息都被搜索引擎带走的话,那么就不要把网页设计得太长,内容太多。这样,对于搜索引擎来说,既能够快速阅读,又能够带走所有信息。

三、蜘蛛们是如何爬行的?

所有的蜘蛛的工作原理都是首先从网络中抓取各种信息回来,放置于数据仓库里。为什么称为数据仓库?因为此时的数据是杂乱无章的,还是胡乱的堆放在一起的。因此,此时的信息也是不会出现在搜索结果中的,这就是为什么有些网页明明有蜘蛛来访问过,但是在网页中还不能找到结果的原因。

搜索引擎将从网络中抓取回来的所有资料,然后通过关键字描述等相关信息进行分门别类整理,压缩后,再编类到索引里,还有一部分抓取回来经过分析发现无效的信息则会被丢弃。只有经过编辑在索引下的信息,才能够在搜索结果中出现。最后,搜索引擎则经过用户敲击进的关键字进行分析,为用户找出最为接近的结果,再通过关联度由近及远排列下来,呈现在最终用户眼前。

其大致过程如下图:

四、重点介绍Google搜索引擎

Google搜索引擎使用两个爬行器来抓取网页内容,分别是:Freshbot和Deepbot。深度爬行器(Deepbot)每月执行一次,其受访的内容在Google的主要索引中,而刷新爬行器(Freshbot)则是昼夜不停的在网络上发现新的信息和资源,之后再频繁地进行访问和更新。因为,一般Google第一次发现的或比较新的网站就在Freshbot的名单中进行访问了。

Freshbot的结果是保存在另一个单独的数据库中的,由于Freshbot是不停的工作,不停的刷新访问内容,因些,被它发现或更新的网页在其执行的时候都会被重写。而且这些内容是和Google主要索引器一同提供搜索结果的。而之前某些网站在一开始被Google收入,但是没几天,这些信息就在Google的搜索结果中消失了,直到一两个月过去了,结果又重新出现在Google的主索引中。这就是由于Freshbot在不停的更新和刷新内容,而Deepbot要每月才出击一次,所以这些在Freshbot里的结果还没有来得及更新到主索引中,又被新的内容代替掉。直到Deepbot重新来访问这一页,收录才真正进入Google的主索引数据库中!

【相关链接】

搜索引擎优化教程(一):认识搜索引擎优化

本文章始发于“独语斜栏”个人博客:http://www.nannannan.com/post/28.html转载请注明出处。

相关推荐

因果剖析:浅聊SEO失败的四个根本内因

市场效应往往都会因为个别现象而迅速升温,不仅仅是会带动小地区变化,往往也是表现整个行业的特征,现在多数SEOer面对的一个残酷的现实,不仅是工作的苦逼,同时一些过于依赖SEO的朋友也面临重大人生灰暗...

协同理念:概述网站文章优化五个操作重心

对于文章优化无非就那几点,其间章法技巧三磨四灼短时之间都可以迅速掌握,这类的心法技巧都无多大难度,但是内容或文章似乎在另一个层次上成为了一个揪心的痛点,这点普遍市场都是如此,不得不承认这种东西看似不难...

降低网站跳出率行之有效的三种方法

一个网站的跳出率过高,直接导致的结果会造成排名不稳定。根据理想青年工作室研究表明,网站跳出率并不会参与到初期的关键词排名中,但会参与到已有排名的优化中,也就是说,你排第一,他排第二,但你的跳出率是80...

邮件营销如何触碰“G点”,让用户高潮迭起、欲罢不能?

广告是让人讨厌的,毫无疑问。,在这广告充斥的互联网时代,QQ邮箱里的收件箱早已泛滥成灾。因此这样导致了QQ邮件营销的没落,人们对广告似乎已经产生了免疫功能。站在自己的角度来说,对于QQ邮箱的邮件,一大...

SEO自媒体运营速成视频:轻松引爆高精准流量的捷径

2016可以说是自媒体比较火爆的一年,就光写博客的,都有好几千草根站长加入了,但做得多不一定做得好,目前自媒体做得好的少之又少,更别说赚钱了,做互联网什么最重要?流量最重要!如何获取流量?自媒体运营推...

【大拿分享】如何发现并避免网站被劫持

说到网站被劫持,很多站长并不陌生,可如何才能有效发现并避免被劫持,是很多网站头疼的问题,学院特邀社区版主以利,为大家分享网站被劫持解决方案。, 一、什么是网站劫持,网站劫持:是指打开一个网...

九枝兰专访:利用大数据概率论可极大提高SEM投放ROI

前言:随着关键词CPC的竞争白热化,曾经的SEM投放从蓝海变红海,那些急需流量的企业主遇到极大的营销困境。用什么来拯救SEM投放?面对楚楚可怜的ROI我们到底还能做些什么?今天这篇文章也许能帮你找到新...

优化宝贝降权了?优化中你不能不知的小技巧

淘宝卖家在店铺的日常操作中,随着市场环境的变化,经常会遇到老链接再次优化的情况。本来这种情况在平常不过了。但是,很多卖家发现,重新优化了宝贝之后,排名下滑,流量骤降。,其实宝贝的各项优化:包括标题、上...

域名也重要?SEO优化排名

2015年-2016年优化变的更加有难度,百度为了在搜索方面也做多次的调整,相信很多优化的中作者都体会到了吧!,2016年下半年在北京的时候偶然碰见有个做多年的SEO总监,谈到SEO优化的事情,说到他...

换性别也别换域名!真要换?那就看看如何将损失降到最低

很多网站都经历过换域名,或者筹划着要换域名。讲真,换域名或者改动URL对网站来说都会有损失,刚刚完成换域名的三木老师用他的亲身经历给大家讲讲如何换域名,又怎能通过平台工具减少损失。,一、网站改版尽量别...

欢迎 发表评论: