banner

搜索引擎工作的原理

搜索引擎工作的原理大致可以分为三步

1、抓取信息,搜索引擎蜘蛛通过跟踪链接发现和访问页面,读取页面代码,存入到数据库

2、预处理,索引程序对抓取来的页面进行整理,提取、分析、排序的处理,以备有搜索需求的时候进行调用。

3、排名,用户搜索之后,排名程序会调用处理好的数据,进行计算相关性,展现成搜索结果。

一、抓取信息

1、蜘蛛:搜索引擎用来抓取和访问页面的程序我们称之为蜘蛛(spider)。

1)会先访问robots.txt文件,是一种协议,让蜘蛛不要抓取的链接。

2)百度蜘蛛(baiduspider)、360蜘蛛(360spider)、搜狗蜘蛛(sogou+web+robot

二、跟踪链接

为了抓取网上尽量多的页面,蜘蛛会跟踪网页面上的链接,从一个页面的链接抓取到另外一个链接上面。这也是蜘蛛名称的由来,像蜘蛛爬行蜘蛛网一样。

这里可以分为两种:

1、深度链接:一直向前爬去、爬去到最后没有的时候,再回到第一个链接开始爬行第二个。

2、广度链接:一层一层的爬去。

(Ps做图讲解)

所以 ,我们为了自己网站更好的被收录,尽量做好深度链接和广度链接的处理。不要让链接断掉。也要采用不同的方法来吸引蜘蛛来抓取。

1、网页的质量与权重。质量越高的网站,爬行的深度也越深,内页收录的更好

2、页面的更新。需要不断的给网站增加新的页面,给蜘蛛养成一个习惯,如果说来你网站抓取的时候,内容一直是一样的。那么,以后就会分析出来,没有来的必要了。就不会有新的收录。(和给蜘蛛网投食一个道理)

3、导入链接。从别的有蜘蛛抓取的网页上面导入一个链接到你想要被抓去的页面上,有利于抓取。

4、与首页的距离,距离首页越近,抓取的越频繁,收录的也越好。

5、提交地址,可以通过sitemap和提交,让蜘蛛抓取的速度比正常抓取稍微快一点。

6、避免重复内容,重复的是没有必要的。

三、预处理

网上信息量巨大,不可能在你查询的时候实时的给出来符合你要求的信息。所以会提前处理好信息以作备用。这也就是为什么在站长里面显示有收录,但是网页搜索反馈的时候是没有的原因。

1、提取文字

搜索引擎会从代码里面提取出来文字、标签、alt属性文字、title文字、锚文字(加了链接的文字),其他没有的一些程序会在提取的过程中去掉。

2、分词,因为英文单词都是有空格的,中文分割没有那么明显。程序会根据自己的词库和网民搜索去区分,如果说,你的关键词有可能会导致百度分词不当的话,我们可以给这个关键词加粗,表明是一个词。

3、去一些没有必要的动词助词。比如:啊,的,得之类对整个页面没有实际意义的词,蜘蛛会给去除掉,提取有用信息。

4、去重复信息。如果说网页上有两篇一样的文章,一样的页面。所以,我们搜索某一个东西的时候,在百度上不会看见两篇一模一样的信息的网页。

5、索引排序

转载请注明本文来源地址:www.qiaoyiwangluo.com

您可能还会对下面的文章感兴趣: