例如百多、360、谷歌搜索等等这些搜索引擎,用户在搜索框里输入的叫做“查询词”,经过分词切分出来的单词叫做“检索词”,进过搜索引擎的一系列的算法计算后得出搜索结构。那么,搜索引擎是如何来进行抓取索引的呢?怎么计算Z后得出哪个页面作为搜索结果呢?

    这些并不能算SEO的优化技术,为了让大家在今后的优化操作中更得心应手,避免因为一些基础的问题闹笑话,先了解下搜索引擎的工作原理;例如:一个没有收录的网站为什么没有快照?快照的时间是页面被索引(收录)的时间,没有收录就不会有快照。像这些问题是搜索引擎的基本问题,认真看完本章,了解搜索引擎的工作原理,解决在SEO优化的时候“为什么要这么做”的问题是一个SEO应当有的潜意识反应。

    搜索引擎直至现在,都是在不短完善用户体验,争取在用户搜索查询时输出Z匹配的结果,从而让用户依赖上搜索引擎,才能赚取更多的广告费用(例如百度推广),举个例子:CCTV频道的用户很多,但是从不跟看CCTV的用户收钱,但能赚到很多的广告费;在这里指的匹配不光是字符上的匹配,我们可以去百度搜索“PC”会看到“电脑”也是飘红的。


SEO学院

    或者搜索某一明星,其搜索都会出现相关微博、百科、视频等等;这就说明了匹配不仅仅是指字符上的匹配,还匹配了用户的需求;对于想了解明星的,百度展示了百度百科,针对粉丝群体的,百度展示了百度贴吧、微博。能够更匹配用户的需求,这是搜索引擎长期的研究项目。

    从搜索框输入关键词,到百度给出搜索结果,每一个结果都对应一个页面,每一条搜索结果从产生到展现出来,都需要进过四个过程:抓取、过滤、建立索引、输出结果。


搜索引擎基本工作原理

抓取

    百度蜘蛛(Baiduspider)会通过系统计算,来决定对哪些网站进行抓取,以及抓取的内容和频率。搜索引擎计算会参考您网站在历史记录中的表现,比如内容是否优质,是否对用户存在不友好的设置,搜索引擎过度优化等行为。

当我们的网站有内容更新时,百度蜘蛛就会通过互联网中某个指向该页面的链接进行访问和抓取,如果我们没有设置任何的外部链接指向网站中的新增内容,百度蜘蛛就无法对其进行抓取;对于已经收录的内容,搜索引擎会对抓取页面进行记录,并依据这些页面对用户的重要程度安排不同频次的抓取更新工作。

注意:有些抓取软件,为了其目的,会伪装成百度蜘蛛对我们的网站进行抓取,这可能是不受控制的抓取,严重时会影响到网站的正常运作。

   蜘蛛相关知识

1.蜘蛛的介绍

搜索引擎对互联网网页的爬取工作是由爬虫来完成的,爬虫指的是一个爬取程序,通常我们称为蜘蛛,百度的爬虫命名是Baiduspider(中文译为:百度蜘蛛)谷歌的爬虫命名为GoogleBot(中文译为:谷歌机器人),国内大部分是做百度搜索引擎的排名优化,所以普遍把这里的爬取程序叫做蜘蛛。

2.蜘蛛的功能

1)  对目标页面进行爬取,资源下载存取到网页库。

2)  对已下载的网页进行链接识别,提取网页中的链接,作为待抓取目标。

3.蜘蛛的抓取策略

蜘蛛不仅要对目标网页进行抓取,也同时发现新的URL(网页地址),那么蜘蛛是如何收集URL的呢?搜索引擎抓取了A页面的信息,并且收集A页面上所有的URL,去掉库中已经存在的链接,新的链接添加到待抓取队列。对这些新的URL什么时候再去进行抓取,跟A页面的权重有很大的关系,通常业内人士所说的引蜘蛛就是去蜘蛛访问频率较高的页面去留下自己网站的链接,让蜘蛛更快的发现该链接。

4.蜘蛛的识别

可以先在IIS日志中找到蜘蛛的IP地址,然后点击开始-运行-输入cmd-点击确定-输入nslookup IP地址-回车。有百度蜘蛛的信息;


SEO学院

过滤

互联网中并不是所有的网页都是对用户有意义的,比如一些欺骗用户的网页、死链接、空白页面等等。这些对用户、站长和百度啊来说是没有足够的价值的,所以百度会自动对这些内容进行过滤,为用户提供更好的互联网环境。

  过滤的相关知识

1.网页去重

并非每一个被蜘蛛抓取来的新页面都会添加索引(收录),而是还要考虑这个网站有没有收录的价值,影响要不要收录某一已经抓取的网页,还要考虑页面的重复度,如果同一篇文章或者具有高相似度的文章被多次收录,是浪费搜索引擎服务器的资源,并且也不能很好的维护原创,若没有人出原创,从而无法给用户提供潮流的内容。

2.信息结构化

爬取程序从互联网上下载我们网站的页面资源添加到网页库,期中包含图片、锚文本、正文等等。搜索引擎需要对页面信息结构化。从而获得网页中的页面标题、锚文本、正文标题、正文等等,由此可见,如果一个网站所有的页面标题一样的话有多么可怕。

3.查重技术

简单的举一个例子:想要知道两个网站的重复度,根据出现频率高或者频率低的关键词是没有多少价值的,我们可以这样,去除一篇文章中使用频率高的词,像我们、可能、但是等等这样的词,去除使用频率低的词像灰太狼、二大爷、杜甫等等;来比较剩下的中频词。大家进行伪原创的时候,喜欢用“咱俩”代替“我们”等等,其实这些并不是搜索引擎查重的对象所在;搜索引擎判断两篇文章相似度的方法有很多,这里只提及到一部分,不付出稍微高成本的伪原创基本上是行不通的,高质量的伪原创就是对原文的修饰,变得更适合读者阅读,这就是优质的文章。

4.网页消重

对于两个重复的或者高相似度的文章来说,搜索引擎会去掉哪一个,一般有下面三种情况:

1)  追踪该文章的原创,保留原创。

2)  对曝光率较大,用户多的页面保留,使用面发挥Z大价值。

3)  保留Z先被收录的页面,保护版权。

对于百度搜索引擎来说,我们一般看到第二和第三两种情况,但并不是绝对不允许重复收录。追踪文章的原创出处,消耗量大,也不准确。保留用户多的页面,而多次被检索到,对用户体验来说也是有利的,从而Z先收录的页面可以认为是原创页面。这有我们经常会发现同一篇文章,实际上被收录很多,是因为原创被保留,平台转载的也被保留了。

    总结:合理利用搜索引擎工作的原理提高我们的网站质量,让我们的网站更稳定,优质。


我的下一篇文章将会讲到建立索引、输出结果的具体内容。

技术文章来自:www.webseo.com.cn