这些spider知识,是你应该知道的

  spider也就是大家常说的搜索引擎爬虫、蜘蛛或者搜索引擎机器人。它是处于整个搜索引擎Z上游的一个模块,只有spider抓回来的页面才会被索引和参与排名。

  这里有一点需要注意,只要是spider抓到的URL都可能会参与排名,但参与排名的网页并不一定就被spider抓取到了内容。

  spider离不开入口,所谓的入口就是页面的链接。没有链接的页面,spider是无法进行抓取的。

  spider根据作用和特征可分为3类,分别是批量型spider、增量型spider和垂直型spider。

  1、批量型spider

  是一种限制性spider,限制性表现在爬取得范围受到限制,抓取的时间和数量受到限制。达到预先设置的抓取目标就会停止。站长常用的采集程序就是批量型的spider。

  2、增量型spider

  也叫做通用爬虫。这是一种无限制的spider,可无休止的抓取下去,直到抓取完毕为止。当页面发生变化时,也可进行二次抓取。目前主流的搜索引擎百度

  谷歌等全文搜索引擎的spider所派出的爬虫都属于增量型spider。

  3、垂直型spider

  也叫聚焦爬虫, 有特定的抓取范围。

  现在我们常见的图片搜索、视频搜索、新闻搜索等都属于垂直搜索范畴。抓取这些内容的spider叫做垂直型spider。需要特别指出的一点是,其实垂直型spider完全可以看做是有一定限制性的增量型的spider。

  在这3类spider中,增量型spider是Z为常见的一种spider。