这些spider知识,是你应该知道的
spider也就是大家常说的搜索引擎爬虫、蜘蛛或者搜索引擎机器人。它是处于整个搜索引擎Z上游的一个模块,只有spider抓回来的页面才会被索引和参与排名。
这里有一点需要注意,只要是spider抓到的URL都可能会参与排名,但参与排名的网页并不一定就被spider抓取到了内容。
spider离不开入口,所谓的入口就是页面的链接。没有链接的页面,spider是无法进行抓取的。
spider根据作用和特征可分为3类,分别是批量型spider、增量型spider和垂直型spider。
1、批量型spider
是一种限制性spider,限制性表现在爬取得范围受到限制,抓取的时间和数量受到限制。达到预先设置的抓取目标就会停止。站长常用的采集程序就是批量型的spider。
2、增量型spider
也叫做通用爬虫。这是一种无限制的spider,可无休止的抓取下去,直到抓取完毕为止。当页面发生变化时,也可进行二次抓取。目前主流的搜索引擎百度
谷歌等全文搜索引擎的spider所派出的爬虫都属于增量型spider。
3、垂直型spider
也叫聚焦爬虫, 有特定的抓取范围。
现在我们常见的图片搜索、视频搜索、新闻搜索等都属于垂直搜索范畴。抓取这些内容的spider叫做垂直型spider。需要特别指出的一点是,其实垂直型spider完全可以看做是有一定限制性的增量型的spider。
在这3类spider中,增量型spider是Z为常见的一种spider。