深度剖析SEO搜索引擎工作原理_搜索引擎

搜索引擎工作原理一共包括三个过程：网页搜索，预处理信息，建立索引。

细化分为：爬行—抓取—处理抓取信息—建立索引—呈现排名

一：爬行

爬行的目的：建立待抓取列表

谷歌爬虫：ddos 百度爬虫：spider

1、发现：

新的网站

被动等待：设置好Robots.txt文件，放在服务器等待爬虫自己过来爬取。（谷歌几周，百度一个月至几个月不等。）

主动引爬虫：写带有链接的软文花钱放在高质量高权重的网站中、利用权重高的博客、在质量高的论坛里发外链。

新的内容

能放首页放首页，否则尽量争取放在顶级栏目（总结：争取权重高的位置放）

Banner图片不如幻灯片，幻灯片不如文字。（总结：文字优先，图片写alt属性）2、爬虫分析：

查看：网站日志分析。Log文件里可查看站长工具：查看抓取频次。太高时会造成服务器崩溃问题及解决：网站访问突然为

先site下网站收录看看有没有被惩罚

分析日志爬虫，记录IP（蜘蛛、用户）

统计代码出现问题

3、爬行策略：

深度优先：一层栏目走到底（1百万-1千万个页面）广度优先：同行栏目分别收集（1百万个页面）混合：两者的混合使用（5千万-1亿个页面）

4、爬虫抓取障碍：

txt文件设置错误服务器本身的问题（动态IP频繁出现、服务器不稳定）URL超长，搜索引擎爬虫懒得直接不抓。爬虫陷阱

二：抓取

网页本身需符合W3C标准

页头信息：状态码：200（正常访问）、404（死链）、301（永久性重定向）、302（临时重定向慎用）、403（禁止访问）、5xx（数据库的问题）编码：建议使用utf-8. gb2312在国外打开是乱码TDK关键词：Title：尽量靠前，我们想让爬虫进入到某个页面就看到我们的主旨内容。

长度：33个汉字文章的话25个汉字足矣英文两个字符算一个字

位置：关键词位置前置

次数：不要过于重复太多（栏目可强调关键词，Z重要的放前面）

可读性：考虑到用户体验

原创性：蜘蛛喜欢新鲜的东西

Keyword: 首页5-7个、一级栏目5-6个、二级栏目4-5个、列表页3-4个、专题2-3个。Deion：（栏目必须围绕关键词写）

作用：提高点击率

密度：3-8%

长度：80个汉字

原创性：有利于收录

可读性：用户体验考虑

号召行动：活动、促销一类的页面

3、公共部分：

搜索引擎不会抓取重复部分(爬虫比较喜欢新鲜原创性的东西，重复出现的内容不利于抓取)

4、导航：主导航、次导航、左导航、SEO导航（标签）、面包屑导航（不要用JS实现）、

5、广告：

Banner图片不如幻灯片，幻灯片不如文字（总结：文字优先，图片写alt属性）。文字有利于爬虫抓取。

6、正文：

关键词：次数合适、密度适中3-8%、位置靠前（金花站长工具可以查出来）<H1>标签：唯一性，整个页面第一重要。含关键词，关键词尽量靠前<H2>标签：不唯一性，第二重要性。<H2>中可加其它的属性<alt>属性：只能用于<img>，意在告诉蜘蛛图片的解释<title>属性：为链接添加描述性文字，可为用户提供更清楚表达的意思锚文本：（一切讲究相关性）锚文本得有相关的关键词，且面面相关

三：处理抓取结果（预处理）

爬虫抓取后压缩成数据包返回数据库

相关性：因为百度算法语境分析+语义分析的原因，所以网站不要出现不相关的内容出现，否则搜索引擎也会撇掉的权威性：各种评奖、网络评比、申请百度客服增加信任度。

注：不权威造成的影响：同一篇文章，由于信任度高低，有可能自己被转载发布的文章自己的反倒在别人网站后面。

去重：一个链接不能有多个页面、同一个关键词不能指向不同链接、同一页面下不要出现不同链接相同关键词、

四：建立索引

搜索引擎的索引是反向建立的

首页 URL 76分

一级栏目 URL 80分

二级栏目 URL 96分

专题页 URL 70分

产品 URL 68分

百度分词：从前往后、从后往前、统计学、

第三步处理抓取结果的时候说到爬虫把抓取的内容压缩成数据包返回数据库。这时搜索引擎的索引库建成。当用户搜某个词（长尾词或短尾词）的时候搜索引擎会根据百度分词规律首先展现搜索词与索引库里完全一致的词。

网站SEO优化

SEO操作			SEO类型

网站定位
明确网站定位、用户定位,根据产品属性结合用户搜索习惯进行关键词研究和建立。
站内优化
网站结构及HTML代码优化、标题、描述、关键词定义；
图片ALT优化、快照缩略图优化、H\STRONG\FONT\P\DIV\LI标签优化
链接A标签设置、URL优化、死链、空链、#号链等处理
文本匹配与关键字设置、导航优化、目录优化、详情页优化
站外优化
百度收录主动请求代码、网站Sitemap.xml索引设置
高质量外链和友情链接建设、URL引导收录提交
搜索体验及缩略图优化、网页快照优化、权重评级提升
文章发布技巧
标题醒目、准确传递文章思想，标题具备高度的总结性和概括性
关键字设置从文章标题里提炼，必修按词组提炼有指数的关键词
文章摘匹配关键字并统揽全局，摘要必须准确表达文章的观点
文章配图必须121x75的倍数，文章发布后必做URL收录提交
SEO策略与技巧
确保链接被收录形成快照，确保网页快照参与权重评级
标题用部分匹配原则，描述用完整匹配原则
排名靠前的内链引导靠后的，提高搜索展现率和有效点击
内容用完整匹配、关键字加粗，内链锚文本与导出链接相关
链接层级扁平化、目录简短，合理使用网站导航和分类
重要链接放到第一屏，文案内容匹配长尾词而非主词
快速排名
单个键词是否进入搜索首页或前三
关键字必须在搜索引擎结果有排名
网站不需要过多调整、局部优化
排名速度快、一般2周左右
按约定验收客户指定的关键词
整站优化
整个网站从搜索引擎过来的流量
只要网站收录大于100条即可
网站每级都要做站内调整优化
整站优化初期相对较慢
根据主词持续扩展长尾词