对于一个SEOer,或者一个需要和SEO打交道的网站制作者而言,准确了解网络搜索引擎能看见什么,看不见什么,将有助于我们更加合理地推进工作。
搜索引擎并非完全不具备图片内容辨识能力,但它通常是只能判断出有一张图片正在显示,但是通常其无法识别这张图片的内容是什么。除非这张图片的提供者用ALT属性提供了相关信息。搜索引擎对图片的辨识是通过识别像素颜色来完成的,比如能通过图片中肉色比例来判断是否是色情图片,这种判定方式实在是只能用“很弱”来评价。正因为很弱,所以这种判别是极不准确的——想必各位还记得当初“绿坝”将加菲猫的图片误判为色情图的笑话。目前,搜索引擎通过光学字符识别技术已经能简单判断图片中包含的文字信息,但一般只限于比较工整的字体。
较早期的SEO观念认为,搜索引擎无法识别FLASH文件。在目前,这个认识已经严重过时了。无论是Google还是baidu,它们都可以从FLASH中抽取有用信息来提交搜索结果。但是如果要解决判定这是个展示什么的FLASH文件,对于目前的搜索引擎来说还有难度,因为搜索引擎更侧重于文字信息的抓取。而FLASH的制作者通常喜欢以图片和音频内容来完成自己的制作,可能出现的少量文字内容通常无法准确诠释该文件的实际内容。
音频和视频文件也是搜索引擎通常会略过的内容,除非是使用了AD3标签的MP3文件或者使用了AAC格式内嵌文字性说明的增强型播客。但别指望目前的技术能做到让搜索引擎辨别这里音频和视频里到底在说些什么玩意儿。
同样的,搜索引擎无法解析文件的源代码,也无获取任何编写者不希望它获取的网页信息。尽管蜘蛛整天在各类网页源代码上攀爬着,但只要标记nofollow,那么相关代码内容就会被蜘蛛所忽略。
对于网站制作者来说,有一个问题是特别需要注意的——蜘蛛对于AJAX表示束手无策。由于AJAX的动态显示方式,其直接从数据库获取信息而不需要刷新页面,故蜘蛛无法解析那些只会直接显示在用户电脑上的内容。不少JavaScript脚本也存在着相似的问题,即在用户仅仅输入而不执行任务之前,HTML中不生成相关内容。