1,搜索引擎必要对抓取到的效果进行管理。当索引效果越来越多时,保证存储和查询速度,保证数万台服务器内容同等的难度越来越高。Google于03至06年左右宣布了三篇论文,描述了GFS、BigTable、MapReduce三种技术以解决这些题目。因为Google并没有宣布算法细节,因此由雅虎牵头,在06年左右建立了开源项目Hadoop,目的是根据Google的三篇论文,实现一个大规模的管理计算体系。但直到08年,Hadoop同Google宣布的一些关键指标仍有几倍的差距。百度曾经由王选院士的一个博士带领,想基于Google论文自力实现(金字塔计划)一个本身的体系,但开发难度过大项目短命,Z终也转向了Hadoop。现在,Amazon、Facebook、Yahoo包括百度都在大规模应用Hadoop,而Google已经从2010年开始迁移到新的三驾马车Caffeine、Pregel、Dremel上了。单就搜索技术而言,Google不是领先百度,而是领先全世界。
2,2009-2012年,Google宣布了世界上第一个全球化的数据库体系Spanner,这套体系将分布在全球各地的数据中间连接到一路,行使原子钟和GPS,打破了地理间隔,实现了全球规模具有同等性和实时性的数据库。在Google之前,许多人认为这种体系不可能做出来,但Google做到了[1]。
另外,除了搜索,Google在深度学习和机器人方面也是全球领先的,尤其是后者。尽管百度也有深度学习研究院,但在这两方面跟Google比起来完全是空白。
事实上,让百度来和谷歌比是很不公平的,搜索只是Google的一个部门,但却是百度一整个公司。Google的竞争对手是Apple、Amazon、Facebook和Microsoft,百度的竞争对手是360、搜狗。Google没了搜索,还有Chrome、Android、Motorola、Youtube,百度没了搜索,那就什么都没有了。
Exclusive: Inside Google Spanner, the Largest Single Database on Earth
本文作者:Kenny Chao 文章来源:知乎