谷歌的搜索雄心:让计算机像人一样思考

发布:追蝶   时间:2008-6-19   阅读:1069  

来源:腾讯科技

在周三召开的Gilbane内容管理会议上,Google搜索质量团队主管乌迪·曼伯尔(Udi Manber)在演讲中称,谷歌公司将在提高搜索质量问题上发起核心挑战,用他的话说就是要达到“我说要这些,就请给我所要的”。

换句话说,谷歌必须利用计算机来理解人类的思想。曼伯尔就此表示,“比较理想化的目标是,我们会理解你的问题,我们当然也掌握一切知识和信息,然后我们会将这二者完美地结合起来(给你答案)。”

当然,短期来看,目前的计算机技术还达不到这点。因此,谷歌将采取一条捷径,即谷歌希望通过尝试分析及概括所有内容,将用户的询问扩展为一个摘要版本,然后将上述二者进行有效结合,找出答案。

这个想法听起来象是一个相当漫长的道路,但显而易见的是,谷歌已将其标准及目标设定至一个非常高的高度。曼伯尔称,“我们将力求使用每一种语言,以个性化的时尚,在100毫秒(十分之一秒)内免费回答每一个问题。”

在曼伯尔看来,只有在开始就不曾被注意的情况下,人类的思想才可能成为一个谜团。他认为,20世纪是人类征服大自然的一个过程,而21世纪将是理解人类自身的一个世纪,计算机就是用于实现这一目标的一套工具。目前用于操作的最大的计算机群正在从事搜索、电子邮件及社会网络工作。

谷歌在针对某个特殊询问时如何确定答案的显示顺序上一直讳莫如深,这一向深为外界所诟病。因为众多的企业或公司对能否被排在搜索结果前列具有高度兴趣,而普通用户也希望一些令人感到尴尬的网页能够在搜索结果中消失。不过总的来看,现在谷歌已开始有所开放。曼伯尔在其5月发布的一篇博客上做出承诺,将在未来的几个月内就搜索质量相关提供更多消息。

曼伯尔在其演讲中与大家分享了谷歌搜索质量流程的几点内容。他表示,在决定搜索结果排序的过程中,谷歌考虑了100多个“信号”。这些信号涉及范围相当之广,包括从用户原有的搜索习惯中总结出的语言、地点等内容。不过用户只有在保留了利用谷歌进行搜索的历史数据情况下,谷歌才能了解到用户所在地点,并据此形成个性化的搜索结果。

曼伯尔还表示,在谷歌公司有成打的团队,其工作内容别无其他,只是分析搜索结果的质量,并用数百张图表来监测评定搜索质量。这些雇员的工作就是辅助工程师尽力提高搜索结果质量,同时谷歌公司希望这些工程师能尽量考虑并通过实验来验证一些新的思路以提高搜索质量。

曼伯尔称,谷歌的基本政策就是“去除工程师思想中存在的障碍……绝不允许一个工程师产生一个思路却不去寻求公司批准”。相反,公司会积极鼓励工程师做实验,同时公司会每周与其商谈一到两次,并通过数据来判断实验导致的变化是否可用于谷歌的主要搜索程序。

当然,这些实验活动都是在特定的群体或服务器上进行。曼伯尔称,“我在谷歌的团队有多达几千台的可自行支配的机器,它们都有1024TB的储存容量。这只是供我们自己使用的,而不是为了满足你们(用户)的询问。”

谷歌还在用户身上测试了搜索算法变化,不同的团体通过一个对比性的流程收到不同的搜索结果被称之为分裂A/B测试。

这样做最终产生的结果是,谷歌快速并频繁地采用搜索新技术。比如,2007年谷歌进行了450次搜索算法变化。

曼伯尔称,“我们尽力给每一位工程师提供条件帮助其提高工作效率。由于大多数工作都是基于数据,所以研究与开发二者之间没有被分割,每个人都同时从事这两项工作。”

在面对困难的搜索问题时,曼伯尔似乎更觉得是一种享受。在尽力使谷歌搜索质量提升与谷歌基础架构能力及规模的提升相适应方面,他好象总能找到乐趣。

他在演讲中还引用了一些搜索问题作例子,对于一个正常人而言,这些问题的意图似乎都很明确,比如:犹他州东南部的新型飞机于06年10月25日坠毁;马尾辫突出;我的肋部火辣辣地痛;6x/10x这道数学题的答案是什么;一磅有多少卡路里等等。但结果在这些问题中,谷歌只对肋部疼痛的问题给出了最好的搜索答案。

实际上,有些看起来很直接的问题也很棘手。比如,谷歌会使用语境来揣测用户查询“GM”到底是在问通用汽车的“General Motors”,还是在问遗传学的 “GM foods”(转基因食物)。

谷歌提供了各种各样的先进搜索配置,但它的基本宗旨是使用其单一搜索箱来搜索一切东西。曼伯尔称,“我们必须尽可能多地理解用户的需求,再给予他们所需要的答案。”