曾被喻为创新机器的Google,连同盛极一时的古格尔教(Google宗教),正在全球范围内经历一个不可逆转的去魅过程。Google还在创新吗?面对诸多创意迭出的第三代搜索引擎的出现,PageRank 算法——Google所赖以成名的利器,似乎并没有给我们提供一个比其他搜索引擎更相关或者呈现方式更好的搜索结果。
比如说,在Google搜索框输入关键字查询,搜索结果往往会是数目多到目不暇接的一个个网页,除了提供的网页数日甚一日的多之外,你很难发现所搜索的结果和一年前有何分别。并且,呈现在你面前的这些网页几乎是没有经过任何处理的,比如自动分类、聚类、关联、个性化呈现等等。此外,当PageRank算法用于决定由大量社区内容、个人主页、blog组成的网页的相关性时,也越来越显得捉襟见肘,因为这些微内容的相关性排序很难套用PageRank算法。
第二代搜索的软肋
作为Google排名运算法则(排名公式)的核心,PageRank算法假定:某个网页被链接得越多,则该网页的等级和重要性就越大,从而在相关性排序中也就越靠前。PageRank的等级以PR值计算,PR值越高说明该网页越重要。虽然Google的排名算法实际上要远为复杂,比如还揉合了Title标识、Keywords标识等上百个参数和变量,但囿于关键词搜索本身的局限,Google并没有在搜索结果的相关性等指标上与其竞争对手拉开距离,如果不是有所不如的话。
事实上,第二代搜索引擎所具有的局限性,Google几乎无一幸免。
大体而言,第二代搜索的局限见于如下四个方面:
其一,提供的提问函数相当有限。例如,雅虎只提供与、或运算,并且一旦选用了一个逻辑运算符,即必须应用于所有的关键词;再如,百度搜索仅支持与、或、非布尔表达式,而不支持异或,也不支持关键词之间的位置检索或者勾选搜索结果;
其二,仅支持单个关键词或者一组关键词及逻辑运算符组成提问,而并不支持自然语言搜索或语义搜索。以百度为例,百度搜索支持字串搜索,当用户输入一段话进行查询时,百度会将其切分成多个词,按照逻辑“与”的关系进行关键词搜索,但搜索结果充其量仅能做到差强人意。所以如此,是因为关键词搜索本身并不是基于对内容的理解,所以关键词与搜索结果之间的匹配很难做到精准,往往是搜到哪算哪。
其三,不能利用历史信息进行搜索。用户的每次搜索都是从头开始,而不能从原有的查询结果中作进一步选择;
其四,呈现方式单一、呆板。多数搜索引擎只返回一个长长的搜索结果列表,其中可能有数以万计的包含关键词的网页,但这些网页是否以及在多大程度上与用户的搜索意图相关,则不得而知。
Google的颠覆者
在看到pagerank的局限性以后,一些新兴的搜索公司开始尝试通过提供更精准、更个性化的搜索结果,从在呈现方式上数年一贯制、几无创新的Google那里抢夺市场份额。
例如Clusty,该公司通过借鉴Autonomy的模式识别技术以及自动分类等功能,可基于对概念的理解提供搜索结果的自动分类等功能。此外,像Grokker、Snap、Dogpile这样的后起之秀,也纷纷以更个性化的搜索结果呈现方式为招徕,连连攻城掠地。
最近在美国颇受用户赞誉的另一个搜索引擎swicki,也在个性化和精准搜索方面可圈可点。虽然swicki的大部分内容来自Google,但同样针是对关键词,swicki可以根据用户注册时的使用偏好、搜索习惯,提供出不同的搜索结果。通过对搜索结果的二次评判,swicki还可以逐步校正搜索结果列表。
在国内,除了类似bbmao这样的社会化搜索引擎开始提供自动分类、聚类、用户收藏等功能而崭露头角外,老牌搜索厂商雅虎中国,也在搜索算法和呈现方式上进行了诸多改进,不仅强化了对社区内容、blog等微内容的数据抓取,而且在个性化呈现、模糊搜索等方面也有较大举措。
一个例子是,此前一个月,雅虎中国、雅虎全球、阿里巴巴三方联合推出了一个具有智能模糊匹配功能的搜索引擎——雅虎Imatch。据称,该系统可以根据用户的搜索习惯和意图,智能匹配相关的搜索结果。
呈现方式的革命
Clusty、bbmao等元搜索引擎的自动分类、聚类功能一出,即大受用户追捧,专家也认为其提供了比之Google更精准、细分的呈现方式,殊不知Clusty、bbmao等所提供的自动分类、聚类功能本身一点都不新鲜。早在10年前,英国的企业搜索巨擘Autonomy已经提供了同类乃至更智能的呈现方式。
例如,Autonomy基于某种专有的模式匹配和概念搜索的算法,可以自动根据文本中的概念进行分类,自动标引,并基于用户兴趣自动匹配出个性化、多侧面的直接或隐含的相关档案。当用户在搜索框中键入某个关键词,出现的结果可能被系统自动分为10类(或更多类),若其中9类与用户的查询期望距离较大,用户就可以将接近的那个结果作为查询条件,进行第二次查询,直到找到最需要的搜索结果。而Google、百度等第二代搜索引擎则主要使用SVM和KNN算法进行分类,因为算法的先天缺陷,分类准确率仅能达到80%到85%。并且,如果分类树有变更,如增加、修改或删除某个分类节点,整颗分类树就必须重新学习。
同样因为基于概念的理解,Autonomy还可以通过抽取文档中包含的重要概念,把相似的文档聚类到一起(相关性算法),自动生成类别的标题,并支持二维岛图、二维趋势图以及三维立体图的图形化结果展示。前不久Google趋势搜索以及百度指数的推出,在某些方面可视为对这一功能的一种模仿。
更值得一提的是,模式识别算法还可以分析信息间的主要关系,进而实现内容间的交叉索引对照和自动关联,并实时生成超链接。换句话说,该算法可以不仅可以做到精准定位用户的搜索意图,还可以提供用户可能压根想不到的搜索列表。当用户不知道用什么关键词去搜索的时候,这种对相关信息的引发就可以满足用户的一些“模糊需求”,而这是Google等第二代搜索所不具备的。
浮现中的第三代搜索
作为对第二代搜索的一种超越,第三代搜索的范式革命不光见于呈现方式,而是表现为参差多态的演化路径,例如个性化搜索、社会化搜索、本地化搜索、知识问答社区、社区内容搜索等等。而在核心搜索技术上,则大致包含人工智能、模式识别、语义分析、神经网络等发展方向。由于神经网络搜索和人工智能搜索耗资巨大,目前还没有出现成型的搜索引擎,不过,包括Google、微软、IBM、Roussinov等在内的搜索引擎均已将人工智能搜索的研发提上了议事日程。在国内,Aisou等公司也跃跃欲试,随时准备推出人工智能搜索产品。
值得一提的是,Autonomy的模式识别技术本身也包含有语义分析技术和部分人工智能技术。虽然迄今为止,计算机还无法做到完全理解语言,但通过采用基于统计学、概率论和信息论的概念识别技术,Autonomy可以理解信息的意义和信息间的连接。用户搜索时可以直接以自然语言输入一句话或一段文字,甚至一篇文章,Autonomy会自动判断用户查询条件所描述的概念,从企业文档库中查找所有和用户搜索概念相关的文档。显然,语义搜索比传统关键词搜索更能精准定位用户的搜索意图。
由于是基于对概念和概念之间关系的理解,Autonomy还可以利用精选内容中完整的上下文,实现概念提炼或基于例子的提炼,进而聚焦用户所感兴趣的概念结果,并提供自动建立档案、社区及协作、信息自动推送等个性化搜索功能。不光如此,该系统还可以自动判别使用者的身份,并通过不断学习更新系统的知识库。
关于第三代搜索,众多的创新者已经为我们勾勒出一个大致的轮廓,但可以预言并且相信的是,
浮现中第三代搜索引擎今后的进化之旅,还会有很多很多超出我们的想象。