《小时代3》背后:百度知识图谱前夜

05.08.2014  16:34

  这几天百度不断出新,让人目不暇接。在极简首页之后,《小时代3》的百度知识图谱也悄然在搜索页上线。《小时代3》大热之际,其错综复杂的人物关系并不是每个观众都能理清,百度通过掌握的知识图谱数据直接给出了清晰的网状关系,可视化、支持互动。笔者注意到这个产品的网址前缀是tupu.baidu.com,看来接下来百度必然会推出各种独立的“图谱”页面,知识图谱产品狂想曲已然奏响。

  我们已从信息时代进入知识时代

  如果要对互联网进行分层,它大概可以分为四层。

  最底层是将实体世界比特化的“数据”。二进制存储技术、文件结构以及数据库解决的便是“数据”的问题,今天则已进入“大数据”时代。搜索引擎此时比拼的是数据索引量和搜索结果集的大小。

  数据上一层则是信息,数据是更底层是给机器的,信息则是给人读的,有逻辑有决策参考价值,数据处理之后便成为信息,信息革命的说法正是印证了互联网的核心是信息。这时候搜索引擎核心是精准地连接人与信息。

  信息上一层就是知识,信息中有价值的部分沉淀下来与人类积累的知识体系融合在一起,就成为互联网的知识。WIKI百科、百度知道和知乎这些产品本质上都是围绕知识在转。信息过载成为人类负担,知识沉淀则成为人类的财富。互联网知识图谱远超图书馆等传统的知识沉淀方式,价值十分可观。搜索引擎在知识时代的价值则是帮助人们找到准确的答案。

  知识再往上是智慧。人类基于知识,根据物理世界规律找到的解决实际问题的能力被归纳为智慧。知识是“我知道什么”还不足以解决“做什么、如何做”这样的问题,不乏有人满腹经纶但在生活和滚工作中缺乏智慧。但智慧与知识相辅相成,智慧让知识更加丰满,知识则是智慧的前提。

  我们已经从信息时代进入到知识时代。在信息过载的大背景之下,在互联网侵蚀实体世界的趋势下,解决现实世界的实际问题更加重要。搜索引擎的使命转变为连接人与服务,而不再只是连接信息,它需要准确地回答人们的实际问题,给人们提供完备的服务。知识图谱成为智慧搜索的基石。

  百度知识图谱进入普及前夜

  知识图谱(Knowledge Graph)被称为科学知识图谱,“它显示知识发展进程与结构关系的一系列不同图形,用可视化技术描述知识资源及其载体,挖掘、分析、构建、绘制和显示知识及它们之间的相互联系”。

  简单说,知识图谱是搜索结果体系化、关联化和可视化,任何一个搜索请求都能得到一个知识体系,不再只是线性的网址列表,而是网状知识结点,譬如搜索“小时代”便可看到角色关系图,搜索地名则可以看到地图、天气、旅游景点等关联信息。

  知识图谱带来几个改变。一是结果更加准确。用户搜索关键词可能有多重意思,知识图谱可以展示最全面的信息,更有机会命中用户需求;二是结果包括全面的摘要,《小时代3》图谱便可看到关联的演员、作者介绍甚至微博相关话题;三是搜索更广更深,通过知识图谱建立的关系让用户可以通过互动、点击拓展搜索的深度和广度。

  更准、更广、更深的搜索是百度一直在追求的目标。尤其是在大力发展移动搜索的当下,更是需要让搜索做到精准无比,以降低用户输入和选择成本。当百度极简首页上线,无需用户选择频道时,它的结果必然要足够精准和全面,击中用户需求才行,知识图谱的能力正在于此。

  百度一直都十分重视知识图谱并且有先天优势,去年便陆陆续续出现百度知识图谱的消息,能回答“第三个字是风的成语”、“谢霆锋的前妻的儿子的爸爸的年龄”这样的推理问题就是知识图谱的应用。结果页右侧的关联结果,也是知识图谱的应用。本次知识图谱的可视化展现,是通过百度内部前端开源产品Echarts实现的。

  《小时代3》知识图谱上线、tupu.baidu.com域名出现以及百度极简首页上线这几个迹象则表明,百度知识图谱产品狂想曲已然奏响。

  与Google、Bing和Facebook知识图谱的不同思路

  在技术上Google和Bing一直与百度分庭抗礼,在知识图谱上,三家都有着很强的积累。去年社交巨头Facebook也推出Graph Search进入社交图谱搜索。

  Google在2012年推出知识图谱产品,不管用户搜索的关键词是代表了地标、名人、城市、球队名、电影、专业词语还是一种菜的做法,Google 的“知识图谱”都可以将搜索结果的知识体系完整的呈现出来。此外,Google有Search Plus Your World这一结合Google+的社交搜索产品。

  Bing在中国推出了人立方社交人际关系搜索引擎,你可以查看一个人名的热度,TA的关系网络图,TA最亲密的好友,这款产品基于全网WEB数据以及新浪微博的开放数据。由于只能搜索人际关系,与其他知识分离了,因此人立方并没有什么起色。

  随着Facebook GraphSearch的推出,Bing将知识图谱与社交网络结合起来的定位显然是尴尬的。因为Bing并没有自己的社交数据——在Space和MSN均宣告失败的情况下。

  Facebook Graph Search是基于社交图谱的搜索,可以搜索“洛杉矶XX街道最近一年接待我的朋友最多的餐厅”这样的问题。GraphSearch没有大获成功,因为Facebook只有封闭的社交数据,基于这些数据能够组织的知识,能够给出的结果,能够满足的搜索场景都十分有限,它只是一款过得去的站内搜索。

  Bing和Facebook的在图谱搜索上的失利说明了社交既非必要条件亦非充分条件。Google和百度完全从搜索出发基于十多年沉淀的知识图谱、用户数据,利用擅长的大数据和深度学习算法,反而可以把知识图谱做得更加全面、精准和完备。

  Google和百度在知识图谱探索上还是会有所不同。Google知识核心来自WIKIPEDIA、Freebase等网站,百度05年左右开始的UGC知识产品战略,使之拥有强大的自有知识图谱,分别来自百科、知道和贴吧这些产品的数亿条数据和关系。目前百度的知识图谱已经涵盖十几大领域,数十个类别,拥有上亿实体量。通过构建宏大的知识网络,整合碎片化信息,再以图文并茂的方式展现出来,人们便可以在轻点鼠标的片刻,迅速获取知识、找到所求。

  值得一提的是,自今年以来,百度在搜索结果页上频出新产品,除了人物关系图谱外,在有焦点事件如汤唯订婚等新闻发生时,搜索结果右侧便会呈现出相关人物关系的智能推荐;每逢世界杯等重大赛事活动举办时,即时更新的时间脉络图谱也会清晰展现在右侧;而用户搜索“故宫”、“颐和园”等景区,可直接得到景点地图、人群分布图、周边交通信息、景点推荐等信息……

  众所周知,知识图谱对“语义识别”技术门槛极高,对社会化开源内容有很强的支撑需求,且是依赖大量用户的行为数据库的产品形态。百度搜索本身就是一个大数据来源,同时百度还拥有来自像百度百科、百度知道、百度文库等产品的多方面数据支持,这些共同将百度打造成一个数据航母战斗群,促使百度能够在一年时间里完成了近百亿实体知识图谱的构建并且实现了平台化,这样百度知识图谱就能够快速切换支撑多个产品的发展。

  知识图谱可以让用户得到全新的搜索体验,让用户更快速接近答案和服务。笔者思考的一个问题是:继阿拉丁之后,知识图谱是更强大的用户需求满足方式吗?