这个常识提取引擎看起来比百度还好用一丢丢

责任编辑NO。许安怡0216 2019-11-10 13:19:33浏览次数：4591

（原标题：这个来自我国的常识提取引擎，看起来比百度还好用一丢丢）

文/光谱

作为文字工作者，我每天都在跟查找引擎打交道。

比方在写Facebook的财报新闻时，Google能够告诉我它的实时股价、市值、近期高低点等十分有用的信息。

但其实，还有另一个东西比Google更好用，那便是Wolfram Alpha。它比Google更进一步，能够用结构化的方法直接列出我或许需求的常识。

举个最简略的比方：我家带宽是75Mbps (9.375MB/s)，要下载一个100GB的文件需求多久？我能够直接用自然语言问询，Wolfram Alpha不只会告诉我答案，还会写出公式：

它不仅仅一个数学东西，仍是一个很好的常识聚合东西。比方最近电影《小丑》很火，假如我想写关于它的文章，上Wolfram Alpha一搜就能找到许多细节，包含并不限于影片信息、排名和票房等。

精确来讲，Wolfram Alpha并非一个查找引擎。它的官方界说叫做“核算式常识引擎”，可拿来答复那些没有揭露答案，可是核算一下即可得到的问题。并且，它用结构化的方法去展示答案，而不是像查找引擎那样，把链接一条一条列出来。

接下来介绍今日文章的主角：Magi，一个最近几天在我的技能圈朋友中心小有名气的东西。

Magi看起来也像是一个查找引擎：

可是只需玩上一次，就会发现，它和你印象中的一切查找引擎都大不相同。

当我用它查找词条“易烊千玺”时，得到了下面的成果。

首要，答案供给了对易烊千玺的几个要害描绘，如“TFBOYS的成员”、“00后国民偶像代表”等。紧接着，它列出了关于词条主人的简直悉数的重要特点，包含由他出生年月、参演的影视作品、宣布的音乐专辑等。

答案的结构化展示方法，和Wolfram Alpha颇有相似。

甚至连千纸鹤（易烊千玺粉丝代称）的应援色都答了出来

更风趣的是，magi.com还答出了易烊千玺的几个近义项，比方他的昵称、代称和他所养的宠物等等。

有时分，Magi还能给出一些令我哑然失笑的成果……

输入了一下“新世纪福音战士”。答案的描绘中有“业界有名的劳模”……

又搜了一下小岛秀夫，答案里的“特长”一项我也是醉了……

接下来搜了一下富坚义博。

或许由于职业生涯中大部分时刻都在拖稿，magi.com告诉我富坚的业余爱好是“画画漫画”……

当然，大部分时分magi.com给出的答案仍是比较靠谱的。

查找到的答案，每一条都会用以绿、黄、红三种色彩表明其可信度从高到低；在答案的右侧则会供给几条链接，用鼠标划过它们即可看到，答案是从哪个/哪几个详细的来历学习到的：

你会注意到，magi.com的成果中，答案在正下方，链接跑到了右边，跟干流查找引擎的用户界面彻底是反的。

这便是Magi和干流查找引擎最大的差异地点：链接关于它不是成果，答案才是。

这是由于Magi并非查找引擎（虽然具有一些查找引擎的功用）。它其实便是一个根据机器学习的常识引擎，能够检索和提取任何范畴自然语言文本，将其间的常识提取出来，构成结构化的数据。

说得简略一点：

咱们都知道，互联网上有着许多的，根据文本的信息，傍边蕴藏着许多的常识。可是，核算机读不明白互联网上大部分的信息，由于这些信息往往不是以“性别：男”、“国籍：我国”这样的结构化形状，而是以自然语言的形状出现的。

比方，”埃菲尔铁塔的高度“是一个入门级的问题，由于早已有人收拾出了正确的答案，写在维基百科和旅游网站上；可是想知道“埃菲尔铁塔的第二节电梯线路有多长”，就很难在查找引擎上查到精确信息了。这是由于很少有人会把这些细节的数据，以结构化的方法记录在互联网上。

这便是Magi想要处理的问题：从敞开范畴的纯文本傍边提取常识，并让其可解析、检索和溯源。

Magi来自我国团队Peak Labs，创始人季逸超在开发者圈子内也小有名气。2011年，还在北大附中读书期间，他就单独完成了猛犸浏览器iOS的开发。次年，他只用两天时刻就完成了Rasgueado，第一个支撑划动手势操控光标方位的iOS输入法

2012年，季逸超创办了自己的公司，持续推进浏览器和输入法项目。现在，Peak Labs首要精力都放在Magi项目上，专心于背面的技能，以及相关商业产品的开发。

中心：季逸超

Peak Labs并没有方案将Magi和Google、百度之类的干流查找引擎混为一谈。把Magi做成一个“查找引擎”，首要是为了让大众有时机能够体会它背面的技能，感触它能够供给的价值百科。

即便如此，看起来很像查找引擎的magi.com，实力仍是不容小觑。事实上，为了这个演示性质的产品，Peak Labs并没有挑选小聪明的方法，从其他查找引擎抓取成果，而是从零开发了一套互联网查找引擎。

”咱们的成果的摘要比一般的查找引擎都长，是的，咱们是故意为之。这足以证明咱们的成果不或许来自其他查找引擎，“季逸超在官网上写道。

依照每个用户输入问题、要害词和表达式的不同，magi.com能够用不同的方法来出现答案——详细的出现方法也展示了Magi体系的才能。

比方，输入“打车软件公司”，Magi体系能够把它知道的一切手机叫车公司，以“调集”的方法列在答案里。

而在百度上，得到的成果如下。能够正常的看到百度的常识图谱也供给了相似的成果，仅仅看起来有四、五年没有更新过了：

再比方，假如输入“八角大料”，Magi体系会发现这两个要害词其实是同一个东西，它就会以“断语”的方式给出答案。

如下图，magi.com告诉我，八角和大料是“近义项”，是“又称”、“也称”的联系。

Magi体系能够24小时不间断地进行学习。它的时效性也还算不错，Peak Labs声称实时新闻傍边的常识，Magi只需求5分钟就能够把握，并且还能够采纳新的信息源进行穿插验证，完成主动纠错。

假如你在magi.com的主页逗留一会，就能看到它当时正在学习的链接：

除了自主开发的全网规划查找引擎以外，Peak Labs还开发了根据注意力机制的神经信息提取体系，不依赖无界面浏览器的分布式抓取体系（爬虫程序MagiBot），以及支撑混合处理170多种语言的自然语言管道。

这四者结合在一起，才是Magi体系的全貌。

作为EVA粉，这儿不得不打断一下：Magi以及它的四个子体系，称号悉数来自《新世纪福音战士》（EVA自身取材自圣经等其他西方宗教经典），并且命名里也有彩蛋：

Magi（三贤者，多个体系组成的超级核算机）

查找引擎Ramiel（雷天使，）

神经信息提取体系Ireul（恐惧天使，具有学习和进化才能）

自然语言处理管道Arael（鸟天使）

爬虫程序Matarael（雨之天使，表面像蜘蛛）

Peak Labs在官网指出，现在的Magi技能还没有彻底老练。

的确如此。现在经过magi.com能够观察到一些问题，比方许多能够在干流查找引擎中简单找到的答案，magi.com给不出来（一般是由于它还没有学到）；

比方查找“世界上最富有的人”时，我想要的是Magi能告诉我当时谁最富有，但它只能告诉我最富有的那一群人：

比方消歧义的把控，简单导致答案紊乱（这一点季逸超自己在知乎上[1]也有所说到）：

近邻老王不大或许是你的亲属

再比方，碰到一些实在太“杂乱”的词条，magi.com就杂乱了……

不过正如前面说到，这个查找引擎并不是Peak Labs的终究产品——他们的真实意图，是凭借查找引擎背面Magi体系的力气，供给企业级的服务。

Peak Labs的官网指出，他们期望未来的Magi体系能够成为“常识范畴的ImageNet”。它现已展示出的敞开范畴信息提取才能，能够应用到企业客户地点的细分范畴内，变成一个愈加强壮的信息抽取体系，让每一个范畴、每一家企业都能够轻松地打造归于自己的常识图谱。

“或许在不远的未来，伴随着整个职业的前进，Magi所构建的容纳万事万物的结构化网络，将成为通向可解释人工智能的柱石。”Peak Lab的网站这样写道。

——期望这个愿景能够完成。（就算完成不了也没联系啊！拿magi.com搜些古怪的东西，仍是能得到不少笑料的……）

假如你对Magi的技能细节感兴趣，能够到Peak Labs网站进一步了解。季逸超在知乎的答复也做了愈加翔实的论述。

[1] 季逸超在知乎问题《怎么点评Peak Labs出品的2019版Magi查找引擎？》的答复https:///question/354059866/answer/881655371

除了部分截图，其他均来自Peak Labs网站和前述知乎答复

上一篇：移动端UI中常见的视觉

下一篇：学校贷再度炽热线下假

“如果发现本网站发布的资讯影响到您的版权，可以联系本站！同时欢迎来本站投稿！

精彩阅读

阅读排行

1实力圈粉!格之格精彩亮相第十八届国际耗材展

10月17日—19日,第十八届珠海国际办公设备及耗材展览会在珠海国际会展中心盛大举行!格之格携全品类产品亮相展会,荣获“办公新品...

2格之格携手天猫，打造耗材行业首个以旧换新数字化循环体系

8月13日上午，在珠海市商务局、珠海市环保局等单位的指导下，格之格与天猫，联合珠海市打印设备及耗材行业协会、阿里巴巴公益、S...

3格之格与京东企业购签署合作备忘录共拓全国百大产业园区中小企

6月13日，格之格与京东企业购在京签署合作备忘录。双方约定将在耗材标准制定、产品创新、服务升级，以及客户资源共享、营销和渠...