提速1000倍猜测推迟少于1ms飞桨发布ERNIE语义了解开发套件

责任编辑NO。郑子龙0371 2019-11-06 16:08:27浏览次数:8114  

机器之心发布

机器之心编辑部

昨日,在「WAVE Summit+」2019 深度学习开发者秋季峰会上,百度对外发布根据 ERNIE 的语义了解开发套件,旨在为企业级开发者供给更抢先、高效、易用的 ERNIE 运用服务,全面开释 ERNIE 的工业化价值,其间包括 ERNIE 轻量级处理计划,提速 1000 倍!

本年 7 月份,百度发布继续学习语义了解结构 ERNIE 2.0,在合计 16 个中英文使命上逾越 BERT、XLNET,取得了 SOTA 的作用。

ERNIE 2.0 发布以来,ERNIE 产业化运用进程不断加快,易用性不断的进步,配套产品也不断丰厚和完善。现在,ERNIE 2.0 在百度内部及行业界已取得了广泛运用,在多种场景下都取得了显着作用提高。这些场景的成功运用为 ERNIE 产业化运用积累了丰厚的经历。

上图为 ERNIE 全景图,预置了包括 ERNIE 通用模型、ERNIE 使命模型、ERNIE 范畴模型以及本次发布的 ERNIE Tiny 轻量级模型等系列预练习模型。在此基础上,构建了包括东西和渠道的飞桨语义了解开发套件。全面掩盖了练习、调优、布置等开发流程,具有轻量计划、才干全面、极速猜测、布置灵敏、渠道赋能等五大特征。接下来,咱们逐个揭秘。

特征 1:轻量级处理计划,猜测速度提高 1000 倍

ERNIE 2.0 具有强壮的语义了解才干,而这些才干需求强壮的算力才干充沛的发挥,这为实践运用带来了非常大的应战。为此,百度发布轻量级预练习模型 ERNIE Tiny 以及一键式数据蒸馏东西 ERNIE Slim,猜测速度提高到达 1000 倍。

ERNIE Tiny 技能原理

ERNIE Tiny 首要经过模型结构紧缩和模型蒸馏的办法,将 ERNIE 2.0 base 模型进行紧缩,其特征和优势最重要的包括以下四个方面:

浅:模型选用 3 层 transformer 结构,线性提速 4 倍;

宽:模型加宽隐层参数,从 ERNIE 2.0 的 768 扩展到 1024,宽度的增加带来作用的提高。依托飞桨的通用矩阵运算优化,『变宽』并不会带来速度线性的下降;

短:为缩短输入文本的序列长度,下降核算复杂度,模型初次选用中文 subword 粒度输入,长度均匀缩短 40%;

萃:ERNIE Tiny 在练习中扮演学生人物,运用模型蒸馏的办法在 Transformer 层和 Prediction 层学习教师模型 ERNIE 2.0 模型对应层的散布和输出。

经过以上四个方面的紧缩,ERNIE Tiny 模型的作用相对于 ERNIE 2.0 base 均匀只下降了 2.37%,但相对于「SOTA Before BERT」提高了 8.35%,而速度提高了 4.3 倍。

ERNIE Tiny 的猜测速度在一些功用要求严苛的场景中是不行的,这些场景中推迟呼应往往要求小于 1ms,为此,套件供给了一键式数据蒸馏 ERNIE Slim 东西。该东西以数据为桥梁,将 ERNIE 的常识迁移至小模型,在作用丢失很小的情况下完结猜测速度上千倍的提高。

ERNIE Slim 技能原理

ERNIE Slim 原理同传统深度学习数据蒸馏的办法略有不同。首要需求用 ERNIE 2.0 模型对输入标示数据对进行 Fine-tune 得到 Teacher Model,然后运用 Teacher Model 对无标示数据进行猜测,该过程中咱们可选用增加噪声词、同词性词语替换、N-sampling 三种战略进行数据增强,最终经过 BoW、CNN 等核算复杂度小的模型进行练习。

下表展现了 ERNIE Slim 的作用。从表格中可以精确的看出,相对于 ERNIE 2.0 base 模型,数据蒸馏后的小模型作用丢失不大,猜测速度提高千倍以上;而相对于简略模型,速度挨近的情况下,作用会得到明显提高。

特征 2:一键式高功用全类微调东西

ERNIE Fine-tune 微调东西旨在为给开发者供给一套简略好用的 Fine-tune 结构,现在掩盖 NLP 四大常用使命:单句分类、句对匹配、命名实体辨认、阅览了解。东西集支撑多机多卡 Fine-tune,一起运用 FP16 Tensor Core 技能在 Tesla V 系列 GPU 上取得 60% 的练习速度提高。

Fine-tune 微调东西包括了一个根据飞桨的练习安排结构 Propeller,可以在必定程度上协助开发者进行模型办理、参数热启动、主动多卡并行等作业,然后让开发者更专心于网络结构以及输入数据流水线的构建。

特征 3:极速猜测 API

ERNIE Fast-inference API 旨在处理产品运用的推迟灵敏场景,为企业开发者供给极速猜测的 C++ API,便于开发者集成。该东西也充沛凭借了最新版飞桨的高速猜测优势,飞桨 1.6 经过 OP 聚合算法,有用加快了 ERNIE 的猜测。

在推迟灵敏场景下,比照竞品在 GPU(P4) 设备 21% 的推迟下降,ERNIE Fast-inference API 在 CPU(Intel Xeon Gold 6148 CPU)设备上的推迟下降 60%。

特征 4:向量服务器,支撑跨渠道灵敏布置

为进一步下降开发者运用本钱,套件供给猜测服务计划——ERNIE Service,来便利获取 ERNIE 模型的向量散布以及猜测打分。

ERNIE Service 架构

ERNIE Service 是根据 Python 构建的多 GPU 猜测服务,Client 端发送的恳求会主动分发至 GPU 上履行 ERNIE Fast-inference API 来获取 ERNIE 向量 及打分。现在 ERNIE Service 支撑不同渠道、不同设备、不同言语的灵敏调用,具有猜测功用高级特征,比较竞品 BERT-as-service 在 QPS 上提高 13%。

特征 5:渠道赋能

此外,套件还包括了 ERNIE 的渠道化运用计划,开发者可经过 EasyDL 专业版一站式完结 NLP 使命的数据标示、处理、ERNIE 微调、优化、布置等全流程的功用,为开发者供给丰厚的算法、算力服务,进一步下降 ERNIE 的产业化运用门槛。渠道预置了常用的 NLP 文本分类、文本匹配等经典网络,可以快速满意多层次开发者的需求。

归纳来看,ERNIE的语义了解开发套件依托百度在预练习模型等自然言语处理技能和飞桨渠道抢先优势,为人工智能产业化大生产贡献力量,赋能各行各业。

相关链接:

ERNIE 工业级开源东西:https://github.com/PaddlePaddle/ERNIE

ERNIE 渠道化服务:https://ai.baidu.com/easydl/pro

“如果发现本网站发布的资讯影响到您的版权,可以联系本站!同时欢迎来本站投稿!

精彩阅读

阅读排行