最近,12岁的视障女孩阳阳不再缠着妈妈给她读书了。她喜爱上手机小程序“心目图书馆”里那个“姐姐”温暖的声响。
“晓晓”的声响来自心目图书馆,是一家服务视障人士的公益图书馆,由瞎子公益安排红丹丹与微软联合开发,连通了全国105所盲校以及许多视障人士,为他们供给电子书、有声书、讲电影等服务。这一段温暖阅览声响的背面,是AI科学技能创新带来的一份好心。
这个“姐姐”声响很温暖
别看阳阳存在视力妨碍,但在妈妈和教师的鼓舞、引导下,她成了一个爱读书的孩子。不过,阳阳很不喜爱读屏软件宣布的冷冰冰的声响:“没有中止和爱情,语调平板僵硬,听一瞬间就累了。”所以,除了倾听一些真人志愿者朗诵制造的有声书,妈妈成了她最依靠的朗诵者。
最近,心目图书馆新上传的一套有声书却改变了她的观点。点开一本《安徒生神话》,阳阳从阅览的声响中感受到的是流通、天然、赋有情感的体会。“这是机器人读的么?”她不由连问了几遍。在妈妈告诉她这个声响来自人工智能“晓晓”后,阳阳笑了:“我喜爱这个姐姐,她的声响很温暖。”
闭上眼睛,记者跟着阳阳一块听了一段“晓晓”的朗诵。伴随着舒缓天然的语调,神话故事一点点翻开,让人不自觉地生出爱好来。阅览中,声线美丽的“晓晓”会有适时地换气、中止,全体阅览流通天然,宛如真人。只需在偶然遇到一些冷僻名词时,可能会呈现中止断句不妥,才让人意识到这是人工智能在供给阅览服务。
最近上线的这套由“晓晓”阅览的《安徒生神话》赢得了不少像阳阳相同的视障儿童读者的喜爱,但却明显不足以让更多心目图书馆中的视障读者“解渴”。
范师傅是一位在北京作业多年的瞎子按摩师。作业之余,他喜爱阅览一些按摩按摩类的书本,来提高自己。可是,这样专业类的书本,很难找到盲文或有声版别。多年来,范师傅都是经过红丹丹安排,将这类专业杂志、书本转换成电子书,再运用读屏软件进行“阅览”。
“读屏软件的声响便是那种比较平板的声响,一听便是机器读的,听着听着就有点累了,简单分心儿。并且许多时分断句不对,挺影响了解的。”尽管读屏软件的声响不尽善尽美,但关于视障人士来说,这却是许多人不得不挑选的阅览方法。由于比较制造盲文版纸质书和真人录制一本有声书,“电子书+读屏软件”的阅览方法本钱较低,更简单掩盖更多书目。
最近,范师傅在试听了“晓晓”阅览的书目后也不由心生神往:“往后我想读的书,也能有这样的声响阅览就好了。”
十几分钟就能组成一本书
范师傅的期望正在逐渐变成实际。
红丹丹视障文明服务中心履行主任曾鑫和记者说,第一批上传的“晓晓”语音组成有声书只是一个开端,下一步,更多由“晓晓”阅览的有声书正在路上。“现在是几本,往后会有50本、100本。往后,咱们咱们都期望每年能到达至少新增200本AI有声书。”
不只如此,微软还将敞开渠道给红丹丹的志愿者,教会他们怎么自己组成有声书。“人工智能的阅览让有声书的制造本钱和时刻大幅度的下降。”曾鑫举了个比方,以往制造一本有声书,尽管能够招募到免费阅览的志愿者,但录制加上制造的时刻最短也要三个月。这样的本钱将很多书本挡在了有声书门槛之外。
“咱们只能精挑细选群众需求度高的书目进行制造。而像范师傅这种有个性化专业需求的书目,是无法给他量身定制真人有声书的。”曾鑫无法地说。
那么,运用人工智能进行文本转化语音,然后组成一本有声书需求多久?微软亚洲互联网工程院AI语音组产品总监丁秉公给出答案。“咱们有两套计划,一种能做到实时(毫秒级)组成朗诵,可是这种声响相对不行天然。而完成比较高质量、天然的朗诵,组成一本书也只是需求十几到二十几分钟的时刻。”
这样的功率让曾鑫感到振奋。“尽管现在听书软件不少,也产生了很多的有声书,但针对孩子们教材类的有声书,以及一些专有科目的有声书根本仍是空白,这些书本只需依靠红丹丹这类的公益安排去制造成电子书或有声书。”曾鑫说,这次晋级版AI朗诵者,将给更多心目图书馆衔接的视障读者送去比美真人阅览体会的有声书本。
AI发人声还会“说人话”
许多人会猎奇,“晓晓”这种比美真人阅览的声响是怎么炼成的?这正是微软正在展开的作业——从多方面教会AI更好地“说人话”。
首要,“晓晓”的声响听起来舒畅天然,这样的声线源于最新技能加持。“微软在语音技能上现已研讨了十多年,‘晓晓’是上一年11月开端制造的。它是依据微软最新更迭推出的深度神经网络学习而诞生的首个声响。运用这种最新技能做出的声响质量和表现力更好。一起,它所需的音库资源量并不大,意味着微软未来还能够做出更多像‘晓晓’这样高质量的不相同的新声响。”丁秉公说。
有了一副“好嗓子”,并不代表能把书读好。“要做一个好的朗诵者,最高的要求是能够融入自己的了解,这样才能够构成相应的情感。”微软“晓晓”语音产品负责人刘越颖表明,关于这一点,人工智能尚无法做到,所以需求“人为协助”。
怎么协助?技能人员首要给“晓晓”规划了不同的阅览风格。“比方新闻播报时的口气、阅览忧伤阶段的口气、供给客服时的口气等,乃至还有歌唱的声响,一共有七八种风格。”刘越颖介绍,有了不同的口气后,会在“晓晓”阅览不同内容时,人为进行符号,“晓晓”就会选用相应的风格进行阅览。
“现在只能依靠人为进行符号,能够符号一整本书,也能够独自符号一个阶段。但随着人工智能不断进行深度学习,未来它将能够完成经过你自己的了解主动符号,然后完成用匹配的口气和风格朗诵。”刘越颖说。
此外,丁秉公也表明,“晓晓”仍在一个不断学习提高的路上。“比方这次跟红丹丹协作,在阅览中会偶然呈现英文单词,针对这个细节,咱们进行了中英文的无缝转化,让声响在阅览中英文之间没有卡顿和改变,听起来很天然。”丁秉公举例。未来,人工智能怎么能够对文章进行了解,然后能融入更丰厚的情感,以及口气细节的丰厚,都是要一步步完善的内容。
AI技能传递“爱”的好心
除了这次晋级心目图书馆,深度神经网络的文字转语音(TTS)技能还能够在多个场景落地,翻开一扇扇向善的窗口。在丁秉公看来,TTS组成方法能够7乘24小时进行,只需有文本内容就能够源源不断地输出有声内容,这相当于打破了有声内容的出产壁垒,获益的将不只是是视障人群。未来,TTS这项技能还有望被运用到留守儿童、白叟等集体中,给他们供给个性化、更优质的有声阅览服务。
近年来,除了微软,腾讯、阿里、百度、字节跳动等许多公司也在不断测验将人工智能新技能应用于公益傍边。
腾讯优图实验室的“跨年纪人脸辨认”技能,协助被拐10年的孩子重回爸爸妈妈身边。当爸爸妈妈手里仅有一张已有些褪色的孩子百天照,人力已难以辨认10年后长大的孩子是什么容貌。这时,经过深度学习的人工智能跨年纪人脸辨认技能大显神通,依据这张孩子幼时的旧照,精准比对确认了10年后孩子的相片,然后协助孩子与家人聚会。
91岁的河南南阳老兵袁林昌60多年来最大的愿望便是寻觅别离多年的老排长周国民。但是,老排长现已逝世。为了满意白叟愿望,百度经过人工智能语音组成技能,重现了老排长的声响。“林昌,你好吗?我是你的战友周国民!60多年前,咱俩仍是20多岁的小伙子。今日老大哥来不了了,你必定好好活着!老大哥给你还礼了!”听着老排长的声响,袁林昌白叟眼含热泪,敬起军礼。
感人的一幕幕还在演出。动作辨认协助聋哑人将手语转化成文本,语音辨认协助视障人士敞开新生活,精准的地图推送协助寻回迷路亲人……AI不只与“爱”同音,也在传递着一份新科技带来的好心,让严寒的技能逐渐有了温度。
来历:北京晚报·深度报导 记者:赵语涵
流程修改:洪园园