为媒体人减负!更懂你的语音转写能力上线

在语音转写产品下,讯飞开放平台对语音转写能力进行了优化, 升级为4.0版本。新版本不仅提供更好的性能支持,同时上线了个性化热词功能。

最近,媒体人的工作真是忙到飞起。

纵观国内外,近来的这几个月真可谓是多事之秋。互联网、医疗、文学、影视等各个行业都接连有重大新闻爆出,成为人们的茶余饭后的话题。

对普通人来说是八卦谈资,对新闻媒体人来说可就是实打实的工作了。

人工智能?人工智障?

“无论是什么行业的热点,我们都要第一时间出街采访。“

小编的记者朋友小D负责一档针对时下热点的街头采访节目,对他来说,今年是格外忙碌的一年。

”比如有IT新闻,我们就去高新产业园采访,娱乐新闻我们就去大学采访。所以几乎每天都在接触到不同行业的术语。”
64011

 

主题多样的街头采访类节目

小D多次都跟我抱怨,说最头疼的部分就是后期制作,因为被访者的术语和口头语太多,原本靠转写软件可以轻松完成的文稿整理和字幕制作工作,现在变得困难重重。

例如早前iphone XR发布时进行的街头采访,有这样的语音素材——

 音频内容是: XR的屏占比确实变高了,但是这个黑边也太夸张了,作为一个颜控,我还是继续用我的8吧。

 转写结果是:  差而凭站笔确实变高了,但是这个黑边也太夸张了,作为一个严控我还是继续用我的巴巴。

小D说,有些时候修改字幕比直接人工输入还麻烦,真不知是人工智能还是人工智障了。

个性化热词——让机器更懂你

小D的经历并非个案,语料的丰富度是影响语音识别技术的重要因素。前期提交的语料越多、越全,语音识别的效果也就越好。

宏观上看,人们说话的规则具有统一性,但同时也具有一定程度的变化性。例如行业的专业用语,一些口头禅、自行创造的暗语、某些特定事件带来的等等。一个人的遣词造句深受他“个性”的影响,因此产生的语音也带有“个性”标签。

这种情况下,单纯使用通用化模型来识别风格各异发语音,显然是不够科学的。唯有做到“去陌生化”,进一步理解特定用户的语言习惯,才能得到更高效精准的结果。

因此,在语音转写产品下,讯飞开放平台对语音转写能力进行了优化, 升级为4.0版本。新版本不仅提供更好的性能支持,同时上线了个性化热词功能。

 使用方法:

用户将一些在转写中会出现的专用词汇上传至识别引擎,形成自己的个性化词库。后期在待转写音频中出现该词汇时,即可将其识别出来。
640

 

添加热词操作示例

 原理:

运用声学激励语言激励两种方式,提高个性化热词的识别度。

以词语“开放平台”为例,语言激励会在热词形成时对“开放平台”一词直接加分,提高识别出这个词的概率。

声学激励的方法会将kai-fang-ping-tai泛化成kai-fan-ping-tai,kai-fang-pin-tai等,音频中出现类似发音时就会对待选词中的“开放平台”加分。

如虎添翼

除了新增个性化热词能力,本次更新的语音转写4.0版本还支持Web API调用形式,为开发者们提供了更多的便利与可能性。有了这些新功能的加入,语言转写能力可谓是如虎添翼。

开放平台语音转写能力最初于2017年7月上线,能力基于科大讯飞独立研究的深度全序列卷积神经网络语音识别框架(DFCNN)建立声学模型和语言模型,将音频数据转换成文本数据,使信息传递更为高效,也为后续的数据检索和数据挖掘提供基础。

更尖端的核心技术

采用的DFCNN技术能更好地表达语音的长时相关性,比目前业界最好的语音识别框架——双向递归神经网络性能更优,遥遥领先于同类竞品。

更可靠的硬件支持
讯飞开放平台在多地进行了机房部署,服务器集群每天可承载30亿的语音交互量。每个IDC机房采用BGP或三网接入,保障接入速率。核心硬件方面采用内存双通道策略,GPU+CPU复合运算组合,提高引擎速度。

更智能的转写能力
运用超大规模的语言模型预测语境,提供中文智能断句和标点预测,并能将结果中的数字、日期、时间等格式化为规整的文本,最大程度地减少人工修改。

更安全的用户数据
转写系统接入讯飞开放平台统一账户体系,采用公钥与私钥结合的认证方式保证账户安全。接口统一采用https加密方式进行数据传输,用户上传的语音文件待转写完成后会彻底删除,不留痕迹。

希望在不断的改进和完善中,开放平台能为大家提供更好的技术和服务,从而更好地落地到实际场景,为各行各业创造更高效的解决方案。

现在就来讯飞开放平台体验吧!【点击体验最新的语音转写4.0版本】

关注我们6407
 

1
超过80%语音开发者的共同选择