科大讯飞刘聪:技术为基石,开发者为本,用AI共创开放新生态
科技是一把双刃剑,这是教科书上的常用句式。科技或许是冰冷的,但科技的落地是有温度的。

从18世纪60年代,以蒸汽机为代表的第一次工业革命开启,到21世纪,基于大数据和物联网融合的系统在生产中大规模使用,人工智能渗透到各个行业和领域。

科大讯飞AI研究院常务副院长刘聪在2019科大讯飞全球1024开发者节上与中国电视节目主持人周群进行了现场变声互动,根据周群的录音结合AI变声技术实现与其进行同音对话。

微信图片_20191122084819
科大讯飞AI研究院常务副院长刘聪与中国电视节目主持人周群现场互动

随后刘聪针对AI行业提出了三个问题:
AI核心技术有哪些最新进展和趋势?
AI从技术到应用价值落地还有多远?开发者如何实现开放生态自我价值?

这三个问题看似宏大无边,但却是对AI行业的深刻思考。
针对以上三个问题,刘聪认为,要想实现人工智能技术在行业中的真正落地并发挥价值,门槛并没有想象中那么低。“冰山”下面还有更多需要关注的内容,可以将其提炼为三个关键词,即基础算法+技术体系+场景理解。
微信图片_20191122084944
 科大讯飞AI研究院常务副院长刘聪

刘聪从AI核心技术突破、AI价值落地方法论、开发者能力升级、合作案例分享等方面进行干货解读。

AI核心技术突破
 
语音合成:基于听感量化的统一框架,可以统一实现语音合成和变声技术。2016年,科大讯飞的语音合成首次做到了可以使用多人多样风格的数据。也是在这个框架之下,通过控制语种、音色、风格等文本以外信息的编码自由的控制语音。又成功的将对抗生成网络GAN的技术应用于语音合成,实现合成和录音的无缝衔接。
科大讯飞取得了Blizzard Challenge国际合成大赛第十四连冠,也是在该任务上唯一自然度MOS分达到4.5的系统。在实际应用中,还需要将合成技术和音效等其他技术结合起来提升听感体验;以及结合语音技术和图像技术推出的虚拟主播,未来也会在更多场景大有可为。
语音识别:采用记忆增强的多通道全端到端语音识别框架。该框架首先在前端基于深度学习增强算法对原始多通道波形直接建模,并结合后端识别模块联合优化,真正的实现了全端到端;其次,在这个框架中引入了外部记忆体来增强对语种、热词等特殊信息的处理;最后,还提出了多分辨率建模算法进一步提升该识别框架对专业词汇的识别效果。
科大讯飞实现了超远距离语音识别基本实用化,将10-50m超远距离扬声器录音的会议转写效果做到了90%左右的水平。同时,还针对语音识别的不同应用场景(语音输入、语音交互、语音记录),进一步对技术体系进行升级,获得更好的产品体验。
图文识别:基于语义分割与自适应感受野的通用图文识别框架,其中文本检测模块引入了图像语义分割的思路,可以有效检测提取出各种形状和类型的文本行;文字识别模块基于AutoML技术提出了基于自适应感受野的网络子结构自动搜索技术,比较好的解决字符尺寸、书写风格等问题。
科大讯飞在去年ICPR会议举办的MTWI多类型网络图片识别中获得了全部三项任务冠军,今年又在ICDAR2019公式识别更加难的任务上获得了离线手写和在线手写两个任务的冠军。另外,通过OCR相关的技术体系组合,实现针对多语种混合场景的图文识别,高性能本地拍照翻译,以及针对智能办公本场景进行了多个技术方案的升级和储备。
翻译:融合领域知识的多通道半监督约束编解码翻译框架。该框架提出多通道编码方案,把语音的序列和文本标签输入进去,从而提高对同音字错误的容错性,通过融合领域先验知识提升行业翻译质量,同时对复杂长句的翻译和同传会议场景的流式翻译等进行了优化,进一步提升了翻译效果和实时性。

科大讯飞在2018年11月在和中国外文局联合科研测试中,机器翻译达到全国翻译专业资格(水平)考试(CATTI)英语二级交传《口译实务》和三级《口译实务》合格标准。

AI从技术到价值落地
怎么样去更好地实现价值落地?价值落地的标准是什么?
刘聪给出了自己的看法:真实可见的实际应用案例,能规模化推广的对应产品,可用统计数据证明的应用成效。

刘聪分享了AI+法院的案例,生动阐释了如何在一个行业去逐步、持续实现AI价值落地,以及在此过程中核心技术体系是如何演变的。

法院的书记员,负责把整个法院的内容详细地记录。人说话的速度平均每分钟三四百字,而人的记录速度可能只有150字每分钟。
针对此类需求,团队迅速推出方案,通过数据、算法及硬件等组合优化,把复杂庭审环境下的语音识别效果从原来的70%提高到90%的实战水平。
随着庭审的大规模推广,纸质卷宗电子化已成为行业发展的必然。团队基于讯飞先进的通用OCR能力,再结合政法行业场景进行深度定制,最终对这些复杂版面的图文识别效果平均达到98%的好用水平,并实现了编目功能。
编目可以将纸质卷宗通过扫描的图片,转变成有目录的一本电子卷宗。目前编目等实用化功能已在多家法院、检察院常态化使用。
在这个过程中,团队发现通过加入结构化后的电子卷宗数据以及用户标签内容,用于定制庭审等环节中的语音识别模型和热词模型等,能够使得法言法语等专业词汇、案件相关的命名实体识别的错误率显著下降30%。
语音识别和图文识别技术更多的是起到了一个入口的作用,如果想要对法院的主流程业务起到更深入的助力,我们必须引入认知智能技术。
司法认知里常用的基本方法,是要素抽取,即把办案人员关心的要素内容抽取出来,例如作案地点、作案时间、作案工具等。目前要素抽取技术在讯询问笔录、判决书、起诉书等文书任务上,平均抽取的F1值达到90%以上。
基于这样的要素抽取技术,还可以组合成案情描述文书,证据校验,类案检索等功能。基于相关认知智能技术的方案成果在今年以来已经获得常态化使用。

实际上AI+法院只是众多行业的一个缩影,在科大讯飞的很多赛道上,包括教育,医疗,汽车均有这样的案例。
例如在医疗行业中,语音影像认知三位一体的打法,以及在教育行业里评测、全学科阅卷和个性化学习,都在持续发展。

对一个行业进行价值的深挖和升级过程中,对技术的需求,从单点技术迈向多点技术,基于场景理解的深度耦合的多点技术体系,将成为未来新的制高点。

刘聪认为:行业价值的持续挖掘是永无止境的,我们对技术的追求也是永无止境的。我们不仅要保持顶天立地的追求,还要用顶天立地的方法论来指导我们。

归云平台:为开发者增效赋能

对于如何帮助开发者提升效率和产品性能?刘聪在他本次的演讲中重磅推出归云平台,让开发者以更加便捷的方式进行多种能力的组合。以语音翻译为例,原来需要三次调用,现在仅需用一次统一接口的调用就可以实现,无需担心多种能力之间的协议数据兼容等问题。

另外,本次发布的飞云平台,可以让AI引擎开发者将自己的AI能力引擎模型轻松的包装为AI云端服务,发布到讯飞的能力星云,供讯飞开放平台百万开发者使用,实现AI能力的价值兑现并更好的迭代模型效果。

刘聪表示:归云平台和飞云平台即将在讯飞开放平台进行开放,科大讯飞热忱的欢迎广大开发者、AI爱好者来平台上使用,创造更多的AI能力与行业解决方案,用更开放融合的方式共建AI生态。

核心技术层面,将在平台上把歌唱合成虚拟形象开发给to C的开发者。对于个性化合成和声音的变化,会选择可靠的to B伙伴进行开放,以避免技术通过某些不合适的方式被利用。

在识别方面,对更多能力进行开放,包括置信度、一体唤醒方案等。其中后处理和语音分离会结合平台转写服务绑定开放,OCR则会在表格书写等更多方面进行开放。

讯飞开放平台始终秉持开放理念,提供语音合成、语音识别、人脸识别、机器翻译等200多项AI能力,同时将能力应用在各行各业促进产业的转型升级。比如我们在与穹天科技合作中,研发了CSK400X芯片,这一芯片的出现将针对智能家电家居的场景痛点进行突破。

2017年,讯飞开放平台成为国家新一代开放创新平台,承担了更重要的责任和使命,也陆续推出1024计划公益计划等内容,希望和开发者共同承担,肩负责任。
未来,科大讯飞希望携手160万的生态合作伙伴一起,用更好的开放方式去助力开发者,为开发者增效赋能,散发属于AI的光芒。

untitled

超过80%语音开发者的共同选择