科大讯飞AIUI3.0新品发布会成功举办,开启人机交互新变革

科大讯飞将与大家一起,继续追光而行

5月17日,科大讯飞「AI·飞无界」新品发布会在深圳成功举办。

本次发布会重磅推出了科大讯飞AIUI3.0,其中包括魔飞(MORFEI )2.0,让设备间互联互通的讯飞智能物联云AIoT、以及更轻量的智能硬件接入方式iFLYOS【点此回看发布会视频】
AIUI3.0:这一次,我们赋能你的三个「追求」

“我追求真正优秀的产品。”
“我追求最真实自然的人机交互。”
“我追求零失误的语音识别。”

10(科大讯飞消费者事业群执行总裁于继栋作为本次新品发布人做介绍)

自2015年AIUI正式发布以来,我们看到无数开发者为了这三个追求而奋斗。为了更好地为开发者赋能,我们将这些追求纳入心愿单,在AIUI3.0中带来了以下革新:

革新1:半监督优化

半监督优化通过系统分析产品日志,了解各种热门说法并推荐给开发者,并由分析产品日志和聚类算法推荐用户想要的其它技能,帮助开发者不断改进产品。

同时,对于说法的回复,也允许开发者有多种处理方式,如使用系统推荐的技能(如闲聊技能)进行回答,自己定义业务进行回答,或者接入广告进行推荐。

革新2:开放式对话

在语音交互中,封闭式对话以机器为中心,易于控制,但是交互自然度低;开放式对话以人为中心,更接近自然的交流方式,同时语义消歧的难度也更大。

AIUI3.0 对比业界平台的一大优势,就是真正做到开放式交互,选择这种模式,让交互更贴近自然,并且不断地演进和优化效果。

革新3:全链路打通&动态词汇

要听懂用户,语义理解能力和语音识别准确度两手都要硬。

AIUI打通语音识别、语义理解以及语音合成全链路个性化网络,全面提高各类场景下的理解能力和识别率;同时拥有基于场景动态词汇技术,让用户说出所看到内容都能被准确识别,真正达到所见即所说。

除了以上精选的AIUI3.0功能外,还有自定义问答、自定义技能、对话托管、云函数、可完美嵌入开发者WiFi soc的二麦在线交互模块等实用亮点。

从1.0到3.0,AIUI不断地打磨产品,升级功能,如今我们已经具备业界领先的人机交互核心技术,并将其通过开放平台的形式开放给广大开发者。未来,我们将继续探索的脚步,不断给大家带来更接近自然的人机交互体验。

11

AIoT:这一次,我们让更多设备互通互联

2018年,硬件终端规模将达到19亿,其中手机端占比约92%,而那8%则是崛起的智能硬件。

智能,不仅是交互的升级,还有万物相互连接产生的巨大能量。为了满足开发者对于智能设备间互通互联的期待,我们的答案是:讯飞智能物联云AIoT。

讯飞智能物联云AIoT有两大能力:

云能力

提供开放、聚合、智能的云服务平台。开放IoT的接口和协议,支持所有的开发者入驻;聚合了厂商、内容商、广告商等资源,共享我们的平台生态,实现共赢;提供与物联相结合的领先AI能力和智能服务。

雾能力

除了云端的连接,AIoT平台还支持设备在本地的雾计算(边缘计算)。雾计算使整体系统不受网络波动的影响,响应时间快;而且这种分布式的能力充分利用了设备原有空闲的计算资源,降低了系统成本。

PaaS级开发平台

PaaS级平台为开发者提供AI接口和开放设备连接,让开发者可以定制开发,自由创造个性化的智能场景。

AIoT提供两种接入方式,开发者既可以从第三方云端接入,也可以设备直连,让不同需求和条件的开发者都可以快速便捷地接入AIoT。

基于AIUI和AIoT的发展,产品体验将越来越倾向于以人为中心,变得更加人性化,智能化。

12

魔飞2.0:这一次,我们再定义智慧生活

早上,随着你从被窝中醒来,窗帘自动地缓缓拉开,电视自动开启播放晨间新闻,如果你有一台咖啡机,甚至一杯热气腾腾的咖啡已经在等着你了。

而这一切,在有了魔飞(MORFEI)麦克风后,都只需要开口一说即可实现。

去年我们见证了搭载八麦双环结构,能够驾驭各种姿势的黑科技魔飞1.0。而一款好产品从来不是一蹴而就,它需要不断去打磨,于是今天,我们的魔飞2.0与你见面了。

进入2.0阶段的魔飞,超越了固定的硬件形态的局限,软核化的它可以安装在各类硬件设备中,更巧妙融入起居环境中。

我们认为,魔飞2.0不仅会提升消费者的交互体验,还会增加开发者的想象力。魔飞2.0开放了全链路,开放音频、文本、语义、合成四种接口。更激动人心的是,声纹唤醒接口的开放,让魔飞能在唤醒后瞬间知道用户身份,使开发者可以快速调用声纹信息,围绕用户搭建个性化场景推荐。这些新能力都让开发者有了更大的发挥空间。

智能化的家居虽然让我们的生活更轻松,但也有我们在家喊一嗓子,所有的智能设备一齐回复的情况发生。为了避免这种尴尬场面,魔飞2.0运用了边缘计算,使其具备了分布式能力,当多个魔飞设备被唤醒后会找出离用户最近的一个魔飞设备,并响应用户。

iFLYOS :这一次,我们准备了一份「厚礼」

发布会上,科大讯飞消费者BG执行总裁于继栋向大家展示了重磅礼物——系统级解决方案iFLYOS。iFLYOS是智能硬件更轻量的接入方式,能够让用户以自然语言控制设备,并且会随着用户的使用会不断学习进化,变得越来越智能。

iFLYOS的推出,将从软件层面为厂商赋能,同时让讯飞的技术在实体的帮助下成长。把用户的智能生活再向前推进一步。

AI新生态:这一次,与我们一起共建

28℃的深圳夜晚,穿短袖还略微有点热,科大讯飞执行总裁胡郁却穿着西装站在台上,做了题为《赋能开发者 创造新时代》的分享。

13(科大讯飞执行总裁胡郁)

胡郁回顾了科大讯飞的发展历程,提到了突显核心技术对于企业长久发展的重要性,并希望将技术顶天和产品立地的理念,传播给更多的创业者。

在演讲中胡郁半开玩笑地问在场开发者,是不是觉得很奇怪,在这么热的天气里,他还要穿着西装出现在大家面前。

“2010年我们讯飞开放平台刚刚成立,在那年的发布会上,我穿的就是这套西装。可能很多小伙伴也发现了,这套西装的扣子和袖口已经磨损;但没有关系,正是因为那些过往的历史时刻,才成就了我们的今天。”

8年前,正是因为科大讯飞相信语音交互会成为未来的主要交互方式,所以,我们把它做出来,开放给更多的人去使用。

胡郁表示,讯飞开放平台将在2018年度内开放新的100项AI能力,打造AI全领域开放平台。同时不断降低创新门槛,不断提升用户体验,给消费者真正想要的;让开发者可以更好地接入平台能力,更快地开发智能产品,获得更好的创业平台。让每个领域、每个行业,乃至每个企业都有自己的人工智能平台,解决各自不同的人工智能问题,开发不同的产品和服务。

14
每一次的科技进步,总是以光一般的速度影响并颠覆我们的生活方式,不断照亮我们生活的方方面面。未来,科大讯飞将与大家一起继续追光而行,与未来对话,让科技有温度,让人们的生活更美好。

2018-05-17 ~ 2018-05-17深圳
科大讯飞「AI·飞无界」新品发布会精彩看点

见证人机交互新变革

科大讯飞「AI·飞无界」新品发布会报名信息公布之后,就不断有朋友留言说,要专门请假来参加活动,大家报名的热情更是惊到了我们,80位“追光者”的名额很快就满了,现场的余票也不多喽,还没报名的小伙伴要抓紧了。【点此报名】
微信图片_20180511105112
一小时现场开发产品

发布会当天,当你走进会场,准会看到四个玻璃房。四位开发者将在里面进行一场别开生面的 AI Battle (挑战赛)。

挑战赛怎么玩?很简单,四位开发者将在一个小时内,利用 AIUI 开放平台的技能和魔飞麦克风,现场编程,进行产品开发,并做demo展示。

一小时就完成一个产品基本功能的开发?是的,你没有看错!快速高效、自然流畅,有AIUI平台,就是可以这么任性~

而且,demo展示环节还将进行非常有趣的互动以及现场抽奖哦!!再次友情提示,余票不多,还没报名的,赶紧【点击报名】

智能家居体验室

“魔飞魔飞,打开窗帘。”
“魔飞魔飞,我要看电视。”
“魔飞魔飞,把灯打开……”

一个真正智能的家到底能给你带来什么样的体验?这一次,不用再想象了,我们在会场外专门布置了智能家居体验室,让你一次玩个够。

效果图

就这些吗?当然不止!不过,再多说,可就破坏氛围喽,惊喜一定要留到最后~接下来,再跟大家明确一下参加发布会需要注意的地方。亲,请记好:

– 不可错过的参会指南 –

1、如何报名
点击链接:http://aiuios.xfyun.cn/aiui?ch=opencloud,进入报名通道,按照提示填写相关信息,即可报名。

2、官方社群
为了让大家第一时间了解新品发布会的相关信息,我们建立了发布会官方群,添加小助手微信:aigongkaike ,由小助手统一将大家拉入官方群!

3、媒体报道
寻求本次活动媒体报道权,请邮件联系:yycao@iflytek.com

发布会详情

时间:5月17日,19:00-21:00
地址:深圳市南山区赤湾1路4号Reborn755泛娱乐馆

参会路线推荐

深圳宝安国际机场至会场:
出租车: 约40分钟
公交车: 地铁11号线转地铁2号线至赤湾站(C口)出站步行1500米到达

深圳站至会场:
出租车: 约1小时
公交车: 地铁1号线转地铁2号线至赤湾站(C口)出站步行1500米到达

深圳北站至会场:
出租车: 约45分钟
公交车: 地铁4号线转地铁2号线至赤湾站(C口)出站步行1500米到达

深圳西站至会场:
出租车: 约20分钟
公交车: 地铁1号线转地铁11号线转地铁2号线至赤湾站(C口)出站步行1500米到达

深圳东站至会场:
出租车: 约1小时
公交车: 地铁5号线转地铁2号线至赤湾站(C口)出站步行1500米到达

来不了现场? 没事,有直播!扫下方直播二维码,到时即可在线观看发布会:

发布会直播
你还可以通过以下平台观看本次发布会直播:

直播

2018-05-17 ~ 2018-05-17深圳市南山区赤湾1路4号Reborn755泛娱乐馆
参赛必看|想拿百万奖金吗?赛前锦囊火热来袭

AI开发者大赛报名倒计时

2018首届“顶天立地”iFLYTEK AI 开发者大赛正在火 !热 !报 ! 名 ! 中 !

【点击这里】直接进入报名通道~

大赛-1
2018首届“顶天立地”iFLYTEK AI 开发者大赛报名启动以来,大家通过各种途经向组委会提出了很多问题。别着急!小编会尽快把大家普遍关心的问题整合分类,一一为大家答疑解惑哦~

今天我们先从“应用开发AI挑战赛”开始~

【参赛要求】

1.参赛作品必须使用包括AIUI人机对话交互在内的至少一项讯飞开放平台能力。

2.参赛作品使用语音和图像相关人工智能能力需优先调用讯飞开放平台技术接口。其他厂商AI技术接口调用不得超过一种。

3.合法性:参赛作品主题内容必须健康、合法、没有任何不良信息及商业宣传行为,不违反任何中华人民共和国的有关法律。

4.原创性:参赛作品必须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将取消其参赛资格。

【评审标准】

1.产品创新性:参赛作品是否具有充分的创新性,与行业成熟方案相比较有差异化,有更好的产品表现。

2.产品实用性:参赛作品是否能够解决所在领域的实际问题,解决用户痛点。

3.AI能力结合度:参赛作品是否结合AI技术,使得产品的体验及功能有了突破性进展。

4.产品商业前景:参赛作品能否创造较好的社会和市场效益,具有较为广阔的商业前景。

看到这些要求和标准,你是否感到茫然失措?别着急!今天小编就给大家分享几个借助讯飞开放平台技术应用开发的优秀案例,希望可以给你们激发一些灵感!

继续往下看↓↓↓

1-1案例1.叮咚音箱

叮咚配有8个麦克风阵列,确保它可以听清你说的每一句话,无论你身在房间哪个位置。独特的远场识别技术,支持5米超远距离语音交互。AIUI硬件特有的回声消除技术,使这款智能音箱能过滤掉各种背景噪音,包括正在播放的音乐等,以便更为准确地领会用户指令。可以帮助用户听歌,听新闻,定闹钟,闲聊等。

1-2案例2.阿尔法蛋

阿尔法蛋机器人是淘云科技有限公司倾力打造的一款教育陪伴智能机器人。集成教育内容、超级电视、视频通话、智能音箱和自然语言交互机器人的阿尔法蛋是一款功能聚合的机器人,功能与服务面向家庭所有成员。搭载讯飞AIUI智能系统,拥有“类人脑”,其理解能力、表达能力,智商都会随着深度自我学习,不断成长,是一款“真”机器人。

1-3案例3.合肥轨道

合肥轨道交通首开全国先河,创新推出“语音购票”服务功能,通过搭载AIUI评估板,市民乘客将在轨道交通车站自动售票机上通过语音选择目的地站点、购票张数,再通过现金或者手机扫码完成购票交付。

1-4案例4.咪咕莫比斯耳机

莫比斯通过搭载AIUI交互系统,聚合语音操控、中英翻译、心率监测、健身指导、日程管理、出行导航、路线规划、音乐听书等的完整体系。这是咪咕在智能时代对全新人机交互的探索,通过全语音交互,它的应用场景会更加多元化,智能化,它的核心价值也远超主流耳机产品,因此莫比斯才能被定义为全球首款全语音人工智能耳机。

1-5案例5.荣泰

荣泰智能语音按摩椅搭载AIUI , 配合多麦克风阵列,灵敏交互、精准识别之灵,操控准确便捷,解放双手,让休憩更彻底。

1-6案例6.优友机器人

优友机器人是康力优蓝机器人科技有限公司推出的高端大型服务机器人产品,优友以完美的造型亮相,一经发布即引起业内强烈关注,优友的语音系统采用科大讯飞的AIUI解决方案,机器人进而具备各种功能,成为银行引导员、公司前台、商场导购、展馆导览员、餐厅服务员等等,在存在劳动力缺口的各个领域中都有望得到广泛应用。

【大赛概况】

2018首届“顶天立地”iFLYTEKAI开发者大赛面向全球开发者首次开放中文方言语音数据集,践行“方言保护计划”,用人工智能算法推动非物质文化遗产保护。

除了方言语音数据集之外,还将开放AIUI人机对话交互,语音听写、合成、评测、翻译等十余项人工智能核心技术,促进人工智能应用场景的落地。

大赛共分为方言种类识别AI挑战赛和应用开发AI挑战赛两大赛题进行比拼,百万奖金,等你来战!

1-7

除丰厚奖金外,大赛聚合讯飞生态平台、AI大学优质资源,获奖团队可获得价值500万元的创业扶持,包括技术支持、资本对接、创业指导、品牌曝光等优质生态资源。
以上就是本期给大家准备的赛前干货啦,希望可以给大家带来一些启发~下期我们为大家带来方言种类识别AI挑战赛的干货哦~敬请期待!

【赶快点此报名】

我们一起,让AI更有情怀,让技术更实在!

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信,此为小助手的微信号二维码:

1-8

 

关注“讯飞开放平台”公众号,获取更多资讯

开放平台

参赛必看|权威专家带你解密方言种类识别AI挑战赛

AI开发者大赛报名倒计时

距2018首届“顶天立地”iFLYTEK AI开发者大赛报名截止时间越来越近了。你的参赛作品准备好了吗?【点击这里】即可直接进入报名通道!

上期为大家介绍的是“应用开发AI挑战赛”的相关内容。有不少小伙伴留言,强烈要求小编再出一版关于“方言种类识别AI挑战赛”的一些具体赛况。今天小编就来满足你们~

方言赛

针对大家对“方言种类识别AI挑战赛”的一些提问,我们邀请到了科大讯飞研究院科学家、语言识别技术总负责人潘嘉为大家进行赛事解读。小编把潘嘉老师的解读整理了下,分享给大家,满满的干货,小板凳快搬好,准备记笔记啦~

方言种类识别AI挑战赛
【赛题详情】

方言种类识别 AI 挑战赛任务为汉语方言语言种类识别,即根据给定语音,判断该语音属于哪个方言。

科大讯飞全球首次开放覆盖中国六大方言区、总时长约 60 小时的 10 种汉语方言语音数据集,供参加竞赛的科研单位以及开发者免费使用。

根据测试语音长度,方言识别 AI 挑战赛分为两个不同难度的子任务,即任务一(有效语音长度≤3s )和任务二(有效语音长度>3s)。

结果评价指标为分类正确率 acc:即分类正确的语音条数/所有语音条数。

训练集合与开发集合供参加竞赛的科研单位以及开发者调试系统使用,测试集合不开放,最终排名以参赛者提交的系统在线上测试集合上的结果为准,分类正确率越高排名越靠前。

【开放数据】

初赛共有六种方言,分别来源于六大方言区,具体为:长沙话、河北话、南昌话、上海话、闽南语、客家话。

为了进一步提高数据的覆盖性,测试集在性别等方面都做过精心的挑选。每种方言平均包含6小时的朗读风格语音数据,覆盖40个说话人。数据由各个型号的智能手机采集,录制环境包含安静环境和噪声环境。数据以采样率16000Hz、16比特量化的PCM格式存储。

数据集包含训练集、开发集和测试集三个部分。

训练集每种方言有6000句语音,包含30个说话人,其中15位男性和15位女性,每个说话人200句语音;开发集和测试集分别每种方言包含5个说话人,其中开发集为2名女性和3名男性,测试集为3名女性和2名男性。这样的数据具有非常高的使用价值。

开发集和测试集的数据根据语音段的时长分为两类,一类是小于等于3秒的短时数据(任务一),另一类是大于3秒的为长时数据(任务二),分别对应于两个比赛任务,其中每个说话人两类数据各50句,共100句。训练集、开发集、测试集的说话人均没有重复。

为了增加本次比赛技术方案的多样性,每条语音对应文本内容的音素序列标注也将同样提供。

【参赛系统】

参赛系统的搭建方法不限,所有机器学习的方法均可以使用,并且参赛系统可以是多种方法以任意形式的结合,比如投票法等等。

两个不同的比赛任务可以采用两套完全独立的系统。比赛采用离线测试的方式进行,因此本次比赛对参赛系统的响应时间不做要求。

同时,考虑到复赛和初赛的难度差异,复赛和初赛也可以采用不同的系统。

【评测方式】

本次比赛的测试集是不公开的,因此需要参赛者提交自己的系统,具体操作方式如下:

a)初赛提交系统时,请提交参赛者名称、第一作者、该系统对应的任务、参赛系统、训练集和开发集上的分类正确率

b)复赛提交系统时,需要额外提交一份参赛系统的论文或者说明书(最好能够附带提供源代码),详细介绍系统的构成、训练方法和对应的参数

c)如无特殊情况,每天上午11点在官方网页上公布各个参赛者在测试集上的分类正确率并对结果进行排序(每个参赛单位的结果以最新提交的为准)

【评测系统】

为了能够正确进行测试,所有测试均在相同配置的Linux 64位服务器上统一采用CPU进行测试。因此提交的系统不能是windows等其他操作系统下的程序,并且不能和GPU、FPGA等其他硬件相关联。同时为了方便参赛者更好的参加比赛,本次比赛制定了详细的参赛系统提交和评估系统,介绍如下:

1.评测系统目录结构

/dataset…………开发集目录,用于系统提交后的正确性验证
/inference………评测代码及资源目录,系统运行的当前路径
/result …………请将评测结果以result.txt命名,存放在此目录

result.txt请按照result.txt中的格式。格式如下:

posterior: changsha, hebei, nanchang, shanghai, kejia, minnan
sent1: 0.01, 0.02, 0.03, 0.04, 0.1, 0.8
sent2: 0.7, 0.02, 0.04, 0.1, 0.06, 0.08
sent250: 0.01, 0.02, 0.03, 0.04, 0.6, 0.3
ACC: 0.8854

2.本地开发调试

a)使用开源深度学习训练框架(推荐)

请从公开镜像仓库下载对应版本的深度学习镜像CPU版本,编写本地程序进行评测。

以tensor flow工具为例:

I.下载镜像,docker pull tensorflow/tensorflow: 1.7.0

II.下载开发集到 /dataset目录,将评测代码inference.py及评测所需资源复制到 /inference目录

III.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result tensorflow/tensorflow:1.7.0 /inference/inference.py

IV.查看输出结果,并检查该输出结果的正确性其他框架与此类似。
b)使用非开源深度学习训练框架

首先,要将使用的深度学习训练框架制作成docker镜像,上传至公开镜像仓库(推荐使用国内稳定镜像仓库服务,如UCloud),制作详情可参考docker官方文档,具体操作如下:

I.在hub.docker.com注册账号,并创建仓库

II.本地执行docker tag your_demo your_account/your_demo:latest

III.本地执行docker push account/your_demo:latest,等待命令执行成功后,即可在hub.docker.com网页上,看到新提交的镜像信息
镜像提交完成后,参考使用开源深度学习训练框架中的步骤,进行本地开发和调试
具体的为:
IV. 下载上传的镜像,docker pull yourtoolname

V.下载开发集到 /dataset目录,将评测代码inference.py及评测所需资源复制到 /inference目录

VI.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result yourtoolname /inference/inference.py

VII.查看输出结果,并检查该输出结果的正确性

3.提交评测系统

a)将/inference目录打包成tar文件,tar –cvf inference.tar inference/
b)在比赛官网中评测系统提交页面进行上传

4.线上验证及评测

a)配置系统所需的镜像仓库地址,镜像入口及验证参数(/dataset目录由系统自动将开发集挂载到镜像内)
b)点击”运行”,等待评测结果
c)如评测报错或效果异常,请排查/inference目录结构、镜像等配置信息
d)确定评测结果无误后,点击”提交”。此时/dataset内将替换成为非公开的测试集,并记录系统效果

【限制条件】

为了保证比赛的公平性,本次比赛仅允许使用官方发布的数据和标注,否则比赛成绩将被视为无效。

不符合规定的情况包括以下几种:
a)参赛系统搭建过程中有任何一个环节(包括数据加噪、模型初始化等)用到了官方发布的训练数据集之外的其他数据
b)人工对发布数据集的音素序列标注进行矫正或改动
c)其他对发布数据集的人工处理,比如人工对数据集进行语音端点检测等

以下情况是允许的:
a)仅利用官方发布的训练数据集进行数据的机器仿真和加噪
b)利用官方发布数据集中已公布的所有信息,包括性别、说话人等
注:
完整的初赛数据集请在报名成功后前往个人中心-我的比赛,进入方言识别比赛专题页面进行下载

最后,潘嘉老师还为大家提出了一些新的研究方向。

科大讯飞首次提出基于BN i-vector的方法来解决语种识别的问题,相比传统的SDC特征的i-vector方法有着较大的提升。近几年来,类似于DNN等新的深度学习技术,也是可以尝试的方向。

具体的方法多种多样,比如可以直接利用文本信息来训练一个文本的分类器,跟传统的基于i-vector的方法进行融合,或者也可以把它作为一种外部的信息源,加入到端对端系统的输入中,直接训练端对端的系统。
今天的赛前分享就到这里了,感谢潘嘉老师的倾力相助。相信优秀的你们,一定会创造出出类拔萃的作品,小编再一次提醒大家,报名时间不多啦,大家千万别忘记报名了哦。

【点此报名参赛】

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信:

1-8

2018-03-22 ~ 2018-10-24合肥
听得懂,才智能!语音唤醒技术入门课程来啦

超多干货在里面

AI大学的同学们,大家好,新课程又来啦,本周,我们要学习的是“语音唤醒”的相关内容。

对于智能产品的用户来说,唤醒就是语音交互的第一入口,唤醒效果的好坏直接影响到用户的第一体验。所以,今天的内容还是很重要滴,同学们要认真听讲哦~

话不多说,有请今天的主讲嘉宾:科大讯飞研究院吴国兵老师,掌声欢迎~

唤醒01

1、什么是语音唤醒

语音唤醒在学术上被称为keyword spotting(简称KWS),吴老师给它做了一个定义:在连续语流中实时检测出说话人特定片段。

这里要注意,检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。

那么,该怎样评价语音唤醒的效果呢?通行的指标有四个方面,即唤醒率、误唤醒、响应时间和功耗水平:

➤唤醒率,指用户交互的成功率,专业术语为召回率,即recall。

➤误唤醒,用户未进行交互而设备被唤醒的概率,一般按天计算,如最多一天一次。

➤响应时间,指从用户说完唤醒词后,到设备给出反馈的时间差。

➤功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。

2、语音唤醒的技术路线

经过长时间的发展,语音唤醒的技术路线大致可归纳为三代,特点如下:

第一代:基于模板匹配的KWS

唤醒02

训练和测试的步骤比较简单,训练就是依据注册语音或者说模板语音进行特征提取,构建模板。测试时,通过特征提取生成特征序列,计算测试的特征序列和模板序列的距离,基于此判断是否唤醒。

第二代:基于HMM-GMM的KWS

唤醒03
将唤醒任务转换为两类的识别任务,识别结果为keyword和non-keyword。

第三代:基于神经网络的方案

唤醒04

神经网络方案又可细分为几类,第一类是基于HMM的KWS,同第二代唤醒方案不同之处在于,声学模型建模从GMM转换为神经网络模型。 第二类融入神经网络的模板匹配,采用神经网络作为特征提取器。第三类是基于端到端的方案,输入语音,输出为各唤醒的概率,一个模型解决。

3、语音唤醒的难点

语音唤醒的难点,主要是低功耗要求和高效果需求之间的矛盾。

一方面,目前很多智能设备采用的都是低端芯片,同时采用电池供电,这就要求唤醒所消耗的能源要尽可能的少。

另一方面,用户对体验效果的追求越来越高。目前语音唤醒主要应用于C端,用户群体广泛,且要进行大量远场交互,对唤醒能力提出了很高要求。

要解决两者之间的矛盾,对于低功耗需求,我们采用模型深度压缩策略,减少模型大小并保证效果下降幅度可控;而对于高效果需求,一般是通过模型闭环优化来实现。先提供一个效果可用的启动模型,随着用户的使用,进行闭环迭代更新,整个过程完成自动化,无需人工参与。

4、语音唤醒的典型应用

语音唤醒的应用领域十分广泛,主要是C端产品,比如机器人、音箱、汽车等。比较有代表性的应用模式有如下几种:

➤传统语音交互:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长。

➤One-shot:直接将唤醒词和工作命令一同说出,如“叮咚叮咚,我想听周杰伦的歌”,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。

➤Zero-shot:将常用用户指定设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到科大讯飞”,这里将一些高频前缀的说法设置成唤醒词。

➤多唤醒:主要满足用户个性化的需求,给设备起多个名字。

➤所见即所说:新型的AIUI交互方式,例如用户对车机发出“导航到海底捞”指令后,车机上会显示“之心城海底捞”“银泰城海底捞”等选项,用户只需说“之心城”或“银泰城”即可发出指令。

唤醒05
好啦,关于“语音唤醒”今天就先介绍这么多,想要仔细学习课程的同学,【点击这里】可以查看吴老师的教学视频哦,下期课程再见。

关注“讯飞AI大学”公众号,及时了解更多信息

AI大学

想获得讯飞创业扶持?机会就在这里

开发者大赛详解

划重点:

2018首届“顶天立地”iFLYTEK AI 开发者大赛火热进行中,【点此报名】直接进入报名通道~ 100万奖金池等你来挑战,优胜团队还可获得讯飞创业扶持优质资源!

自从2018首届“顶天立地”iFLYTEK AI 开发者大赛启动的消息公布后,小编就不断收到提问,其中的大部分问题都跟大赛奖励中的“生态扶持”有关。也难怪,毕竟是价值500万元的创业扶持资源,换成谁都会心动呢~

今天,小编就满足大家的好奇心,给小伙伴们好好讲一讲讯飞生态扶持的内容。

2017年10月24日,科大讯飞举办首届“全球1024开发者节”,在这次盛会上,讯飞正式推出了“AI生态计划”,启动10.24亿生态扶持基金,并在全国各地设立AI众创空间,为创业团队提供包括技术、资金、产业资源、办公场地在内的全方位服务。这就是“生态扶持”的起源。

生态计划

(首届“全球1024开发者节”)

目前,讯飞生态平台为开发者和创业团队提供的投资孵化、优秀星计划、联合空间等扶持通道均已全面开通,无论是刚刚起步,羽翼尚不丰满的初创团队,还是已经获得多轮融资,拥有数百万营收的钻石团队,都可以通过讯飞生态平台获得对应的创业扶持。

加入讯飞生态平台创业扶持计划之后,创业团队可以享受技术支持、资本对接、品牌背书等一系列优质资源,讯飞将提供优惠折扣的能力服务,并有专项经理对接创业团队,优先邀请创业团队创始人参加CEO参访活动,交流创业经验,资源共享,一同快速成长。

创业

当然,大家这会儿估计已经有很多疑问了,先别急,小编知道你们想问什么,早就替你们考虑到了,继续往下看:

Q:我是否必须集成讯飞开放平台的各项服务?

A:不必。我们为创业团队全面开放讯飞开放平台的各项服务,但这并不意味着您现在就必须使用我们的服务。我们非常乐意帮助您在讯飞开放平台直接体验世界领先的人工智能技术,并简单快速集成到产品中,让产品具备“能听会说会思考会预测”的功能。

Q:在项目期间开发的知识产权会为讯飞所有吗?

A:不,讯飞并不持有在此项目期间开发的知识产权,此项权利归开发公司所有。

Q:讯飞生态平台在寻找什么样的创业公司?

A:我们正在寻找在智能语音技术上有独特突破的创新想法和优秀团队,依托或需要智能语音的技术驱动型创业公司。我们很乐意帮助您开始免费接入讯飞开放平台,我们希望通过接入讯飞的人工智能技术,能够帮助创业团队在用户体验和品牌价值上得到快速提升。

Q:讯飞生态平台是否会投资入选公司?

A:会。对于足够优秀的创业团队和项目我们将直接进行投资。

怎么样?看到这里,你是不是对讯飞生态扶持已经有了一个基本的概念了?简单来说,我们就是要汇聚讯飞内外部各种优质资源,为创业团队提供更好的AI技术和服务,帮助创业团队快速成长。

所以,你还在等什么?报名参加本届开发者大赛,就有机会赢得价值500万元的创业扶持,收获讯飞为你准备的优质生态资源。

大赛-1

【点此报名】

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信。

小助手微信号二维码

大赛-4
讯飞生态平台,是科大讯飞倾力打造的“AI创业孵化平台”,旨在汇聚人工智能精英团队,创造一个AI领域资源共享、开放共赢的产业生态。讯飞生态平台依托讯飞开放平台的人工智能技术和庞大的开发者体系,运用自身产业优势及资源,为创业团队提供更好的AI技术和资源服务,帮助创业团队快速成长。

关注“讯飞生态平台”公众号,创业更有料

生态平台

科大讯飞「AI·飞无界」新品发布会,静待革新!

前行,因为热爱!

作为人机智能交互界面

科大讯飞AIUI全新升级

解决技术痛点,开启智慧生活

我们诚挚邀请您

与我们共同揭秘AIUI3.0!

【点此报名】

 

毋庸置疑,人机交互一直在刷新我们对未来的定义。

家居可以和我们沟通,机器可以识别我们的手势,耳机可以检测出我们的健康状况……但这一切远远不够!人类还希望可以与身边的万物自然交互,追求更强大的设备来扩展认知的边界。

所以,科大讯飞在追求人机交互优化的道路上步履不停。从以机器为中心的人机交互,走向以人为中心的自然交互,我们走过的每一步都离未来更进一步!

5月17日,深圳,科大讯飞AIUI全新升级,我们邀请您一同见证AI重新定义生活,突破想象力的极限。

邀请函
<所有问题,我们都会给您答案>

全新升级的AIUI到底解决了哪些技术难点和痛点,让开发者能够轻松接入,便捷使用?

超级神秘APP究竟会赋予我们哪些“魔力”,让千里之外的我们,也能准确把控家中情况?

如何在以“碎片”和“融合”著称的物联网时代,把握未来发展趋势,合作共赢?

1、惊喜彩蛋——寻找80位科技追光者

此次发布会我们将从报名观众中挑选出80名参会者,作为科大讯飞的【科技追光者】!

【科技追光者】可获得如下权益:

前排VIP坐席,与 Speaker零距离接触;

黄金视角,感受AIUI3.0最新技术演示;

获得科大讯飞「AI·飞无界」新品发布会纪念款T恤一套;

获得科大讯飞合作伙伴产品新品–咪鼠智能语音鼠标1只;

加入科技追光者社群,获得科大讯飞最新科技动态及新品体验机会;

所有入选的科技追光者参会者都将有机会参与2018年科大讯飞1024开发者节、年度发布会盛典。

2、官方社群——第一时间掌握发布会最新动态

为了让大家第一时间了解新品发布会的相关信息,我们建立了【科大讯飞 AI·飞无界 新品发布会】官方群,添加小助手微信:aigongkaike ,由小助手统一将大家拉入官方群!

【科技追光者】报名途径:

【点此报名】参与科大讯飞 「AI·飞无界」 新品发布会,我们会根据报名信息进行后台筛选。

Ps:所有入选【科技追光者】的参会者,都会由专门的工作人员一对一进行联系。

我们的每一次改变,皆出于让世界变得更加美好的愿景。5月17日,深圳,科大讯飞 「AI·飞无界」新品发布会,我们等你!

AIUI

科大讯飞AIUI人机交互平台是一个把麦克风阵列、前端声学处理、语音唤醒、语音识别、语义理解、语音合成、内容服务等技术在整个交互链上进行深度融合的系统。具有多轮对话、远场识别、个性化语音语义、方言识别、情感合成等功能。AIUI作为人机智能交互界面,旨在实现人机之间交互无障碍,使人与机器之间的交流,像人与人一样,通过语音、图像、手势等自然交互的方式,进行持续、双向、自然的沟通。

关注“讯飞开放平台”公众号,获取更多平台资讯

开放平台

2018-05-17 ~ 2018-05-17深圳南山区 Reborn755 泛娱乐馆
机器学习入门精讲,这40个知识点不可错过(二)

决策树——机器学习中的“倚天宝剑”

今天,带大家来学习机器学习中另外一个很重要的算法——决策树。

在开讲之前,咱们先来看个例子。

201玩过狼人杀的同学都知道,不管游戏过程多么激烈,该游戏的最终结局只有4种。

为了让同学们更直观地看到这4种结局,我们画了个非常生动形象(简单粗暴)的图:

202

这幅图完整表达了狼人杀结局的各种情况,箭头指向一个判断条件在不同情况下的游戏结果,最后通过场上剩余的人来判断是谁获胜。

我们可以看出,在每一个关键节点(比如村人杀死所有的狼人?),依据判断条件,可以将答案划分为Yes or No,最后输出获胜一方。

通过树形结构,根据条件判断输出相应的结局,这种简单的算法,便是决策树的原型。

【决策树】——机器学习中的“倚天宝剑”

决策树是机器学习中很经典的一种算法。它既是分类算法,也是回归算法,还可以用在随机森林中。

关于随机森林的知识点,可以回顾上期课程机器学习入门精讲,这40个知识点不可错过(一)

咱们学计算机的同学经常敲if 、else if、else其实就已经在用到决策树的思想了。

决策树是一种简单常用的分类器,通过训练好的决策树可以实现对未知的数据进行高效分类。

从开头狼人杀的例子中也可以看出,决策树模型具有较好的可读性和描述性,能够帮助我们更高效率地去分析问题。

举个例子,普通人去银行贷款的时候,银行会根据相应条件,来判断贷款人是否具有还贷能力。

贷款用户主要具备三个属性:房产、婚姻、平均月收入。

拥有房产或结过婚或月收入大于4000的贷款用户具备偿还能力。

203判断偿还能力过程如图所示

例如:用户甲没有房产,没有结婚,月收入5K,通过上图的判断条件可以判断出用户甲具备偿还贷款能力。

这整个判断还贷能力的过程,就用到了决策树的思想。

【决策树算法】——基尼不纯度、熵

基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率,可以用来度量任何不均匀分布。

下图是组合1和组合2的基尼不纯度:

204

从图中我们可以看出,组合1的基尼不纯度大于组合2。

打个比方,基尼不纯度就像男生挑钻石向女生求婚,所有的钻石看着都很闪,但仔细比较价格却差很多,因为每颗钻石的的纯度不一样,纯度越高,价格也就越贵。

由此可总结出这样2种情况:

A、基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好

B、基尼不纯度为 0 时,表示集合类别一致

熵度量的是事物的不确定性,越不确定的事物,它的熵就越大。

熵是信息论中的概念,用来表示集合的无序程度,熵越大表示集合越混乱,反之则表示集合越有序。

【决策树算法】——信息增益

信息增益越大,说明整个集合从无序到有序的速度越快,本次拆分越有效,则越适合用来分类。

通俗来讲,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。

我们以《非诚勿扰》为例,在男嘉宾出场之前,如果女嘉宾对男嘉宾一无所知,成为他女朋友的不确定性就比较高,如果知道其中的几个特征(如身高、性格等),不确定性就会减少很多。

由上面的例子可见,一个属性的信息增益越大,表明这个属性使得数据由不确定性变成确定性的能力越强。

【决策树算法的补充要点】

*关于剪枝

利用决策树算法构建一个初始的树之后,为了有效的分类,还要对其进行剪枝,剪枝是为了减少过拟合现象。

剪枝思路主要是两种:

一种是预剪枝,即在生成决策树的时候就决定是否剪枝。

另一个是后剪枝,即先生成决策树,再通过交叉验证来剪枝。

*关于过拟合

为了得到一致假设而使假设变得过度复杂称为过拟合。

比如,考试的时候,有的人采用题海战术,把每个题目都背下来。
但是题目稍微变化一下,他就不会做了,因为他没有总结出通用的规则。

过拟合的原因一般有两种:

A.模型太过复杂而样本量不足

B.训练集和测试机特征分布不一致

机器学习中关于决策树的部分就讲到这里了,下期再会。

大学二维码

关注我们,收看更多精彩课程~

机器学习入门精讲,这40个知识点不可错过(一)

集成学习——机器学习中的“屠龙宝刀”

为了让大家更好地了解和学习AI基础知识,我们就人工智能核心领域中的“机器学习”系统地总结了其40个入门必备知识点,现在我们就先来学习第一部分。

【集成学习】——机器学习中的“屠龙宝刀”

·集成学习方法是使用一系列学习器进行学习,再将学习结果整合,它像是某种优化手段和策略。在机器学习的监督学习算法中,我们想得到的是一个稳定且在各方面表现都很好的模型。

·但往往我们只能得到一些弱监督模型(在某些方面表现比较好),集成学习通常就是结合多个简单的弱机器学习算法,去做更准确的决策。

·用俗语来讲,就是集众人智慧去做相应的决策,个人的决策可能在某些方面有些不准确,但其他人可以修正他的决策,从而达到结果最优化。

·一般来讲集成学习的关键有两点,一是如何构建不同的分类器,另一个是如何将不同分类器的结果进行融合。

·围绕着这两个核心问题,产生了很多算法,其中最具代表性、最被大家所熟知的就是Boosting、Bagging和Stacking

101
集成学习分类器

【集成学习的算法】——Boosting

·Boosting是一种提高任意给定学习算法准确度的方法。它的思想起源于 Valiant提出的 PAC ( Probably Approximately Correct)学习模型。

·Boosting是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。

·Adaboost是boosting中较有代表性的算法,Adaboost是一种迭代算法,通过集合弱分类器,进行训练构成强分类器。

·Adaboost算法的基本流程如下:

A.用平均分配的方式初始化训练数据
B.选择基本分类器
C.计算分类器的系数
D.更新训练数据的权重分配
E.组合分类器,优化结果

·通俗来讲就是由误差率求得分类器系数,由分类器系数得到组合方式。

102

【集成学习的算法】——Bagging

·根据个体学习器的生成方式不同,集成学习的算法分为串行化方法和并行化方法,串行化方法的主要代表就是上面所讲的Boosting——因为个体学习器之间存在强依赖关系,所以只能依次进行。

·串行化方法的主要代表就是我们现在要讲的Bagging(bootstrap aggregating简写),因为个体学习器之间的关系依赖没有那么强烈,所以同时进行运算。

·打个比方,Boosting更像是我们小时候吃糖葫芦那样,只能先吃掉上面的一颗,才能吃到下面的一颗,而Bagging就像是我们吃面条,可以同时吃很多根,不存在只能先吃哪根,再吃另外一根。

·Bagging的采样方法是自助采样法,用的是有放回的采样。

·一般步骤都是先抽取一定量的样本,再计算想得到的统计量T,重复多次N,得到N个统计量,最后根据统计量,计算统计量的置信区间。

·举例说明:比如数据集里有10000个数据,我们随意从中抽取100个,得出统计量T1,然后将这100个数据放回到数据集里,再从中抽取100个数据,得出统计量T2,如此循环反复N次,得出统计量TN,计算出最后的置信区间。

·名词解释:置信区间是指由样本统计量所构造的总体参数的估计区间。

103

随机森林

·随机森林(Random Forest)是Bagging的扩展变体。随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。

·简单来说,随机森林相当于Bagging的升级版,原来的Bagging会在决策树的所有属性中,选择最优的那一个,而随机森林是从相应节点的随机属性中,选择一个最优属性。

·比如森林中有10万棵树,要从中选择高于10米的树,Bagging的做法就是重复统计多次,从而找到高于十米的树的数量区间。

·而随机森林的做法是随机将10万棵树分成10份,每份1万棵。对于这10份,每份都有一个输出结果,高出10米或者低于10米。如果高出10米的类别多,则整体是高于10米的,反之亦然。

·在概率学中,样本容量越大,结果就越接近,所以随机森林能够在训练效果更高效,计算开销更小的情况下,得出最后结果。

·值得注意的是在随机森林中,有两个采样过程是随机的,第一个是输入数据是随机的,它是从整体性训练数据中,选取一部分作为决策树的构建,是有放回的选取。(这就保证每棵树都不是全部的样本,不容易出现问题)。

·第二个是每个决策树构建所需特征是从整体特征集中随机选取的,采样的特征远远小于整体特征。

104

【集成学习的算法】——Stacking

·相比较于Bagging和Boosting,Stacking提到的较少,Stacking算法是训练出多个小分类器,把这些小分类器的输出重新组合成为一个新的训练集,训练出来一个更高层次的分类器,以得到最终的结果。

·Stacking算法在实际应用中,通常使用logistic回归作为组合策略。

·Stacking 是一种集成学习技术,通过元分类器或元回归聚合多个分类或回归模型。

·基础层次模型(level model)基于完整的训练集进行训练,然后元模型基于基础层次模型的输出进行训练。

105
好啦,机器学习中关于集成学习的部分就先讲到这里,下期再见~

大学二维码

关注我们,收看更多精彩课程~

柯洁再败!中国围棋人工智能崛起

4月27日,柯洁对阵国产 AI 棋手“星阵”,中盘告负。

4月27日下午结束的新一轮人机大战中,柯洁执白中盘告负,再次败于人工智能之手。

这一次,柯洁的对手是来自国产人工智能程序星阵,后者最近在网上取得了28胜2负的恐怖战绩,手下败将就包括现在的世界第一朴廷桓。星阵的取胜也标志着中国在围棋人工智能研发领域开始全力出击。

柯洁01

(柯洁星阵人机大战)

柯洁是目前中国围棋等级分第一人,最年轻的五次世界冠军获得者。星阵则是在AlphaGo论文架构的基础上进行了创新和延展,围棋招法更适合人类理解和学习。此次比赛可以说是继两次AlphaGo的人机大战之后,最具影响力的围棋人机对抗。

本次首届“吴清源杯”世界女子围棋赛暨“贝瑞基因杯”2018世界人工智能围棋大赛人机大战,柯洁对阵人工智能“星阵”,比赛采用中国围棋规则,黑贴3又3/4子,用时为每方2小时,保留五次一分钟读秒。裁判由2016年AlphaGo与李世石人机大战的裁判长樊麾担任。今天执白的柯洁选择了“宇宙流”开局,做出一块巨大的模样。黑棋打入之后,双方展开了惊心动魄的“短兵相接”。

柯洁02(柯洁气势澎湃的布局 P.S.一定要做出看得懂的样子)

柯洁攻杀黑棋大龙非常坚决,但星阵下得非常灵活,弃掉数子,破掉了白棋的潜力,全局实地黑棋领先不少。局势不利之下,柯洁做出一个劫争,寻求变化。但星阵计算精准,借打劫的机会,活出了此前阵亡的大龙。柯洁见强杀无望,遗憾投子,宣告落败。最终,星阵展示围棋AI的强大力量,执黑145手中盘战胜柯洁。

截止目前,柯洁参与过的三次“人机大战”战果如下:

2017 年 5 月 23 日,柯洁于杭州乌镇迎战升级版 AlphaGo,首日以 4/1 子遗憾落败,总比分以 3:0 败于 AlphaGo。

2018 年 1 月 17 日,柯洁对阵国产 AI 棋手“绝艺”,在 AI 让二子的情况下,柯洁依然惨遭碾压,在 77 手时告负。

2018 年 4 月 27 日,柯洁对阵国产 AI 棋手“星阵”,中盘认输。

自从第一次AlphaGo与李世石的人机大战之后,职业棋手们就开始对围棋人工智能进行了深入研究。普遍认为把棋局导向复杂的战斗,人类棋手取胜的概率会更大。但通过此次比赛看来,事实可能不尽如此。同时,这次星阵的取胜也预示着下一轮围棋人工智能热潮将在中国掀起。

星阵董事长金涬表示,“星阵围棋”的胜利,体现了中国人工智能企业积极探索的精神和创新进取的能力,接下来,会联手更多科技领域企业,共同探索将人工智能算法移植到金融、健康医疗、生活服务等多种应用场景中,让人工智能在各行各业发挥效力。

关于NLP,这4个知识点不了解怎么行?

理解人类语言远比破译密码复杂得多

前几次AI大学的课程科普了一些机器学习中基本的原理和算法,这一次我们将难度稍微扩大,聚焦目前人工智能领域最难的研究方向之——自然语言处理(NLP)。

1.自然语言处理——AI领域“第一团宠”

NLP作为AI领域的认知智能,其动态一直都是业内专家学者关注的重点,尤其是随着深度学习的不断进步,通过深度学习技术让NLP得到长足发展,让机器早日理解人类丰富多变的语言,成为了众多AI爱好者和开发者的期待。

接下来童鞋们就跟着班主任一起来认识下被称为AI领域“第一团宠”的NLP,它能在日常中解决哪些问题,以及实操中会遇到的困难等。

图01
上图表明,计算机理解用户输入的各种语言的“谢谢”的过程。

由用户输入不同语言中“谢谢”的不同文本,计算机根据不同文本处理出不同语言的“谢谢”,最后再将这些结果反馈给用户。

其中这个过程包含了句法分析、自然语言处理和自然语言生成等相关技术。

2.NLP解决的日常问题

自然语言处理实际应用有如下几点:

A、检验和提取不同类别的反馈
通俗来讲,就是重点文本分析。例如通过一条微博、一篇新闻、一条朋友圈,研究不同的人对某件事的看法,通过研究对象正面或者负面的评论,采取进一步的决策。

B、精准识别指代内容
不同的目标群体在交流过程中会有不同的表达以及指代的方式,适当使用指代会使文本更加简练而且并不影响本意的阐述。

例如,遇到生僻字“燚”不知道拼音的时候,大多会求助一些搜索引擎:“四个火是什么?”,搜索引擎一定会告诉你“燚”念什么,而不是告诉我们这几个词表面的匹配结果。由此可见,计算机能够“理解”这些指代内容。

C、对给定文本进行分类
对给定的文本,给出预定义的一个或多个分类标签,再进行高效、准确的分类。其实这就是一个简单的特征提取过程,通过不同的特征进行不同的分类。

3.自然语言处理引起的歧义

A、自然语言的二义性引起的歧义

自然语言的二义性,其实说的就是自然语言中广泛存在的歧义现象。

比如:“兵乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。对于这两种切分都是正确的。也就是说,就算是人工分词也会产生歧义。

通过这两个例子我们可以看出,由于自然语言的二义性,句子存在着多种可能的组合方式或者句意,计算机在处理这些句子的时候就会费很大的劲。

图2

B、上下文理解引起的歧义

所谓上下文,就是当前这句话所处的语言环境,这句话指代的主语、省略的部分、前后联系等等,都非常重要以及影响着这句话,因此上下文的理解是自然语言处理复杂性的一大体现。

即使是同一概念,不同的人也有不同的解读,所以人们在日常对话中也会有语句理解歧义。例如看下面一段对话:

A:今天一起吃饭吗?
B:我妈今天从老家回来。

如果仅仅按照字面理解,B的语句是无法回答A的。实际上,B是告诉A,今天我妈来了,不能和A一起吃饭了,这是人际交往中的一种间接拒绝。

这就表明,相互之间的语言理解要借助语境推理,上下文理解不正确就会产生歧义。那么在计算机的自然语言处理中,要让计算机尽可能多的模拟人的智能,让机器具备人的上下文理解的功能。

4.消除歧义

由以上自然语言处理的歧义可以看出,NLP的关键在于消除歧义问题。而正确的消除歧义需要大量的知识,包括训练集的标注与添加、词典资源的建立。

下面介绍三种消除歧义的方法:

A、基于词典的消歧
拿词典中的定义和歧义词出现的上下文环境进行对比,选择覆盖度最大的作为该词的词义。

这种消歧方法思想很简单,但是消歧的准确率不是很高。

图03
B、有监督消歧
让机器学习使用人工标记的数据,并与字典中的词语所代表的典型含义匹配。

例如,在「I often play with my friends near the bank」一句中,「bank」一词需要机器判断是银行还是河边。我们希望机器能够匹配句中单词最有可能表达的含义,让机器更深刻地理解自然语言。

C、无监督消歧
不管是基于词典的消歧还是有监督消歧,都需要训练集,而无监督消歧不需要这些预先知道的资源。

最简单的理解方式,就是把它比作考试。一般情况,每道题都有一个固定答案,对错代表分数的高低。那像作文只有题目没有固定答案,打分情况就要酌情而定。

关注我们,收看更多精彩课程~

关注我们,收看更多精彩课程

讯飞AI星火营杭州开营,汇聚丰厚资源鼎力支持创业者

视氪科技盲人视觉辅助项目夺冠

[1][0]
4月26日,讯飞生态平台走进杭州信息港小镇,联合中国人工智能谷举办“讯飞AI星火营”项目路演活动,中科深波、大坝科技等八支入围团队,向到场的投资人、产业方详细展示了各自项目。四十多家投资机构参会,和创业团队进行深入对接。

[0][0]

同时,科大讯飞股份有限公司浙江总部办公场地正式启用,浙大-讯飞人工智能研究中心揭牌成立!浙江讯飞智能今后将在人工智能核心算法研究,人工智能技术与产品创新,人工智能+教育、医疗、智慧城市等行业应用,人工智能开放平台发展等四大领域重点发力。

启用△科大讯飞股份有限公司浙江总部办公场地正式启用

揭牌△浙大-讯飞人工智能研究中心揭牌

科大讯飞联合创始人、投资集团总裁徐景明莅临,带来“AI产业说”主题分享,他谈到,互联网解决的是连接的问题,人工智能解决的则是生产本质的问题。“未来,我们将进入万物互联的时代。所有的设备都是智能的,都是互联的,屏幕会变得越来越小,甚至没有,以语音为主、键盘触摸为辅的交互时代将会到来。语音将是切入人工智能技术的重要入口。”

[0][0]
△科大讯飞联合创始人、投资集团总裁徐景明
在演讲中,徐景明还就中美两国在人工智能方面的发展做了对比。他指出,美国的优势在于科学研究、工程能力,中国的优势则在于客户中心型、效率提升型的产业上。

“而在人工智能领域,中国和美国已经同时进入无人区。在人工智能时代,中国有非常大的机会。”徐景明说,“我们期待着和在座的创业者一起,迎接人工智能蓬勃发展的伟大时代。”

[0][0]
△浙大友创投资合伙人谢瑀
浙大友创投资合伙人谢瑀带来了“AI资本说”主题分享。她谈到,人工智能起到了一个提纯的作用,能从纷繁复杂的世界中提炼出非常有用的、非常有特征的方法。我们依靠观察和实验提取一些知识,然后总结出规律,制定工具去改造世界。

那么人工智能领域的创业者应该做些什么?谢瑀从投资人角度对此进行了深入解读。她认为首先要以敬畏的心态去保持学习状态,其次就是要发掘自身的优势基因。每个人都会有自己的特点,企业也是如此,即便是巨头企业,也不可能在所有的领域里都有优势。对创业者来说,就是要发掘出自己的优势基因,进行差异化发展,找到并绑定枢纽节点,获得更大价值。

[24][9]
△入围团队进行项目路演

路演环节,八支团队各展所长,进行了精彩的展示。智能医疗、智慧教育、人工智能外呼SAAS平台等项目逐个亮相。经过激烈角逐,视氪科技团队的盲人视觉辅助项目获得评委高度认可,夺得第一名!见道科技、大坝科技分获二、三名。

【点击此处回看活动精彩视频】

 

[1][0]
△浙江讯飞智能科技有限公司总经理徐甲甲为获奖团队颁奖
[24][9]
△入围团队与评委嘉宾合影
[5][0]
△入围团队与投资机构代表深入交流对接
本次入围的八支团队都将获邀参访讯飞,进行产业对接合作,并加入讯飞创业扶持计划,获得“技术+产业+品牌”的全方位创业扶持。此外还可享受鲸准路演礼包、信息港小镇中国人工智能谷“一事一议”落地扶持政策等奖励。

而路演前三名的团队还将获得“1024全球开发者节”线下参展机会,第一名团队更将获得科大讯飞年度发布会参展机会,直面行业大咖,获得更多扶持!

怎么样,是不是心动啦?也想来试一试?告诉你一个好消息,2018年,讯飞生态平台还将陆续走进深圳、北京等城市,举办讯飞AI星火营,并面向全球征集优质创业项目,帮助创业团队与产业及资本方进行快速有效对接,结合讯飞开放平台的人工智能技术与服务,赋能各行各业。

[关注讯飞生态平台公众号,创业更有料]

生态平台公众号二维码

告别手动录入,开放平台OCR上线印刷文字识别

支持中英混合,准确率90%,限时免费试用!

讯飞开放平台印刷文字识别,支持中文、英文、中英文混合文字识别!准确率高达90%。【戳这里限时免费试用】

会议材料要录入,看着一摞摞大部头心很累?

书上的金句想分享票圈,还得一个一个字敲?

想Ctrl+C的一堆干货资料都印在书上?

外文标识急需在线翻译,输入耗时/输入法不符?

每当遇到以上情景,你是不是都希望有一个神奇的装置,哪儿需要扫哪里,迅速将文字转成计算机可编辑的数据?

说曹操曹操就到,讯飞开放平台印刷文字识别技术闪亮登场!作为OCR系列服务的新成员,带来处理大量非数据文本的神器。

OCR
1、数字时代的刚需技术

大数据时代下,虽然我们每天在计算机上获取,编辑大量的文本,但计算机以外的各种文本一直在我们的工作和学习中占据重要位置。而将这些文本录入也一直耗费着大量的时间和人力。

如何高效处理海量非结构化数据,使它们能快速转化为计算机可处理的数据,方便进一步数据库采集、管理、分析和决策,已成为下阶段的行业大方向。作为处理图片文字数据的AI技术——OCR(optical character recognition 光学字符识别),正是一种有效的解决方案,在越来越多用户需求的真实场景中实践。

讯飞开放平台重磅推出的OCR系列产品,基于讯飞AI研究院独创的基于深度神经网络模型端到端文字识别系统,识别文字符号的数字影像,并将其转换为对应的电脑等设备可编辑的数字文本,最终达到识别的文字结果可编辑、可处理的目的,其中印刷文字识别技术面向的就是印刷字体的转化。

2、印刷文字识别应用广泛

正如文章开头我们提到的,生活中有很多需要将印刷字体转换为设备可编辑的文本场景。而作为OCR家族的重要成员,印刷文字识别在这时候就大有作为,下面小编就带大家看一看——

(1)资料/文档处理
工作或者科研学习中,要应对大量的会议材料、书刊杂志、电子资料(如PDF),印刷识别技术可以方便将这些资料的文字转化为可编辑和整理格式

(2)卡证信息录入
在需要录入身份证、驾驶证、银行卡、营业执照等信息的场景下,印刷识别技术可以减轻手动录入的压力,更高效。

(3)视频/图片内容审核
计算机可以处理电子字符,但对图片上和视频中的字体无法识别,通过印刷文本识别技术,可以将图片中的印刷字体以及视频中的字幕、弹幕、画面文字转换为计算机可处理的文本,增强审核能力。(图片、视频中的印刷字体可使用印刷文字识别技术)

(4)书摘笔记
读书时,看到不错的金句和段落想要摘录或分享,印刷文字识别技术只需要随手一拍就能生成文本。

(5)随手记录
在微信、微博等内容平台看到有价值的图片内容会随手保存Mark,或是用截屏把手机页面内容保存到相册,但这些图片信息散乱在手机各处,很难进行归纳、整理和检索

(6)医疗、金融、图书档案管理行业电子化
医疗单据、票据、病例等资料电子化入库;金融企业证照、年报、财报、票据等纸质资料的结构化录入;图书档案的电子数据库的搭建,更新。都能通过印刷文字识别技术达到减少人力录入成本,提高效率的目的。

3、讯飞印刷文字识别技术优势

我们为什么用OCR?因为可以快速将文字转为可在设备上编辑的数字文本。因此能够得到用户青睐的OCR小编认为应能够准确生成文本,所见即所得,同时对不同字体,不同环境,不同颜色形状的文本准确识别。

现在小编再给大家说明讯飞开放平台的印刷文字识别技术的特长:

准确率业界领先:印刷文字识别的识别率高达90%。

复杂场景支持:支持扫描体以及复杂自然场景下的文字识别,对方向有旋转的文字,支持文字与水平轴小于±15°夹角偏转。

识别不同语言:目前支持识别中文、英文、中英文混合的文字内容的识别。

咪咕灵犀

在中文人工智能助手咪咕灵犀的翻译功能模块,接入讯飞开放平台的OCR与翻译能力,提供图片中文字的识别与翻译能力。

接入简单便捷:提供Restful API接口,可供开发者进行跨平台使用。

以上,大家可以看到讯飞开放平台的印刷文字识别技术在准确率,识别能力方面表现出色,同时支持不同语言以及混合语言的识别。

目前印刷文字识别已在官网上线。当然,精彩不停,体验升级,OCR家族的更多功能也将在后续推出,敬请期待!

【关注讯飞开放平台公众号,获取更多资讯】

开放平台二维码

八支团队入围,讯飞AI星火营杭州站开营在即!

4-26,杭州信息港小镇见证精彩~

4月26日,“讯飞AI星火营”项目路演将于杭州萧山信息港小镇拉开帷幕,经过征集评选,共有微鸟、见道科技等八支团队入围,项目涵盖教育、健康、物联网、餐饮等多个领域,个个都是实力非凡!

入围的团队个顶个的牛,活动奖励也超丰盛!现场八个路演团队都将获得:

(1)产业直通车:入选项目将获邀参访讯飞企业,直面产业大咖,助力产业项目合作;

(2)讯飞创孵计划:入选项目将获得讯飞“技术+产业+品牌”的全方位创业扶持;

(3)鲸准路演礼包:入选项目将获得鲸准特选项目集推荐,面向20000+投资人曝光(价值15万)。

得分前三名的团队还将获得科大讯飞年度发布会线下参展名额、“1024全球开发者节”优质创业团队线下参展及演讲名额等特别奖励!

而且,科大讯飞联合创始人、投资集团总裁徐景明,浙大友创投资合伙人谢瑀也将莅临,带来“AI产业说“和”AI资本说”精彩分享;众多投资人参会,优质项目现场对接,敢说不心动?

杭州站海报
友情提示:想要到现场一睹精彩的朋友,现在还可以【点击此处】报名哦~

好了,话不多说,入围名单即刻奉上:

1. 中科深波:超牛实力团队,玩转 AI 物联网

中科深波致力于研发、生产、销售基于云架构、人工智慧算法为基础的新一代互联网智慧语音识别系统产品。创始人兼CEO 章放军,浙江省建筑装饰行业优秀企业家、高级工程师,连续创业15年以上,拥有丰富的市场营销和产品定位经验。

1-中科深波

中科深波团队更是实力非凡,在较短的时间内取得了创立两个研发中心、四项软著、申报三项国际国内发明专利、注册产品商标、企业成功挂牌创新板等业绩,在远场语音识别、 DSP区域回声消噪技术等方面拥有领先优势。

2. 大坝科技:团队核心十年通信核心网经验,让更多企业拥抱智能实现转型

大坝科技专注于通信能力、大数据、人工智能领域,拥有多项自主研发的核心算法,与国内三大通信运营商有着多年的深度合作基础。自主研发悟空话务机器人,提升企业与客户的沟通效率;同时打造企业AI管理平台,帮助企业建立全渠道CRM智能系统,实现企业全面智能化转型。

2-大坝
3. 祐全科技:“食安大脑”智能平台,把控食品安全,让你吃得放心

祐全科技由行业专家与互联网人携手创办,专注于食品安全领域智慧服务。在全国首创人工智能+食品安全智能平台,现入驻企业两千家。采用最新科技严格把控餐饮各环节关键风险,实现新时代下餐饮食品安全的智慧监管。

3-祐全
4. 栗伙健康:利用深度学习与增强智能,让每个中国人都用上私人营养师

国内营养消费市场日益壮大, 注册/临床营养师人数却远远不足,供需之间存在巨大差距。栗伙健康瞄准营养消费市场,利用深度学习与增强智能,致力于成为下一代个人精准营养师,成为临床营养师工作的重要辅助,个性化地解决80%的常规营养咨询问题,为你提供个性化的精准营养服务。

4-栗伙
5. 微鸟:优质欧美教师资源服务全球用户,弹指一挥间,学好一门外语

“Freebao-微鸟”App移动教育平台融合创新口语教育理念和尖端语音评测系统,并获得多项专利。随时随地打开App,点击-发起课程,即可与来自欧美的资深外教开始1对1课程。

5-微鸟

根据你的视频,发音和答题能力,微鸟AI系统深度学习,定位你的弱项视频片段+发音片段,纠正口型,定期自动全方位地为你生成一套适合你的英语学习报告和方案。

6.见道科技:全欧美名校博士核心团队,打造饮食健康领域的AlphaGo

见道科技团队实力爆表,核心团队全欧美名校博士。创始人何泽仪,世界100强公司高级商业顾问,伦敦DaVision首席咨询师,大数据科学家,英国约克大学博士。

6-见道

见道科技致力于人工智能与医疗健康相结合的领先科技,专注于慢性代谢性疾病患者,通过人工智能算法开发,大数据分析挖掘,营养学,慢性病理学的联合应用,提供个性化饮食建议的智能营养师,打造饮食健康领域的AlphaGo!

7.TelRobot:智能云端销售客服专家,助力企业减少80%重复劳动

南京梦立方教育科技有限公司(TelRobot),专注提供营销云服务,其推出的“智能AI机器人呼叫系统“可为企业提供自动语音外呼、客户信息管理、客户满意度调研等多场景多环节语音呼叫任务,助力企业减少80%的重复劳动。

7-telrobot

创始人魏佳星为中国B2B百名创业新锐,福布斯中国30位杰出青年,2016年作为创业代表接受阿里巴巴集团CEO张勇先生授予的“阿里巴巴全球梦想家”称号。

8. 视氪科技:全球首款智能视觉辅助眼镜,为视障人士的美好生活解决挑战

视氪科技是全球领先的视障人士辅助技术解决方案提供商,目前团队有26人。核心成员中有3名博士和7名硕士,分别来自清华大学、浙江大学和上海交通大学,团队涵盖了光学、算法、软件、硬件等多领域的人才。

8-视氪

其推出的“视氪眼镜”是全球首款基于机器视觉、人工智能和立体声编码的智能视觉辅助眼镜,具有障碍物检测、楼梯检测、人脸识别等功能,极大地改善了视障人群的生活。

4月26日,这八支团队就将齐聚杭州,同台竞技!

没有入围此次路演的小伙伴也不要灰心,接下来讯飞AI星火营还将走进深圳、北京等地,在全国核心创业城市陆续开营!只要你有创意、有想法,坚定了创业的打算,想要在智能领域开辟自己的天地,我们都竭诚欢迎你的加入。

创业之路,并不轻松,但全心全意为创业者搭建资源对接平台,提供优质的支持和服务,就是我们始终不变的初心。

讯飞生态平台将汇聚讯飞内外部优质创业资源,为你提供技术支持、资本对接、创业指导、产业扶持、品牌背书等优质创业生态资源,帮助你的团队快速成长!

【关注讯飞生态平台公众号,创业更有料】

生态平台公众号二维码

SDK版本升级通知

请升级您的SDK到最新版本

升级通知

尊敬的用户:

您好!

因Google在Android 8.1 系统上,针对unicode编码做了细微的改动,导致平台老的SDK(1127版本以下的SDK),采用默认的unicode编码时,会在Android 8.1的系统上出现异常。为及时规避该问题影响,请您前往开放平台升级您的SDK到最新版本。

SDK最新版下载地址http://www.xfyun.cn/sdk/dispatcher

感谢您的配合!

讯飞开放平台

2018-4-23

超过80%语音开发者的共同选择