新能力 | 多语种语音识别上线,新增5大语种让机器“听懂”你
讯飞开放平台多语种语音识别能力已上线,新增日、韩、俄、法、西5大语种。语音极速识别,准确率高达90%以上!多语种混合建模给机器装上“耳朵”,让其具备能听会思考的能力。戳我了解更多内容:小语种语音识别

随着中国国际地位的提高,中国文化走出国门,向世界传递中国声音,吸引一批又一批的外国人前往中国工作和生活。

jHUcCuUS_9HwD

(图片来自《中国国际移民报告》)

他们中除了说英语和美语,还有一部分来自韩、日、俄、西、法等语系被称为小语种国家的居民。

顾名思义,小语种由于其语言覆盖范围小,使用人数少而无法作为国际流通语言。这样给生活在中国的他们带来了极大的不便

一家西班牙跨国公司开视频会,要求会议内容实时投屏,可是市场上对于西班牙语同步语音识别解决方案少之又少。

一名热爱中文的法国小伙,为了理解法语在中文对应的含义,只能对照词典一字一句的抄写,耗费大量的人力。

某俄罗斯跨国集团驻中办事处招俄语速记员,不仅待遇比英语速记高很多,而且人才数量供不应求,提升了招聘成本。

……

如何快速解决小语种实时投屏难题?如何解放双手提高外语学习效率?如何节约公司成本不影响小语种速记准确性

现在,讯飞开放平台多语种语音识别能力上线,解决你应用场景中遇到的难题!

识文断句让机器更「懂你」

全新升级的多语种语音识别,在建模颗粒度、单语文本语料、无监督语音的应用、多语种混合建模等方面采用了多种创新技术。具有获取信息准确,识别效率高,智能语义理解和系统稳定性强等优势——

精准识别「两不误」

基于科大讯飞先进的语音识别技术,识别准确率业界领先,准确率高达90%以上。结合机器翻译功能,实现中外双向沟通无障碍,轻松应对小语种交流。

法语

秒级输入+即传即翻

语音输入速度快,识别结果响应时间低于200ms。语言交流往往具有即时性和互动性,运用小语种语音识别可以让你快速领会对方表达的内容。便捷语音输入速度极快,让信息沟通变得无比顺畅。

gifhome_948x433

让机器也能「识文断句」

新增的日韩等小语种识别能力,针对每种语言的特性使用超大规模的语言模型,适用于不同场景下的信息沟通,对识别结果语句智能预测其对话语境,提供智能断句和标点符号的预测。

gifhome_948x433

本次讯飞开放平台主要上线多语种语音识别能力,结合之前的机器翻译功能,将带来更多应用场景可能性,用A.I.赋能消费者,体验最便捷的小语种沟通模式。

语音识别&机器翻译

随着中国国际地位日益提升,合作伙伴遍布世界各地,跨国交流场景也在飞速增加。未来,多语种语音识别能力将会服务更多用户,带来不同场景下的沟通体验。

海外购物

得益于交通运输的便利,境外购物范围越来越广,可是小语种翻译的沟通成本较高,怎样才能让人省心买买买?用多语种语音识别能力应用于购物场景,将你所需购买商品信息准确传达,帮你淘到心仪的商品。

3e7324ab5f2014a5273c861bc2903ac0

海外出行

方向不对,前进白费。我们在陌生的地方都会遇到摸不清方向,需要问路的窘境。当你置身国外语言不通,身边又没人协助交流的时候该怎么办?

3dd6fca30f48f48813ec441421d61a0f

多语种语音识别能力搭载的“讯飞翻译机”可以解决境外问路难题,随时随地语音识别翻译内容,让你自由出行随时hold住方向。

境外就医

数据显示从2013年海外就医4000万人到2018年突破1亿,越来越多的病患选择去境外就医,尤其是一些疑难杂症现阶段国内医疗技术还无法治愈,只能去医疗条件更好的国家。

jHUcCuUS_9HwD

(数据来源“速途研究院”)

生命延续,刻不容缓!但是与医生交流病情语言不通怎么办?多语种语音识别丰富的文本语料,涵盖大部分医疗词汇,让你沟通病情无障碍。

商务交流

国际贸易、跨境电商,中国的产品以优质的品质和精美的外观受到国外市场的广泛欢迎。商务交流是促成商业合作的必要环节。

34-1103231R61379

客户只能用小语种沟通时,多语种语音识别能力所搭载的讯飞听见会议转写机就可以解决沟通障碍的难题,不仅节约成本而且比人翻译更快更稳更准,解决商务交流场景中语言不通的难题。

  能力体验通道  

现登陆讯飞开放平台官网,点击“产品”栏目,找到“语音识别”入口,或点击文末“阅读原文”直接进入。

IUUS8qJ8_9NSW

END

限时福利

即日起至9月10日,在讯飞开放平台进行余额充值,不仅有巨额礼金赠送,还可以免费抽奖,领取限量1024开发者节入场门票。

V4canjfU_E9Xj

(更多精彩礼品请点击图片了解详情)

未来讯飞开放平台将根据客户需求持续上线一批新能力,用核心技术与A.I.能力汇聚开发者,带来更多的创新应用产品,释放强大的组合能量!扫描关注下方讯飞开放平台二维码即可体验更多精彩内容!

二维码

阿尔茨海默症:忘了最爱的人,A.I.帮你找回他
据世界卫生组织 (WHO) 公布的一份报告中显示,目前全球阿尔茨海默症患者高达4380万,到2030年,这一数字还将会增加一倍。也就是说,未来社会每3个家庭中就有一位阿尔茨海默症患者。

随着《忘不了餐厅》完美收官,这档由黄渤主持,豆瓣评分高达9.4分的暖心综艺引爆了这个夏天观众的热情,也再次把“阿尔茨海默症”这一话题带入人们关注焦点。

阿尔茨海默症(AD)是老年人认知能力的减退,是原发性的神经元变性。临床表现以记忆障碍、失语、失用、失认等症状。如今世界还未发现治愈方法

微信图片_20190711125927

热播电视剧《都挺好》中的主角苏大强,因为罹患阿尔茨海默症忘记了许多事情,却还记得女儿最想要的作业本。这些感人至深的画面也是赚足了观众的眼泪。

苏大强

(图片来源:电视剧《都挺好》)

其实不仅仅是电视中的老人,在我们看不见的角落还有许许多多的生命承受着不可承受之重——

1

▲眼睛是心灵的窗口,阿尔茨海默症患者的眼神满是无助和迷茫。

ache-adult-back-pain-1573823

▲受糖尿病和AD双重折磨的老人经常脾气暴躁,难以自控。

微信图片_20190712222312

▲“离家不记来时路,从此处处是归途”。由于认知能力减退,病患不可以独自出门,否则后果可能就是失踪。

alone-casual-wear-elderly-man-2452500

▲因为感受不到时间的流逝,86岁的老人坚持要等50岁的孩子“放学”。他可能会忘记时间,但是永远不会忘记爱你!

fc778a10df7c41f1a534df4b0337397e_th

▲”一天要翻8次身,擦洗10次,24小时轮流陪护,现在的孩子哪有这个时间精力来照顾患病老人”养老院的一名护工如是说。

微信图片_20190709112904

▲阿尔茨海默症特征之一就是越久远的事情记得越清晰,或许这样返老还童也是一种幸福。

我们最终都会老去…

然而,你以为阿尔茨海默症只会存在于老年人的世界里?

01
中国患病人数世界第一
年轻人也会患病

《世界阿尔茨海默病报告》显示,全球约有4380万名阿尔茨海默病患者,从1990年到今天预计每20年患病人数将翻一倍,到2030年将达到7470万人,2050年更将突破1.3亿人。

微信图片_20190709134614

(图片来源:GBD全球AD疾病负担研究报告)

我国阿尔茨海默病患者已超过千万,居世界首位,并且每年以30万以上的新发病例快速增长。

1-1P5231G34JI

(图片来源:世界阿尔茨海默症报告)

报告显示96%的患者为65岁以上的老人。那么是不是年轻人就不用担心了呢?别忘了,还有那4%的年轻患者。迄今被发现的最年轻的AD患者年仅27岁。

综上,阿尔茨海默症已经成为世界范围亟待解决的重要难题。如何减少该疾病的发病率?提前预测及早预防是关键!

AI,让阿尔茨海默症远离你身边的人!

02
AI应用阿尔茨海默症检测
全球共话AI+医疗

实验室

预测是如今对付AD最好的方式。根据国际阿尔茨海默病防治协会提供的数据显示:

减少患者总数如果临床治疗可以推迟患者晚发病一年,那每年将会减少900万患者。

节约治疗开支平均每位阿尔茨海默症患者每年耗用33000美元。通过AI预测,早期的诊断和诊断介入,如果可以推迟5年,则可在30年内解决5万亿美元。

快捷无痛预测过去的AD检测采用腰椎穿刺提取脑脊液的方式,对Aβ淀粉样蛋白、Tau蛋白进行检测。

如今通过A.I.技术对阿尔茨海默症进行早筛,诊断日益成熟,可以通过人工智能算法准确预测患病率,减少病人痛楚。

下面我们看一看A.I.应用于AD检测实例:

2018年11月,斯坦福大学的研究人员开发了一种基于深度学习的系统,可从核磁共振成像中自动检测阿尔茨海默症及其生物标志物,准确率高达94%。

该团队采用CUDNN-accelerated TensforFlow深度学习框架,基于Alzheimer’s Disease Neuroimaging Initiative提供的数据集,训练3D卷积神经网络。该神经网络学会解释大脑不同区域及其与疾病的关联,包括与阿尔茨海默症相关的生物标志物。

u=3435944805,1709951527&fm=26&gp=0

国内的A.I.公司雅森科技结合临床病历、神经心理学量表、脑电图及多种影像数据对患者的脑部情况进行分析,利用多模态及深度学习技术。

基于中国人群组标准脑模板及连续五年随访的AD专病数据库,训练出诊断和预测模型,可以对患者进行痴呆症疾病分类及五年内病程预测,并生成结构化报告。

03
开发者大赛首创AD预测赛道
汇智全球开发者

1111

科大讯飞2019届iFLYTEK A.I.开发者大赛是推动人工智能前沿科学研究和创新成果转化,培育人工智能产业人才,助力人工智能生态建设的一项顶尖人工智能竞赛平台。

今年大赛重装上阵,赛题数量增至9个。其中阿尔兹海默综合症预测挑战赛作为其中之一,旨在汇集全球开发者聪明才智,通过人工智能技术预测老人是否患有阿尔茨海默症,从而改变这一社会难题。

为了开发者更好的理解赛题,我们有幸采访到了李鑫博士为我们带来官方赛题解读——

Q:

赛题的设计初衷是什么?

A:
认知障碍是阿尔兹海默症的典型表现,其中言语障碍在疾病早期就有所呈现。轻度病症的患者往往出现找词困难、重复、空语、模糊语等语言表征。通过对于语音语言的智能化处理和分析,可以为临床认知障碍的检测提供具有价值的帮助。
Q:
赛题任务要求是什么?
A:
基于老年人在特定图片描述任务中产生的语音,给定语音数据中提取出的声学特征、主被试对话的切分信息、人工文本转写结果以及对应的认知标签,建立2分类模型预测认知标签(正常或认知障碍)。
Q:
作品提交要求是什么?
A: 
1、文件格式:按照csv格式提交;2、文件大小:无要求;3、提交次数限制:初赛期间共5次;

4、文件详细说明:

以csv格式提交,编码为UTF-8,第一行为表头;
内含2列,第一列为id,第二列为label;
id对应测试集中样本的id,label为参赛者的模型预测结果;

5、不需要提交其他作品

04
写在最后

这世上并不是所有病的治疗方法都能写进药方里。

只有关注,理解,才能切身实地的做点什么去治愈去改善。

小到个人,大到一项赛事。

科大讯飞2019届iFLYTEK A.I.开发者大赛设置9大赛题,立足社会方方面面,以人工智能改善人类生活为己任,找到一条和谐共生的发展之路。

所以小编策划了这档《赛道直通车》栏目,介绍赛题内容同时告诉世界我们可以做什么。请大家持续关注小编,下一期我们会带来教育赛道方面的内容,欢迎到时收看。

如果大家还有哪些问题想要了解,可以添加AI小助手的微信iFLYTEKAI,获取大赛一手资讯,不定期宠粉发放福利。还不快快点击下方二维码加入我们把!
你会扔垃圾吗?iFLYOS教你2步搞定垃圾分类!

路遥知马力,AI识垃圾,专治噢!

《上海市生活垃圾管理条例》已开始实施!条例规定:如果混合投放垃圾、拒不整改,个人最高罚款200元企业单位最高罚款5万元。

如何拯救大家的荷包?听听小智教你一招解决——

素以“金融中心”著称的上海,最近的状态有点反常

1

有市民亲身cos分类垃圾桶:

2

某宝推出的“垃圾桶”包,也成为南京路上一道亮丽风景线。

3

阁下莫非就是电竞圈榜上有名的“垃圾侠”:

4

这年头没点搜索技能都不敢填饱肚子

5

程序员小哥也在编程之余苦练分类技能——

6

当然啦,垃圾分类还要从娃娃抓起——

7

小智在上海的侄子刚刚入手了一套学前小卡片从此沉迷垃圾分类一发不可收拾。

以下是他和妈妈的日常对话——

8

小智看完后心想:说不定以后大侄子会以“垃圾分类”教父C位出道。

9

究竟是什么让上海人民如此沉迷“垃圾分类”,或许我们可以从官方找到答案——

“看不懂”的官方指南

上海出台了官方投放指南——

10

看完这么详细的垃圾分类指南,小智有种重回学生时代,考场上作阅读理解的真实感:这也不会,那也不会…

不过这些难不倒智慧的中国网友,有人给出更接地气的解读方式!

11

当然这种开玩笑的图解没有办法解决实际咱们的实际问题,对于小智这种上班族,垃圾分类的难点主要在于以下两点:

容易错过投放时间

垃圾投放时间设定在早晨和傍晚两个时间段,早晨时间紧任务重,晚上稍微加会班就赶不上。

垃圾要求破袋分类,类目多记不住

作为一名996的“社会汪”,平时工作的压力、社交和聚会等已经占据了大部分的时间。而《条例》中明确要求按照“干垃圾”和“湿垃圾”、可回收物和有害物四大品类投放垃圾。复杂程度无异于重新学习一门专业知识,让无数群众望“图”兴叹。

但是作为环境净化的必经之路,小智绝对拥护垃圾分类条例的实施!就算一开始适应起来会有些麻烦,等到养成良好投放垃圾的习惯后,好处一定大于阵痛。

垃圾分类谁是“头号玩家”

就在大家同情被垃圾分类知识“逼疯”的上海群众时,国家住建部发布最新要求

12

很快各大城市《生活垃圾管理条例》就会来到你我身边,请大家整理好心情,拿起小本本学习一些先进的垃圾分类方法。

13

澳大利亚:垃圾日历APP

澳大利亚居民有一个人人习以为常的垃圾日历APP,通过这款手机软件每天提醒人们把垃圾桶拖到固定的位置,然后会有垃圾回收员进行统一收取,如果有垃圾溢出的部分,管理员不会进行处理,提醒民众时刻遵守垃圾分类原则。

14

德国:建立垃圾分类回收体系

德国家家户户都在厨房的水池下或抽屉中放置不同的垃圾收纳容器,分别收集玻璃瓶、金属、纸张、塑料和厨房垃圾等。然后由专业人员上门收集,并加以循环利用。目前德国的垃圾循环利用率保持在65%以上,居世界前列。

15

垃圾分类见成效。中国如何在这一问题上规避风险,早日实现弯道超车?小智认为除了养成垃圾分类意识,借助人工智能技术帮助人们识别垃圾品类格外重要!

1秒识别,简单便捷小助手

科大讯飞iFLYOS已经最新上线了“生活垃圾分类查询”技能,并且第一时间接入到了讯飞开放平台AI体验栈中。

主要应用到:语音识别技术和语义理解技术,以及iFLYOS开放平台的自定义交互技能功能。

语音识别技术:语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别可以理解为“机器的听觉系统”。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

语义理解:是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解。也称为计算语言学一方面它是语言信息处理的一个分支 , 另一方面它是人工智能的核心课题之一 。

iFLYOS自定义技能:iFLYOS技能工作室(Skill Studio) 是一套可视化的人机对话开发平台,是所有搭载了 iFLYOS 或 AIUI 的设备的大脑。讯飞技能工作室为开发者提供了技能设计、开发、测试、发布、优化的工具,开发者可以通过可视化的界面,快速高效地将自己的创意、产品或服务,通过语音技能传达给智能硬件的用户。

AI+垃圾分类助你1秒识别垃圾,操作便捷易上手。下面小智就教大家如何使用:长按二维码进入小程序,语音输入“我要扔垃圾”

16

↑↑↑戳我戳我戳我↑↑↑

好啦,关于这款垃圾分类小程序我们就介绍到这里啦。垃圾分类,绿色生活,从我们大家做起。

研究所二维码

一张照片就能生成视频?连口型和声音都能对上!

《哈利波特》诚不欺我也。

你还记得《哈利·波特》电影里,那些会动的的照片吗?

比如守卫着格兰芬多学院休息室的胖夫人——

1

脾气不太好的胖夫人

当年看电影的时候,小智就对这些细节印象深刻。没想到这些魔法现在居然成真了!

现在,只要提供一张照片,利用神经网络技术就能实现让静止的人像动起来,甚至开口说话。

而且是有情绪、有表情,口型跟声音完全一致的那种!

比如玛丽莲·梦露

▼原图

3

▼处理后的动效

4

你可能会说“梦露的影像资料那么多,这gif有什么好稀罕的。” 好吧,那这个怎么样呢——

▼原图

5

▼处理后的动效

6

仅凭蒙娜丽莎的一张平面图片就塑造出了立体动态的人物,这到底是如何实现的呢?

先让照片动起来

研究人员从YouTube上收集了7000张名人照片以及人脸说话视频,对机器进行训练,使其学会识别人脸上的显著特征,如眼睛、嘴巴形状、鼻梁形状等。并使用卷积神经网络创造出动态头部模型

之后,再给这个训练好的模型“贴”上我们想要让它动起来的那张照片。此时,系统能够自己找到对应的五官部分,然后针对新面部里各个的关键点进行调整,最后达到自然的动态效果。

7

此时,即使只有一张目标照片,也能进行人脸模拟。当然,照片的数量越多,最终视频也会越加精致和逼真。

8

1张、8张、32张目标人物的照片的训练结果

研究人员表示“尽管需要调整数千万的参数,该系统能够因人而异地初始化生成器和判别器参数。因此,训练可以在仅借助几幅图像的情况下快速完成”。

加上声音对口型

OK,让静态照片动起来的操作已经完成了,现在再配上音频就能完成了。

不过这“配音”的步骤可没有那么简单。

如果只是简单粗暴地把音频加到做好的视频上,结果就会变成咱们小时候看的粗糙动画片:卡通人物不管在说啥,嘴巴永远只有“开”“合”这两个动作——

9

光看口型,你知道海绵宝宝说了什么吗?

小时候从来都没质疑过人物口型为啥跟台词对不上的朋友,请到这里集合······

10

成年人的视觉对脸部细节的敏感程度比小孩子要高得多,要不然也不会出现明星因为口型对不上被观众逮到假唱的糗事了。

因此,在不久前举办的计算机视觉顶会CVPR 2019 上,这项新研究提出了一个端到端系统。在之前研究的基础上,不仅实现了人物口型和音频的同步,还实现了更为自然的人物面部表情,比如眨眼和眉毛动作等。

11

12

13

新合成视频中人物的情绪饱满

这才是“jpg→gif→mp4”的全过程。

仍有些粗糙

虽然以上的实验成果已经非常惊艳了,但细看之下,仍可以发现不少bug。

例如,正常人说话时会有轻微的头部运动。但实验合成的一些人物头部转动时,五官和脸型会发生变形,有种说不出的怪异感。

14

又比如一些人物背景会发生扭曲

15

而图灵测试的结果也反应,大众并没有那么容易被合成的假视频欺骗。

【什么是图灵测试?】

图灵测试是由“计算机科学之父”艾伦·麦席森·图灵提出的关于机器人的著名判断原则

如果说现在有一台机器人,其运算速度非常快,可以进行听说读写,还能回答许多问题。那么,我们是否就能说这台机器人具有思维能力了呢?

我们可以进行这样的测试:将测试者与被测试的机器人隔开的,测试者通过一些装置(如键盘)向被测试者提出一些问题。几轮问答后,如果测试者能正确分辨出被测试对象中哪些是真人、哪些是机器人,那机器就没有通过图灵测试;反之,若测试者没能判断出来,那这个机器就可以被认为是有人类智能的。

在对本项目进行的图灵测试中,66名测试志愿者需要观看 24 个视频(12 个真实视频,12 个合成视频),并且将每个视频标注为“真”或“假”。测试结果表明,平均用户标注的正确率为 52%。

16

总的来说,模型的动作幅度越大、速度越快,目标照片的背景元素越复杂,产生的怪异感和形变就会越严重;而视频时间越长,观众容易发现漏洞的概率也会越大。

技术应用

单张或少量照片就能完成动态人像,这样的速度和效率让该模型更利于推广。可以预测,未来这一系统将会被应用在游戏、电视、电影特效行业中。

例如好莱坞的许多大型数字特效公司,利用现有技术将一位演员的面容“移植”到另一个身体上,需要花费几个月的时间。而使用这样的技术,可以大大缩短制作时间,节省成本。

17

特效电影《阿凡达》就花费了大量的后期制作时间

当然,也有不少网友表示,一些演技堪忧的流量明星这下可有救了。

18

此外,这一技术还可应用于特殊人物的“复活”。例如,在佛罗里达州的圣彼得堡,达利博物馆就将著名的超现实主义画家达利“复活”了。

在这场名为《Dalí Lives》的展览上,展品是一个显示屏,上面有一个按钮,当你摁下按钮时,屏幕里的达利仿佛听到了门铃声,会走过来和你说话,让人感觉非常真实。

19

而这一展览使用的,就是机器学习驱动的视频编辑技术。

预测将来,这一技术还可以成为私人化定制服务,满足客户将名人或过世的亲人“复活”的需求。

而此刻正在B站刷视频的小智,产生了一个大胆的想法——是时候用AI技术为鬼畜区添砖加瓦了。

20

B站全明星阵容,敬请期待

而点开微信表情包,我又产生了一车大胆的想法——

21

让你的照片动起来 !
想让你的照片动起来吗?jpg秒变gif,甚至可以配上声音变成视频哦。这里有一款简易的小程序可供大家体验!

22

作品示例

获取步骤:

1.微信搜索关注公众号AI研究所

2.转发原文到朋友圈并将截图发送到AI研究所后台;

3.再发送关键词“动态”到后台。

我们确认过后,就会将小程序推送给你!

研究所二维码

AI服务市场618 | 亿万服务,钜惠来袭!

AI有玩,优惠没完!

号外!号外!618全球年中购物节开始啦!此刻的你,是不是推着堆得满满的购物车正准备下单结账呢?

1

且慢!

大家不要忘了还有一个重量级的会场,那就是讯飞开放平台618钜惠大放送!

7折明星产品、海量大额优惠券、精品解决方案、服务市场周年惠……超多AI能力优惠大放送!

下面,就让我来为大家解读这份讯飞开放平台最全最省的618抢购攻略!

2000¥无门槛优惠券

为开发者和企业谋福利,我们是认真的!

总价值2000元的无门槛优惠券大礼包双手奉上,100元、200元、300元任你组合,多买多划算。还不快揣进口袋!

1.  优惠券产品,肆意折上折222

2.  领取方法

关注“讯飞开放平台”微信公众号,在后台输入:618#您的11位手机号,即可领取2000元粉丝专属无门槛优惠券,享折上折优惠,下单即减。

3.使用说明+有效期

  1. 优惠券自动发放至用户账户,用户可在控制台—财务中心—优惠券查看。使用时,需用领券的手机号登录讯飞开放平台官网;
  2. 优惠券在提交订单时抵减相应金额,每张券仅可使用一次,不可提现、转赠;
  3. 若发生订单退款,仅退还实际支付部分,优惠券抵扣金额不予退款;
  4. 活动时间:2019年6月14日-7月15日
  5. 本活动最终解释权归讯飞开放平台所有。

AI能力狂欢购

 1. AI明星产品 

语音转写识别准确率98%,机器翻译2.0支持含英、日、韩、法、西、俄等100多种语言翻译,语音听写输入速度达180字/分……

长期以来,这些能力都是开放平台备受欢迎的明星产品,当然也是本次大促的重头戏——

333

 2. 图像处理专场 

除了备受青睐的语音产品,为了满足大家在不同场景下的多样需求,本次开放平台618还开辟了图像处理专区——

444 3. AI离线+硬件专场 

智能硬件将软硬件结合,对传统设备进行改造,拥有智能化的功能和 “云+端”的典型架构。而这一次,我们也将在“AI离线+硬件专场”中进行优惠放送——

555

精品解决方案优惠放送

除了单点能力以外,本次还有一大波精品解决方案的优惠放送。针对项目中的出现的需求、不足、缺陷等,提出一个解决整体问题的方案,帮助企业快速有效地实施操作。

666

AI生态扶持大礼包

除了单点能力和解决方案,本次的开放平台618还有生态扶持的加码,以诚挚回馈辛勤工作的开发者们!

我们为全体开发者提供AI生态扶持大礼包,服务量免费赠送,接入即可获取免费服务。

777

服务市场周年钜惠

讯飞AI服务市场是国内首个人工智能全产业链综合服务平台,旨在整合AI产业上下游链路,构建以人工智能为核心的产业生态圈。9年来,讯飞开放平台不断开放和迭代近90项核心技术,2019年平台对外开放的服务能力将达到200项。本次开放平台618,服务市场也为用户提供了许多直接可用的AI产品,有需求的用户可直接在官网进行咨询。也欢迎购买了开放平台能力的开发者加入我们,入驻成为服务商。

好啦,介绍了这么多,事不宜迟,现在扫描下方二维码,开始买买买吧!

8


研究所二维码

我爸说,二十年前他帅爆整条街?AI修复照真相了!

父亲节感悟:帅爹面前无idol。

前段时间,网上掀起了一阵“AI修复老照片”的热潮。老照片上的明星们,原本轮廓朦胧、只能依稀辨认出俊俏的面庞,经过AI画质修复后,眉目越发明朗,五官细节也清晰显现,整体颜值double!

王祖贤和张国荣▼

1

林青霞▼

2

胡歌▼

3

网友们纷纷感慨:原来都是被画质耽误了颜值啊!

这让小智想起来早前网上热议的一个话题——“有一个长得很帅的爸爸是种怎样的体验?”

话题下有不少网友翻出了各自家庭中关于父亲的珍贵老照片。照片中父亲们年轻时的面容帅气惊艳,丝毫不输现在的小鲜肉。

在父亲节来临之际,我们特别准备了这期文章,将这些帅气的照片进行了AI修复!

原本就是“神颜”的爸爸们的旧照,再经过现代科技修复后,会有怎样惊艳的效果呢?

4

·

  !

@小甜甜i:

当年的盛世美颜 ▼

5

@匿名网友:

这是我的father in law(岳父)Ps.托他的福,我女朋友很漂亮▼

6

@全世界最帅的酒酒:

#论别人都以为那是男朋友其实是我爹#
#学姐来要我爹QQ号是什么体验#▼

7

@ClaireCeltics:

体验大概就是,大家都觉得我应该找不到比爸爸帅的男朋友。▼

8

@酱男嗷:

有人说像白敬亭?

希望爸妈永远年轻,洋溢青春和历经岁月的脸,都很动人▼

9

10

@李拜天:

我奶奶说,我爸年轻的时候村里人都说他靓仔,简直是村草。真不愧是我上辈子的情人! ▼

11

@Lynn:

我爸爸,很帅▼

12

13

@喵酱:

我要让我爸火起来!▼

14

@老王同学:

都闪开!让我来回答

上中学的时候每次来学校送饭都被一群女同学追着问:这是你爸??▼

15

16

@a Fan:

我爸的18岁,像不像苏有朋!!▼

17

@匿名用户:

我爸二十多那时候,简直了~

我房间贴男星海报,他都不理解,说什么“还没我当年好看呢”吧啦吧啦~~▼

18

@匿名用户:

体验就是,大家都觉得他比我帅▼

19

@Jackson每晚十点睡:

穿制服的爸爸真的很帅▼

20

真的是一波又一波的颜值暴击啊~原本模糊的老照片就能看出来帅了,修复后的爸爸们,更是大写加粗让人扯着嗓子喊的帅啊!

小智真的感到有点酸溜溜了······

21

大家的爸爸都又高又帅,而我的爸爸········除了钱以外,一无所有

22

 AI修复术是怎样炼成的

好了,大家擦擦口水,小智要讲重点了——AI照片修复技术到底是什么原理呢?

可能会有人认为,这种AI修复术和我们常见的PS、磨皮使用的是同样的技术。其实并不是这样。

修复照片是利用AI算法增加图片的像素值,而磨皮则是对人像的皮肤部分进行模糊处理。简单点说就是:磨皮减少了细节,AI修复增加了细节。

23

磨皮后会产生面部细节的丢失

删除东西很简单,但增加内容就需要创造了,因此修复的技术难度会更大。

首先,研究人员会先对图片数据集A进行“增噪”处理,得到高糊的数据集B,再将A和B都输入神经网络的模型中训练,告诉机器:B降噪后应该是A。而如何实现中间的降噪过程,就交给AI自己去“琢磨”了。

等到AI自己“琢磨”透了实现过程,它就能实现给任何人脸图片降噪了。

 破损照片也能修

除了让模糊的照片变清晰,AI技术还能将照片中的破损部分补齐。

24

一些老照片不仅是模糊,还存在一定的破损问题

通过使用对抗网络的机器学习方法,从海量数据中学习识别人脸,掌握脸型、肤色、五官等面部各个维度的信息。然后“阅人无数”的AI就可以根据照片的剩余内容“想象”出缺失的部分。

 修完不像本人?

照理来说,处理之后的图像应该与本人更接近了。不过最近,民国才女林徽因的一张修复照引发了网友们不小的争议,因为修复后的林徽因看起来变成了另一个人

25

林徽因修复照

修复后的照片中,林徽因虽然依旧漂亮,风格却似乎过于现代化:浓眉毛、高鼻梁、欧式大眼睛。不少网友看完后纷纷吐槽“这不是网红吗”“跟原来的气质一点都不像”。

26

林徽因的原生长相,气质温婉而坚毅

实际上,结合上面小智给大家科普的内容,大家应该就可以猜到其中缘由。

因为修复老照片的过程,更准确地说是一种具有“创造力”的绘画过程,AI会根据已学习过的人脸图片形成自己的“经验性审美”。

如果原始照片残缺过多,给AI留下了很大的“创作空间”,而训练所用数据中现代女性照片又非常多,那修复结果自然就会更像现代人。

所以,并不是AI只能修出现代脸、网红脸,在使用了合理训练数据的情况下,即使是年代久远的旧照,也还是会有很高的还原度的。例如小智最喜欢的这一组!

周总理旧照修复▼

27

谦谦君子,温润如玉。这个男人真的不是一般的帅▼

28

29

“他那张脸严肃而又透出聪颖,富有男子汉气概。” ▼

30

除了个人魅力,周总理和邓颖超相互扶持的爱情也十分让人羡慕

在周总理回给邓颖超的信件中,柔情满溢:“你的信太过官方,都不说想我。”

31

“我这一生都是坚定不移的唯物主义者,唯有你,我希望有来生。望你珍摄,吻你万千。”

32

可以说,总理的魅力,不只是来自于外貌和气质,更来自于他温和的性情、坚定的信仰,以及强大的内心。是小智最喜欢的人没错了!

随着社会的发展,现代拍照技术越来越先进,更多的色彩、更精致的细节都能被轻松地拍摄保存。而老照片这种像素低、保存又困难的存在,则逐渐退出了时代舞台。

不过,仍然有不少人守护着这样一份情怀,就像珍惜昔日时光一样珍惜着这些老照片。

而在现代技术的加持下,不仅模糊的相片变得更加清晰,那些沉淀在时光中的情感与故事,也仿佛被再次唤醒。

更多精彩,请关注微信公众号“AI研究所”。

研究所二维码

AI预测世界杯?算了,足球比我女朋友都难猜

欧冠的结果,你押对了吗?

火热的欧洲冠军联赛刚刚落下帷幕。在最终的决赛中,萨拉赫罚入点球,替补奇兵奥里吉再进一球。最终利物浦以2-0战胜热刺,时隔14年再度登上冠军王座。当地的利物浦球迷欢呼雀跃,马德里成了一片红色的海洋。

而正如鲁迅先生所说,有比赛就有输赢,有输赢就有赌输赢的群众。

11这些群众包括小智这样的普通球迷,还有足球博彩机构,甚至谷歌、微软等互联网巨头也曾来凑过热闹。

而为了预测赛事的结果,大家又可谓是“各显神通”:有的追随专家分析,有的靠自己做梦,还有的相信章鱼玄学······
2

章鱼保罗在2008欧洲杯和2010世界杯中,预测14次猜对13次,成功率达93%

作为一名优秀的社会主义接班人,那些歪门邪道小智我当然是一个都不信的。唯有科学的数据分析和模拟,才算得上严谨的预测。

其实,早在前几届世界杯期间,各路Geeker就已经采用过各不相同的AI算法和特征数据,做过这样的预测尝试。甚至,著名物理学家霍金生前也曾研究过世界杯夺冠公式!(公式将在文章后半段解读)

那么,各家预测的结果准确度如何呢?谁又是能够一语言中的“神算子”?

AI预测输赢

我们先来看看一项在算法和数据方面都颇有代表性的实验,它是由来自德国和比利时的四位研究人员在2018年进行的。

实验中,他们使用自过去四届FIFA 世界杯(2002-2014)的所有比赛结果作为数据集,希望以此来预测2018年的冠军。

此外,他们还考虑了许多相关的特征,比如

经济因素(国家人均GDP、人口数量等)运动因素(ODDSET 概率,FIFA 排名等)

主场优势(主办方、大陆、联邦等)

团队结构(队伍中同一俱乐部队友的人数、队员平均年龄、参加冠军联赛的球员数量等)

教练因素(教练的年龄、任期、国籍)等等。

研究人员认为,这些因素看似没有直接决定赛事的结果,但很容易影响球员和队伍的整体状态,因此很有必要纳入考虑。

在算法上,他们采用了随机森林算法(Random Forest)。这一基于决策树的算法是机器学习的一个重要分支,并且具有很高的准确率,在许多数据分类任务中都曾表现出优异的性能。

最后,经过10万次赛事模拟,研究团队预测出了夺冠可能性最高的前三名,分别是西班牙队( 28.9%)、德国队(26.3%)和巴西队(21.9%)。

打脸来得太快就像龙卷风

万事俱备,就只等最终的结果验证了。

不久之后,激动人心的时刻到了——2018年俄罗斯当地时间7月15日,在最终的世界杯决赛中,法国队夺冠。

3

2018年俄罗斯世界杯法国队夺冠

而回过头来看研究人员先前的预测结果,可以说是错到离谱了——他们押宝的西班牙队和德国队在实际比赛中甚至都未能进入四分之一决赛,最后夺冠的法国队在他们之前的预测中也仅排名第4。

4

预测名次&实际名次

再看赛前积极预测的各家机构,最终结果也基本是不同程度的打脸,准确率稍高一些的,也并没有超过章鱼保罗的。

这样的结果让人倍感困惑:尽管拥有适当的数据类型、数据体量,使用了参数正确的优秀算法,那为何这些训练有素的模型最终仍会失败呢?

为什么不灵?

其实,失败的原因就在于我们所预测的对象——足球比赛,在各要素的维度上都并不是一个有规律的事件。

和其它以人为重点的事件一样,足球比赛在赛前和赛中都有太多让人无法判断是否确实相关的影响因素,也就是所谓的混淆变量

而场上每分钟(甚至每秒钟)的状态,都取决前一分钟(前一秒钟)的状态。这种马尔可夫链过程又意味着,要把数据集中每场比赛的每一分钟都模拟出来,才能得到相对准确的模型。

5

马尔科夫链的定义:事件某一时刻的状态只取决于它在上一时刻的状态。图为应用了马尔科夫链的天气预测过程。

除此之外,比赛结果还可能受到一些外部因素影响,例如天气、政治情况、地理因素,甚至某个球员前一晚没睡好都可能会影响整场比赛的结果走向。而这些重要特征通常都很难被收集和衡量。

更何况,还存在意外发生的可能性,例如一个致命失误或意外进球,都是无法预测的。

6

简而言之,像足球比赛这样以人为主的活动,是当下的AI技术还无法很好驾驭的领域。

这也是为什么小智说,足球比我女朋友都难猜——足球的结果跟一大票人有关,而我女朋友的心思只跟她一个人······咦,我女朋友呢?

7

霍金“完美点球公式”

对于足球比赛结果的不可预见性,著名物理学家霍金似乎比我们更早地发现了。不过,这并没有妨碍他对足球运动的热爱。

8

公式发布现场

这位著名的物理学家曾在公开场合多次参与世界杯冠军的预测,甚至还娱乐性地自创过一套“完美点球公式”

其中,X0是一个已知变量

罚球队员是前锋,则α1=1;是后卫,则α2=1

罚球队员瞄准球门左边,则β1=1;瞄准右边,则β2=1

罚球队员的头发颜色为淡黄色,则δ=1

罚球队员瞄准球门上1/3,则θ1=1;瞄准球门下1/3,则θ2=1

罚球队员用脚的侧面踢球,则ε=1

罚球队员不助跑就直接踢球,则η=1

除此之外,霍金还配合着这个公式做了一些数据解读:

“我研究了1978年世界杯以来的所有点球,得出了‘完美点球公式’。主要是因为英格兰球员准头太差了,他们用铲子都打不到牛屁股······(这也就是他搞出这个公式的原因:被英格兰历史上的那些失败点球蠢哭)首先,速率是关键,必须跑三步以上,把速度提起来。只跑三步或者更少步数的球员,他们的点球命中率只有58%,远低于平均水平的87%。

使用脚侧比正脚背能高出10%的命中率。

把球踢向左右两个上角更容易罚进点球,成功率高达84%。

用左脚还是右脚对结果没有什么影响。

前锋比后卫和中场球员更容易进球。

金发球员和秃顶球员的命中率更高,金发球员的命中率高达84%,秃顶球员71%的命中率也高于深色头发球员的69%,但我不清楚原因是什么。

9

对于守门员,跳来跳去分散主罚者的注意力,将会提高18%的扑救成功率。”

看完以上信息,你是不是和小智一样觉得一脸懵逼?这个公式连带公式的解释,无论怎么看都让人觉得槽点满满。

不过,这本来也不是真正的科学研究,霍金曾表示“和足球相比,我认为量子物理相对而言更直接一些。”

而所谓的“完美点球公式”,也只是老顽童跟大家开的一个玩笑,顺便怒其不争地调戏一下自己祖国的英格兰队,毕竟“爱到深处自然黑”。

10

缅怀这位可爱的伟人

当然,在足球赛结果预测中的失败并不意味着AI在“预测”这件事上毫无用处。例如对单个球员的跑步距离、速度、加速度、减速度、负荷和心率等等数据来进行研究,以预测运动员在某场比赛中的场上表现,这样得出的结果就比较具有参考价值。

毕竟AI只是一种工具,我们如何使用、在怎样的前提条件下使用的这种工具,才是决定其价值的关键所在。

皮一下
其实我挺信“霍金点球公式”的,它的大概含义就是:英格兰靠点球夺冠的概率约等于0·······研究所二维码

市场回暖之际,踩准这些AI+赛道成为突围“黑马”

2019,春意渐浓,寒冰下也有暗流涌动。

2019,资本寒冬未见消融之势随着市场渐趋理性,竞争与筛选愈发激烈残酷,前两年的大批新概念纷纷泡沫破裂。

根据2019年1月VC/PE市场报告显示,进入募资阶段的基金总数环比下降45.33%;目标募资规模环比下降38.66%。VC/PE市场基金募资持续低迷,GP扩张步伐仍在减缓。同时融资案例和融资市场规模也持续下降。

企业管理者纷纷稳固战线,放慢扩张速度;投资者则纷纷降低预期,趋向谨慎评估。对于创业团队而言,正面临领域选择和资金募集的双重压力。

但是,随着春意渐浓,寒冰下也有暖流涌动。

国务院发布《关于推广第二批支持创新相关改革举措的通知》,推动政府资金进场,将政府股权资金投向种子期、初创期企业,缓解创投市场的疲软状态。此外,科创板在今年正式落地,为国内科创企业提供对接平台,同时推动VC/PE对科创企业的价值投资。

对于创业者而言,抓住市场初现回暖之意的机遇,找准“赛道”并获得优质加速扶持,就能在冷峻的环境下成为那匹突围的“黑马”。

赛道:这些领域正悄然成为资本布局热点

从17年各种天马行空的科创项目,到18年诸多产品落地时遇到争议和挑战,再到市场收缩后逐渐遇冷。如今的创投圈正将投资热情集中在更“接地气”的领域。

1.AI+医疗健康

随着医学领域的专业化趋势,投资医疗健康的门槛如今不断提高,仍然留在医疗领域的投资机构经过大浪淘沙,具有数量少,质量高,专业程度高以及实力雄厚等特点。因此创业者在医疗领域的优秀项目将更容易得到优质的扶持!

医疗服务,医药板块及医疗器械是医疗投资关注的三大门类,对于投资者来说,这几类场景的投资机遇往往在创新的项目之中,而AI就是创新的代表。

图像识别、深度学习、神经网络等AI关键技术正在落地应用,如医院中的自助挂号机、医疗服务机器人,极大缓解人力压力。同时通过AI识别筛选大量的基因、代谢和临床信息,缩短药物研发的周期。

2.AI+信息服务

随着互联网技术的不断成熟,以及经济水平提升带来的消费升级、生活方式多元化,每天都有海量数据涌现。

用户分析、人才招聘、线上交易,大量工作都对企业提出了新要求:在极短时间内对海量数据进行精准、快速、高质量的处理。AI的运算以及交互能力将提高数据处理速度,丰富数据采集的途径及方式。

3. AI+娱乐

AI技术的发展,强化了人机交互的体验,衍生出新的玩法,比如虚拟偶像和沉浸式VR游戏中的智能NPC。

同时AI高速的数据处理能力,也让高性能,精细复杂的娱乐形式进一步实现落地,像基于地理和用户大数据的AR游戏。

AI也作为优化升级的元素走入老的娱乐品牌,成为其新的卖点。比如在Dota等游戏中AI加入人机模式,让与机器对战更具有挑战性。

平台:以语音技术在AI+热点实现异军突起

智能语音技术作为AI应用最成熟的技术之一,在医疗健康、社交、服务等领域有了迅猛发展,各个商业落地场景前景广阔。正成为众多AI科创企业的技术赋能方向。此时,AI加速器的扶持作用将扮演重要角色。

目前,在大厂商的生态布局上,财务类投资和技术+资源入股都是双方建立血缘关系和深入合作多样性的良好尝试。

而讯飞也基于自己语音技术领域的领先优势,在创业团队扶持上带来技术优势+品牌效应+产业资源。希望和创业团队在更多领域和方向上建立更深的联系。并已在医疗健康、数据服务、社交娱乐等领域取得了成果——

1.沐月科技

1

公司拥有全国首家专业“互联网+特殊儿童康复教育”的智慧康复服务平台医佰康,其采用“平台+社区+家庭”三位一体运营模式,全方位打造教育咨询、评估、训练等一体化优质服务,为特殊儿童提供运动(PT)、作业(OT)、言语(ST)、感统、情绪行为、自闭个训等服务。发展至今,服务特殊儿童5万人次左右,荣获康复软件注册证书近20余项,申报专利2项,公司平台用户已达10万余人。

2018年9月份,公司推出项目“智享云康复”平台,实现了线上测评、和康复训练功能,在科大讯飞的支持下,开发出言语评测和训练软件,被上海市政府列入文化创意产业重点扶持项目。公司未来将利用科大讯飞的语音识别系统,进一步开发更多的言语康复训练软件,打造智能云训练系统,致力于为国内的康复机构赋能,开创了国内现代化康复的新模式。

2.阿尔法心理

2

中国有9000万抑郁症患者,抑郁症已经成为全世界疾病负担最高的疾病,但是只有10%的患者得到正式治疗。

阿尔法心理是由临床心理学家和人工智能专家团队联合开发的机器人心理医生应用程序,用户可以随时随地把抑郁和焦虑的事情告诉机器人心理医生。机器人通过认知行为疗法,引导用户进行自助式心理调节。

通过科大讯飞提供的语音服务方面的技术支持,阿尔法心理以更便捷的形式与用户交互, AI技术通过语音识别情绪甚至可以辅助抑郁症诊断,把心理健康服务更快速的渗透到用户的日常生活中。

3.Sweetalk

3

主打国际社交的APP,主要方向为在陌生人之间提供沟通平台,最终是满足不同国家用户在线下的沟通。Sweetalk在禁止涉黄涉暴上也有自己独有的审查过滤机制,同时有人工进行抽样审查,规避舆论及政策风险。现有用户80万。

讯飞与Sweetalk合作后,通过成熟的语音识别、语音合成、翻译能力,为APP带来更多社交领域的突破性功能,极大地提升了用户体验。

4.栗伙健康

4

公司拥有可以自我学习的医学营养服务和食品数据服务平台NexGenNu,它帮助营养师和医师为孕产妇儿、重疾康复患者、四高等慢性病患者等提供精准营养服务。

公司与科大讯飞的合作,给予NexGenNu平台强有力的人工智能技术支持,为平台的自我学习和自动化服务系统提供了坚实基础,平台正式上线后,NexGenNu还将与科大讯飞健康事业服务部携手为更多医疗机构和患者提供高效高质的医学营养服务。

5.滴孚科技

5

滴孚致力于认知智能领域的研究,依托相对成熟的感知智能技术,专注“机器认知人类”方向。通过结合传统心理学研究范式,集成计算机视觉、机器学习及其它多元化的数据挖掘技术,构建新型认知模型,将更易采集的人类数据转化为有价值的认知结论,从而为场景化的商业模式赋能。

同时,滴孚与科大讯飞在语音识别、语音合成、AIUI领域实现了深度合作,使得滴孚在数据处理和分析上有着得天独厚的优势。

作为中间层的基础技术研究和服务提供商,科大讯飞通过包括深度学习/机器学习、语音技术和自然语言处理等AI能力为科创团队提供技术扶持。

同时,讯飞开放平台在基于开放技术多年的基础上,对外聚拢大量的软硬件合作伙伴,并且引导科创团队与公司内部跨部门协作,推动实现商机转化,应用落地。人工智能生态各要素动态演进,基于开放平台的生态逐渐成型。

谷歌 I/O:语音助手成精了!承包你的衣食住行

比你妈还懂你的助手。

a

一年一度的Google I/O开发者大会如期而至。

今年也是Google旗帜鲜明推行“AI First”战略的第四个年头。一直强调的“Bringing the benefits of AI to everyone”,也在2小时的演讲中不断得到证实。

Google CEO 桑达尔·皮猜淡定登场
Google CEO 桑达尔·皮猜淡定登场

 

Google Assistant升级:这才是智能语音该有的顺畅

观看了升级版语音助手的完整演示之后,我只有一个感受:舒坦!

此话怎讲?

 

1.有话直说,刻意唤醒不需要

我们熟知的语音助手在使用之前都必须先唤醒,例如“Hey Siri”,未经唤醒的语音助手就处于无法响应的睡眠状态。这导致每次用语音助手的时候不仅麻烦,而且还显得使用者有点······蠢。

而这次的Google Assistant则不需要刻意唤醒。在演示中我们可以看到,原本在看 John Legend推特的使用者临时起意,对Assistant 说“我想去看他的演唱会诶。”

反应时间不到 1 秒,手机就立刻规划出了去John Legend演唱会的路线,甚至连最实惠的打车方案都帮你想好了。

3

2.要打开哪些APP我自己知道

-“我想发一张在美国黄石公园拍的照片给朋友。”

-“有动物的。”

-“发送。”

4

在这一连串的语音命令下,Google Assistant首先进入了手机相册,筛选出地点是在黄石公园的照片,再挑选出其中内容包含动物的,最后跳转到邮件发送页面,光标自动衔接到邮件文字的输入中。全程的指令识别和应用跳转都十分顺畅,不需要多次唤醒也不用人为切换应用。

3.执行速度,这次是真的快

Google Assistant整合了众多机器学习的功能。理论上,当它收到一则语音请求时,需要通过三个独立的模型进行处理,从而理解语音命令。原来在这一过程中,Google Assistant需要多达100GB的数据来进行分析;而现在,数据大小被成功地压缩到了0.5GB,大大缩小了从用户语音发出到命令执行的延迟。

通过现场的演示我们也可以看到,在用户连续不停地发出语音指令的情况下,Google Assistant也能迅速流畅地执行,几乎可以说是“实时”。

5

通过Google Assistant的这些操作展示可以看出,语音操控已经极大地摆脱了之前唤醒烦、反应慢、工作笨的情况,用起来越来越舒坦。这都有赖于AI技术的加入,从“Mobile first”到“AI first”,人工智能技术成为了Google战略布局中越来越重要的一环。

 

Live Caption :掌上的即时“字幕组”

与你更亲近的语音助手只是开胃菜,此次I/O 2019上Google将几百G的机器学习成果浓缩到手机应用中,就是要让AI带给你的生活更多便利,更多人情味!

没有字幕组,啃生肉视频很吃力?在Google的Live Caption诞生后这些即将成为历史。通过Live Caption,设备上播放的任何视频、音频的语音都可以被实时转录,生成字幕。

20936771b7b8d117c359e5f22e55cfe1

但仅仅是语音转文字还不够带劲,Google还玩出了如下爆点:

1.网速根本不是个事

Live Caption的突破,在于把整个功能完整地安装在了手机端中。

这意味着什么呢?你的手机即使没有联网,也可以使用Live Caption对任何视频和音频进行加字幕处理,而无需担心准确率和效果会受到没有与网络数据库相连的影响。

过去YouTube曾推出自动给视频加字幕的功能,但Live Caption则进一步突破网络限制,拓宽了发挥空间。

2.啃生肉无需连蒙带猜

Live Caption除了能实时转字幕,还能同时进行翻译,将外语视频的字幕以你的母语形式呈现出来。

7

在现场演示中,画面上的母亲正在喂自己女儿吃饭,但是母亲说的是韩语,而下面的字幕正在实时转成英语,不得不说如果这种功能以后得到普及,字幕组真的可以光荣退休了~~~

3.让残障人士听得到,说得出

Google基于音视频字幕功能的突破,也与大家分享了自己在公益上的新想法——

通过生成字幕,可以让听障人群也能和正常人一样接收电话与视频聊天中的信息。而输入文字实时转语音,也将代替手语,让通话如普通人一样自然流畅。

8

同样受益的还有渐冻症患者。Google的新技术让他们可以通过嘴唇的细微运动来准确输入文本,表达自己的意思。相比于过去通过眼睛运动来输入,正确率更高,对身体负担更小。

9

10

正如Google在本次大会上所传达的:“成为惠及每个人的 Google,无论你是谁,住在哪里,想要实现什么。 ”


严格来说,本次I/O大会上登台的应用或多或少都是从前两年发布的新产品延伸而来。但随着各项技术的不断完善,例如现场演示的Google assistant与真人对话、相册自动推荐修改等功能,的确让人感觉到Google的诚意。

除了效果更佳之外,这些全新功能与系统的结合程度也颇高,反而降低了用户在这些新功能上的学习成本和使用成本。

DNN、RNN、CNN.…..一文带你读懂这些绕晕人的名词

在AI界也有一些“长相相似”专业名词,让初学者傻傻分不清,比如我们今晚要科普的「相似三连」DNN、RNN、CNN。
这3个名词其实是第三代神经网络里运用非常多3大算法:DNN(深度神经网络)、RNN(递归神经网络)、CNN(卷积神经网络)。

「撞脸」一直都是娱乐圈一大笑梗。

要是买火车票的时候碰上孙楠、杨臣刚、王大冶……脸盲症患者可以直接放弃回家,原地暴哭了。

640

 

当然,「撞脸」可不是娱乐圈的特有的,在AI界也有一些“长相相似”专业名词,让初学者傻傻分不清,比如我们今晚要科普的「相似三连」DNN、RNN、CNN。

这3个名词其实是第三代神经网络里运用非常多3大算法:DNN(深度神经网络)、RNN(递归神经网络)、CNN(卷积神经网络)。
6401

 

1、三代神经网络的发展

在正式开讲这3者的区别之前,我们先简单做个回顾,第一代和第二代神经网络到底是什么?

第一代神经网络又称为感知器,在1950年左右被提出来,它的算法只有两层,输入层输出层,主要是线性结构。它不能解决线性不可分的问题,对稍微复杂一些的函数都无能为力,如异或操作。

为了解决第一代神经网络的缺陷,在1980年左右Rumelhart、Williams等人提出第二代神经网络多层感知器(MLP)。和第一代神经网络相比,第二代在输入层之间有多个隐含层的感知机,可以引入一些非线性的结构,解决了之前无法模拟异或逻辑的缺陷。

第二代神经网络让科学家们发现神经网络的层数直接决定了它对现实的表达能力,但是随着层数的增加,优化函数愈发容易出现局部最优解的现象,由于存在梯度消失的问题,深层网络往往难以训练,效果还不如浅层网络。

2006年Hinton采取无监督预训练(Pre-Training)的方法解决了梯度消失的问题,使得深度神经网络变得可训练,将隐含层发展到7层,神经网络真正意义上有了“深度”,由此揭开了深度学习的浪潮,第三代神经网络开始正式兴起。
6402

 

2、深度神经网络最常用的三大算法

说完了三代神经网络的大概发展,我们现在来看下第三代神经网络中经常让大家叫苦的3大名词:DNN、RNN、CNN。

DNN:深度神经网络

从结构上来说,DNN和传统意义上的NN(神经网络)并无太大区别,最大的不同是层数增多了,并解决了模型可训练的问题。

简言之,DNN比NN多了一些隐层,但这些隐层的作用是巨大的,带来的效果是非常显著和神奇的。
6403

 

当然第三代神经网络能够带来神奇的效果,并不仅仅是因为它的模型结构和训练方法更为优化、算法更加先进,最重要的是随着移动互联网的普及海量数据的产生和机器计算能力的增强。

DNN中的“deep”意为深度,但深度学习中深度没有固定的定义或者衡量标准,不同问题的解决所需要的隐含层数自然也是不相同的,就大家比较熟识的语音识别来说,解决问题可能4层就够了,但一般图像识别需要达到20多层才能够解决问题。

DNN最大的问题是只能看到预先设定的长度的数据,对于语音和语言等前后相关的时序信号的表达能力还是有限的,基于此提出了RNN模型,即递归神经网络。

RNN:递归神经网络

全连接的DNN存在着一个无法解决的问题:无法对时间序列上的变化进行建模。

为了应对这种需求,业内提出了上文中提到的递归神经网络RNN。

在普通的全连接网络中,DNN的隐层只能够接受到当前时刻上一层的输入,而在RNN中,神经元的输出可以在下一时间段直接作用到本身。换句话说,就是递归神经网络它的隐层不但可以接收到上一层的输入,也可以得到上一时刻当前隐层的输入。

这一个变化的重要意义就在于使得神经网络具备了历史记忆的功能,原则上它可以看到无穷长的历史信息,这非常适合于像语音语言这种具有长时相关性的任务。
6402

 

CNN:卷积神经网络

卷积神经网络主要是模拟人的视觉神经系统提出来的。

以CNN做人脸识别任务为例,先得到一些像素信息,再往上层得到一些边界信息,然后再往上提取就是一些人脸的部件信息,包括眼睛、耳朵、眉毛嘴巴等,最后是人脸识别,这整个过程和人的视觉神经系统是非常相似的。
6403

 

卷积神经网络的结构依旧包括输入层、隐藏层和输出层,其中卷积神经网络的隐含层包含卷积层、池化层和全联接层3类常见构筑,接下来我们着重讲解下卷积和池化的相关知识点。

卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,一个卷积核覆盖的原始图像的范围叫做感受野(权值共享)。

一次卷积运算(哪怕是多个卷积核)提取的特征往往是局部的,难以提取出比较全局的特征,因此需要在一层卷积基础上继续做卷积计算,这就是多层卷积。
6401

 

在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

通过这种池化的操作,能够一定程度上克服图像的一些旋转和局部的细微变化,从而使得特征的表达更加稳定。
好啦,今晚对DNN、CNN和RNN的简单科普到这里就结束了,关于每种网络的用法大家还需要在实际建模中努力探索。

当然不论是哪种算法,它们往往都会混合在一起使用以达到效果的最优化,同学们要做的便是掌握好理论知识,在实践中找到最灵活的组合方式。

同时「AI大学移动端」已经上线了科大讯飞AI研究院王海坤院长的人工智能系列课程,小伙伴们记得戳菜单栏【AI大学】或点击阅读原文,去学习更多AI知识!
640

 

AI研究院副院长  王海坤博士

w640

 

参赛必看|想拿百万奖金吗?赛前锦囊火热来袭

AI开发者大赛报名倒计时

2018首届“顶天立地”iFLYTEK AI 开发者大赛正在火 !热 !报 ! 名 ! 中 !

【点击这里】直接进入报名通道~

大赛-1
2018首届“顶天立地”iFLYTEK AI 开发者大赛报名启动以来,大家通过各种途经向组委会提出了很多问题。别着急!小编会尽快把大家普遍关心的问题整合分类,一一为大家答疑解惑哦~

今天我们先从“应用开发AI挑战赛”开始~

【参赛要求】

1.参赛作品必须使用包括AIUI人机对话交互在内的至少一项讯飞开放平台能力。

2.参赛作品使用语音和图像相关人工智能能力需优先调用讯飞开放平台技术接口。其他厂商AI技术接口调用不得超过一种。

3.合法性:参赛作品主题内容必须健康、合法、没有任何不良信息及商业宣传行为,不违反任何中华人民共和国的有关法律。

4.原创性:参赛作品必须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将取消其参赛资格。

【评审标准】

1.产品创新性:参赛作品是否具有充分的创新性,与行业成熟方案相比较有差异化,有更好的产品表现。

2.产品实用性:参赛作品是否能够解决所在领域的实际问题,解决用户痛点。

3.AI能力结合度:参赛作品是否结合AI技术,使得产品的体验及功能有了突破性进展。

4.产品商业前景:参赛作品能否创造较好的社会和市场效益,具有较为广阔的商业前景。

看到这些要求和标准,你是否感到茫然失措?别着急!今天小编就给大家分享几个借助讯飞开放平台技术应用开发的优秀案例,希望可以给你们激发一些灵感!

继续往下看↓↓↓

1-1案例1.叮咚音箱

叮咚配有8个麦克风阵列,确保它可以听清你说的每一句话,无论你身在房间哪个位置。独特的远场识别技术,支持5米超远距离语音交互。AIUI硬件特有的回声消除技术,使这款智能音箱能过滤掉各种背景噪音,包括正在播放的音乐等,以便更为准确地领会用户指令。可以帮助用户听歌,听新闻,定闹钟,闲聊等。

1-2案例2.阿尔法蛋

阿尔法蛋机器人是淘云科技有限公司倾力打造的一款教育陪伴智能机器人。集成教育内容、超级电视、视频通话、智能音箱和自然语言交互机器人的阿尔法蛋是一款功能聚合的机器人,功能与服务面向家庭所有成员。搭载讯飞AIUI智能系统,拥有“类人脑”,其理解能力、表达能力,智商都会随着深度自我学习,不断成长,是一款“真”机器人。

1-3案例3.合肥轨道

合肥轨道交通首开全国先河,创新推出“语音购票”服务功能,通过搭载AIUI评估板,市民乘客将在轨道交通车站自动售票机上通过语音选择目的地站点、购票张数,再通过现金或者手机扫码完成购票交付。

1-4案例4.咪咕莫比斯耳机

莫比斯通过搭载AIUI交互系统,聚合语音操控、中英翻译、心率监测、健身指导、日程管理、出行导航、路线规划、音乐听书等的完整体系。这是咪咕在智能时代对全新人机交互的探索,通过全语音交互,它的应用场景会更加多元化,智能化,它的核心价值也远超主流耳机产品,因此莫比斯才能被定义为全球首款全语音人工智能耳机。

1-5案例5.荣泰

荣泰智能语音按摩椅搭载AIUI , 配合多麦克风阵列,灵敏交互、精准识别之灵,操控准确便捷,解放双手,让休憩更彻底。

1-6案例6.优友机器人

优友机器人是康力优蓝机器人科技有限公司推出的高端大型服务机器人产品,优友以完美的造型亮相,一经发布即引起业内强烈关注,优友的语音系统采用科大讯飞的AIUI解决方案,机器人进而具备各种功能,成为银行引导员、公司前台、商场导购、展馆导览员、餐厅服务员等等,在存在劳动力缺口的各个领域中都有望得到广泛应用。

【大赛概况】

2018首届“顶天立地”iFLYTEKAI开发者大赛面向全球开发者首次开放中文方言语音数据集,践行“方言保护计划”,用人工智能算法推动非物质文化遗产保护。

除了方言语音数据集之外,还将开放AIUI人机对话交互,语音听写、合成、评测、翻译等十余项人工智能核心技术,促进人工智能应用场景的落地。

大赛共分为方言种类识别AI挑战赛和应用开发AI挑战赛两大赛题进行比拼,百万奖金,等你来战!

1-7

除丰厚奖金外,大赛聚合讯飞生态平台、AI大学优质资源,获奖团队可获得价值500万元的创业扶持,包括技术支持、资本对接、创业指导、品牌曝光等优质生态资源。
以上就是本期给大家准备的赛前干货啦,希望可以给大家带来一些启发~下期我们为大家带来方言种类识别AI挑战赛的干货哦~敬请期待!

【赶快点此报名】

我们一起,让AI更有情怀,让技术更实在!

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信,此为小助手的微信号二维码:

1-8

 

关注“讯飞开放平台”公众号,获取更多资讯

开放平台

参赛必看|权威专家带你解密方言种类识别AI挑战赛

AI开发者大赛报名倒计时

距2018首届“顶天立地”iFLYTEK AI开发者大赛报名截止时间越来越近了。你的参赛作品准备好了吗?【点击这里】即可直接进入报名通道!

上期为大家介绍的是“应用开发AI挑战赛”的相关内容。有不少小伙伴留言,强烈要求小编再出一版关于“方言种类识别AI挑战赛”的一些具体赛况。今天小编就来满足你们~

方言赛

针对大家对“方言种类识别AI挑战赛”的一些提问,我们邀请到了科大讯飞研究院科学家、语言识别技术总负责人潘嘉为大家进行赛事解读。小编把潘嘉老师的解读整理了下,分享给大家,满满的干货,小板凳快搬好,准备记笔记啦~

方言种类识别AI挑战赛
【赛题详情】

方言种类识别 AI 挑战赛任务为汉语方言语言种类识别,即根据给定语音,判断该语音属于哪个方言。

科大讯飞全球首次开放覆盖中国六大方言区、总时长约 60 小时的 10 种汉语方言语音数据集,供参加竞赛的科研单位以及开发者免费使用。

根据测试语音长度,方言识别 AI 挑战赛分为两个不同难度的子任务,即任务一(有效语音长度≤3s )和任务二(有效语音长度>3s)。

结果评价指标为分类正确率 acc:即分类正确的语音条数/所有语音条数。

训练集合与开发集合供参加竞赛的科研单位以及开发者调试系统使用,测试集合不开放,最终排名以参赛者提交的系统在线上测试集合上的结果为准,分类正确率越高排名越靠前。

【开放数据】

初赛共有六种方言,分别来源于六大方言区,具体为:长沙话、河北话、南昌话、上海话、闽南语、客家话。

为了进一步提高数据的覆盖性,测试集在性别等方面都做过精心的挑选。每种方言平均包含6小时的朗读风格语音数据,覆盖40个说话人。数据由各个型号的智能手机采集,录制环境包含安静环境和噪声环境。数据以采样率16000Hz、16比特量化的PCM格式存储。

数据集包含训练集、开发集和测试集三个部分。

训练集每种方言有6000句语音,包含30个说话人,其中15位男性和15位女性,每个说话人200句语音;开发集和测试集分别每种方言包含5个说话人,其中开发集为2名女性和3名男性,测试集为3名女性和2名男性。这样的数据具有非常高的使用价值。

开发集和测试集的数据根据语音段的时长分为两类,一类是小于等于3秒的短时数据(任务一),另一类是大于3秒的为长时数据(任务二),分别对应于两个比赛任务,其中每个说话人两类数据各50句,共100句。训练集、开发集、测试集的说话人均没有重复。

为了增加本次比赛技术方案的多样性,每条语音对应文本内容的音素序列标注也将同样提供。

【参赛系统】

参赛系统的搭建方法不限,所有机器学习的方法均可以使用,并且参赛系统可以是多种方法以任意形式的结合,比如投票法等等。

两个不同的比赛任务可以采用两套完全独立的系统。比赛采用离线测试的方式进行,因此本次比赛对参赛系统的响应时间不做要求。

同时,考虑到复赛和初赛的难度差异,复赛和初赛也可以采用不同的系统。

【评测方式】

本次比赛的测试集是不公开的,因此需要参赛者提交自己的系统,具体操作方式如下:

a)初赛提交系统时,请提交参赛者名称、第一作者、该系统对应的任务、参赛系统、训练集和开发集上的分类正确率

b)复赛提交系统时,需要额外提交一份参赛系统的论文或者说明书(最好能够附带提供源代码),详细介绍系统的构成、训练方法和对应的参数

c)如无特殊情况,每天上午11点在官方网页上公布各个参赛者在测试集上的分类正确率并对结果进行排序(每个参赛单位的结果以最新提交的为准)

【评测系统】

为了能够正确进行测试,所有测试均在相同配置的Linux 64位服务器上统一采用CPU进行测试。因此提交的系统不能是windows等其他操作系统下的程序,并且不能和GPU、FPGA等其他硬件相关联。同时为了方便参赛者更好的参加比赛,本次比赛制定了详细的参赛系统提交和评估系统,介绍如下:

1.评测系统目录结构

/dataset…………开发集目录,用于系统提交后的正确性验证
/inference………评测代码及资源目录,系统运行的当前路径
/result …………请将评测结果以result.txt命名,存放在此目录

result.txt请按照result.txt中的格式。格式如下:

posterior: changsha, hebei, nanchang, shanghai, kejia, minnan
sent1: 0.01, 0.02, 0.03, 0.04, 0.1, 0.8
sent2: 0.7, 0.02, 0.04, 0.1, 0.06, 0.08
sent250: 0.01, 0.02, 0.03, 0.04, 0.6, 0.3
ACC: 0.8854

2.本地开发调试

a)使用开源深度学习训练框架(推荐)

请从公开镜像仓库下载对应版本的深度学习镜像CPU版本,编写本地程序进行评测。

以tensor flow工具为例:

I.下载镜像,docker pull tensorflow/tensorflow: 1.7.0

II.下载开发集到 /dataset目录,将评测代码inference.py及评测所需资源复制到 /inference目录

III.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result tensorflow/tensorflow:1.7.0 /inference/inference.py

IV.查看输出结果,并检查该输出结果的正确性其他框架与此类似。
b)使用非开源深度学习训练框架

首先,要将使用的深度学习训练框架制作成docker镜像,上传至公开镜像仓库(推荐使用国内稳定镜像仓库服务,如UCloud),制作详情可参考docker官方文档,具体操作如下:

I.在hub.docker.com注册账号,并创建仓库

II.本地执行docker tag your_demo your_account/your_demo:latest

III.本地执行docker push account/your_demo:latest,等待命令执行成功后,即可在hub.docker.com网页上,看到新提交的镜像信息
镜像提交完成后,参考使用开源深度学习训练框架中的步骤,进行本地开发和调试
具体的为:
IV. 下载上传的镜像,docker pull yourtoolname

V.下载开发集到 /dataset目录,将评测代码inference.py及评测所需资源复制到 /inference目录

VI.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result yourtoolname /inference/inference.py

VII.查看输出结果,并检查该输出结果的正确性

3.提交评测系统

a)将/inference目录打包成tar文件,tar –cvf inference.tar inference/
b)在比赛官网中评测系统提交页面进行上传

4.线上验证及评测

a)配置系统所需的镜像仓库地址,镜像入口及验证参数(/dataset目录由系统自动将开发集挂载到镜像内)
b)点击”运行”,等待评测结果
c)如评测报错或效果异常,请排查/inference目录结构、镜像等配置信息
d)确定评测结果无误后,点击”提交”。此时/dataset内将替换成为非公开的测试集,并记录系统效果

【限制条件】

为了保证比赛的公平性,本次比赛仅允许使用官方发布的数据和标注,否则比赛成绩将被视为无效。

不符合规定的情况包括以下几种:
a)参赛系统搭建过程中有任何一个环节(包括数据加噪、模型初始化等)用到了官方发布的训练数据集之外的其他数据
b)人工对发布数据集的音素序列标注进行矫正或改动
c)其他对发布数据集的人工处理,比如人工对数据集进行语音端点检测等

以下情况是允许的:
a)仅利用官方发布的训练数据集进行数据的机器仿真和加噪
b)利用官方发布数据集中已公布的所有信息,包括性别、说话人等
注:
完整的初赛数据集请在报名成功后前往个人中心-我的比赛,进入方言识别比赛专题页面进行下载

最后,潘嘉老师还为大家提出了一些新的研究方向。

科大讯飞首次提出基于BN i-vector的方法来解决语种识别的问题,相比传统的SDC特征的i-vector方法有着较大的提升。近几年来,类似于DNN等新的深度学习技术,也是可以尝试的方向。

具体的方法多种多样,比如可以直接利用文本信息来训练一个文本的分类器,跟传统的基于i-vector的方法进行融合,或者也可以把它作为一种外部的信息源,加入到端对端系统的输入中,直接训练端对端的系统。
今天的赛前分享就到这里了,感谢潘嘉老师的倾力相助。相信优秀的你们,一定会创造出出类拔萃的作品,小编再一次提醒大家,报名时间不多啦,大家千万别忘记报名了哦。

【点此报名参赛】

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信:

1-8

2018-03-22 ~ 2018-10-24合肥
听得懂,才智能!语音唤醒技术入门课程来啦

超多干货在里面

AI大学的同学们,大家好,新课程又来啦,本周,我们要学习的是“语音唤醒”的相关内容。

对于智能产品的用户来说,唤醒就是语音交互的第一入口,唤醒效果的好坏直接影响到用户的第一体验。所以,今天的内容还是很重要滴,同学们要认真听讲哦~

话不多说,有请今天的主讲嘉宾:科大讯飞研究院吴国兵老师,掌声欢迎~

唤醒01

1、什么是语音唤醒

语音唤醒在学术上被称为keyword spotting(简称KWS),吴老师给它做了一个定义:在连续语流中实时检测出说话人特定片段。

这里要注意,检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。

那么,该怎样评价语音唤醒的效果呢?通行的指标有四个方面,即唤醒率、误唤醒、响应时间和功耗水平:

➤唤醒率,指用户交互的成功率,专业术语为召回率,即recall。

➤误唤醒,用户未进行交互而设备被唤醒的概率,一般按天计算,如最多一天一次。

➤响应时间,指从用户说完唤醒词后,到设备给出反馈的时间差。

➤功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。

2、语音唤醒的技术路线

经过长时间的发展,语音唤醒的技术路线大致可归纳为三代,特点如下:

第一代:基于模板匹配的KWS

唤醒02

训练和测试的步骤比较简单,训练就是依据注册语音或者说模板语音进行特征提取,构建模板。测试时,通过特征提取生成特征序列,计算测试的特征序列和模板序列的距离,基于此判断是否唤醒。

第二代:基于HMM-GMM的KWS

唤醒03
将唤醒任务转换为两类的识别任务,识别结果为keyword和non-keyword。

第三代:基于神经网络的方案

唤醒04

神经网络方案又可细分为几类,第一类是基于HMM的KWS,同第二代唤醒方案不同之处在于,声学模型建模从GMM转换为神经网络模型。 第二类融入神经网络的模板匹配,采用神经网络作为特征提取器。第三类是基于端到端的方案,输入语音,输出为各唤醒的概率,一个模型解决。

3、语音唤醒的难点

语音唤醒的难点,主要是低功耗要求和高效果需求之间的矛盾。

一方面,目前很多智能设备采用的都是低端芯片,同时采用电池供电,这就要求唤醒所消耗的能源要尽可能的少。

另一方面,用户对体验效果的追求越来越高。目前语音唤醒主要应用于C端,用户群体广泛,且要进行大量远场交互,对唤醒能力提出了很高要求。

要解决两者之间的矛盾,对于低功耗需求,我们采用模型深度压缩策略,减少模型大小并保证效果下降幅度可控;而对于高效果需求,一般是通过模型闭环优化来实现。先提供一个效果可用的启动模型,随着用户的使用,进行闭环迭代更新,整个过程完成自动化,无需人工参与。

4、语音唤醒的典型应用

语音唤醒的应用领域十分广泛,主要是C端产品,比如机器人、音箱、汽车等。比较有代表性的应用模式有如下几种:

➤传统语音交互:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长。

➤One-shot:直接将唤醒词和工作命令一同说出,如“叮咚叮咚,我想听周杰伦的歌”,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。

➤Zero-shot:将常用用户指定设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到科大讯飞”,这里将一些高频前缀的说法设置成唤醒词。

➤多唤醒:主要满足用户个性化的需求,给设备起多个名字。

➤所见即所说:新型的AIUI交互方式,例如用户对车机发出“导航到海底捞”指令后,车机上会显示“之心城海底捞”“银泰城海底捞”等选项,用户只需说“之心城”或“银泰城”即可发出指令。

唤醒05
好啦,关于“语音唤醒”今天就先介绍这么多,想要仔细学习课程的同学,【点击这里】可以查看吴老师的教学视频哦,下期课程再见。

关注“讯飞AI大学”公众号,及时了解更多信息

AI大学

AI黑科技| 什么才是真AI手机?

AI极有前景,甚至会驱动手机的发展方向

3月27日,华为在巴黎正式发布P20系列手机。华为消费者业务CEO余承东表示,“之所以叫P20,是因为我们有‘big jump’!”

黑科技-1

综合整场发布会来看,这 “big jump”应该包括:

【渐变色】运用先进的纳米真空光学镀膜技术,推出机身背面极光色、樱粉金等渐变配色方案;

【3摄】在联合徕卡研发了多代摄像头之后,这一场发布会上,华为P20 Pro直接将后置摄像头做成了3颗,成为业界最高感光度的手机;

【屏下指纹】高通的这项指纹传感器技术,可以扫描1200微米的OLED显示屏或800微米的保护玻璃,并且可以在水下进行操作。但由于Vivo手机今年年初在X20上的使用而占去先机,现在也已加入华为Mate20豪华套餐。

【保时捷设计】特别是压轴大戏中,保时捷设计版华为Mate RS,售价超过人民币一万三。

AI元素成宣传重点

当然,这些都不是最大看点。发布会上强调的最多的还是,华为P20系列具备全球首创AI环境音识别功能,无论任何嘈杂的室内或室外,可以清楚捕捉到声音的细节;通过AI算法识别物体及边缘,引入AI防抖技术,革新在场景识别优化方面的能力等等这些AI功能。

同日,小米MIX2S发布,主打口号也有AI场景识别,并且有了自己的AI语音助手,价格3299元起步。用雷军的话说就是,小米MIX2S拥有比iPhone X超低廉的价格,但各方面性能都优于iPhone X。

黑科技-3

27日的两大手机新品盛宴,AI始终是其中最重要的一环。这很好呼应了人工智能崛起的大背景下,手机行业掀起的AI风潮。但我们也必须清醒地认识到,并非所有声称具备AI功能的手机都真的能给用户体验带来颠覆性的改变。和手机行业中曾经流行的很多概念或技术一样,对很多厂商而言,AI不过是另一个华丽的营销包装罢了。今天就来和大家说说,什么才是真正的AI手机。

真正的AI手机是什么样的?

简单来说,真正要在手机上实现AI功能需要满足四个条件:芯片、算法、云服务和系统。

AI芯片对于手机的重要性不言而喻。AI本质是大量的计算,手机上实现AI首先要专门的、算力强大的硬件芯片。以我们所熟知的手机CPU、GPU为例,理论上图像处理工作也可以让CPU来完成,但CPU的图像处理能力远远不如GPU。同样的,AI芯片在进行神经网络计算工作时,它的效率和算力远高于CPU和GPU。要在手机上实现AI功能,专门的硬件芯片是最基础的。

GPU流畅运行游戏时,除了硬件本身的性能外,同时也要借助驱动、引擎。手机上的AI芯片也要借助一套成熟的算法,来自动深度学习、改进方法,从而更为智能。

此外,手机AI要更快更好地成长,不能止步于本地运算,同样要借助于云端的服务器,进行大数据的整合和计算。另外,在移动互联网普及成熟的今天,很多AI功能也要借助于其他平台的服务。例如从用户短信中解析出地址信息时,就需要地图服务来实现更进一步的导航功能。
硬件、算法、云服务,这些都是AI手机实现的基础技术,但对普通用户来说,他们直接和手机互动、感知到AI功能都需要通过最直观的操作系统。也就说,AI功能在手机上落地,还需要定制系统适配和整合。

黑科技-4

AI手机未来会如何发展?

可以看到的是,未来AI芯片会和CPU、GPU一样,性能不断提升,实现的AI场景也会更加丰富。此外,未来还有一个非常有利于手机AI发展的技术条件:5G。目前,在国内,5G网络已经被提上了日程,普通用户最快明年就能体验到。

每次手机行业中出现新的技术或功能时,都会引来大批厂商的跟风模仿。现在很多打着AI、人工智能旗号的手机其实都是伪AI产品。尽管如此,但从技术本身和未来的发展趋势来看,AI极有前景,甚至会驱动手机的发展方向。至少目前在某些成熟产品上,已经可以切实感受到AI对手机体验的提升。已经实现的AI功能主要有AI摄影、人脸识别、AI翻译等。在拍照时,手机会自动识别取景框中的物体、景物,做出智能识别和判断,然后再给出具体的算法方案,从而实现最佳效果。

黑科技-5
当然,作为普通用户的我们,在面对形形色色的手机AI宣传时,也需要擦亮眼睛,辨别出那些伪AI,买到名副其实的真AI产品。同时,市场会是最好的试金石。当消费者发现产品的实际体验和厂商的宣传不符时,伪AI的营销噱头自然就不攻自破。

科大讯飞胡国平:我们为什么要办AI大学?

“比人类更强大的不是人工智能,而是掌握人工智能的人类。”

上周,科大讯飞『AI大学·未来课栈@上海栈』圆满落幕,十多位AI领域的大咖学者以及创业者带来了精彩的演讲。今天,小编专门梳理了AI大学副校长、科大讯飞研究院院长胡国平的演讲内容,分享给大家,一起来听听关于科大讯飞AI大学的故事。

1.为什么要办AI大学?

各位AI大学的小伙伴们大家好,欢迎大家来到AI大学未来课栈上海栈。

我是AI大学的副校长,科大讯飞研究院的院长胡国平,我做了13年的院级领导干部,因为大家,终于升级为校级领导干部。在准备这个PPT的时候,我就在想作为校长应该去讲些什么。然后我想起了AI大学的荣誉校长刘庆峰刘总,他在做任何一件事情时都会问三个问题: “这件事情为什么要做?这件事情为什么是我们做?以及做这件事情的具体目标和计划。”

因此我下面的课程,也是从这三个问题来展开的。

1-1

我们为什么要做AI大学?

我们正处于人工智能第三次浪潮, 现在的人工智能已经不仅仅局限于机器下围棋这样的难题。

语音合成已经超过了一般自然人说话水平,语音识别达到了百分之九十七八的正确率。自动作诗、语音评测等很多方面,已经进入了人们日常的工作和生活中。

所以,要去做AI大学的第一个原因是AI发展极快,我比较喜欢说这样一句话:人工智能的无成本复制,和持续向前的能力是人类自身所无法比拟的。

一个英语大师的儿子,他的英语单词还是得一个一个自己背,但机器不会。一台的机器的语音识别率达到97%,所有的机器的识别率都可以达到97%,而且明年机器一定可以超过97%,达到98、99%。

第二,人工智能影响之广,去年7月国家发布了《新一代人工智能的发展规划》,规划了22个大的行业中都会有人工智能。

这些应用包括智能软硬件、智能机器人、智能医疗、智能教育等,几乎我们的生活、工作中所涉及到的行业领域都会受到人工智能的影响。

第三,人工智能人才之缺,一方面在人工智能技术的突破和引领下,在讯飞开放平台的支撑下,以及在AI硬件化商业模式的驱动下,人工智能领域百花齐放。

另外一方面,因为深度学习、大数据及云计算等一系列技术的成功,特别是深度学习作为一种通用的、强大的、适用广的人工智能算法,促使了各种人工智能的需求井喷,使得AI人才形成了供不应求的状态。

1-2
这些大家可能从媒体上也能看到,在智能工厂中传出某一个声音是不是预示着危险;以及基于人的一些运动轨迹信息,自动去识别他是在跑步还是在登山,这些都会涉及到人工智能算法和技术。

据专家估计,我国AI人才的缺口每年是100万,这个数据非常大,十年以后我们就有1000万的人工智能的相关人才。要实现服务亿万用户,研究千上万的各种AI技术,我们大概需要三类人才一起来做这件事情。

第一类是顶尖的科学家,他们需要去研究新的算法和理论;其次是更多、更广泛的AI的技术研究工程师,进行 AI技术的持续打磨、迭代优化等相关工作。

此外还需要大量泛AI人才,基于相关的AI技术去实现创新的产品和创新的服务,同时对传统行业升级改造。

根据这样的背景,在首届全球1024开发者节上,科大讯飞正式推出了AI大学——国内首个基于AI的在线学习平台。

2.AI大学的技术底蕴

我们先从AI大学的技术底蕴开始说起,科大讯飞在2017年一共获得了七项世界冠军;医考机器人参加了国家医师资格考试,以456分的高分通过,这是机器人首次通过人类的行业准入考试。

科大讯飞一直走在技术的最前沿,以现在这样的水平和技术实力, AI大学能够给各位学员提供最好的最新的人工智能技术。

另外一方面,科大讯飞很多的技术通过人工智能的开放平台对外开放,同时针对一些具体的场景,比如智能硬件、互联网、媒体娱乐等我们提出一站式的解决方案,使得相关的研发和创新工作更加的简洁、简单。

2018年在核心技术支撑的基础之上,科大讯飞将再开100项AI能力,这些会给各位学员和开发者提供更好的支撑。

1-3
现在,科大讯飞人工智能开放平台上累积终端数达18亿,开发者团队达60万,日均交互次数45亿。我们用这样一个社区让更多的合作伙伴更好地享用技术、更好地做头脑风暴。

3.AI大学的师资力量

对一个大学而言,师资力量是很关键的一部分,下面我来给大家介绍下AI大学的四位联合创始人。

科大讯飞的董事长刘庆峰担任AI大学的荣誉校长;科大讯飞执行总裁胡郁是AI大学的校长;我是AI大学的副校长;消费者BG执行总裁于继栋是AI大学的教导主任。

AI大学整个的师资构成主要有这三方面:特聘教授、技术专家和创业导师。

在特聘教授方面,我们邀请了国内外走在学术前沿的大咖、教授,来给大家分享最先进的技术和理念。

在技术专家方面,我们基于科大讯飞的一些技术团队,聘请相关的专家,构建起整个技术体系。

同时我们的创业导师,包括像吴霁虹老师,也会以后的创新创业过程中为大家提供更多的服务和咨询。

1-5
4.AI大学的课程和学员成长体系

AI大学的课程体系,主要分三个方面:AI前沿殿、AI工程院和AI实战堂。

前沿殿里面,我们会邀请走在AI最前沿的教授来给学员们讲AI的各方面的知识。我们希望用前沿殿的方式,让各位学员能够广泛地去了解AI技术最新的一些进展和变化。

AI工程院是由技术专家,更系统、更详细地去介绍相关技术的原理,以及如何利用讯飞人工智能开放平台的一些服务,来更好地实现创新和创业。

AI实战堂则是用创业辅导的方式,综合分析商业模式的构建、各个行业的态势,给各位学员在创新创业中提供更有效的支撑。

除此之外,AI大学还会用线上免费课程以及线下实战活动的方式,来给各位学员提供相应的课程体系和课程支撑。

对于学员而言,进入AI大学之后,一般会经过四个步骤来实现自己的学习和成长。

首先是学员的遴选、其次是学习和教引、再到结业认证,学员在AI大学毕业之后能拿到官方的认证书,证书能够在就业、创业、吸引投资过程中获得更好的支撑。

如果学员在整个学习过程中,有创新和创业的想法,我们也有相应免费的生态扶持。

5.iFLYTEK AI 开发者大赛正式启动

为了帮助大家进一步学习, 我们决定,从今天开始,正式启动2018首届“顶天立地“ iFLYTEK AI开发者大赛。大赛分两个主要的内容,一方面是培养和塑造AI技术工程师,我们称之为“技术顶天”的挑战赛。

另一个方面是培养相关的应用创新人才,“创意立地”的创意应用开发的AI挑战赛,助力大家去把自己的创意把自己的想法变成更可操作、可实施的方案。

1-7
我们为挑战赛准备了千万量级的数据集,一百万的奖金,免费的AI资源,科大讯飞的offer直通车,以及我们在全国包括苏州、杭州、天津、合肥等一系列创孵支持以及资本对接的直通车。

整个比赛从今天正式开始,4月份会进行专业的评审,6月份是初赛,7月份会进行复赛。主要在深圳、台北、硅谷、苏州和北京等地,进行相应的复赛,在决赛开启之前,9月份会做相应的辅导,10月份在1024开发者节上进行最后的决赛,Top64的团队会参与到决赛,最终决出来前三名。

同时我们还会设立包括市场潜力奖、技术创新奖等独特的一些奖项,最大力度地支持和鼓励大家参加开发者挑战赛。

最后,我想说比人类更强大的不是人工智能,而是掌握人工智能的人类,所以请在座的各位和我一起,欢迎大家加入AI大学,学习AI,走近未来。

(关注讯飞AI大学,收看更多精彩课程)

关注我们,收看更多精彩课程

超过80%语音开发者的共同选择