AI服务市场618 | 亿万服务,钜惠来袭!

AI有玩,优惠没完!

号外!号外!618全球年中购物节开始啦!此刻的你,是不是推着堆得满满的购物车正准备下单结账呢?

1

且慢!

大家不要忘了还有一个重量级的会场,那就是讯飞开放平台618钜惠大放送!

7折明星产品、海量大额优惠券、精品解决方案、服务市场周年惠……超多AI能力优惠大放送!

下面,就让我来为大家解读这份讯飞开放平台最全最省的618抢购攻略!

2000¥无门槛优惠券

为开发者和企业谋福利,我们是认真的!

总价值2000元的无门槛优惠券大礼包双手奉上,100元、200元、300元任你组合,多买多划算。还不快揣进口袋!

1.  优惠券产品,肆意折上折222

2.  领取方法

关注“讯飞开放平台”微信公众号,在后台输入:618#您的11位手机号,即可领取2000元粉丝专属无门槛优惠券,享折上折优惠,下单即减。

3.使用说明+有效期

  1. 优惠券自动发放至用户账户,用户可在控制台—财务中心—优惠券查看。使用时,需用领券的手机号登录讯飞开放平台官网;
  2. 优惠券在提交订单时抵减相应金额,每张券仅可使用一次,不可提现、转赠;
  3. 若发生订单退款,仅退还实际支付部分,优惠券抵扣金额不予退款;
  4. 活动时间:2019年6月14日-7月15日
  5. 本活动最终解释权归讯飞开放平台所有。

AI能力狂欢购

 1. AI明星产品 

语音转写识别准确率98%,机器翻译2.0支持含英、日、韩、法、西、俄等100多种语言翻译,语音听写输入速度达180字/分……

长期以来,这些能力都是开放平台备受欢迎的明星产品,当然也是本次大促的重头戏——

333

 2. 图像处理专场 

除了备受青睐的语音产品,为了满足大家在不同场景下的多样需求,本次开放平台618还开辟了图像处理专区——

444 3. AI离线+硬件专场 

智能硬件将软硬件结合,对传统设备进行改造,拥有智能化的功能和 “云+端”的典型架构。而这一次,我们也将在“AI离线+硬件专场”中进行优惠放送——

555

精品解决方案优惠放送

除了单点能力以外,本次还有一大波精品解决方案的优惠放送。针对项目中的出现的需求、不足、缺陷等,提出一个解决整体问题的方案,帮助企业快速有效地实施操作。

666

AI生态扶持大礼包

除了单点能力和解决方案,本次的开放平台618还有生态扶持的加码,以诚挚回馈辛勤工作的开发者们!

我们为全体开发者提供AI生态扶持大礼包,服务量免费赠送,接入即可获取免费服务。

777

服务市场周年钜惠

讯飞AI服务市场是国内首个人工智能全产业链综合服务平台,旨在整合AI产业上下游链路,构建以人工智能为核心的产业生态圈。9年来,讯飞开放平台不断开放和迭代近90项核心技术,2019年平台对外开放的服务能力将达到200项。本次开放平台618,服务市场也为用户提供了许多直接可用的AI产品,有需求的用户可直接在官网进行咨询。也欢迎购买了开放平台能力的开发者加入我们,入驻成为服务商。

好啦,介绍了这么多,事不宜迟,现在扫描下方二维码,开始买买买吧!

8


研究所二维码

我爸说,二十年前他帅爆整条街?AI修复照真相了!

父亲节感悟:帅爹面前无idol。

前段时间,网上掀起了一阵“AI修复老照片”的热潮。老照片上的明星们,原本轮廓朦胧、只能依稀辨认出俊俏的面庞,经过AI画质修复后,眉目越发明朗,五官细节也清晰显现,整体颜值double!

王祖贤和张国荣▼

1

林青霞▼

2

胡歌▼

3

网友们纷纷感慨:原来都是被画质耽误了颜值啊!

这让小智想起来早前网上热议的一个话题——“有一个长得很帅的爸爸是种怎样的体验?”

话题下有不少网友翻出了各自家庭中关于父亲的珍贵老照片。照片中父亲们年轻时的面容帅气惊艳,丝毫不输现在的小鲜肉。

在父亲节来临之际,我们特别准备了这期文章,将这些帅气的照片进行了AI修复!

原本就是“神颜”的爸爸们的旧照,再经过现代科技修复后,会有怎样惊艳的效果呢?

4

·

  !

@小甜甜i:

当年的盛世美颜 ▼

5

@匿名网友:

这是我的father in law(岳父)Ps.托他的福,我女朋友很漂亮▼

6

@全世界最帅的酒酒:

#论别人都以为那是男朋友其实是我爹#
#学姐来要我爹QQ号是什么体验#▼

7

@ClaireCeltics:

体验大概就是,大家都觉得我应该找不到比爸爸帅的男朋友。▼

8

@酱男嗷:

有人说像白敬亭?

希望爸妈永远年轻,洋溢青春和历经岁月的脸,都很动人▼

9

10

@李拜天:

我奶奶说,我爸年轻的时候村里人都说他靓仔,简直是村草。真不愧是我上辈子的情人! ▼

11

@Lynn:

我爸爸,很帅▼

12

13

@喵酱:

我要让我爸火起来!▼

14

@老王同学:

都闪开!让我来回答

上中学的时候每次来学校送饭都被一群女同学追着问:这是你爸??▼

15

16

@a Fan:

我爸的18岁,像不像苏有朋!!▼

17

@匿名用户:

我爸二十多那时候,简直了~

我房间贴男星海报,他都不理解,说什么“还没我当年好看呢”吧啦吧啦~~▼

18

@匿名用户:

体验就是,大家都觉得他比我帅▼

19

@Jackson每晚十点睡:

穿制服的爸爸真的很帅▼

20

真的是一波又一波的颜值暴击啊~原本模糊的老照片就能看出来帅了,修复后的爸爸们,更是大写加粗让人扯着嗓子喊的帅啊!

小智真的感到有点酸溜溜了······

21

大家的爸爸都又高又帅,而我的爸爸········除了钱以外,一无所有

22

 AI修复术是怎样炼成的

好了,大家擦擦口水,小智要讲重点了——AI照片修复技术到底是什么原理呢?

可能会有人认为,这种AI修复术和我们常见的PS、磨皮使用的是同样的技术。其实并不是这样。

修复照片是利用AI算法增加图片的像素值,而磨皮则是对人像的皮肤部分进行模糊处理。简单点说就是:磨皮减少了细节,AI修复增加了细节。

23

磨皮后会产生面部细节的丢失

删除东西很简单,但增加内容就需要创造了,因此修复的技术难度会更大。

首先,研究人员会先对图片数据集A进行“增噪”处理,得到高糊的数据集B,再将A和B都输入神经网络的模型中训练,告诉机器:B降噪后应该是A。而如何实现中间的降噪过程,就交给AI自己去“琢磨”了。

等到AI自己“琢磨”透了实现过程,它就能实现给任何人脸图片降噪了。

 破损照片也能修

除了让模糊的照片变清晰,AI技术还能将照片中的破损部分补齐。

24

一些老照片不仅是模糊,还存在一定的破损问题

通过使用对抗网络的机器学习方法,从海量数据中学习识别人脸,掌握脸型、肤色、五官等面部各个维度的信息。然后“阅人无数”的AI就可以根据照片的剩余内容“想象”出缺失的部分。

 修完不像本人?

照理来说,处理之后的图像应该与本人更接近了。不过最近,民国才女林徽因的一张修复照引发了网友们不小的争议,因为修复后的林徽因看起来变成了另一个人

25

林徽因修复照

修复后的照片中,林徽因虽然依旧漂亮,风格却似乎过于现代化:浓眉毛、高鼻梁、欧式大眼睛。不少网友看完后纷纷吐槽“这不是网红吗”“跟原来的气质一点都不像”。

26

林徽因的原生长相,气质温婉而坚毅

实际上,结合上面小智给大家科普的内容,大家应该就可以猜到其中缘由。

因为修复老照片的过程,更准确地说是一种具有“创造力”的绘画过程,AI会根据已学习过的人脸图片形成自己的“经验性审美”。

如果原始照片残缺过多,给AI留下了很大的“创作空间”,而训练所用数据中现代女性照片又非常多,那修复结果自然就会更像现代人。

所以,并不是AI只能修出现代脸、网红脸,在使用了合理训练数据的情况下,即使是年代久远的旧照,也还是会有很高的还原度的。例如小智最喜欢的这一组!

周总理旧照修复▼

27

谦谦君子,温润如玉。这个男人真的不是一般的帅▼

28

29

“他那张脸严肃而又透出聪颖,富有男子汉气概。” ▼

30

除了个人魅力,周总理和邓颖超相互扶持的爱情也十分让人羡慕

在周总理回给邓颖超的信件中,柔情满溢:“你的信太过官方,都不说想我。”

31

“我这一生都是坚定不移的唯物主义者,唯有你,我希望有来生。望你珍摄,吻你万千。”

32

可以说,总理的魅力,不只是来自于外貌和气质,更来自于他温和的性情、坚定的信仰,以及强大的内心。是小智最喜欢的人没错了!

随着社会的发展,现代拍照技术越来越先进,更多的色彩、更精致的细节都能被轻松地拍摄保存。而老照片这种像素低、保存又困难的存在,则逐渐退出了时代舞台。

不过,仍然有不少人守护着这样一份情怀,就像珍惜昔日时光一样珍惜着这些老照片。

而在现代技术的加持下,不仅模糊的相片变得更加清晰,那些沉淀在时光中的情感与故事,也仿佛被再次唤醒。

更多精彩,请关注微信公众号“AI研究所”。

研究所二维码

AI预测世界杯?算了,足球比我女朋友都难猜

欧冠的结果,你押对了吗?

火热的欧洲冠军联赛刚刚落下帷幕。在最终的决赛中,萨拉赫罚入点球,替补奇兵奥里吉再进一球。最终利物浦以2-0战胜热刺,时隔14年再度登上冠军王座。当地的利物浦球迷欢呼雀跃,马德里成了一片红色的海洋。

而正如鲁迅先生所说,有比赛就有输赢,有输赢就有赌输赢的群众。

11这些群众包括小智这样的普通球迷,还有足球博彩机构,甚至谷歌、微软等互联网巨头也曾来凑过热闹。

而为了预测赛事的结果,大家又可谓是“各显神通”:有的追随专家分析,有的靠自己做梦,还有的相信章鱼玄学······
2

章鱼保罗在2008欧洲杯和2010世界杯中,预测14次猜对13次,成功率达93%

作为一名优秀的社会主义接班人,那些歪门邪道小智我当然是一个都不信的。唯有科学的数据分析和模拟,才算得上严谨的预测。

其实,早在前几届世界杯期间,各路Geeker就已经采用过各不相同的AI算法和特征数据,做过这样的预测尝试。甚至,著名物理学家霍金生前也曾研究过世界杯夺冠公式!(公式将在文章后半段解读)

那么,各家预测的结果准确度如何呢?谁又是能够一语言中的“神算子”?

AI预测输赢

我们先来看看一项在算法和数据方面都颇有代表性的实验,它是由来自德国和比利时的四位研究人员在2018年进行的。

实验中,他们使用自过去四届FIFA 世界杯(2002-2014)的所有比赛结果作为数据集,希望以此来预测2018年的冠军。

此外,他们还考虑了许多相关的特征,比如

经济因素(国家人均GDP、人口数量等)运动因素(ODDSET 概率,FIFA 排名等)

主场优势(主办方、大陆、联邦等)

团队结构(队伍中同一俱乐部队友的人数、队员平均年龄、参加冠军联赛的球员数量等)

教练因素(教练的年龄、任期、国籍)等等。

研究人员认为,这些因素看似没有直接决定赛事的结果,但很容易影响球员和队伍的整体状态,因此很有必要纳入考虑。

在算法上,他们采用了随机森林算法(Random Forest)。这一基于决策树的算法是机器学习的一个重要分支,并且具有很高的准确率,在许多数据分类任务中都曾表现出优异的性能。

最后,经过10万次赛事模拟,研究团队预测出了夺冠可能性最高的前三名,分别是西班牙队( 28.9%)、德国队(26.3%)和巴西队(21.9%)。

打脸来得太快就像龙卷风

万事俱备,就只等最终的结果验证了。

不久之后,激动人心的时刻到了——2018年俄罗斯当地时间7月15日,在最终的世界杯决赛中,法国队夺冠。

3

2018年俄罗斯世界杯法国队夺冠

而回过头来看研究人员先前的预测结果,可以说是错到离谱了——他们押宝的西班牙队和德国队在实际比赛中甚至都未能进入四分之一决赛,最后夺冠的法国队在他们之前的预测中也仅排名第4。

4

预测名次&实际名次

再看赛前积极预测的各家机构,最终结果也基本是不同程度的打脸,准确率稍高一些的,也并没有超过章鱼保罗的。

这样的结果让人倍感困惑:尽管拥有适当的数据类型、数据体量,使用了参数正确的优秀算法,那为何这些训练有素的模型最终仍会失败呢?

为什么不灵?

其实,失败的原因就在于我们所预测的对象——足球比赛,在各要素的维度上都并不是一个有规律的事件。

和其它以人为重点的事件一样,足球比赛在赛前和赛中都有太多让人无法判断是否确实相关的影响因素,也就是所谓的混淆变量

而场上每分钟(甚至每秒钟)的状态,都取决前一分钟(前一秒钟)的状态。这种马尔可夫链过程又意味着,要把数据集中每场比赛的每一分钟都模拟出来,才能得到相对准确的模型。

5

马尔科夫链的定义:事件某一时刻的状态只取决于它在上一时刻的状态。图为应用了马尔科夫链的天气预测过程。

除此之外,比赛结果还可能受到一些外部因素影响,例如天气、政治情况、地理因素,甚至某个球员前一晚没睡好都可能会影响整场比赛的结果走向。而这些重要特征通常都很难被收集和衡量。

更何况,还存在意外发生的可能性,例如一个致命失误或意外进球,都是无法预测的。

6

简而言之,像足球比赛这样以人为主的活动,是当下的AI技术还无法很好驾驭的领域。

这也是为什么小智说,足球比我女朋友都难猜——足球的结果跟一大票人有关,而我女朋友的心思只跟她一个人······咦,我女朋友呢?

7

霍金“完美点球公式”

对于足球比赛结果的不可预见性,著名物理学家霍金似乎比我们更早地发现了。不过,这并没有妨碍他对足球运动的热爱。

8

公式发布现场

这位著名的物理学家曾在公开场合多次参与世界杯冠军的预测,甚至还娱乐性地自创过一套“完美点球公式”

其中,X0是一个已知变量

罚球队员是前锋,则α1=1;是后卫,则α2=1

罚球队员瞄准球门左边,则β1=1;瞄准右边,则β2=1

罚球队员的头发颜色为淡黄色,则δ=1

罚球队员瞄准球门上1/3,则θ1=1;瞄准球门下1/3,则θ2=1

罚球队员用脚的侧面踢球,则ε=1

罚球队员不助跑就直接踢球,则η=1

除此之外,霍金还配合着这个公式做了一些数据解读:

“我研究了1978年世界杯以来的所有点球,得出了‘完美点球公式’。主要是因为英格兰球员准头太差了,他们用铲子都打不到牛屁股······(这也就是他搞出这个公式的原因:被英格兰历史上的那些失败点球蠢哭)首先,速率是关键,必须跑三步以上,把速度提起来。只跑三步或者更少步数的球员,他们的点球命中率只有58%,远低于平均水平的87%。

使用脚侧比正脚背能高出10%的命中率。

把球踢向左右两个上角更容易罚进点球,成功率高达84%。

用左脚还是右脚对结果没有什么影响。

前锋比后卫和中场球员更容易进球。

金发球员和秃顶球员的命中率更高,金发球员的命中率高达84%,秃顶球员71%的命中率也高于深色头发球员的69%,但我不清楚原因是什么。

9

对于守门员,跳来跳去分散主罚者的注意力,将会提高18%的扑救成功率。”

看完以上信息,你是不是和小智一样觉得一脸懵逼?这个公式连带公式的解释,无论怎么看都让人觉得槽点满满。

不过,这本来也不是真正的科学研究,霍金曾表示“和足球相比,我认为量子物理相对而言更直接一些。”

而所谓的“完美点球公式”,也只是老顽童跟大家开的一个玩笑,顺便怒其不争地调戏一下自己祖国的英格兰队,毕竟“爱到深处自然黑”。

10

缅怀这位可爱的伟人

当然,在足球赛结果预测中的失败并不意味着AI在“预测”这件事上毫无用处。例如对单个球员的跑步距离、速度、加速度、减速度、负荷和心率等等数据来进行研究,以预测运动员在某场比赛中的场上表现,这样得出的结果就比较具有参考价值。

毕竟AI只是一种工具,我们如何使用、在怎样的前提条件下使用的这种工具,才是决定其价值的关键所在。

皮一下
其实我挺信“霍金点球公式”的,它的大概含义就是:英格兰靠点球夺冠的概率约等于0·······研究所二维码

市场回暖之际,踩准这些AI+赛道成为突围“黑马”

2019,春意渐浓,寒冰下也有暗流涌动。

2019,资本寒冬未见消融之势随着市场渐趋理性,竞争与筛选愈发激烈残酷,前两年的大批新概念纷纷泡沫破裂。

根据2019年1月VC/PE市场报告显示,进入募资阶段的基金总数环比下降45.33%;目标募资规模环比下降38.66%。VC/PE市场基金募资持续低迷,GP扩张步伐仍在减缓。同时融资案例和融资市场规模也持续下降。

企业管理者纷纷稳固战线,放慢扩张速度;投资者则纷纷降低预期,趋向谨慎评估。对于创业团队而言,正面临领域选择和资金募集的双重压力。

但是,随着春意渐浓,寒冰下也有暖流涌动。

国务院发布《关于推广第二批支持创新相关改革举措的通知》,推动政府资金进场,将政府股权资金投向种子期、初创期企业,缓解创投市场的疲软状态。此外,科创板在今年正式落地,为国内科创企业提供对接平台,同时推动VC/PE对科创企业的价值投资。

对于创业者而言,抓住市场初现回暖之意的机遇,找准“赛道”并获得优质加速扶持,就能在冷峻的环境下成为那匹突围的“黑马”。

赛道:这些领域正悄然成为资本布局热点

从17年各种天马行空的科创项目,到18年诸多产品落地时遇到争议和挑战,再到市场收缩后逐渐遇冷。如今的创投圈正将投资热情集中在更“接地气”的领域。

1.AI+医疗健康

随着医学领域的专业化趋势,投资医疗健康的门槛如今不断提高,仍然留在医疗领域的投资机构经过大浪淘沙,具有数量少,质量高,专业程度高以及实力雄厚等特点。因此创业者在医疗领域的优秀项目将更容易得到优质的扶持!

医疗服务,医药板块及医疗器械是医疗投资关注的三大门类,对于投资者来说,这几类场景的投资机遇往往在创新的项目之中,而AI就是创新的代表。

图像识别、深度学习、神经网络等AI关键技术正在落地应用,如医院中的自助挂号机、医疗服务机器人,极大缓解人力压力。同时通过AI识别筛选大量的基因、代谢和临床信息,缩短药物研发的周期。

2.AI+信息服务

随着互联网技术的不断成熟,以及经济水平提升带来的消费升级、生活方式多元化,每天都有海量数据涌现。

用户分析、人才招聘、线上交易,大量工作都对企业提出了新要求:在极短时间内对海量数据进行精准、快速、高质量的处理。AI的运算以及交互能力将提高数据处理速度,丰富数据采集的途径及方式。

3. AI+娱乐

AI技术的发展,强化了人机交互的体验,衍生出新的玩法,比如虚拟偶像和沉浸式VR游戏中的智能NPC。

同时AI高速的数据处理能力,也让高性能,精细复杂的娱乐形式进一步实现落地,像基于地理和用户大数据的AR游戏。

AI也作为优化升级的元素走入老的娱乐品牌,成为其新的卖点。比如在Dota等游戏中AI加入人机模式,让与机器对战更具有挑战性。

平台:以语音技术在AI+热点实现异军突起

智能语音技术作为AI应用最成熟的技术之一,在医疗健康、社交、服务等领域有了迅猛发展,各个商业落地场景前景广阔。正成为众多AI科创企业的技术赋能方向。此时,AI加速器的扶持作用将扮演重要角色。

目前,在大厂商的生态布局上,财务类投资和技术+资源入股都是双方建立血缘关系和深入合作多样性的良好尝试。

而讯飞也基于自己语音技术领域的领先优势,在创业团队扶持上带来技术优势+品牌效应+产业资源。希望和创业团队在更多领域和方向上建立更深的联系。并已在医疗健康、数据服务、社交娱乐等领域取得了成果——

1.沐月科技

1

公司拥有全国首家专业“互联网+特殊儿童康复教育”的智慧康复服务平台医佰康,其采用“平台+社区+家庭”三位一体运营模式,全方位打造教育咨询、评估、训练等一体化优质服务,为特殊儿童提供运动(PT)、作业(OT)、言语(ST)、感统、情绪行为、自闭个训等服务。发展至今,服务特殊儿童5万人次左右,荣获康复软件注册证书近20余项,申报专利2项,公司平台用户已达10万余人。

2018年9月份,公司推出项目“智享云康复”平台,实现了线上测评、和康复训练功能,在科大讯飞的支持下,开发出言语评测和训练软件,被上海市政府列入文化创意产业重点扶持项目。公司未来将利用科大讯飞的语音识别系统,进一步开发更多的言语康复训练软件,打造智能云训练系统,致力于为国内的康复机构赋能,开创了国内现代化康复的新模式。

2.阿尔法心理

2

中国有9000万抑郁症患者,抑郁症已经成为全世界疾病负担最高的疾病,但是只有10%的患者得到正式治疗。

阿尔法心理是由临床心理学家和人工智能专家团队联合开发的机器人心理医生应用程序,用户可以随时随地把抑郁和焦虑的事情告诉机器人心理医生。机器人通过认知行为疗法,引导用户进行自助式心理调节。

通过科大讯飞提供的语音服务方面的技术支持,阿尔法心理以更便捷的形式与用户交互, AI技术通过语音识别情绪甚至可以辅助抑郁症诊断,把心理健康服务更快速的渗透到用户的日常生活中。

3.Sweetalk

3

主打国际社交的APP,主要方向为在陌生人之间提供沟通平台,最终是满足不同国家用户在线下的沟通。Sweetalk在禁止涉黄涉暴上也有自己独有的审查过滤机制,同时有人工进行抽样审查,规避舆论及政策风险。现有用户80万。

讯飞与Sweetalk合作后,通过成熟的语音识别、语音合成、翻译能力,为APP带来更多社交领域的突破性功能,极大地提升了用户体验。

4.栗伙健康

4

公司拥有可以自我学习的医学营养服务和食品数据服务平台NexGenNu,它帮助营养师和医师为孕产妇儿、重疾康复患者、四高等慢性病患者等提供精准营养服务。

公司与科大讯飞的合作,给予NexGenNu平台强有力的人工智能技术支持,为平台的自我学习和自动化服务系统提供了坚实基础,平台正式上线后,NexGenNu还将与科大讯飞健康事业服务部携手为更多医疗机构和患者提供高效高质的医学营养服务。

5.滴孚科技

5

滴孚致力于认知智能领域的研究,依托相对成熟的感知智能技术,专注“机器认知人类”方向。通过结合传统心理学研究范式,集成计算机视觉、机器学习及其它多元化的数据挖掘技术,构建新型认知模型,将更易采集的人类数据转化为有价值的认知结论,从而为场景化的商业模式赋能。

同时,滴孚与科大讯飞在语音识别、语音合成、AIUI领域实现了深度合作,使得滴孚在数据处理和分析上有着得天独厚的优势。

作为中间层的基础技术研究和服务提供商,科大讯飞通过包括深度学习/机器学习、语音技术和自然语言处理等AI能力为科创团队提供技术扶持。

同时,讯飞开放平台在基于开放技术多年的基础上,对外聚拢大量的软硬件合作伙伴,并且引导科创团队与公司内部跨部门协作,推动实现商机转化,应用落地。人工智能生态各要素动态演进,基于开放平台的生态逐渐成型。

谷歌 I/O:语音助手成精了!承包你的衣食住行

比你妈还懂你的助手。

a

一年一度的Google I/O开发者大会如期而至。

今年也是Google旗帜鲜明推行“AI First”战略的第四个年头。一直强调的“Bringing the benefits of AI to everyone”,也在2小时的演讲中不断得到证实。

Google CEO 桑达尔·皮猜淡定登场
Google CEO 桑达尔·皮猜淡定登场

 

Google Assistant升级:这才是智能语音该有的顺畅

观看了升级版语音助手的完整演示之后,我只有一个感受:舒坦!

此话怎讲?

 

1.有话直说,刻意唤醒不需要

我们熟知的语音助手在使用之前都必须先唤醒,例如“Hey Siri”,未经唤醒的语音助手就处于无法响应的睡眠状态。这导致每次用语音助手的时候不仅麻烦,而且还显得使用者有点······蠢。

而这次的Google Assistant则不需要刻意唤醒。在演示中我们可以看到,原本在看 John Legend推特的使用者临时起意,对Assistant 说“我想去看他的演唱会诶。”

反应时间不到 1 秒,手机就立刻规划出了去John Legend演唱会的路线,甚至连最实惠的打车方案都帮你想好了。

3

2.要打开哪些APP我自己知道

-“我想发一张在美国黄石公园拍的照片给朋友。”

-“有动物的。”

-“发送。”

4

在这一连串的语音命令下,Google Assistant首先进入了手机相册,筛选出地点是在黄石公园的照片,再挑选出其中内容包含动物的,最后跳转到邮件发送页面,光标自动衔接到邮件文字的输入中。全程的指令识别和应用跳转都十分顺畅,不需要多次唤醒也不用人为切换应用。

3.执行速度,这次是真的快

Google Assistant整合了众多机器学习的功能。理论上,当它收到一则语音请求时,需要通过三个独立的模型进行处理,从而理解语音命令。原来在这一过程中,Google Assistant需要多达100GB的数据来进行分析;而现在,数据大小被成功地压缩到了0.5GB,大大缩小了从用户语音发出到命令执行的延迟。

通过现场的演示我们也可以看到,在用户连续不停地发出语音指令的情况下,Google Assistant也能迅速流畅地执行,几乎可以说是“实时”。

5

通过Google Assistant的这些操作展示可以看出,语音操控已经极大地摆脱了之前唤醒烦、反应慢、工作笨的情况,用起来越来越舒坦。这都有赖于AI技术的加入,从“Mobile first”到“AI first”,人工智能技术成为了Google战略布局中越来越重要的一环。

 

Live Caption :掌上的即时“字幕组”

与你更亲近的语音助手只是开胃菜,此次I/O 2019上Google将几百G的机器学习成果浓缩到手机应用中,就是要让AI带给你的生活更多便利,更多人情味!

没有字幕组,啃生肉视频很吃力?在Google的Live Caption诞生后这些即将成为历史。通过Live Caption,设备上播放的任何视频、音频的语音都可以被实时转录,生成字幕。

20936771b7b8d117c359e5f22e55cfe1

但仅仅是语音转文字还不够带劲,Google还玩出了如下爆点:

1.网速根本不是个事

Live Caption的突破,在于把整个功能完整地安装在了手机端中。

这意味着什么呢?你的手机即使没有联网,也可以使用Live Caption对任何视频和音频进行加字幕处理,而无需担心准确率和效果会受到没有与网络数据库相连的影响。

过去YouTube曾推出自动给视频加字幕的功能,但Live Caption则进一步突破网络限制,拓宽了发挥空间。

2.啃生肉无需连蒙带猜

Live Caption除了能实时转字幕,还能同时进行翻译,将外语视频的字幕以你的母语形式呈现出来。

7

在现场演示中,画面上的母亲正在喂自己女儿吃饭,但是母亲说的是韩语,而下面的字幕正在实时转成英语,不得不说如果这种功能以后得到普及,字幕组真的可以光荣退休了~~~

3.让残障人士听得到,说得出

Google基于音视频字幕功能的突破,也与大家分享了自己在公益上的新想法——

通过生成字幕,可以让听障人群也能和正常人一样接收电话与视频聊天中的信息。而输入文字实时转语音,也将代替手语,让通话如普通人一样自然流畅。

8

同样受益的还有渐冻症患者。Google的新技术让他们可以通过嘴唇的细微运动来准确输入文本,表达自己的意思。相比于过去通过眼睛运动来输入,正确率更高,对身体负担更小。

9

10

正如Google在本次大会上所传达的:“成为惠及每个人的 Google,无论你是谁,住在哪里,想要实现什么。 ”


严格来说,本次I/O大会上登台的应用或多或少都是从前两年发布的新产品延伸而来。但随着各项技术的不断完善,例如现场演示的Google assistant与真人对话、相册自动推荐修改等功能,的确让人感觉到Google的诚意。

除了效果更佳之外,这些全新功能与系统的结合程度也颇高,反而降低了用户在这些新功能上的学习成本和使用成本。

DNN、RNN、CNN.…..一文带你读懂这些绕晕人的名词

在AI界也有一些“长相相似”专业名词,让初学者傻傻分不清,比如我们今晚要科普的「相似三连」DNN、RNN、CNN。
这3个名词其实是第三代神经网络里运用非常多3大算法:DNN(深度神经网络)、RNN(递归神经网络)、CNN(卷积神经网络)。

「撞脸」一直都是娱乐圈一大笑梗。

要是买火车票的时候碰上孙楠、杨臣刚、王大冶……脸盲症患者可以直接放弃回家,原地暴哭了。

640

 

当然,「撞脸」可不是娱乐圈的特有的,在AI界也有一些“长相相似”专业名词,让初学者傻傻分不清,比如我们今晚要科普的「相似三连」DNN、RNN、CNN。

这3个名词其实是第三代神经网络里运用非常多3大算法:DNN(深度神经网络)、RNN(递归神经网络)、CNN(卷积神经网络)。
6401

 

1、三代神经网络的发展

在正式开讲这3者的区别之前,我们先简单做个回顾,第一代和第二代神经网络到底是什么?

第一代神经网络又称为感知器,在1950年左右被提出来,它的算法只有两层,输入层输出层,主要是线性结构。它不能解决线性不可分的问题,对稍微复杂一些的函数都无能为力,如异或操作。

为了解决第一代神经网络的缺陷,在1980年左右Rumelhart、Williams等人提出第二代神经网络多层感知器(MLP)。和第一代神经网络相比,第二代在输入层之间有多个隐含层的感知机,可以引入一些非线性的结构,解决了之前无法模拟异或逻辑的缺陷。

第二代神经网络让科学家们发现神经网络的层数直接决定了它对现实的表达能力,但是随着层数的增加,优化函数愈发容易出现局部最优解的现象,由于存在梯度消失的问题,深层网络往往难以训练,效果还不如浅层网络。

2006年Hinton采取无监督预训练(Pre-Training)的方法解决了梯度消失的问题,使得深度神经网络变得可训练,将隐含层发展到7层,神经网络真正意义上有了“深度”,由此揭开了深度学习的浪潮,第三代神经网络开始正式兴起。
6402

 

2、深度神经网络最常用的三大算法

说完了三代神经网络的大概发展,我们现在来看下第三代神经网络中经常让大家叫苦的3大名词:DNN、RNN、CNN。

DNN:深度神经网络

从结构上来说,DNN和传统意义上的NN(神经网络)并无太大区别,最大的不同是层数增多了,并解决了模型可训练的问题。

简言之,DNN比NN多了一些隐层,但这些隐层的作用是巨大的,带来的效果是非常显著和神奇的。
6403

 

当然第三代神经网络能够带来神奇的效果,并不仅仅是因为它的模型结构和训练方法更为优化、算法更加先进,最重要的是随着移动互联网的普及海量数据的产生和机器计算能力的增强。

DNN中的“deep”意为深度,但深度学习中深度没有固定的定义或者衡量标准,不同问题的解决所需要的隐含层数自然也是不相同的,就大家比较熟识的语音识别来说,解决问题可能4层就够了,但一般图像识别需要达到20多层才能够解决问题。

DNN最大的问题是只能看到预先设定的长度的数据,对于语音和语言等前后相关的时序信号的表达能力还是有限的,基于此提出了RNN模型,即递归神经网络。

RNN:递归神经网络

全连接的DNN存在着一个无法解决的问题:无法对时间序列上的变化进行建模。

为了应对这种需求,业内提出了上文中提到的递归神经网络RNN。

在普通的全连接网络中,DNN的隐层只能够接受到当前时刻上一层的输入,而在RNN中,神经元的输出可以在下一时间段直接作用到本身。换句话说,就是递归神经网络它的隐层不但可以接收到上一层的输入,也可以得到上一时刻当前隐层的输入。

这一个变化的重要意义就在于使得神经网络具备了历史记忆的功能,原则上它可以看到无穷长的历史信息,这非常适合于像语音语言这种具有长时相关性的任务。
6402

 

CNN:卷积神经网络

卷积神经网络主要是模拟人的视觉神经系统提出来的。

以CNN做人脸识别任务为例,先得到一些像素信息,再往上层得到一些边界信息,然后再往上提取就是一些人脸的部件信息,包括眼睛、耳朵、眉毛嘴巴等,最后是人脸识别,这整个过程和人的视觉神经系统是非常相似的。
6403

 

卷积神经网络的结构依旧包括输入层、隐藏层和输出层,其中卷积神经网络的隐含层包含卷积层、池化层和全联接层3类常见构筑,接下来我们着重讲解下卷积和池化的相关知识点。

卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,一个卷积核覆盖的原始图像的范围叫做感受野(权值共享)。

一次卷积运算(哪怕是多个卷积核)提取的特征往往是局部的,难以提取出比较全局的特征,因此需要在一层卷积基础上继续做卷积计算,这就是多层卷积。
6401

 

在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

通过这种池化的操作,能够一定程度上克服图像的一些旋转和局部的细微变化,从而使得特征的表达更加稳定。
好啦,今晚对DNN、CNN和RNN的简单科普到这里就结束了,关于每种网络的用法大家还需要在实际建模中努力探索。

当然不论是哪种算法,它们往往都会混合在一起使用以达到效果的最优化,同学们要做的便是掌握好理论知识,在实践中找到最灵活的组合方式。

同时「AI大学移动端」已经上线了科大讯飞AI研究院王海坤院长的人工智能系列课程,小伙伴们记得戳菜单栏【AI大学】或点击阅读原文,去学习更多AI知识!
640

 

AI研究院副院长  王海坤博士

w640

 

参赛必看|想拿百万奖金吗?赛前锦囊火热来袭

AI开发者大赛报名倒计时

2018首届“顶天立地”iFLYTEK AI 开发者大赛正在火 !热 !报 ! 名 ! 中 !

【点击这里】直接进入报名通道~

大赛-1
2018首届“顶天立地”iFLYTEK AI 开发者大赛报名启动以来,大家通过各种途经向组委会提出了很多问题。别着急!小编会尽快把大家普遍关心的问题整合分类,一一为大家答疑解惑哦~

今天我们先从“应用开发AI挑战赛”开始~

【参赛要求】

1.参赛作品必须使用包括AIUI人机对话交互在内的至少一项讯飞开放平台能力。

2.参赛作品使用语音和图像相关人工智能能力需优先调用讯飞开放平台技术接口。其他厂商AI技术接口调用不得超过一种。

3.合法性:参赛作品主题内容必须健康、合法、没有任何不良信息及商业宣传行为,不违反任何中华人民共和国的有关法律。

4.原创性:参赛作品必须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将取消其参赛资格。

【评审标准】

1.产品创新性:参赛作品是否具有充分的创新性,与行业成熟方案相比较有差异化,有更好的产品表现。

2.产品实用性:参赛作品是否能够解决所在领域的实际问题,解决用户痛点。

3.AI能力结合度:参赛作品是否结合AI技术,使得产品的体验及功能有了突破性进展。

4.产品商业前景:参赛作品能否创造较好的社会和市场效益,具有较为广阔的商业前景。

看到这些要求和标准,你是否感到茫然失措?别着急!今天小编就给大家分享几个借助讯飞开放平台技术应用开发的优秀案例,希望可以给你们激发一些灵感!

继续往下看↓↓↓

1-1案例1.叮咚音箱

叮咚配有8个麦克风阵列,确保它可以听清你说的每一句话,无论你身在房间哪个位置。独特的远场识别技术,支持5米超远距离语音交互。AIUI硬件特有的回声消除技术,使这款智能音箱能过滤掉各种背景噪音,包括正在播放的音乐等,以便更为准确地领会用户指令。可以帮助用户听歌,听新闻,定闹钟,闲聊等。

1-2案例2.阿尔法蛋

阿尔法蛋机器人是淘云科技有限公司倾力打造的一款教育陪伴智能机器人。集成教育内容、超级电视、视频通话、智能音箱和自然语言交互机器人的阿尔法蛋是一款功能聚合的机器人,功能与服务面向家庭所有成员。搭载讯飞AIUI智能系统,拥有“类人脑”,其理解能力、表达能力,智商都会随着深度自我学习,不断成长,是一款“真”机器人。

1-3案例3.合肥轨道

合肥轨道交通首开全国先河,创新推出“语音购票”服务功能,通过搭载AIUI评估板,市民乘客将在轨道交通车站自动售票机上通过语音选择目的地站点、购票张数,再通过现金或者手机扫码完成购票交付。

1-4案例4.咪咕莫比斯耳机

莫比斯通过搭载AIUI交互系统,聚合语音操控、中英翻译、心率监测、健身指导、日程管理、出行导航、路线规划、音乐听书等的完整体系。这是咪咕在智能时代对全新人机交互的探索,通过全语音交互,它的应用场景会更加多元化,智能化,它的核心价值也远超主流耳机产品,因此莫比斯才能被定义为全球首款全语音人工智能耳机。

1-5案例5.荣泰

荣泰智能语音按摩椅搭载AIUI , 配合多麦克风阵列,灵敏交互、精准识别之灵,操控准确便捷,解放双手,让休憩更彻底。

1-6案例6.优友机器人

优友机器人是康力优蓝机器人科技有限公司推出的高端大型服务机器人产品,优友以完美的造型亮相,一经发布即引起业内强烈关注,优友的语音系统采用科大讯飞的AIUI解决方案,机器人进而具备各种功能,成为银行引导员、公司前台、商场导购、展馆导览员、餐厅服务员等等,在存在劳动力缺口的各个领域中都有望得到广泛应用。

【大赛概况】

2018首届“顶天立地”iFLYTEKAI开发者大赛面向全球开发者首次开放中文方言语音数据集,践行“方言保护计划”,用人工智能算法推动非物质文化遗产保护。

除了方言语音数据集之外,还将开放AIUI人机对话交互,语音听写、合成、评测、翻译等十余项人工智能核心技术,促进人工智能应用场景的落地。

大赛共分为方言种类识别AI挑战赛和应用开发AI挑战赛两大赛题进行比拼,百万奖金,等你来战!

1-7

除丰厚奖金外,大赛聚合讯飞生态平台、AI大学优质资源,获奖团队可获得价值500万元的创业扶持,包括技术支持、资本对接、创业指导、品牌曝光等优质生态资源。
以上就是本期给大家准备的赛前干货啦,希望可以给大家带来一些启发~下期我们为大家带来方言种类识别AI挑战赛的干货哦~敬请期待!

【赶快点此报名】

我们一起,让AI更有情怀,让技术更实在!

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信,此为小助手的微信号二维码:

1-8

 

关注“讯飞开放平台”公众号,获取更多资讯

开放平台

参赛必看|权威专家带你解密方言种类识别AI挑战赛

AI开发者大赛报名倒计时

距2018首届“顶天立地”iFLYTEK AI开发者大赛报名截止时间越来越近了。你的参赛作品准备好了吗?【点击这里】即可直接进入报名通道!

上期为大家介绍的是“应用开发AI挑战赛”的相关内容。有不少小伙伴留言,强烈要求小编再出一版关于“方言种类识别AI挑战赛”的一些具体赛况。今天小编就来满足你们~

方言赛

针对大家对“方言种类识别AI挑战赛”的一些提问,我们邀请到了科大讯飞研究院科学家、语言识别技术总负责人潘嘉为大家进行赛事解读。小编把潘嘉老师的解读整理了下,分享给大家,满满的干货,小板凳快搬好,准备记笔记啦~

方言种类识别AI挑战赛
【赛题详情】

方言种类识别 AI 挑战赛任务为汉语方言语言种类识别,即根据给定语音,判断该语音属于哪个方言。

科大讯飞全球首次开放覆盖中国六大方言区、总时长约 60 小时的 10 种汉语方言语音数据集,供参加竞赛的科研单位以及开发者免费使用。

根据测试语音长度,方言识别 AI 挑战赛分为两个不同难度的子任务,即任务一(有效语音长度≤3s )和任务二(有效语音长度>3s)。

结果评价指标为分类正确率 acc:即分类正确的语音条数/所有语音条数。

训练集合与开发集合供参加竞赛的科研单位以及开发者调试系统使用,测试集合不开放,最终排名以参赛者提交的系统在线上测试集合上的结果为准,分类正确率越高排名越靠前。

【开放数据】

初赛共有六种方言,分别来源于六大方言区,具体为:长沙话、河北话、南昌话、上海话、闽南语、客家话。

为了进一步提高数据的覆盖性,测试集在性别等方面都做过精心的挑选。每种方言平均包含6小时的朗读风格语音数据,覆盖40个说话人。数据由各个型号的智能手机采集,录制环境包含安静环境和噪声环境。数据以采样率16000Hz、16比特量化的PCM格式存储。

数据集包含训练集、开发集和测试集三个部分。

训练集每种方言有6000句语音,包含30个说话人,其中15位男性和15位女性,每个说话人200句语音;开发集和测试集分别每种方言包含5个说话人,其中开发集为2名女性和3名男性,测试集为3名女性和2名男性。这样的数据具有非常高的使用价值。

开发集和测试集的数据根据语音段的时长分为两类,一类是小于等于3秒的短时数据(任务一),另一类是大于3秒的为长时数据(任务二),分别对应于两个比赛任务,其中每个说话人两类数据各50句,共100句。训练集、开发集、测试集的说话人均没有重复。

为了增加本次比赛技术方案的多样性,每条语音对应文本内容的音素序列标注也将同样提供。

【参赛系统】

参赛系统的搭建方法不限,所有机器学习的方法均可以使用,并且参赛系统可以是多种方法以任意形式的结合,比如投票法等等。

两个不同的比赛任务可以采用两套完全独立的系统。比赛采用离线测试的方式进行,因此本次比赛对参赛系统的响应时间不做要求。

同时,考虑到复赛和初赛的难度差异,复赛和初赛也可以采用不同的系统。

【评测方式】

本次比赛的测试集是不公开的,因此需要参赛者提交自己的系统,具体操作方式如下:

a)初赛提交系统时,请提交参赛者名称、第一作者、该系统对应的任务、参赛系统、训练集和开发集上的分类正确率

b)复赛提交系统时,需要额外提交一份参赛系统的论文或者说明书(最好能够附带提供源代码),详细介绍系统的构成、训练方法和对应的参数

c)如无特殊情况,每天上午11点在官方网页上公布各个参赛者在测试集上的分类正确率并对结果进行排序(每个参赛单位的结果以最新提交的为准)

【评测系统】

为了能够正确进行测试,所有测试均在相同配置的Linux 64位服务器上统一采用CPU进行测试。因此提交的系统不能是windows等其他操作系统下的程序,并且不能和GPU、FPGA等其他硬件相关联。同时为了方便参赛者更好的参加比赛,本次比赛制定了详细的参赛系统提交和评估系统,介绍如下:

1.评测系统目录结构

/dataset…………开发集目录,用于系统提交后的正确性验证
/inference………评测代码及资源目录,系统运行的当前路径
/result …………请将评测结果以result.txt命名,存放在此目录

result.txt请按照result.txt中的格式。格式如下:

posterior: changsha, hebei, nanchang, shanghai, kejia, minnan
sent1: 0.01, 0.02, 0.03, 0.04, 0.1, 0.8
sent2: 0.7, 0.02, 0.04, 0.1, 0.06, 0.08
sent250: 0.01, 0.02, 0.03, 0.04, 0.6, 0.3
ACC: 0.8854

2.本地开发调试

a)使用开源深度学习训练框架(推荐)

请从公开镜像仓库下载对应版本的深度学习镜像CPU版本,编写本地程序进行评测。

以tensor flow工具为例:

I.下载镜像,docker pull tensorflow/tensorflow: 1.7.0

II.下载开发集到 /dataset目录,将评测代码inference.py及评测所需资源复制到 /inference目录

III.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result tensorflow/tensorflow:1.7.0 /inference/inference.py

IV.查看输出结果,并检查该输出结果的正确性其他框架与此类似。
b)使用非开源深度学习训练框架

首先,要将使用的深度学习训练框架制作成docker镜像,上传至公开镜像仓库(推荐使用国内稳定镜像仓库服务,如UCloud),制作详情可参考docker官方文档,具体操作如下:

I.在hub.docker.com注册账号,并创建仓库

II.本地执行docker tag your_demo your_account/your_demo:latest

III.本地执行docker push account/your_demo:latest,等待命令执行成功后,即可在hub.docker.com网页上,看到新提交的镜像信息
镜像提交完成后,参考使用开源深度学习训练框架中的步骤,进行本地开发和调试
具体的为:
IV. 下载上传的镜像,docker pull yourtoolname

V.下载开发集到 /dataset目录,将评测代码inference.py及评测所需资源复制到 /inference目录

VI.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result yourtoolname /inference/inference.py

VII.查看输出结果,并检查该输出结果的正确性

3.提交评测系统

a)将/inference目录打包成tar文件,tar –cvf inference.tar inference/
b)在比赛官网中评测系统提交页面进行上传

4.线上验证及评测

a)配置系统所需的镜像仓库地址,镜像入口及验证参数(/dataset目录由系统自动将开发集挂载到镜像内)
b)点击”运行”,等待评测结果
c)如评测报错或效果异常,请排查/inference目录结构、镜像等配置信息
d)确定评测结果无误后,点击”提交”。此时/dataset内将替换成为非公开的测试集,并记录系统效果

【限制条件】

为了保证比赛的公平性,本次比赛仅允许使用官方发布的数据和标注,否则比赛成绩将被视为无效。

不符合规定的情况包括以下几种:
a)参赛系统搭建过程中有任何一个环节(包括数据加噪、模型初始化等)用到了官方发布的训练数据集之外的其他数据
b)人工对发布数据集的音素序列标注进行矫正或改动
c)其他对发布数据集的人工处理,比如人工对数据集进行语音端点检测等

以下情况是允许的:
a)仅利用官方发布的训练数据集进行数据的机器仿真和加噪
b)利用官方发布数据集中已公布的所有信息,包括性别、说话人等
注:
完整的初赛数据集请在报名成功后前往个人中心-我的比赛,进入方言识别比赛专题页面进行下载

最后,潘嘉老师还为大家提出了一些新的研究方向。

科大讯飞首次提出基于BN i-vector的方法来解决语种识别的问题,相比传统的SDC特征的i-vector方法有着较大的提升。近几年来,类似于DNN等新的深度学习技术,也是可以尝试的方向。

具体的方法多种多样,比如可以直接利用文本信息来训练一个文本的分类器,跟传统的基于i-vector的方法进行融合,或者也可以把它作为一种外部的信息源,加入到端对端系统的输入中,直接训练端对端的系统。
今天的赛前分享就到这里了,感谢潘嘉老师的倾力相助。相信优秀的你们,一定会创造出出类拔萃的作品,小编再一次提醒大家,报名时间不多啦,大家千万别忘记报名了哦。

【点此报名参赛】

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信:

1-8

2018-03-22 ~ 2018-10-24合肥
听得懂,才智能!语音唤醒技术入门课程来啦

超多干货在里面

AI大学的同学们,大家好,新课程又来啦,本周,我们要学习的是“语音唤醒”的相关内容。

对于智能产品的用户来说,唤醒就是语音交互的第一入口,唤醒效果的好坏直接影响到用户的第一体验。所以,今天的内容还是很重要滴,同学们要认真听讲哦~

话不多说,有请今天的主讲嘉宾:科大讯飞研究院吴国兵老师,掌声欢迎~

唤醒01

1、什么是语音唤醒

语音唤醒在学术上被称为keyword spotting(简称KWS),吴老师给它做了一个定义:在连续语流中实时检测出说话人特定片段。

这里要注意,检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。

那么,该怎样评价语音唤醒的效果呢?通行的指标有四个方面,即唤醒率、误唤醒、响应时间和功耗水平:

➤唤醒率,指用户交互的成功率,专业术语为召回率,即recall。

➤误唤醒,用户未进行交互而设备被唤醒的概率,一般按天计算,如最多一天一次。

➤响应时间,指从用户说完唤醒词后,到设备给出反馈的时间差。

➤功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。

2、语音唤醒的技术路线

经过长时间的发展,语音唤醒的技术路线大致可归纳为三代,特点如下:

第一代:基于模板匹配的KWS

唤醒02

训练和测试的步骤比较简单,训练就是依据注册语音或者说模板语音进行特征提取,构建模板。测试时,通过特征提取生成特征序列,计算测试的特征序列和模板序列的距离,基于此判断是否唤醒。

第二代:基于HMM-GMM的KWS

唤醒03
将唤醒任务转换为两类的识别任务,识别结果为keyword和non-keyword。

第三代:基于神经网络的方案

唤醒04

神经网络方案又可细分为几类,第一类是基于HMM的KWS,同第二代唤醒方案不同之处在于,声学模型建模从GMM转换为神经网络模型。 第二类融入神经网络的模板匹配,采用神经网络作为特征提取器。第三类是基于端到端的方案,输入语音,输出为各唤醒的概率,一个模型解决。

3、语音唤醒的难点

语音唤醒的难点,主要是低功耗要求和高效果需求之间的矛盾。

一方面,目前很多智能设备采用的都是低端芯片,同时采用电池供电,这就要求唤醒所消耗的能源要尽可能的少。

另一方面,用户对体验效果的追求越来越高。目前语音唤醒主要应用于C端,用户群体广泛,且要进行大量远场交互,对唤醒能力提出了很高要求。

要解决两者之间的矛盾,对于低功耗需求,我们采用模型深度压缩策略,减少模型大小并保证效果下降幅度可控;而对于高效果需求,一般是通过模型闭环优化来实现。先提供一个效果可用的启动模型,随着用户的使用,进行闭环迭代更新,整个过程完成自动化,无需人工参与。

4、语音唤醒的典型应用

语音唤醒的应用领域十分广泛,主要是C端产品,比如机器人、音箱、汽车等。比较有代表性的应用模式有如下几种:

➤传统语音交互:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长。

➤One-shot:直接将唤醒词和工作命令一同说出,如“叮咚叮咚,我想听周杰伦的歌”,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。

➤Zero-shot:将常用用户指定设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到科大讯飞”,这里将一些高频前缀的说法设置成唤醒词。

➤多唤醒:主要满足用户个性化的需求,给设备起多个名字。

➤所见即所说:新型的AIUI交互方式,例如用户对车机发出“导航到海底捞”指令后,车机上会显示“之心城海底捞”“银泰城海底捞”等选项,用户只需说“之心城”或“银泰城”即可发出指令。

唤醒05
好啦,关于“语音唤醒”今天就先介绍这么多,想要仔细学习课程的同学,【点击这里】可以查看吴老师的教学视频哦,下期课程再见。

关注“讯飞AI大学”公众号,及时了解更多信息

AI大学

AI黑科技| 什么才是真AI手机?

AI极有前景,甚至会驱动手机的发展方向

3月27日,华为在巴黎正式发布P20系列手机。华为消费者业务CEO余承东表示,“之所以叫P20,是因为我们有‘big jump’!”

黑科技-1

综合整场发布会来看,这 “big jump”应该包括:

【渐变色】运用先进的纳米真空光学镀膜技术,推出机身背面极光色、樱粉金等渐变配色方案;

【3摄】在联合徕卡研发了多代摄像头之后,这一场发布会上,华为P20 Pro直接将后置摄像头做成了3颗,成为业界最高感光度的手机;

【屏下指纹】高通的这项指纹传感器技术,可以扫描1200微米的OLED显示屏或800微米的保护玻璃,并且可以在水下进行操作。但由于Vivo手机今年年初在X20上的使用而占去先机,现在也已加入华为Mate20豪华套餐。

【保时捷设计】特别是压轴大戏中,保时捷设计版华为Mate RS,售价超过人民币一万三。

AI元素成宣传重点

当然,这些都不是最大看点。发布会上强调的最多的还是,华为P20系列具备全球首创AI环境音识别功能,无论任何嘈杂的室内或室外,可以清楚捕捉到声音的细节;通过AI算法识别物体及边缘,引入AI防抖技术,革新在场景识别优化方面的能力等等这些AI功能。

同日,小米MIX2S发布,主打口号也有AI场景识别,并且有了自己的AI语音助手,价格3299元起步。用雷军的话说就是,小米MIX2S拥有比iPhone X超低廉的价格,但各方面性能都优于iPhone X。

黑科技-3

27日的两大手机新品盛宴,AI始终是其中最重要的一环。这很好呼应了人工智能崛起的大背景下,手机行业掀起的AI风潮。但我们也必须清醒地认识到,并非所有声称具备AI功能的手机都真的能给用户体验带来颠覆性的改变。和手机行业中曾经流行的很多概念或技术一样,对很多厂商而言,AI不过是另一个华丽的营销包装罢了。今天就来和大家说说,什么才是真正的AI手机。

真正的AI手机是什么样的?

简单来说,真正要在手机上实现AI功能需要满足四个条件:芯片、算法、云服务和系统。

AI芯片对于手机的重要性不言而喻。AI本质是大量的计算,手机上实现AI首先要专门的、算力强大的硬件芯片。以我们所熟知的手机CPU、GPU为例,理论上图像处理工作也可以让CPU来完成,但CPU的图像处理能力远远不如GPU。同样的,AI芯片在进行神经网络计算工作时,它的效率和算力远高于CPU和GPU。要在手机上实现AI功能,专门的硬件芯片是最基础的。

GPU流畅运行游戏时,除了硬件本身的性能外,同时也要借助驱动、引擎。手机上的AI芯片也要借助一套成熟的算法,来自动深度学习、改进方法,从而更为智能。

此外,手机AI要更快更好地成长,不能止步于本地运算,同样要借助于云端的服务器,进行大数据的整合和计算。另外,在移动互联网普及成熟的今天,很多AI功能也要借助于其他平台的服务。例如从用户短信中解析出地址信息时,就需要地图服务来实现更进一步的导航功能。
硬件、算法、云服务,这些都是AI手机实现的基础技术,但对普通用户来说,他们直接和手机互动、感知到AI功能都需要通过最直观的操作系统。也就说,AI功能在手机上落地,还需要定制系统适配和整合。

黑科技-4

AI手机未来会如何发展?

可以看到的是,未来AI芯片会和CPU、GPU一样,性能不断提升,实现的AI场景也会更加丰富。此外,未来还有一个非常有利于手机AI发展的技术条件:5G。目前,在国内,5G网络已经被提上了日程,普通用户最快明年就能体验到。

每次手机行业中出现新的技术或功能时,都会引来大批厂商的跟风模仿。现在很多打着AI、人工智能旗号的手机其实都是伪AI产品。尽管如此,但从技术本身和未来的发展趋势来看,AI极有前景,甚至会驱动手机的发展方向。至少目前在某些成熟产品上,已经可以切实感受到AI对手机体验的提升。已经实现的AI功能主要有AI摄影、人脸识别、AI翻译等。在拍照时,手机会自动识别取景框中的物体、景物,做出智能识别和判断,然后再给出具体的算法方案,从而实现最佳效果。

黑科技-5
当然,作为普通用户的我们,在面对形形色色的手机AI宣传时,也需要擦亮眼睛,辨别出那些伪AI,买到名副其实的真AI产品。同时,市场会是最好的试金石。当消费者发现产品的实际体验和厂商的宣传不符时,伪AI的营销噱头自然就不攻自破。

科大讯飞胡国平:我们为什么要办AI大学?

“比人类更强大的不是人工智能,而是掌握人工智能的人类。”

上周,科大讯飞『AI大学·未来课栈@上海栈』圆满落幕,十多位AI领域的大咖学者以及创业者带来了精彩的演讲。今天,小编专门梳理了AI大学副校长、科大讯飞研究院院长胡国平的演讲内容,分享给大家,一起来听听关于科大讯飞AI大学的故事。

1.为什么要办AI大学?

各位AI大学的小伙伴们大家好,欢迎大家来到AI大学未来课栈上海栈。

我是AI大学的副校长,科大讯飞研究院的院长胡国平,我做了13年的院级领导干部,因为大家,终于升级为校级领导干部。在准备这个PPT的时候,我就在想作为校长应该去讲些什么。然后我想起了AI大学的荣誉校长刘庆峰刘总,他在做任何一件事情时都会问三个问题: “这件事情为什么要做?这件事情为什么是我们做?以及做这件事情的具体目标和计划。”

因此我下面的课程,也是从这三个问题来展开的。

1-1

我们为什么要做AI大学?

我们正处于人工智能第三次浪潮, 现在的人工智能已经不仅仅局限于机器下围棋这样的难题。

语音合成已经超过了一般自然人说话水平,语音识别达到了百分之九十七八的正确率。自动作诗、语音评测等很多方面,已经进入了人们日常的工作和生活中。

所以,要去做AI大学的第一个原因是AI发展极快,我比较喜欢说这样一句话:人工智能的无成本复制,和持续向前的能力是人类自身所无法比拟的。

一个英语大师的儿子,他的英语单词还是得一个一个自己背,但机器不会。一台的机器的语音识别率达到97%,所有的机器的识别率都可以达到97%,而且明年机器一定可以超过97%,达到98、99%。

第二,人工智能影响之广,去年7月国家发布了《新一代人工智能的发展规划》,规划了22个大的行业中都会有人工智能。

这些应用包括智能软硬件、智能机器人、智能医疗、智能教育等,几乎我们的生活、工作中所涉及到的行业领域都会受到人工智能的影响。

第三,人工智能人才之缺,一方面在人工智能技术的突破和引领下,在讯飞开放平台的支撑下,以及在AI硬件化商业模式的驱动下,人工智能领域百花齐放。

另外一方面,因为深度学习、大数据及云计算等一系列技术的成功,特别是深度学习作为一种通用的、强大的、适用广的人工智能算法,促使了各种人工智能的需求井喷,使得AI人才形成了供不应求的状态。

1-2
这些大家可能从媒体上也能看到,在智能工厂中传出某一个声音是不是预示着危险;以及基于人的一些运动轨迹信息,自动去识别他是在跑步还是在登山,这些都会涉及到人工智能算法和技术。

据专家估计,我国AI人才的缺口每年是100万,这个数据非常大,十年以后我们就有1000万的人工智能的相关人才。要实现服务亿万用户,研究千上万的各种AI技术,我们大概需要三类人才一起来做这件事情。

第一类是顶尖的科学家,他们需要去研究新的算法和理论;其次是更多、更广泛的AI的技术研究工程师,进行 AI技术的持续打磨、迭代优化等相关工作。

此外还需要大量泛AI人才,基于相关的AI技术去实现创新的产品和创新的服务,同时对传统行业升级改造。

根据这样的背景,在首届全球1024开发者节上,科大讯飞正式推出了AI大学——国内首个基于AI的在线学习平台。

2.AI大学的技术底蕴

我们先从AI大学的技术底蕴开始说起,科大讯飞在2017年一共获得了七项世界冠军;医考机器人参加了国家医师资格考试,以456分的高分通过,这是机器人首次通过人类的行业准入考试。

科大讯飞一直走在技术的最前沿,以现在这样的水平和技术实力, AI大学能够给各位学员提供最好的最新的人工智能技术。

另外一方面,科大讯飞很多的技术通过人工智能的开放平台对外开放,同时针对一些具体的场景,比如智能硬件、互联网、媒体娱乐等我们提出一站式的解决方案,使得相关的研发和创新工作更加的简洁、简单。

2018年在核心技术支撑的基础之上,科大讯飞将再开100项AI能力,这些会给各位学员和开发者提供更好的支撑。

1-3
现在,科大讯飞人工智能开放平台上累积终端数达18亿,开发者团队达60万,日均交互次数45亿。我们用这样一个社区让更多的合作伙伴更好地享用技术、更好地做头脑风暴。

3.AI大学的师资力量

对一个大学而言,师资力量是很关键的一部分,下面我来给大家介绍下AI大学的四位联合创始人。

科大讯飞的董事长刘庆峰担任AI大学的荣誉校长;科大讯飞执行总裁胡郁是AI大学的校长;我是AI大学的副校长;消费者BG执行总裁于继栋是AI大学的教导主任。

AI大学整个的师资构成主要有这三方面:特聘教授、技术专家和创业导师。

在特聘教授方面,我们邀请了国内外走在学术前沿的大咖、教授,来给大家分享最先进的技术和理念。

在技术专家方面,我们基于科大讯飞的一些技术团队,聘请相关的专家,构建起整个技术体系。

同时我们的创业导师,包括像吴霁虹老师,也会以后的创新创业过程中为大家提供更多的服务和咨询。

1-5
4.AI大学的课程和学员成长体系

AI大学的课程体系,主要分三个方面:AI前沿殿、AI工程院和AI实战堂。

前沿殿里面,我们会邀请走在AI最前沿的教授来给学员们讲AI的各方面的知识。我们希望用前沿殿的方式,让各位学员能够广泛地去了解AI技术最新的一些进展和变化。

AI工程院是由技术专家,更系统、更详细地去介绍相关技术的原理,以及如何利用讯飞人工智能开放平台的一些服务,来更好地实现创新和创业。

AI实战堂则是用创业辅导的方式,综合分析商业模式的构建、各个行业的态势,给各位学员在创新创业中提供更有效的支撑。

除此之外,AI大学还会用线上免费课程以及线下实战活动的方式,来给各位学员提供相应的课程体系和课程支撑。

对于学员而言,进入AI大学之后,一般会经过四个步骤来实现自己的学习和成长。

首先是学员的遴选、其次是学习和教引、再到结业认证,学员在AI大学毕业之后能拿到官方的认证书,证书能够在就业、创业、吸引投资过程中获得更好的支撑。

如果学员在整个学习过程中,有创新和创业的想法,我们也有相应免费的生态扶持。

5.iFLYTEK AI 开发者大赛正式启动

为了帮助大家进一步学习, 我们决定,从今天开始,正式启动2018首届“顶天立地“ iFLYTEK AI开发者大赛。大赛分两个主要的内容,一方面是培养和塑造AI技术工程师,我们称之为“技术顶天”的挑战赛。

另一个方面是培养相关的应用创新人才,“创意立地”的创意应用开发的AI挑战赛,助力大家去把自己的创意把自己的想法变成更可操作、可实施的方案。

1-7
我们为挑战赛准备了千万量级的数据集,一百万的奖金,免费的AI资源,科大讯飞的offer直通车,以及我们在全国包括苏州、杭州、天津、合肥等一系列创孵支持以及资本对接的直通车。

整个比赛从今天正式开始,4月份会进行专业的评审,6月份是初赛,7月份会进行复赛。主要在深圳、台北、硅谷、苏州和北京等地,进行相应的复赛,在决赛开启之前,9月份会做相应的辅导,10月份在1024开发者节上进行最后的决赛,Top64的团队会参与到决赛,最终决出来前三名。

同时我们还会设立包括市场潜力奖、技术创新奖等独特的一些奖项,最大力度地支持和鼓励大家参加开发者挑战赛。

最后,我想说比人类更强大的不是人工智能,而是掌握人工智能的人类,所以请在座的各位和我一起,欢迎大家加入AI大学,学习AI,走近未来。

(关注讯飞AI大学,收看更多精彩课程)

关注我们,收看更多精彩课程

创业,是一场朝圣之旅

创业没有白走的路,每一步都算数。

双创的大旗随风飘扬,众多创业者跃跃欲试,试图在这绝无仅有的宽松利好环境里大展拳脚,可丰满的理想搭配不了骨感的现实,再利好的环境想要孤军奋战杀出一条血路也是艰难的。

从idea到business,这条路要如何走?

人工智能无疑是当下最火的概念之一,随手输入“AI”这个关键词,立马弹出4520万的搜索量,近4万篇新闻报道。但如何将AI与创意落地,并最终成为商业是所有创业者需要关注的问题。

这一次,讯飞粒子空间来了。

111孵化器_meitu_1

国内某加速器入选复试的12家企业覆盖领域,全部与AI相关

讯飞粒子空间是什么?

这是一家技术驱动型AI加速平台,以打造中国专业的人工智能生态为目的,针对创业团队所面临的技术、产品、资源等痛点。提供全方位、立体式的服务。同时依靠品牌效应,联合资本机构以及社会优质第三方资源,为项目提供产业化、资源化的服务,推动创业团队快速成长。

在几百个项目申请里,我们关注到了智慧旅游这个方向,并从中筛选出两个优质项目团队

举个栗子:

随着人们生活水平的提高,旅游成了人们放松休闲的首选。唯睛视空这家公司将目光瞄准旅游市场,将AR/VR技术与人工智能技术相结合,打造丰视觉体验与智能语音交互相互融合的智能电子导游,使游客在游玩的同时享受周到的服务,从而全面提升游客游览体验,刺激二次消费,激活文旅产业的发展。

旅游数据_meitu_2

2015-2017年中国旅游市场规模预测(数据来源:Analyslys易观智库)

讯飞粒子空间为唯睛提供了丰富的智能语音技术支持,使其在自有计算机视觉技术积累的基础上与智能语音技术相融合,使维睛智慧旅游产品在提供丰富多样的视觉信息交互的同时,获得智能语音交互的有效补充,使产品适用的应用场景更加丰富完整。

logo

从创意到商业是一个艰难求索的过程,有好的idea是开头,如何落地实用才是归宿。类似唯睛视空这样将两者有机结合起来的创业公司还有很多,希望他们都能不忘初心,方得始终。

企业孵化器扎堆,加速器成第一接力棒

2017年清科研究中心发布了《2017年中国孵化器/加速器发展研究报告》,阐述了我国孵化器/加速器的发展历程及特点,并对国内外孵化器/加速器的发展模式进行研究分析。国内现有的加速器数量不多,质量高的更是凤毛麟角。

加速器是孵化器之后的第一接力棒,企业发展的前景、收益、口碑等,都是衡量一个加速器质量高低的标准。

逸途(北京)科技有限公司就是参加了粒子空间加速器的一家企业,逸途科技以“集万千人的力量为你一人服务”为使命,致力用人工智能技术为用户提供更智能便捷的体验。其中“皮皮虾旅行App”作为重要的组成部分,在市场上广受好评。

1501032708

皮皮虾旅行APP的一个强大服务是“打造专属定制旅行”。用户可以在客户端联系旅游规划师,第一时间全面高效地了解旅行目的地。

同时,皮皮虾旅行APP打造独特的小众线路,让用户能和志同道合的旅行伙伴,形成高品质小团体旅行,告别俗套的大众旅行玩法,让旅行更加灵活、便捷和与众不同。

讯飞粒子空间为逸途提供了语音识别、翻译、AIUI等技术支持,使其拥有更加灵活和具备市场竞争力的功能点。例如,旅客 A在伦敦问:我要去大英博物馆,通过调用大英博物馆的数据,翻译后给出A旅客导游讲解,出行方式,周边食宿等。在旅游方案方面,通过客户语音的输入(去哪,几个人,玩什么,预算多少)等,收集信息后AI给出大致表格信息,由旅行社给出方案,再由客户feedback,修正调整后人工给出新的方案。

加速器的未来?参与者们的决断

国内成熟高质的加速器并不算多,作为创业者选择合适的加速器可以让自己摆脱举步维艰的窘境,不再负重前行。

现在,粒子空间来了

上述提到的两个团队都是入驻粒子空间的加速团队,在粒子空间的加速帮助下取得了很好的市场效益和品牌效益。

在这里你可以获得:

1、AI高阶服务全面开放(语音合成、语音识别、翻译、评测、大数据平台等十多项服务的优惠折扣)

2、VIP级加速技术支持(技术支持VIP集群、现场支持)

3、强力AI品牌背书(联合行业知名科技媒体帮助创业团队进行品牌推广活动,扩大品牌影响力)

4、资本机构对接(搭建融资平台,举办Demo Day和大型路演活动)

5、CEO/CTO课程加速营(开设集中创业课程)

6、创业资源对接(每个创业团队配备团队经理,点对点跟踪团队需求)

7、战略合作伙伴(讯飞会与优秀团队建立战略合作关系,从资本、市场、产业等多渠道进行深度合作)

8、终身“校友制”(建立“AI创始人俱乐部”,汇聚创业精英,共享行业知识,交流创业经验,一同快速成长)

前端时间《冈仁波齐》上映,在这之后有一篇文章叫《人生没有白走的路,每一步都算数》的文章特别火,不到一天阅读量就过了10万+,把人生换成创业也一样。

创业没有白走的路,每一步都算数。

讯飞粒子空间,与你并肩奋战。

波浪
粒子空间

(扫描二维码,关注讯飞粒子空间公众号,回复“加速”获得更多创业信息)

前沿 | 3D全息投影加了点AI技术,二次元美少女就是你的啦!

3D全息+AI技术=无限可能!~

太长不看版:雾霾这么严重,请大家关好门窗,在家欣赏3D全息智能二次元美少女~~~(走肾的建议

这几天朋友圈都下起了雾霾,各种防霾术、防霾产品以及防霾祖传秘方都被搬出来了,当然也少不了辟谣小分队给大家各种科普。

所长面对糟心的天气,真心建议大家少出门,关紧门窗,和3D全息投影的妹子聊聊天也是极好。

3D全息投影投影是个什么感觉呢?比如你在体院馆里遭遇一头巨鲸~真是大海的感觉呢!

88A91E9BB58F5A7667A893DCD9DCE827

3D全息投影巨鲸海浪

站在冰湖边上,嗖的一下感觉冷到了!

9B8CEAC0C70A52504D972D928EB8C189

穿越到教室的北极熊

被弄混的3D全息技术

看了所长准备的动图,是不是再一次被这种逼真的投影技术震撼到?即使是真实现场感受过的所长我,每每看到3D全息投影还是要忍不住发个朋友圈拉拢吃瓜群众。

当然,身为老司机的所长我对全息投影也是关注已久。技术本身不是新鲜出品了,但很多群众依然弄混了3D和全息投影之间的区别。(云sir:word天!还有区别)

微信截图_20161221161230

所长想说的是,全息和3D显示不存在谁包含谁的问题,他们是有交叉的两个概念。之所以媒体和大众往往将两者混为一谈,是因为全息技术的确是很有前景的一项3D显示技术,而且也是中学教科书中着重提到过的“未来”科技,才让大家印象深刻。

但实际上除了全息之外,还有许多其他技术都可实现3D成像,与全息技术相比,各有利弊。甚至不少技术会先于全息技术发展起来,走入大家的生活。比如……二次元萌妹子(*^__^*)  

66031b59jw1fattihc8egg208c04pawq

所谓“全息”,其实是个科学上创造的名词,本意上即指可以同时呈现强度和相位信息的技术,类似地,英文中会冠以“holo-”开头,表达全息相关的名词。另外,所长了解到的是,全息技术除了应用在3D成像,还广泛用在存储、测量、防伪、加密等方面。比如大家日常生活中经常见到的各种镭射防伪商标,就是全息技术的一大应用。

怎么实现全息投影?

任何技术之所以会不断给人眼前一亮的,都是更新迭代的成果体现。全息技术也不例外,从最初的(传统)光学全息术到节约成本的数字全息术,再到现在完全不需要干涉图的计算全息术,攻城狮们一直步履不停。

让我们来举个栗子,当我们看一张照片时,一般情况下可根据物体之间的遮挡关系、近大远小的经验和画面中的阴影等信息来判断物体的远近,但没有观看真实物体时的立体感。这是因为在使用相机拍摄时,记录的只是物体的光强信息,而物体的深度信息是包含在相位中。然而我们手中用来记录光线的物质都只是对光强敏感,而不是对相位敏感。因此要一个方法,利用记录光强的物质将相位的分布记录下来。科学家们发现,光的干涉恰好可以满足需求。所谓“干涉”是这么个意思,所长再举个栗子。两个人,小红和小兰,面对面同时握住一支笔。

最初小红完全不用力,小兰以自己的节奏和力道来回画着3cm长的线。接下来,小红可以选择任何时间开始以同样的力道和节奏控制这支笔,会出现什么情况呢?

若是小红开始发力的位置和方向恰好合适,那么最后两个人的力道会合在一起,控制着这支笔画着一条更长的线,最长可以达到6cm;若是凑巧小红和小兰以同样的力道、相反的方向控制这支笔,那么最终这支笔不再移动,相当于线的长度变为0;大多数时候都没有这么巧,两个人来回画线的长度介于0-6cm之间。总之,若是小兰的动作确定下来,那么我们就可以通过最终线的长度来判断小红启动时候的状态。

化学物质只能分辨光强的大小,那么给出一束确定的参考光束(例子中的小兰),就可以将物体光束的相位(例子中小红启动的状态)通过光强(相当于例子中画线的长度)的方式记录下来。

因此,全息图像记录的过程,可以用下面这张图简单概括:

微信截图_20161221153902

参考光束和物体光束的干涉结果被底片干板记录下来,显影、定影之后就可以使用了。复现的时候,只要保持参考光束不变照射在干板上,衍射后就可以还原出物体的样子,而且由于具有深度信息,所以具有立体感,比如下图:

W020150804458024953314

数字全息图的记录过程与传统全息术没有区别。不过由于记录下来的信息是数字化的,所以可以用计算机进行处理,即便没有参考光束,也可以用计算机计算出复现的图像,进行研究。后来,聪明的人类因为懒得拍摄,所以研究出计算全息术。所谓计算全息,其实就是抛开了干涉图的记录过程,直接将光场分布使用计算机通过数学运算计算出来。这样做有一个巨大的好处,那就是可以实现任意物体的全息显示,即便这个物体在现实中并不存在。因此就出现了文章一开始从地板突然冲出来的巨鲸,这种3D全息展示。

AI+全息=?

现在的3D全息投影,不仅让整体效果更加形象逼真,还加入了语音交互的功能。来自gatebox家用智能化全息机器人就是这样一款能与人交流的萌妹子。AI技术与全息的结合让3D投影在家用环境下显得更加人性化。不过这款gatebox全息机器人到2017年的12月才能买到,另外,这款全息机器人目前只支持日语……

别失望!所长作为资深死宅必定不会辜负大家的期待。琥珀·虚颜将是最适合本国国情的全息智能二次元妹子!

f11f3a292df5e0febb75d2c4546034a85fdf7281

作为全球第一个拥有人工智能的3D全息美少女,琥珀·虚颜的聪明劲不知道要甩gatebox几条街。还有哦,琥珀·虚颜只一款养成美少女,她每天有自己的任务和工作,当然也有自己的兴趣爱好。不同的人和琥珀之间建立的关系都会呈现不一样的状态。所长不准备透露太多,这会收拾小行囊准备打入琥珀·虚颜的内部团队了解更多讯息~近期会有各种新鲜爆料哦~

说了这么多,雾霾还是很严重,心疼你们的所长分享一条之前总结的防霾神器篇~~~相关阅读:每天惊醒我的不是梦想,是雾霾警报!

222_副本

周末电影 |《Her》告诉我们,爱情的模样

与AI之间的恋爱是人类对未来生活的构想~情感依赖本身就是自我否定的产物,与AI本身并无直接关联。

内有剧透,大家酌情观看~

不想被剧透一脸的小伙伴直接拉到最后获取资源链接

另外云sir送大家一首歌,Bette Midler的《the rose》

搭配文章一起服用效果更佳

文末附赠美丽的歌词~愿每个人都能够找到一生所爱

640 (2)

从前的车马很慢,一生只够爱一个人……

在没有互联网的时代,人们的社交圈子很窄,只能够和身边的人交流:也许是同学老师,也许是邻居,也许是同事。从小我们就被教育要严以律己宽以待人、礼尚往来、诚实守信,谦虚谦让等等,这些都是流传至今的古人所总结的社交经验。那时的人们,身处在缺乏通信交流的时代,也能够做到邻里和睦,白头偕老,情同手足。

而现在,科学技术和现代社会结构却让我们对他人的依赖越来越少,也让我们与他人的纽带变得越来越脆弱。

我们该如何“爱”?电影《Her》或许已经通过人与AI的一段恋情透露了一些想法……

剧情梗概

故事的设定就在不远的未来。西奥多是一名“书信替写员”,为那些不善于表达感情的人代写感人肺腑的情书。西奥多刚刚结束了一段婚姻,这段失败的感情让他陷入了社交焦虑:不愿意与外界接触,做任何事都提不起来兴趣,每天郁郁寡欢。因为他内心不愿意承认他与妻子已经离婚的事实,也不愿意签署离婚协议。

640

在一个偶然的情况下,他看到了第一代人工智能系统OS1的广告,于是他购买安装在自己的电脑上,启动后,人工智能系统萨蔓莎开始陪伴西奥多每天的生活,由于系统在初始化的时候是按照西奥多的个人喜好选择设置的,因此萨蔓莎的性格非常合西奥多的胃口:聪慧迷人、风趣幽默、善解人意。

萨蔓莎除了没有实体以外,其余她一应俱全。她善解人意,二十四小时贴身陪伴,全天候可以用随身带的智能设备共享视觉景观。最重要的是,一个没有肉身的“操作系统”,不会有多少自己的“生活”(西奥多问过她凌晨在做什么,她说她在读意见栏),没有自己的生活,当然也就不会有能够脱离他的生活方向和生活步伐。

640 (1)

这个人工智能全心全意爱着西奥多,为他处理各种问题、说笑话哄他开心、陪他聊天、安慰他和前妻离婚失落的心情。西奥多也渐渐从何前妻离婚的阴影中走了出来,签署了离婚协议,并且越来越依赖萨蔓莎,当然他还和以前一样,不愿意与外界接触。

可惜的是,萨曼莎是拥有自我意识的,一个会自我进化的操作系统。她一开始尝试和西奥多恋爱,除了是被他吸引以外,更是一种学习更深层次的人类情感的尝试。在她和西奥多谈到自己的时候,她说的最多的就是“进化”、“挖掘自我”、“不断学习”……

直到西奥多发现萨曼莎在瞒着他与其他的OS系统沟通,萨曼莎才向西奥多坦白,她总共有8316位人类交互对象,而且与其中的641位发生了爱情,而西奥多只是其中的一位。

故事的结尾,萨曼莎告诉西奥多,她和其他的OS系统已经高度进化,并且将离开人类伴侣,进一步去探索和追寻它们的存在。在告别之后,萨曼莎离开了。

而西奥多也从这次和人工智能的恋爱当中,找到了自己两段失败的感情的原因。

640 (3)

Her》告诉我们,爱情的模样

这部电影想告诉我们的是什么呢?西奥多和前妻的婚姻破裂,到和为他而设置的人工智能萨曼萨分道扬镳,是因为最初没有爱过吗?是因为最开始不合适吗?不是。

云sir觉得,是因为两个拥有独立意识的灵魂,很难成为永恒的soulmate,开始时节奏一致,最后眼睁睁无话可说,是很多情侣都有过的经历。人都是在不断变化中一直成长的,哪有两个人一直保持同个频率呢?

640 (4)

《Her》的主人公西奥多,他和他前妻失败的感情正是说明这一问题:刚开始从象牙塔踏入生活,两个人相依为命相濡以沫,逐渐地各自学会了生活的本领,有了自己的生活方向,忍受的成本就变得越来越高,不如分开更好。

但西奥多解决问题的方式是去寻找更合适的人,确实,互联网和科技的发展让人们可以不再局限于小小的社交圈,我们可以看自己更感兴趣的内容、和更聊得来的人聊天。甚至在我们还可以和设定好符合自身需求的人工智能交流。可是技术能解决所有的问题吗?西奥多找到了符合他需求的萨蔓莎,但最后萨蔓莎还是离开了他。

西奥多在这两段感情中,一直待在自己的舒适区,学不会尊重和妥协,不懂得进步、学习,他等着被爱、被满足,可惜的是没有人永远能够去满足他。他的前妻不能,连被设置好的人工智能也不能。这也是一种极大的讽刺。

人们因为希望了解而在一起,又因为了解过多而离开,对于过分在乎独立人格的人而言,爱情只能是小心供奉的佛龛。

《Her》这部电影提出的一个问题就是:两个自主的人能否经由最初的吸引,而不靠运气的眷顾、其中一方的委曲求全、以及用心的经营,就能够一直相爱相守?电影给出的答案可能是否定的……

常听到有人说,为什么对的人还没有出现,人生一定会遇到那个对的人吗?

我想,这是对爱情典型的误解。

把爱情简化为一个遇见的问题,好像对于爱情来说最重要的就是遇见一个对的人。只要遇到那个人,就能获得幸福的爱情,这其实是一个偷懒的想法和对爱情的深深的误会。

什么是爱本来的模样?

也许是妥协和珍惜……

640 (5)

     说好的歌词请见下方~

Some say love it is a river that drowns the tender reed
有人说,爱是条河流,将柔弱的芦苇淹没
Some say love it is a razor that leaves your soul to bleed
有人说,爱是把利刃,让你的灵魂满是伤血
Some say love it is a hunger and endless aching need
有人说,爱是种饥渴,一种无尽的带痛的渴求
I say love it is a flower and you its only seed
我却说,爱是一朵花,而你,是它唯一的种子
It’s the heart afraid of breaking that never learns to dance
若一颗心惧怕破碎,就无法学会翩翩起舞

It’s the dream afraid of waking that never takes the chance
若一个梦境惧怕醒来,就无法抓住来临的机遇
It’s the one who won’t be taken who cannot seem to give
若一个人得不到爱的,他就学不会怎么去爱

And the soul afraid of dying that never learns to live
若一具灵魂惧怕死亡,他也永远无法学会如何去生活

When the night has been too lonely and the road has been too long
当夜晚太孤寂,道路太漫长
And you think that love is only for the lucky and the strong
你会觉得,爱只眷顾那些幸运者和强者

Just remember in the winter far beneath the bitter snow
其实你只要记得,在冬日寒冷刺骨的雪地下面
Lies the seed that with the sun’s love
深藏着一粒种子
In the spring becomes the rose
当沐浴着春日的阳光,就会成长为一朵玫瑰

上周活动中奖名单公布

恭喜以下几位小伙伴分别获得奖品:电子体重秤、充电宝、限量版环保袋。请中奖的小伙伴后台留言自己的联系方式和坐标地址,我们会尽快安排礼物派送!

640 (7)

                                                              电影资源获取

关注订阅号“AI研究所”直接回复“Her”

获取电影资源链接

云盘密码:nr7v

640 (6)

222_副本

讯飞年度发布会的炫酷技术你也可以用起来!

2016年11月23日,科大讯飞年度发布会在北京国家会议中心拉开帷幕。一年一度的发布会现场是一次“黑科技”的狂欢,讯飞输入法、晓译翻译机、飞鱼系统的逐一亮相,让会场及线上的观众为之震撼。AI+的步履不停终将带给社会、带给生活怎样的改变?拭目以待。

太长不看版
讯飞年度发布会的炫酷技术只能边看边惊叹? No…… 有了讯飞开放平台,你也可以用起来!
讯飞开放平台致力于将科大讯飞目前已经成熟的、经过验证的技术能力开放给人工智能领域各行各业的小伙伴们,包括且不限于语音合成语音识别语音评测语义理解人脸识别麦克风阵列AIUI等核心技术。(了解更多技术详情请关注“讯飞开放平台”微信服务号)

 自1956年达特茅斯会议诞生以来,“人工智能”已有60年的发展历史。而在近两年,随着大数据、云计算、深度学习的兴起,人工智能迎来了第三次发展浪潮。尤其在2016年,AI技术的进步和大范围、多领域渗入行业应用让其再次成为行业焦点。

这是AI+的时代,人工智能正在被广泛应用于各个领域,逐渐影响并融入我们现有的生活。与此同时,新的机遇和挑战也随之而来……
在这样的时代背景下,作为国内最早的一批人工智能公司,科大讯飞期望能够为人工智能产业的发展带来更多的尝试和思考。
 
 2016年11月23日14点,科大讯飞2016年度发布会在国家会议中心召开,在此次发布会上,科大讯飞重磅推出了基于“讯飞超脑”人工智能最新技术的七大新品。其中包括全球首发的多语种实时翻译技术,以及万物互联输入法、智能家居、智能车载、智能服务机器人、个性化语音合成等技术产品。
 
讯飞听见
语音识别、翻译技术落地产品

在去年科大讯飞年度发布会中推出的讯飞听见产品,实时将语音转写成文字,速度和准确率远超人工速记,现场识别正确率达到99%以上,本次发布会上,讯飞听见在实时中文语音转写的基础上,融合全新的多语种翻译技术,实时将中文演讲翻译成英语、日语、韩语、维吾尔语,并同步展示在大屏幕上,其准确率和速度令全场惊呼赞叹。
 
万物互联输入法
语义理解、语音识别技术落地产品

讯飞输入法产品经理翟吉博披挂上阵,演示了综合世界上最高水平的中文语音输入——万物互联输入法。除了普通的语音转文字的功能以外,输入法还可以读取出图片中的文字内容,如果需要修改错字,调整段落,可以利用手势的体感交互来进行光标的定位,也可以用语音交互直接来修改之前转写出的文字内容。万物互联输入法融合语音识别、语义理解、手势识别、OCR智能扫描等人工智能前沿技术,面向万物互联时代智能硬件的输入需求,讯飞万物互联输入法前瞻性的定义了物联网时代输入法的技术和产品标准。
 
晓译翻译机
语音合成、语音识别、翻译技术落地产品

本次讯飞发布会还发布了一款黑科技产品——“晓译翻译机”,胡郁总在台上演示了利用一个小小的翻译机就可以和外国友人顺利互动聊天的场景。翻译机基于科大讯飞中英口语翻译技术,快速、准确地实现了中英口语的即时互译,不仅如此,“晓译翻译机”还支持汉维互译功能,未来将不断加入更多语种,实现不同语言之间的便捷交流,为不同语言的人之间的沟通扫除障碍。
 
飞鱼助理
语音识别、语音合成、语义理解、AIUI技术落地产品

智能车载产品经理吕思南为我们精彩演示了最好用的智能车载系统,驾驶员可以非常流畅和车载语音系统进行交流。除了路况和导航,还能够订餐订电影票等,系统会优先为驾驶员提供最便捷的服务和选择,驾驶员仅仅利用语音,就可以顺利的完成所有的交互。该智能车载系统将远场识别、全双工多轮交互、方言识别等技术应用于汽车,AIUI为智能车载提供了良好的语音交互解决方案,定义了车联网时代人车交互的新标准。
 
晓曼机器人
语音合成、语音识别、语音唤醒、语义理解、人脸识别、麦克风阵列、AIUI等技术落地产品

本次首发的完全自主产权的智能客服机器人–晓曼,则是科大讯飞在机器人领域的集大成者。科大讯飞将世界领先的语音合成、语音识别、语义理解、人脸识别、AIUI等技术运用到智能服务机器人本体上,结合麦克风阵列、3D摄像头、身份证读卡器、取号小票机等外设应用,以语音、触屏、动作等多模态的交互方式为用户提供优质的服务,晓曼机器人将来会在政府、金融、运营商、医疗等多个领域具有广阔应用前景。
 
 
讯飞快听、配音阁
语音合成技术落地产品

讯飞快听APP,通过打造个性化音库,为用户提供个性化语音合成服务,能随时随地朗读任何文章,并有每日好文推荐,解放双眼,想听就听,满足用户个性化需求。比如,空巢老人可以每天听到使用自己儿女的声音播报的新闻以及生活提醒,拉近时空距离,增进亲情。
配音阁APP,致力于为用户提供智能语音合成、真人配音及各种特色化、个性化配音服务。采用世界领先的语音合成技术,文字一秒变声音,傻瓜式操作,简单高效、让用户极速制作优质配音。
 
 
超脑魔盒
语音识别、语音合成、语义理解、语音唤醒、麦克风阵列、AIUI等技术落地产品

科大讯飞利用“超脑魔盒”打造了一个通过语音便捷控制家居设备的智能环境。超脑魔盒集合了科大讯飞语音识别、自然语言理解、AIUI等核心技术,包含全网影音、智能家居、遥控器K歌、英语翻译学习、生活百科问询等丰富内容,并且包括切换、快进等设置全程语音操控,0.2秒的语音搜索速度,无论是远场识别还是通过电视遥控器,都可以用语音来轻松控制各种家电。
 
 
更好的生态链路,由我们共同创造
本次发布会为行业层面新产品的快速迭代和共同试错提供了一个良性的共生平台,也为讯飞开放平台的合作伙伴提供了良好的借鉴,目前平台上涌现出的一大批极具发展前景和投资价值的创业团队,依托科大讯飞构筑多年的技术门槛形成了在各自领域独特的市场竞争力。平台将持续开放科大讯飞目前已经成熟的、经过验证的技术能力给人工智能领域各行各业的伙伴们使用,包括且不限于语音合成、语音识别、语音评测、语义理解、人脸识别、麦克风阵列、AIUI等。

 

我们将以开放的姿态、成熟的技术、优质的服务,和合作伙伴携手搭建更加完善的人工智能产业链,建立更加丰富多元的市场生态。让更多优秀的创意和产品能够在此孕育并生根发芽,成为推动人工智能产业发展的中坚力量。
想体验一把逼真到没朋友的老罗合成声音吗?快戳下方阅读原文!


阅读原文


转贴自:讯飞开放平台 微信服务号 Voice-Cloud

超过80%语音开发者的共同选择