学霸怎么养成?2个月,稳得很!

暑假特别课程来啦~

正在暑假已经开始好几天啦~小伙伴们是不是又在家看电视打游戏放飞自我啦?

1

为了让小伙伴们在开心玩玩玩之余,也能开心地学学学,班主任从221节课程中挑选了17节「暑期特别课程」,这组系列课程中既有人工智能基础理论知识学习,也有大数据实践课程,还有大热的区块链相关课程,是2019年暑期AI大学最不可错过系列课程之一。

希望这套课程能够帮助更多的同学在2019年下半年的学业天天都有好成绩!

 

  这么多相似的名词怎么办?

人工智能理论知识课程帮你搞定

每一位入门人工智能的同学,几乎都被一些名词绕晕过,比如最常见的关系三联:

人工智能和深度学习是什么关系?

深度学习和机器学习是什么关系?

机器学习和人工智能又是什么关系?

2

关系三联图谱

好不容易理清了这3者的关系,同学们又会发现相当多“长得”极为相似的概念名词:RNN、CNN、DNN。

它们又是啥关系?

这3个名词其实是第三代神经网络里运用非常多3大算法:DNN(深度神经网络)、RNN(递归神经网络)、CNN(卷积神经网络)。

这些零碎又重要的知识点需要同学们花精力去学习人工智能理论知识,班主任根据人工智能热门知识点,为同学们选择了下列系统课程,希望同学们在这个暑假能够诸多收获~

这套系列课程,共有6节核心课程:

  • 从人工智能到开放知识图谱

  • 基于深度学习的计算机视觉

  • 神经网络常用学习算法介绍

  • 语义理解与机器学习

  • 元学习:深度学习的自我修炼

  • 数据科学“内战”:统计vs机器学习

4

 

  学会了名词之后呢?

人工智能实践课程了解一下

纸上得来终觉浅,绝知此事要躬行。

了解人工智能相关的理论知识,只是开始人工智能学习之路的第一步,这一步走完之后,同学们将迎来更加重要的一步,可以说也是人工智能学习最为核心的一步——实践。

我们所学到的所有知识,如果不能在实践中应用到,那么只是脑海中丰盈的知识,并不会给我们带来任何实际的利益,比如找到一份心仪的AI工作。

所以,班主任在暑期特别专题中为大家准备了6节核心人工智能实践课程:

  • 生成对抗网络代码解析及原理
  • 使用容器做多机深度学习任务训练
  • 机器学习从入门到入职
  • AlphaGo: 从Fan到Zero
  • 爬虫的实际应用
  • Python数据分析——金融欺诈行为检测

这些实践课程都是经过重重筛选出来的,非常适合从初学者开始来练手实践。

6

《爬虫的实际应用》视频课程截图

 

 听说还有吴军老师的课程?

在大数据系列课程中寻找真相吧

大数据一直都是人工智能绕不开的话题,因为大数据的“喂养”,机器在很多方面开始学习人类的推理方式,逐步走向智能化。

在这套大数据核心课程中,班主任想和大家极力推荐吴军老师的系列课程《大数据驱动下的机器智能》,这个系列共有5小节核心课程,吴军老师从机器智能、大数据的重要性及其特点将大数据和机器智能的关系讲解的非常清楚。

建议观看此系列课程的时候,同时阅读吴军老师的《数学之美》和《浪潮之巅》,一定会大数据和人工智能的发展有更深刻的了解。

7
这本书很值得一看

这套课程一共有3节核心课程:

  • 吴军:大数据驱动下的机器智能(1-5)
  • 从Hadoop到Spark的入门及应用
  • 基于Spark构建企业级流式处理系统

8

吴军老师视频课程截图

 

  2019又一次暴富的机会

区块链系列课程呼唤你

2018年,货币领域因为比特币的价格暴涨而被捧为“下一代互联网”、“一切皆可+区块链”,但随后价格快速回落又使行业陷入低谷。回溯这场泡沫的破灭,很大原因在于区块链被给予了过多的热情,却尚未找到正确的应用方向。

虽然目前区块链的发展方向任然存在着大量的争议,但这并不表示我们可以忽视或者漠视这一货币领域的变化,相反在人工智能时代,我们更应该积极地了解区块链,更密切地区关注它。

这套课程一共有2节核心课程:

  • 以太坊黄皮书精简教程

  • 区块链技术与价值转移

9

区块链视频课程截图

2019年的暑期特别专题到这里就结束了,上面提到的所有系列课程都可以在AI大学移动端找到相关的学习视频,下半年已然开始,让我们一起继续努力奔跑。

最后,「暑期特别课程」均来自于小象学院,掌握前沿科技,尽在小象学院。

研究所二维码

让你早2小时下班的秘密,都在这节课里 | 新课来了

让你早2小时下班的秘密,都在这节课里

加班加点,已然成为很多职场同学的生活日常。尤其是遇到几个小时候的会议,光是整理会议记录就能让人加班到零点,1个小时的讲话内容整理起来却能耗费3-4小时的时间,然后很多会议都是3小时起步的……

1

今天班主任就要给大家介绍一项重要的智能语音能力——语音转写,能够实现语音内容的识别,展现对应文字内容,会议3小时,出稿30分钟,让同学们每天早2小时下班~(毕竟我们的愿望是可以和东山结衣一样,到!点!就!下!班!)

2

温馨提示:本节课程文字内容较多,阅读需要12分钟~

👇👇👇

3

一、语音转写的本质

语音转写本质上是统计模式识别,对于给定的观察序列O ={o1, o2, · · · , oT },可以采用贝叶斯决策的最大后验概率(MAP)判决来得到最可能的输出序列W∗,其公式表达如下:

4

通过贝斯公式可以把上述公式转变为下列公式:

5

语音转写技术栈里包含了多种技术,比如神经网络这一块,有Bilstm双向神经网络以及dnn模型,LSTM模型cnn模型,还有wfst以及decoder解码器等。

6

语音转写流程大概有以下几个步骤:

  • 首先输入语音信号进来,然后经过降噪、端点检测、特征提取,这些部分可以认为是前端处理模块;
  • 经过前端处理,得到特征之后,就可以进入识别过程,识别过程中用到了两个模型,一是声学模型,一是语言模型;
  • 结合声学模型语言模型,在解码器中进行识别解码的过程,得到相应的识别结果;
  • 然后将识别结果经过一些文本处理相关操作,最终得到识别结果。

这其中还包含了一个训练过程,离线训练的时候,将提取到的语音特征,送到模型训练模块去进行离线训练,得到声学模型以及语言模型。

二、语音转写相关技术

下面我们来看一下前端处理、识别过程、后处理这几大块的相关技术。

前端处理

前端处理模块主要是将接收到语音信号进行预处理,增强或降噪等。

加窗分帧

对于预处理后的语音波形信号,首先需要进行加窗和分帧操作。 通常采用 25ms 的汉明窗,窗移为 10ms。这样整段的语音波形就会被分割成很多带有重叠的 25ms 的小语音片段,然后再使用合适的声学特征提取算法从 25ms 的语音片段中提取相应的声学特征。

7

声学特征

好的声学特征不仅需要具有很强的区分特性,可以很好地表达不同音素之间的差异性,而且还需要具有很好的鲁棒性,不受噪音环境的干扰。

通过分析人类听觉系统的时频分析特征和听觉掩蔽效应,研究人员提出了多种不同的声学特征。

下列表格列了一些常见的声学特征,以及它们相关的应用场景。

8

VAD

VAD是Voice Activity Detection 的简称,语音活动检测,又称端点检测。是在一段音频信号中对语音信号和非语音信号(包括无声段或背景噪声)进行划分,提取语音信号部分的一个过程。

它主要作用是要提把已接收到一段语音信号提取有效的音频段,减少噪音的干扰。其实它既减少了噪音的干扰,也减少了语音识别过程中的计算量。

目前VAD常用的都是一些模型方案,比如DNN模型,输入每一帧音频的特征,预测这一帧到底是有效语音还是非有效语音。

三、声学模型计算

下面我们讲一下声学模型的计算。首先同学们想一想声学模型计算到底是在计算什么?

对于每一个可能的词序W,计算出条件概率P(O|W),即我们通常所说的AC score。

O可以认为是一个发音信息,在输入W条件下输出O的一个概念,也就是说每一帧的语音对应的是到底是什么音素。

常见的有单音素模型,单音素模型没有考虑本音素前后音素对本音素的影响;还有三音素素模型,它考虑到上下文的因素,是现在最常用的一个声学建模单元式。

9

声学模型计算的主要任务是判断每一帧语音属于什么音素,以上面图谱为例,声学模型其实要判断哪一帧是静音sil,哪些帧是声母zh,哪些帧是韵母ong等。

按模式识别的套路,先提取出特征,再建立分类模型。

FFT将时域转换到频域,因为频域对音素具有更好的区分能力,接下来我们将频域特征经过mel滤波器,主要是模拟人耳听音,这样就得到了代表一帧语音的特征向量。

接下来可以使用前馈神经网络,输入为mel filterbank特征,输出可以为音素或其它建模单元。

按这个框架是不是就解决了语音识别中的声学建模问题呢?显然不是,因为语音是典型的时序序列信号,不同的人说同样的音,或同样的音在不同的上下文中时长是不一样的。每一帧都得到一个音素,但相邻帧可能是不同的音素,这样最后会得到一堆乱七八糟的音素序列,很难形成自然的文字序列。

基于HMM-GMM框架

怎么解决这个问题呢,第一代语音识别使用HMM-GMM技术框架

首先,将建模单元从音素退化到状态,即一个音素有3-5个状态构成;对一个音素而言,只有从起始状态跳转到结束状态,一个音素才算识别结束。

其次,我们用HMM模型来建模状态跳转概率,可以看这幅图中是ue2这个音素的HMM单元;我们将音素的中间状态设计成可以自跳转,从而解决了同一个音素在不同的上下文时长不同的问题。

10

最后,我们用GMM建模状态输出概率,HMM-GMM模型在语音识别历史上起到了重要作用,对语音识别的实用化至关重要。

基于HMM-DNN框架

第二代框架仍使用HMM建模状态转移概率,但使用DNN替换GMM模型。在GMM模型框架下,不同的状态采用不同的模型来建模,在DNN框架下,所有的状态采用同一个模型来建模,也就是所有的状态共享一个输出层。

11

这样做有3个好处:

  • GMM是local的表达,DNN是分布式表达;意思是当训练音素A时,使用GMM只能用A的所有数据,使用DNN既可以用A的数据,也可以用A的反例数据;这么做使得DNN模型的区分能力更强;
  • GMM模型因为计算复杂度的原因需要帧独立性假设,这显然是不符合语音的属性的;但DNN是不需要的;
  • DNN同时具有特征取的能力,DNN的底层可以看成特征提取层,所以我们可以输入更原始的特征,让模型自动通过数据进行学习。这一点对于效果的提升很有好处。

语音识别需要对波形进行加窗、分帧、提取特征等预处理。训练GMM时候,输入特征一般只能是单帧的信号,而对于DNN可以采用拼接帧作为输入,这些是DNN相比GMM可以获得很大性能提升的关键因素。

基于HMM-RNN框架

然而,语音是一种各帧之间具有很强相关性的复杂时变信号,这种相关性主要体现在说话时的协同发音现象上,往往前后好几个字对我们正要说的字都有影响,也就是语音的各帧之间具有长时相关性。采用拼接帧的方式可以学到一定程度的上下文信息。但是由于DNN输入的窗长是固定的,从而导致DNN对于时序信息的长时相关性的建模是较弱的。

考虑到语音信号的长时相关性,一个自然而然的想法是选用具有更强长时建模能力的神经网络模型。于是,循环神经网络(RecurrentNeural Network,RNN)出现了。

12

如图,相比前馈型神经网络DNN,循环神经网络在隐层上增加了一个反馈连接,也就是说,RNN隐层当前时刻的输入有一部分是前一时刻的隐层输出,这使得RNN可以通过循环反馈连接看到前面所有时刻的信息,这赋予了RNN记忆功能。这些特点使得RNN非常适合用于对时序信号的建模。

基于HMM-LSTM框架

而长短时记忆模块(Long-Short Term Memory,LSTM)的引入解决了传统简单RNN梯度消失等问题,使得lstm框架可以在语音识别领域实用化并获得了超越DNN的效果。

13

主流RNN声学模型框架都是基于lstm结构的,主要包含两部分:深层双向lstm和序列短时分类(Connectionist TemporalClassification,CTC)输出层。

其中双向RNN对当前语音帧进行判断时,不仅可以利用历史的语音信息,还可以利用未来的语音信息,从而进行更加准确的决策;CTC使得训练过程无需帧级别的标注,实现有效的“端对端”训练。

基于HMM-CNN框架

CNN早在2012年就被用于语音识别系统,并且一直以来都有很多研究人员积极投身于基于CNN的语音识别系统的研究,但始终没有大的突破。

最主要的原因是他们没有突破传统前馈神经网络采用固定长度的帧拼接作为输入的思维定式,从而无法看到足够长的语音上下文信息。另外一个缺陷是他们只是将CNN视作一种特征提取器,因此所用的卷积层数很少,一般只有一到二层,这样的卷积网络表达能力十分有限。

14

针对这些问题,我们研发了一种名为深度全序列卷积神经网络(Deep Fully ConvolutionalNeural Network,DFCNN)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。

DFCNN的结构,它直接将一句语音转化成一张图像作为输入,通过累积非常多的这种卷积池化层对,DFCNN可以看到非常长的历史和未来信息,这就保证了DFCNN可以出色地表达语音的长时相关性,相比RNN网络结构在鲁棒性上更加出色。

基于Enc-Dec框架

基于HMM-GMM框架的语音识别系统可以认为是第一代语音识别系统,基于HMM-DNN、HMM-RNN、HMM-CNN框架的系统可以认为是第二代语音识别系统。

这些语音识别系统都是由声学模型和语言模型两部分组成,由于两个部分在训练时相互独立,因此在实际应用中经常会出现由两个模型的协同不好引起的识别错误。而ED方案最大优点是声学和语言的联合训练,训练方式更为简单,并且在大数据时代,这个优点会更加的突出。

15

同时,由于传统语音识别的方案采用音素状态建模的方式,中英文混合建模容易带来相互之间串扰的问题,实际使用中一般采用中文和英文分别建模的方案。

而对于编解码识别框架,建模单元可以选用对中文的单字和英文联合建模的方式,而中文的单字和英文的单词基本上不会出现发音相近的情况,避免了传统方案中的中英文相互串扰的问题。为了减少建模单元的数量同时又保证英文单词对于罕见词的覆盖度,英文建模单元拟根据双字节编码(BPE)的方式构建英文子词。

因此,基于注意力机制的中英文混合建模的编解码语音识别系统的建模单元采用中文的单字和英文的子词的混合建模方式

基于Enc-Dec的语音识别系统可以称为第三代语音识别系统,也是最新一代的识别系统,可以同时支持多个语种,例如现在讯飞输入法上线的中英随心说功能就是使用的ED模型,可以同时支持中英文。

看到这里的小伙伴~都是学习力max的好童鞋~关于语音转写的技术课程,其实并没有完全讲完,因为阅读时长缘故,语言模型和解码部分的内容就都放在视频课程中了,希望感兴趣的小伙伴能够认真学完~

研究所二维码

我爸说,二十年前他帅爆整条街?AI修复照真相了!

父亲节感悟:帅爹面前无idol。

前段时间,网上掀起了一阵“AI修复老照片”的热潮。老照片上的明星们,原本轮廓朦胧、只能依稀辨认出俊俏的面庞,经过AI画质修复后,眉目越发明朗,五官细节也清晰显现,整体颜值double!

王祖贤和张国荣▼

1

林青霞▼

2

胡歌▼

3

网友们纷纷感慨:原来都是被画质耽误了颜值啊!

这让小智想起来早前网上热议的一个话题——“有一个长得很帅的爸爸是种怎样的体验?”

话题下有不少网友翻出了各自家庭中关于父亲的珍贵老照片。照片中父亲们年轻时的面容帅气惊艳,丝毫不输现在的小鲜肉。

在父亲节来临之际,我们特别准备了这期文章,将这些帅气的照片进行了AI修复!

原本就是“神颜”的爸爸们的旧照,再经过现代科技修复后,会有怎样惊艳的效果呢?

4

·

  !

@小甜甜i:

当年的盛世美颜 ▼

5

@匿名网友:

这是我的father in law(岳父)Ps.托他的福,我女朋友很漂亮▼

6

@全世界最帅的酒酒:

#论别人都以为那是男朋友其实是我爹#
#学姐来要我爹QQ号是什么体验#▼

7

@ClaireCeltics:

体验大概就是,大家都觉得我应该找不到比爸爸帅的男朋友。▼

8

@酱男嗷:

有人说像白敬亭?

希望爸妈永远年轻,洋溢青春和历经岁月的脸,都很动人▼

9

10

@李拜天:

我奶奶说,我爸年轻的时候村里人都说他靓仔,简直是村草。真不愧是我上辈子的情人! ▼

11

@Lynn:

我爸爸,很帅▼

12

13

@喵酱:

我要让我爸火起来!▼

14

@老王同学:

都闪开!让我来回答

上中学的时候每次来学校送饭都被一群女同学追着问:这是你爸??▼

15

16

@a Fan:

我爸的18岁,像不像苏有朋!!▼

17

@匿名用户:

我爸二十多那时候,简直了~

我房间贴男星海报,他都不理解,说什么“还没我当年好看呢”吧啦吧啦~~▼

18

@匿名用户:

体验就是,大家都觉得他比我帅▼

19

@Jackson每晚十点睡:

穿制服的爸爸真的很帅▼

20

真的是一波又一波的颜值暴击啊~原本模糊的老照片就能看出来帅了,修复后的爸爸们,更是大写加粗让人扯着嗓子喊的帅啊!

小智真的感到有点酸溜溜了······

21

大家的爸爸都又高又帅,而我的爸爸········除了钱以外,一无所有

22

 AI修复术是怎样炼成的

好了,大家擦擦口水,小智要讲重点了——AI照片修复技术到底是什么原理呢?

可能会有人认为,这种AI修复术和我们常见的PS、磨皮使用的是同样的技术。其实并不是这样。

修复照片是利用AI算法增加图片的像素值,而磨皮则是对人像的皮肤部分进行模糊处理。简单点说就是:磨皮减少了细节,AI修复增加了细节。

23

磨皮后会产生面部细节的丢失

删除东西很简单,但增加内容就需要创造了,因此修复的技术难度会更大。

首先,研究人员会先对图片数据集A进行“增噪”处理,得到高糊的数据集B,再将A和B都输入神经网络的模型中训练,告诉机器:B降噪后应该是A。而如何实现中间的降噪过程,就交给AI自己去“琢磨”了。

等到AI自己“琢磨”透了实现过程,它就能实现给任何人脸图片降噪了。

 破损照片也能修

除了让模糊的照片变清晰,AI技术还能将照片中的破损部分补齐。

24

一些老照片不仅是模糊,还存在一定的破损问题

通过使用对抗网络的机器学习方法,从海量数据中学习识别人脸,掌握脸型、肤色、五官等面部各个维度的信息。然后“阅人无数”的AI就可以根据照片的剩余内容“想象”出缺失的部分。

 修完不像本人?

照理来说,处理之后的图像应该与本人更接近了。不过最近,民国才女林徽因的一张修复照引发了网友们不小的争议,因为修复后的林徽因看起来变成了另一个人

25

林徽因修复照

修复后的照片中,林徽因虽然依旧漂亮,风格却似乎过于现代化:浓眉毛、高鼻梁、欧式大眼睛。不少网友看完后纷纷吐槽“这不是网红吗”“跟原来的气质一点都不像”。

26

林徽因的原生长相,气质温婉而坚毅

实际上,结合上面小智给大家科普的内容,大家应该就可以猜到其中缘由。

因为修复老照片的过程,更准确地说是一种具有“创造力”的绘画过程,AI会根据已学习过的人脸图片形成自己的“经验性审美”。

如果原始照片残缺过多,给AI留下了很大的“创作空间”,而训练所用数据中现代女性照片又非常多,那修复结果自然就会更像现代人。

所以,并不是AI只能修出现代脸、网红脸,在使用了合理训练数据的情况下,即使是年代久远的旧照,也还是会有很高的还原度的。例如小智最喜欢的这一组!

周总理旧照修复▼

27

谦谦君子,温润如玉。这个男人真的不是一般的帅▼

28

29

“他那张脸严肃而又透出聪颖,富有男子汉气概。” ▼

30

除了个人魅力,周总理和邓颖超相互扶持的爱情也十分让人羡慕

在周总理回给邓颖超的信件中,柔情满溢:“你的信太过官方,都不说想我。”

31

“我这一生都是坚定不移的唯物主义者,唯有你,我希望有来生。望你珍摄,吻你万千。”

32

可以说,总理的魅力,不只是来自于外貌和气质,更来自于他温和的性情、坚定的信仰,以及强大的内心。是小智最喜欢的人没错了!

随着社会的发展,现代拍照技术越来越先进,更多的色彩、更精致的细节都能被轻松地拍摄保存。而老照片这种像素低、保存又困难的存在,则逐渐退出了时代舞台。

不过,仍然有不少人守护着这样一份情怀,就像珍惜昔日时光一样珍惜着这些老照片。

而在现代技术的加持下,不仅模糊的相片变得更加清晰,那些沉淀在时光中的情感与故事,也仿佛被再次唤醒。

更多精彩,请关注微信公众号“AI研究所”。

研究所二维码

AI预测世界杯?算了,足球比我女朋友都难猜

欧冠的结果,你押对了吗?

火热的欧洲冠军联赛刚刚落下帷幕。在最终的决赛中,萨拉赫罚入点球,替补奇兵奥里吉再进一球。最终利物浦以2-0战胜热刺,时隔14年再度登上冠军王座。当地的利物浦球迷欢呼雀跃,马德里成了一片红色的海洋。

而正如鲁迅先生所说,有比赛就有输赢,有输赢就有赌输赢的群众。

11这些群众包括小智这样的普通球迷,还有足球博彩机构,甚至谷歌、微软等互联网巨头也曾来凑过热闹。

而为了预测赛事的结果,大家又可谓是“各显神通”:有的追随专家分析,有的靠自己做梦,还有的相信章鱼玄学······
2

章鱼保罗在2008欧洲杯和2010世界杯中,预测14次猜对13次,成功率达93%

作为一名优秀的社会主义接班人,那些歪门邪道小智我当然是一个都不信的。唯有科学的数据分析和模拟,才算得上严谨的预测。

其实,早在前几届世界杯期间,各路Geeker就已经采用过各不相同的AI算法和特征数据,做过这样的预测尝试。甚至,著名物理学家霍金生前也曾研究过世界杯夺冠公式!(公式将在文章后半段解读)

那么,各家预测的结果准确度如何呢?谁又是能够一语言中的“神算子”?

AI预测输赢

我们先来看看一项在算法和数据方面都颇有代表性的实验,它是由来自德国和比利时的四位研究人员在2018年进行的。

实验中,他们使用自过去四届FIFA 世界杯(2002-2014)的所有比赛结果作为数据集,希望以此来预测2018年的冠军。

此外,他们还考虑了许多相关的特征,比如

经济因素(国家人均GDP、人口数量等)运动因素(ODDSET 概率,FIFA 排名等)

主场优势(主办方、大陆、联邦等)

团队结构(队伍中同一俱乐部队友的人数、队员平均年龄、参加冠军联赛的球员数量等)

教练因素(教练的年龄、任期、国籍)等等。

研究人员认为,这些因素看似没有直接决定赛事的结果,但很容易影响球员和队伍的整体状态,因此很有必要纳入考虑。

在算法上,他们采用了随机森林算法(Random Forest)。这一基于决策树的算法是机器学习的一个重要分支,并且具有很高的准确率,在许多数据分类任务中都曾表现出优异的性能。

最后,经过10万次赛事模拟,研究团队预测出了夺冠可能性最高的前三名,分别是西班牙队( 28.9%)、德国队(26.3%)和巴西队(21.9%)。

打脸来得太快就像龙卷风

万事俱备,就只等最终的结果验证了。

不久之后,激动人心的时刻到了——2018年俄罗斯当地时间7月15日,在最终的世界杯决赛中,法国队夺冠。

3

2018年俄罗斯世界杯法国队夺冠

而回过头来看研究人员先前的预测结果,可以说是错到离谱了——他们押宝的西班牙队和德国队在实际比赛中甚至都未能进入四分之一决赛,最后夺冠的法国队在他们之前的预测中也仅排名第4。

4

预测名次&实际名次

再看赛前积极预测的各家机构,最终结果也基本是不同程度的打脸,准确率稍高一些的,也并没有超过章鱼保罗的。

这样的结果让人倍感困惑:尽管拥有适当的数据类型、数据体量,使用了参数正确的优秀算法,那为何这些训练有素的模型最终仍会失败呢?

为什么不灵?

其实,失败的原因就在于我们所预测的对象——足球比赛,在各要素的维度上都并不是一个有规律的事件。

和其它以人为重点的事件一样,足球比赛在赛前和赛中都有太多让人无法判断是否确实相关的影响因素,也就是所谓的混淆变量

而场上每分钟(甚至每秒钟)的状态,都取决前一分钟(前一秒钟)的状态。这种马尔可夫链过程又意味着,要把数据集中每场比赛的每一分钟都模拟出来,才能得到相对准确的模型。

5

马尔科夫链的定义:事件某一时刻的状态只取决于它在上一时刻的状态。图为应用了马尔科夫链的天气预测过程。

除此之外,比赛结果还可能受到一些外部因素影响,例如天气、政治情况、地理因素,甚至某个球员前一晚没睡好都可能会影响整场比赛的结果走向。而这些重要特征通常都很难被收集和衡量。

更何况,还存在意外发生的可能性,例如一个致命失误或意外进球,都是无法预测的。

6

简而言之,像足球比赛这样以人为主的活动,是当下的AI技术还无法很好驾驭的领域。

这也是为什么小智说,足球比我女朋友都难猜——足球的结果跟一大票人有关,而我女朋友的心思只跟她一个人······咦,我女朋友呢?

7

霍金“完美点球公式”

对于足球比赛结果的不可预见性,著名物理学家霍金似乎比我们更早地发现了。不过,这并没有妨碍他对足球运动的热爱。

8

公式发布现场

这位著名的物理学家曾在公开场合多次参与世界杯冠军的预测,甚至还娱乐性地自创过一套“完美点球公式”

其中,X0是一个已知变量

罚球队员是前锋,则α1=1;是后卫,则α2=1

罚球队员瞄准球门左边,则β1=1;瞄准右边,则β2=1

罚球队员的头发颜色为淡黄色,则δ=1

罚球队员瞄准球门上1/3,则θ1=1;瞄准球门下1/3,则θ2=1

罚球队员用脚的侧面踢球,则ε=1

罚球队员不助跑就直接踢球,则η=1

除此之外,霍金还配合着这个公式做了一些数据解读:

“我研究了1978年世界杯以来的所有点球,得出了‘完美点球公式’。主要是因为英格兰球员准头太差了,他们用铲子都打不到牛屁股······(这也就是他搞出这个公式的原因:被英格兰历史上的那些失败点球蠢哭)首先,速率是关键,必须跑三步以上,把速度提起来。只跑三步或者更少步数的球员,他们的点球命中率只有58%,远低于平均水平的87%。

使用脚侧比正脚背能高出10%的命中率。

把球踢向左右两个上角更容易罚进点球,成功率高达84%。

用左脚还是右脚对结果没有什么影响。

前锋比后卫和中场球员更容易进球。

金发球员和秃顶球员的命中率更高,金发球员的命中率高达84%,秃顶球员71%的命中率也高于深色头发球员的69%,但我不清楚原因是什么。

9

对于守门员,跳来跳去分散主罚者的注意力,将会提高18%的扑救成功率。”

看完以上信息,你是不是和小智一样觉得一脸懵逼?这个公式连带公式的解释,无论怎么看都让人觉得槽点满满。

不过,这本来也不是真正的科学研究,霍金曾表示“和足球相比,我认为量子物理相对而言更直接一些。”

而所谓的“完美点球公式”,也只是老顽童跟大家开的一个玩笑,顺便怒其不争地调戏一下自己祖国的英格兰队,毕竟“爱到深处自然黑”。

10

缅怀这位可爱的伟人

当然,在足球赛结果预测中的失败并不意味着AI在“预测”这件事上毫无用处。例如对单个球员的跑步距离、速度、加速度、减速度、负荷和心率等等数据来进行研究,以预测运动员在某场比赛中的场上表现,这样得出的结果就比较具有参考价值。

毕竟AI只是一种工具,我们如何使用、在怎样的前提条件下使用的这种工具,才是决定其价值的关键所在。

皮一下
其实我挺信“霍金点球公式”的,它的大概含义就是:英格兰靠点球夺冠的概率约等于0·······研究所二维码

iTunes谢幕,iOS“黑化”,Mac迎来最贵最强!

这届WWDC有点搞事?!

导读:果粉们一年一度的春晚“苹果全球开发者大会WWDC”今天凌晨在美国圣何塞如期开幕。Keynote演讲依然是大家关注的焦点。此次苹果更新了5大系统+2款硬件,成为苹果史上内容最多,历时最久的大会。

硬核知识点,一睹为快:

 iOS黑化了;

 tvOS更有个性了;

 WatchOS 6自立了;

Mac Pro总算填坑了;

 MacOS iTunes退役了;

 iPadOS跟iOS分家单干了!

1.“黑化”的 iOS 13

对于全球10亿苹果用户来说,iOS的更新往往是他们关注的焦点。推销自家系统的同时,苹果还不忘顺便黑一把对家安卓9的升级率。85% iOS12升级率吊打仅有10%的安卓。

1

继去年MacOS新增夜间模式后,iOS也终于迎来自己的“黑化版”——深色模式。用户在暗光下查看手机,再也不用害怕刺眼的高亮底色了。原来,白天也能懂夜的黑!

2

在保护隐私方面,苹果也进行了一波操作:新地图模式将控制第三方 App 位置授权次数,禁止蓝牙、WiFi 获取位置信息;同时,新增了用户在第三方 App 中的账户保护措施:一种是通过苹果账号登录,另一种是让用户决定想加密账号或其他账户内容后再登录。

3

还记得曾红极一时,风靡盆友圈的Memoji 吗?现在你不仅可以捏脸,还可以给ta化妆。相信不久,各位亲手打造的专属虚拟形象将会掀起新一波换头像风~

4

除此之外,滑动键盘,旋转视频,一键分享,AirPods语音读取、回复信息和音乐分享功能,Siri使语音更自然的TTS等功能都让果粉们对升级iOS 13有了更多期待。

2.个性十足的 tvOS

tvOS将为Apple TV和Apple Music中的每个人提供多用户管理和个性化定制。Apple Music将添加与当前播放的歌曲同步的歌词。

5

将于今年秋季推出的tvOS 13还将支持Xbox One和PlayStation 4游戏控制器。

3.自给自足的 WatchOS 6

Apple Watch这次可谓颜值与实力并存。不仅新增了多种新型表盘图形设计,还增加了可直接在watchOS 6 App Store浏览,付费,下载和本地运行的计算器,有声读物和语音备忘录应用。Watch应用将无需再在配对的iPhone上安装配套程序。

6

WatchOS 6还扩展了新的健康功能。可检测环境的周围环境的嘈杂程度,还能跟踪女性月经周期。对有些长期被“大姨妈”周期困扰的妹纸来说,或许是个不错的新功能~

4.最强电脑 Mac Pro

一直犹抱琵琶半遮面的“模块化”Mac Pro 总算正式和果粉们见面了。

7

这款被戏称“刨土豆丝儿神器”的Mac Pro有着金属外观和模块化内部设计将,号称“史上最强电脑”。

具体参数大家自己看看吧:Intel Xeon 处理器,最高28核心,64个PCI Express通道,6个内存通道,12个插槽,1.5 TB系统内存,8个PCI-E插槽,可同时处理对3条8K分辨率视频,上千条音轨同时操作,不会出现卡顿…….可以说是无人能敌了。

8

好马配好鞍,好的MacPro当然要配专业的显示器。所以苹果这次新推了一款号称史上最好的显示器 Pro Display XDR :采用了分辨率为 6016 x 3384 的 32 英寸 6K Retina 屏幕。

9

都是苹果史上之最的Mac Pro和显示器强强联手,价格也着实不美丽,两款配置下来要7万多人民币。价格太便宜,根本买不起啊!

5.小修小补的 MacOS

在本次 WWDC 上,基于 MacOS 的 iTunes 正式退役了。

苹果新推出的三款 App 来取代它的功能,分别是 Apple Music、Apple Podcasts 和 Apple TV。其中 Apple Music 用来管理和同步音乐;Apple Podcasts 通过机器学习为用户更精准地推送节目;Apple TV 则支持 4K HDR 播放,同时也包括 HDR10、Dolby Vision、Dolby Atmos 等功能。

10

此外,MacOS 还引进了一些全新的功能和应用,覆盖了 Safari、照片等。虽然都是些小修小补,却也是不断完善系统过程中不可或缺的部分。

6.自立门户的 iPadOS

本次大会最大的亮点,莫过于苹果在 iOS 的基础上针对iPad推出的一个全新的操作系统——iPadOS。

iPadOS支持更彻底的分屏模式和USB的识别。不得不说就这两项,已经将iPad的利用率大大提高!

苹果还把Apple Pencil的响应率降低至9毫秒,还推出PencilKit,将会有更多第三方应用支持Apple Pencil。

11

另外,iPadOS 的三指滑动的功能,为了配合 iPad OS,Safari 新增的桌面级别的功能、 Fonts 功能等等,都让iPad更接地气。相信未来,iPad绝不只是”娱乐“和”看课件“,而将是多才多艺的小公举了~

祝各位果粉能尽快尝鲜!了解更多科技圈资讯,快来微信公众号”AI研究所”!

 

机器翻译2.0升级上线:支持自定义,100+语种互译秒级响应!

能力星云计划的优秀AI服务合作伙伴——小牛翻译,与讯飞开放平台全面合作!

划重点:科大讯飞能力星云计划的优秀AI服务合作伙伴——小牛翻译,与讯飞开放平台全面合作,直接对接小牛翻译云平台,带来机器翻译2.0升级!支持100多个语种之间相互翻译!现在开通接入即送200万字符免费服务!戳一下了解详情:机器翻译

2000种以上。

这是全世界正在使用的语言数。预计2020年,语言数据量更将达到35ZB同时,一带一路战略带来跨境电商交易量上升,人类的日常交流跨越国界,呈现全球化趋势。

以上种种都推动翻译服务的需求急速增长,但面对多样的语种和庞大的交流信息,单纯依靠人工已无法满足翻译的即时、高效等要求。

所以,机器翻译迎来了巨大的市场机遇。

此前,科大讯飞能力星云计划的优秀AI服务合作伙伴,小牛翻译提供的机器翻译能力在讯飞开放平台上线,支持英、日、韩、法、西、俄6种语言与中文双向互译,受到广大开发者的一致好评!

现在,讯飞开放平台与小牛翻译进一步展开全面合作。与小牛翻译的云平台直接对接,带来机器翻译2.0!支持100多个语种之间的相互翻译!

机器翻译2.0的全新优势

本次开放平台上线的机器翻译2.0能力,不仅搭载了应用最新技术的神经机器翻译引擎,更在翻译自由度、准确度、隐私性、功能开发等层面带来强大优势——

支持100+语种

机器翻译2.0支持100多种语种之间相互翻译,覆盖全球98%的人口。

自定义翻译随心所欲

2.0版本加入了小牛翻译的术语词典功能,支持用户添加自定义术语,大幅提升机器译文中术语翻译的准确性和一致性。同时还加入了小牛的翻译记忆库功能,用户可将人工翻译的正确译文实时添加到记忆库中,避免机器翻译重复犯错。

秒级速度+精准高质

机器翻译2.0使用多语种机器翻译引擎,它由小牛翻译自主研发,应用海量语料,通过深层网络训练,让2.0的用户享受准确性高,秒级响应速度的卓越翻译品质。

支持局域网,保护隐私

本次2.0新增了本地私有部署。构建机器翻译私有云,可以在局域网内使用翻译能力,保障翻译数据安全,支持私人定制。

可开发,功能集成便捷

支持API开发接口,基于HTTP协议的翻译API接口,用户可以很便捷的集成嵌入到自己的业务平台或其他应用中。

行业垂直领域模型

机器翻译2.0增加了小牛支持垂直(特殊)领域翻译效果优化的优势,针对用户的特殊领域需求,结合行业特点与待翻译数据特性,可以通过用户翻译内容的行业领域,分析行业特点、待翻译文本的特性,实现翻译的特殊定制与优化。

让优质翻译体验在更多场景中落地

如文章开头所提到的,随着跨国交流场景的飞速增加,机器翻译将迎来大量应用场景。而机器翻译2.0在讯飞开放平台的上线,将让开发者能实现更多性能升级,体验优化的翻译新产品的落地。

1.外文资料/文档处理

工作或者科研学习中,要应对大量的外文材料、书刊杂志、电子资料,尤其是在小语种领域一直缺乏优质的翻译应用,而机器翻译2.0将成为更多语种翻译应用的开发提供支持。

2.电子词典的优化升级

机器翻译2.0可为电子词典类应用赋予语种增加、个人定制等功能优化。

3.学习辅导

用于语言学习类APP和程序的开发,让其在同类成品中具有语种多、速度快等优势。

4.社会调研

基于机器翻译可以开发面向各类生僻语种的翻译工具,为学者在全世界的偏远地区进行科考、采访与社会观察时提供与当地人交流的辅助工具。

5.线上跨国贸易

基于机器翻译2.0,可以开发多语种实时翻译的应用,保证跨国商业活动中来自多个国家的、母语不同的代表们无障碍无延迟沟通。

同时,机器翻译和其它AI能力的结合,也为开发者的产品研发带来更多的想象空间。

1.拍照翻译

在国外旅行时,遇到指示牌/路牌、餐馆菜单、商品标签、入境卡等多种场景量身定制。利用印刷文字识别+翻译,随手一拍,翻译内容即刻显示。

2.AR导游

展馆和旅游景点如今都在升级游览体验,将线上虚拟场景与线下实际体验结合,提高了趣味性。通过AR技术+翻译,可以让游客对景点的理解更生动酷炫。

升级背后:能力星云合作伙伴的强大支持

机器翻译2.0版本的优秀表现,离不开科大讯飞能力星云的优秀合作伙伴——小牛翻译的支持。

2

除了自研能力,科大讯飞与业内优秀的技术厂商进行战略互补形式的合作。带来能力星云计划。在能力星云中,AI服务合作伙伴通过讯飞开放平台的桥梁,为更多的AI开发者和爱好者提供服务,让技术为在更多场景中落地,为各行业赋能。同时拥有宣传、商机对接、开发者资源共享等服务。

小牛翻译(NiuTrans)团队核心成员来自创立于1980年的东北大学自然语言处理实验室,专注于语言分析和机器翻译技术研究,拥有三十九年技术研究积累。

作为人工智能领域的重要分支,如今的神经机器翻译,翻译效果优于基于规则的机器翻译、统计机器翻译。而小牛翻译以神经机器翻译为主框架,融合规则方法和SMT方法,打造最好的机器翻译“发动机”,支持118种语言互译,包含七大民族语言,覆盖全球98%的人口。“让社交像在母语环境中一样自在。”小牛翻译创始人朱靖波说。

未来,能力星云将让厂商的实用级核心技术陆续与讯飞的核心能力一起,汇聚成AI能力的星云,释放巨大的组合效应!

来官网进一步了解吧!

机器翻译

现在开通接入即送200万字符免费服务!

二维码动态

它陪跑《名侦探柯南》数十年,终于在科大讯飞C位出道!

拥有一个变声领结,我就是整条街最靓的小侦探!

那部传说中的作品又Lei了!
作为每年的固定节目,《名侦探柯南》的最新剧场版《绀青之拳》已经于上个月在日本上映。相信在国内的视频网站和影院欣赏这部新作也指日可待。虽然剧情逻辑愈发沙雕,但小智仍然会为信仰充值!

1

然鹅——

2

什么?!这么重要的道具竟然没了?要知道小智从小到大,看柯南就是眼馋那几个“大宝贝”——

某领结,

3

某手表,

4

以及某球鞋,

5

像尔等没有柯南智商的路人,只能幻想拥有这几样“神器”装装逼了,现在连这点乐趣都要被夺走咩~(可怜)。

6

还好,有科大讯飞2019新品发布会,给我带来安慰!

因为,科大讯飞董事长刘庆峰带来了三次元的真·变声领结!

7

1.变声技术亮相,今天就做整条街最靓的「柯南」

发布会上,现场出现志玲姐姐、老罗等“神秘嘉宾”。但只闻其声,未见其人。而这些声音其实都来源于科大讯飞董事长刘庆峰。

8

从二次元走入现实,一个人如何做到多种声音转换?这就要归功于科大讯飞的最新”变声技术”。该技术可以将原声的节奏、情感,以及特定人的音色进行转换结合,并且支持不同性别的声音转换。实现了接近100%的声音复刻,真实自然。

其实这项音色转换技术早在voice conversion Challenge 2018国际音色转换大赛中获得全部指标第一名;是音色和相似度上唯一一家超过4.0MOS分的系统!

刘庆峰提到,人工智能要持续发展,最核心的是它的价值观如何阳光健康、与人为善。

2.A.I.主播登场:一位会说七国语言的女神

除了变声技术,本次新品发布会还有一件让二次元粉丝欢呼的事:看多了初音、绊爱等动漫风的虚拟主播,大家见过真正能说会道,几乎与真人无异的虚拟主持人嘛?还是知性美女姐姐哦!

9

本次发布会,就邀请来了一位特别的主持人,她叫小晴。其特别之处就在于她不是真人,而是由人工智能技术合成的A.I.虚拟主播。

10

早在2018年3月,科大讯飞就与南方财经全媒体集团联合打造了一款用于财经新闻的播报的A.I.虚拟主播,这也是讯飞虚拟主播的首次公开亮相。后来,讯飞又陆续推出了A.I.虚拟主播“康晓辉”、“央小广”、“小撒”、“纪小萌”、“小晴”等等。

11

虚拟主播的表情和声音都是预测生成的。先输入播报内容,通过科大讯飞的语音合成技术进行合成,然后利用多模态合成模型基于语音驱动表情序列生成对应的表情序列,再经过语音驱动模型的训练,最终形成我们现在看到的A.I.虚拟主播。

12

这种语音合成技术只需要10段话或5分钟的声音样本,就可以模仿任何人说话,产生极高还原度的“智能声音”。

当然,作为新品发布会,小晴的能力相较于之前也有了新的发展,那就是成功升级为多语种A.I.虚拟主播!

发布会中,小晴在线上同步直播以中文、英语、法语、日语、韩语、德语、西班牙语等七国语言以及维语、藏语两种民族语言播报,使得本场发布会成为了全球首场人工智能多语种直播发布会。

4

3

3.神器背后:iFLYOS 2.0的A.I.生态蓝图

在变声技术炫技时,刘庆峰说未来讯飞的这项技术将可以集成到芯片上,搭载在各类智能硬件设备中,让直播、陪护、娱乐、游戏、车载等领域都有语出惊人的玩法。

而这所依托的,就是讯飞的AIoT万物互联生态。在本次的新品发布会上,科大讯飞就推出了AIoT操作系统iFLYOS 2.0。

00

iFLYOS 2.0具备“人性化交互”、“深度自定义”、“端到端集成”、“高效率开发”四大特点,为开发者提供软硬一体的智能硬件解决方案和强大的集成开发环境(iFLYOS Studio);为消费者提供流畅的交互体验和多样的场景服务。

同时iFLYOS 2.0突破行业桎梏,在开放度上进一步提升:

1.企业级开发者可以使用自己的用户体系;

2.利用技能工作室,开发者可以集成自己的各种服务;

3.在唤醒词、发音人、GUI等方面,开发者都能将自己的品牌元素融合。

这三大功能,将让开发者完全能基于iFLYOS开发一个真正属于自己的智能物联网操作系统。

4.新品连发,B+C技术价值加速兑现

作为蓄力一年之久的发布会,讯飞还是准备了很多“大餐”的,变声技术和虚拟主持还只是开胃菜而已~~

16

比如讯飞翻译机3.0,能0.5s内完成一次翻译,而且中英文识别率超95%,这还是在离线环境下!不好意思,在陪你走遍全世界方面,我不是“996”,我是“007”啊!

17

还有像动作大片里的机密手提箱的讯飞转写机,可以领导这边说,稿件那边自动出!1小时录音5分钟出稿,并能为视频文件实时生成配套字幕,随画面一起输出。

18

还有具有充满时尚艺术感的颜值的讯飞智能录音笔,2+6 麦克风阵列配置,收音距离可达15 米。配备触摸屏幕,满电状态下可连续工作10个小时。

19

还有手写质感、1秒录音成文、可安全储存的讯飞智能办公本;具备语音评测和语音转写功能,在不同学习阶段都能反馈清晰展示学习情况的讯飞学习机。

关于这些新品的完整介绍,可以看我们之前的文章:戳这里

正如刘庆峰所说,2019年是人工智能应用价值的兑换年。而真实可见的实际应用案例;能规模化推广的对应产品;可用统计数据证明的应用成效。将是判断AI技术价值兑现的三大标准。

发布会推出的新品也正不断地应证着以上三点,让我们的沟通、办公、学习“因A.I.而能”。未来,变声领结等A.I.神器真正像水和空气一样在我们生活中无处不在。

不过,小智更关心的只有一件事:

既然变声领结都有了,干脆也把手表和球鞋也出一套呗!顺便再给我专门配一个“小晴”。

20

科大讯飞:我们和华为基因相似,板凳能坐十年冷,如今向C端强劲发力

2019年,讯飞要兑现AI应用红利。

11


【导读】To B业务已稳,科大讯飞瞄准利润更大、规模更广的C端市场开始发力。在5月21日的年度发布会上,讯飞重磅发布了5款面向消费者的硬件产品,其中讯飞翻译机3.0能实现0.5秒闪译。坐穿十年冷板凳,不断积累技术经验,这支“AI国家队”终于要实现AI应用红利兑现。

向C端强劲发力,瞄准用户规模更大的消费者市场,AI应用红利得以兑现。

这是“AI国家队”科大讯飞正在探索的新路。与互联网不同,在人工智能领域中,To C业务反而未经大范围开拓。

不变的是,先布局的玩家,先占据优势。

5月21日,在上海世博举办的年度发布会上,科大讯飞大秀技术肌肉,针对用户痛点发布6款新品,其中5款为面向消费者的硬件产品。

其中包括能实现0.5秒闪译、支持四大方言与英文互译的讯飞翻译机3.0,售价3499元;以及一小时录音5分钟出稿的讯飞录音笔,分为1999元和2999元两个版本。

今年是科大讯飞成立20周年,恰逢国际贸易摩擦升级的历史关卡,讯飞表示要在技术上未雨绸缪,做好十年磨一剑的准备

 

科大讯飞董事长刘庆峰:20年不断累积,AI技术价值今年将开始兑现

与往年发布会流程相似,发布新品前,科大讯飞董事长刘庆峰进行开场演讲。

与往年发布会有所不同,这是全球首场人工智能多语种直播发布会

开场的“AI虚拟主播”主持人便吸引了不少人的眼球。不仅如此,这位虚拟主播还同时支持多语言同步报道。

3

AI虚拟主播进行韩语报道

4

虚拟主播藏语报道

技术肌肉秀不止于此,随后科大讯飞董事长刘庆峰亲自表演了一场类似“柯南领夹”的AI变声秀。

刘庆峰登场进行自我介绍,一开口,现场却传出来的是“老罗”罗永浩的声音,“大家好,我是科大讯飞刘庆峰”,刘罗难辨。

不一会儿,他的声音又开始变成清脆的女声,虽然是志玲姐姐的声音,但说活语气、节奏却和刘庆峰本人完全一致。

这背后正是运用科大讯飞的音色转换技术,可通过提取原声语音中的内容信息,包括原声的节奏和情感,再结合特定人的音色进行转换结合。

该项技术在voice conversion Challenge 2018国际音色转换大赛中获得全部指标第一名,也是音色和相似度上唯一一家超过4.0MOS分的系统。

另外,在嘉宾的同时,舞台旁边都有“讯飞听见”直接进行现场实时语音识别并准确呈现出来,同时机器自动将讲话内容翻译成英文。

55

嘉宾演讲过程中,讯飞听见一直进行实时语音识别和英文翻译

这其中的技术又有了革新——科大讯飞采用自主研发的新一代语音识别模型,实现了中英文语音混合输入,识别无缝切换,且识别率达到95%以上

关于所谓的中英文语音混合输入,举个例子:

“看最后一集Game of Thrones了吗,囧雪竟然做出了这样的事儿,很bad很sad很drama。”

有了这项技术,不管“讯飞听见”有没有被剧透,它都能准确识别并且翻译你说的话。

 

除此之外,刘庆峰还介绍了科大讯飞在国际上取得的技术突破:

  • 语音识别:语音识别准确率全面超过速记员。目前,科大讯飞的中文语音转写准确率已经突破98%,英文达到95%。
  • 机器翻译:系统通过CATTI全国翻译专业资格(水平)测试,达到专业资格合格标准;让更多“语言间的高效沟通”成为可能,让机器翻译能力确有保障。
  • 机器阅读理解:2019年3月,机器阅读理解国际权威评测SQuAD 2.0任务科大讯飞再次登顶冠军,并同时在EM和F1两个指标上全球首次均超越人类水平,一举创下比赛的全新纪录。

66

2019年伊始,不少人认为这将是大量人工智能创业倒闭的时候,大潮退去,泡沫破灭,因为人工智能并没有核心技术。

对于这样的论调,刘庆峰在现场明确表示:“2019年就是人工智能的应用价值兑现年,今年开始真的红利已经到来。”他提出了A.I.技术价值兑现的三大标准:

一、真实可见的实际应用案例

二、能规模化应用的核心产品

三、能够统计数据的应用成效

技术肌肉已秀,接下来让我们看看实际落地、将要帮助讯飞获得红利的硬件新品:

 

新品强劲发力C端:讯飞翻译机3.0实现“0.5闪译”,售价3499元

讯飞此次一口气发布5款消费者硬件产品,覆盖生活、工作、学习等方面,每一款都针对消费者痛点。

先来看下讯飞翻译机3.0。

说话是世界上最常见的事情,又是世界上最不简单的事情,不同国家之间语音不同,不同的省份地区也有着各自的方言。

然而一个人精通多种语音需要花费大量的时间和精力,就像刘庆峰在现场所说的那样“不可能每个人都是钱钟书转世”,但AI让不可能变成可能。

讯飞翻译机3.0全新升级,翻译速度达到“0.5秒闪译”,实现清楚拾音、响亮外放和智能识别多音多义词。

77

讯飞翻译机3.0

对消费者更实用的是支持多种语言互译,讯飞翻译机3.0支持普通话与粤语、东北话、河南话、四川话等翻译,及粤语和英语互译、维吾尔语与普通话互译、藏语与普通话互译

其中的英语,不仅限于标准的英文发音,在现场演示中,讯飞翻译机3.0能将带有咖喱味的、法国奶酪味的、德国啤酒味的、俄罗斯伏特加味的英文统统翻译成标准的普通话。

另外,继去年首发行业A.I.翻译功能后,讯飞翻译机3.0实现金融、医疗、外贸、计算机、法律、体育、能源七大领域的A.I.行业翻译。

除此之外,翻译机3.0还优化了拍照翻译功能,升级高清摄像头和视网膜屏,出国旅游看不懂菜单的尴尬将不再出现。

拍照翻译采用科大讯飞最新国际领先的OCR技术,该技术去年包揽ICPR 2018国际大赛全部三项冠军。刘庆峰表示,科大讯飞为何开始做图像识别?因为语音识别和图像识别的底层算法是相通的。

相比于讯飞翻译机2.0(售价2999元),翻译机3.0售价为3499元

接下来是另一重磅产品:讯飞智能录音笔,这也是讯飞5款硬件新品中,价格最低的一款,分为1999元标准配置和2999元两款,来看下性能:

88

  • 采用2+6麦克风阵列顶级配置,2颗哈曼大直径麦克风和6个矩阵麦克风位列机身;
  • 收音距离可达15米;
  • 语音识别准确率达到98%,1小时录音5分钟出稿
  • 支持语音实时转文字、中英边录边译、要点标记、语音搜索、多平台同步和后端编辑功能。

除此之外,还有针对办公所出的讯飞转写机、讯飞办公本,以及针对教育所处的讯飞学习机,这三款价格均高于3000元:

99

新品展示:左上为讯飞智能办公本、左下为讯飞转写机、右上为讯飞录音笔,右下为讯飞学习机

商务人士的专属:讯飞转写机是一体化的专业语音转文字设备,面向会议、培训、讲座等场景下可实现实时转写、纯离线识别、识别内容翻译成英文投屏展示,同时可为视频会议实时生成配套字幕输出,会议、演讲结束后可自动生成二维码回看PPT、文稿和录音。

可书写的智能办公本:讯飞智能办公本拥有10.3英寸E ink高清柔性护眼墨水屏,即时语音转写文字、智能语音搜索、一键分享查看编辑、收发邮件手写亲笔信等功能,售价4999元

辅导数理化的学习机:讯飞学习机,针对数理化、英语听说读写进行提升,售价3999元。

 

iFLYOS 2.0来了:开放超200项核心技能,未雨绸缪以备十年磨一剑

除5款针对C端的硬件产品外,科大讯飞在本次发布会发布iFLYOS 2.0,开放超200项核心技能。

iFLYOS是什么?它是科大飞讯于2018年推出的一套基于云端的智能物联网操作系统。

00

2018 年讯飞开放平台相继发布了人机交互界面 AIUI3.0和iFLYOS形成端到端解决方案和实现路径。

到现在,全新升级的iFLYOS 2.0将AIUI与iFLYOS融合为一体,打造出以语音为主要交互形式,以智能硬件为载体,融合云端与终端的AI Agent(智能物联网操作系统)。

当谈到日前美国将华为列为“实体名单”一事,讯飞表示华为早就未雨绸缪,有“备胎”顶替。身为国内AI代表企业,讯飞认为中国企业应该为未来备战,除了智能通讯,AIoT也是其中一个方向。

科大讯飞在2017年就同BAT并列为“国家新一代人工智能开放创新平台”四大金刚,入职“国家队”。这次iFLYOS2.0的亮相亦是讯飞为维持原创技术系统、先行布局AIoT买的一份“保险”。

全新升级的iFLYOS 2.0将AIUI与iFLYOS融合为一体,打造出以语音为主要交互形式,以智能硬件为载体,融合云端与终端的AI Agent(智能物联网操作系统)。

科大讯飞轮值总裁胡郁介绍,它具备“人性化交互”、“深度自定义”、“端到端集成”、“高效率开发”四大特点

01

为解决接入方SDK集成慢,语音能力接入复杂,硬件设计链条过长的问题,iFLYOS直接提供SDK和API,并有芯片、PCBA公版和整机参考设计等解决方案供接入方选择。

一方面为开发者提供高度集成的软硬一体化智能硬件解决方案和强大的集成开发环境;另外一方面,也能为消费者提供流畅的交互体验和多样的场景服务。

 

讯飞即将“弱冠”:出鞘消费者市场,技术成熟才能做C端产品

此次科大讯飞全面发力C端市场,事实上早在去年就有迹象。

今年4月,科大讯飞公布2018年度财报,其中一大亮点就是该公司业务赛道加速奔跑,To C业务增长迅猛。

02

科大讯飞2018年度财报

2018年,讯飞TO C业务开始发力,占比显著提升,全年实现营收收入25.17亿,同比增长96.54%,在整体营收中占比达31.80%;实现毛利12.96亿,同比增长70.77%,毛利占比达32.72%。

在产品方面,讯飞翻译机2018年卖出30万台,占据品类销售额70%,品类份额第一;讯飞输入法活跃用户超过1.3亿;以讯飞听见为代表的移动网产品及服务较上年同期增长369.36%。

如果说移动互联网的主战场正从上半场的消费互联网(To C),向下半场的产业互联网(To B)方向转变。

那么,AI领域正好相反,被称为“人工智能国家队”的讯飞早早就布局To B业务,实现智慧政法、智慧医疗、智慧教育等业务的突破。

03

科大讯飞轮值总裁 胡郁

而人工智能To C市场此前难以进入的僵局如今正有被打破的迹象。据科大讯飞轮值总裁胡郁透露,当科大讯飞刚成立的时候,他们也做过一款面向C端的统一输入法,但结果很不成功。

胡郁解释称,要做C端产品的,基本上都是做产品创新和模式创新的公司,所用的技术一定是成熟的。就像当年的互联网创新,技术上都是成熟的。但如果是做核心技术创新的公司,一开始就做C端的话是很困难的。

那么科大讯飞决定发力C端的真正原因是什么?

人工智能技术已经走向成熟,AI将实现应用红利兑现。

胡郁具体解释了其中原因:

  • C端有足够大的利润空间,有更广泛的市场规模,而在人工智能方向的To C,目前市场潜力仍非常大,讯飞跟很多的公司处于同一个阵地、同一个起跑线;
  • 想要把最好的技术展现给用户时,需要做完整的事情,讯飞有足够的技术积累,将技术从软件到硬件、完整地呈现给用户。

20年的技术累积终于将讯飞强势带入了C端的战场。

 

科大讯飞轮值总裁胡郁:我们和华为有着相似基因,都曾坐十年“冷板凳”

最后当谈转向C端面临的挑战时,胡郁表示:科大讯飞在源头核心技术、系统创新上都占据优势,但最终做成C端的最重要一环——模式创新上,讯飞仍面临着挑战。

胡郁表示,相比于互联网产品,我赞成互联网的创新模式思维,但是我并不赞同很多互联网公司去通过烧钱的方法去做推广,这种推广效果并不一定能呈现刚需。

作为一个技术创新型的AI公司,而不是一个互联网公司,科大讯飞要用互联网思维来优化我们的核心技术,来优化产品,迭代产品

04

胡郁提到为何华为可以把消费者业务做成功:

首先,华为拥有一群学习能力极强的员工,去学习钻研如何从To B向To C转变;

其次,能够耐得住寂寞,保持定力,朝你自己认为正确的方向坚持下去,华为与讯飞的一些基因上是比较类似的,都是做那种板凳能坐十年冷、十年磨一剑的公司

最后,不断地吸引业界最好的知识经验与血液。

在发布会现场谈到AI应用红利兑现的基础——AI核心技术鸿沟的突破时,科大讯飞董事长刘庆峰表示这不是一蹴而就,需要源于热爱的长期坚守。

这是任何一家成功的AI公司都必须拥有的基因。

 

本文转载自:https://mp.weixin.qq.com/s/0c-cvbqE2pflXamMcEkHtA

iFLYOS+5大单品,A.I.「头号玩家」讯飞的商业落地秘籍

参加完5月21日的科大讯飞2019新品发布会后,一个感受:够分量!

够分量!

参加完5月21日的科大讯飞2019新品发布会后,小智只有这个感受。

走过A.I.元年的我们,对2019还有什么期待?在发布会上科大讯飞董事长刘庆峰给出的答案是:2019年是人工智能应用价值的兑换年。

1

如何判断A.I.技术的价值能否兑现?刘庆峰给出了三大标准:

1.真实可见的实际应用案例;

2.能规模化推广的对应产品;

3.可用统计数据证明的应用成效。

而在科大讯飞轮值总裁胡郁主持的新品介绍中,讯飞翻译机3.0、讯飞转写机、讯飞智能录音笔、讯飞智能办公本、讯飞学习机、iFLYOS 2.0也正不断地应证着以上三点,让我们的沟通、办公、学习“因A.I.而能”。

2

1.iFLYOS 2.0:A.I.「头号玩家」的生态之路

iFLYOS成为讯飞产业生态最具象的载体。在本次的新品发布会上,科大讯飞推出AIoT操作系统iFLYOS 2.0。

iFLYOS 2.0具备“人性化交互”、“深度自定义”、“端到端集成”、“高效率开发”四大特点,为开发者提供软硬一体的智能硬件解决方案和强大的集成开发环境(iFLYOS Studio);为消费者提供流畅的交互体验和多样的场景服务。

3

基于讯飞20年语音识别和语音合成的人工智能核心能力,新增了21种方言识别、语句中英文混合识别;支持全双工,让智能设备可以和用户连续对话,通过A.I.赋能助力开发者打造自己专属的操作系统。一言以蔽之,“快、准、好”是iFLYOS 2.0带给大家最直观的感受。

4

在技能和内容服务扩充方面,iFLYOS 2.0给出了亮眼的答案:官方提供了超过200个技能,更联合腾讯音乐娱乐集团、喜马拉雅等100余家优质的合作伙伴,为用户提供了海量、优质的内容服务。

同时iFLYOS 2.0突破行业桎梏,在开放度上进一步提升:

1.企业级开发者可以使用自己的用户体系;

2.利用技能工作室,开发者可以集成自己的各种服务;

3.在唤醒词、发音人、GUI等方面,开发者都能将自己的品牌元素融合。

5

这三大功能,将让开发者完全能基于iFLYOS开发一个真正属于自己的智能物联网操作系统。成为物联网行业的“头号玩家”。

2.讯飞翻译机3.0:0.5秒拥有走遍全球的自信

去年的博鳌论坛,讯飞翻译机2.0已经大出风头,本次发布会上的讯飞翻译机3.0则在翻译神器的魅力上进一步圈粉。

6

3.0的优秀表现,体现在如下升级:

在翻译上,新增对应外贸、体育、能源、法律等四大热门行业的语音翻译,翻译语言覆盖国家和地区近200个。

在离线识别率和翻译速度上,依托新一代离线内核,翻译机3.0扩大了5倍离线语音识别训练模型规模,实现中英文识别率超95%, 0.5s内完成一次翻译。

同时,讯飞翻译机3.0的拍照翻译也更加出色,搭载了科大讯飞前沿OCR技术+图文专业调校摄像头、保证各种光线条件拍照的清晰度和翻译效果。

科大讯飞智能翻译业务线总经理翟吉博在现场演示环节,为了让翻译机3.0“秀两手”可以说是无所不用其极,又是用视频演示七国口音翻译,又是现场唱歌和说英语绕口令,都被讯飞翻译机3.0完美应对,“神器”名副其实。

7

3.讯飞转写机:不只是“保险手提箱”

在刘庆峰演讲结束后,现场观众只需扫描大屏幕上的二维码,即可获得演讲PPT、演讲录音、转写文稿材料。而这就是本次发布会的新品之一:讯飞转写机的杰作。

面向办公场景的讯飞转写机是一款语音转写移动工作站,保险箱造型的外观就给人以安全靠谱的感觉。

8

事实上通过“全离线”语音技术,转写机内置离线转写引擎,保证转写时无需连网,同时将数据保存在本地,为涉密行业的会议提供保障;同时响应时间比云端服务缩短35%,工作效率更高。

9

在会议上,讯飞转写机可以将音频数据实时同步转化成文本,实现一边讲、一边展示文字在屏幕上的效果。轻松省力,提升效率。

导入的录音文件,讯飞转写机还可自动转写。1小时录音5分钟出稿,并能为视频文件实时生成配套字幕,随画面一起输出。

现场演讲结束后,讯飞转写机可自动生成二维码,支持分享。用户扫码即可回看现场演讲的PPT、现场发言转成的文稿,回听现场录音,随时随地分享观点与思想。

4.讯飞智能录音笔:5分钟转稿 10小时续航

讯飞录音笔采用了科大讯飞的A.I.语音识别和转写技术,识别准确率达到 98%。中英文可以边录边译,翻译结果还可用语音实时播放出来。为英文培训等场景的记录和理解提供了极大的便利性。

10

为了便于重要信息的回溯和查找,还可为重点内容一键添加自定义标签,该标签将在转写文稿中同步呈现。

11

2+6 麦克风阵列配置,在会议、采访、演讲、音乐会等多种场景下可实现高保真降噪拾音,收音距离可达15 米。

全新的智能操作体验。新产品配备了一块触摸屏幕,具备了和智能手机一样的智能系统和操作体验。

电池容量为2000mAh,满电状态下可连续工作10个小时,具备超强续航能力。高效出稿,1小时录音5分钟出稿,极大地提高了工作效率。为了进一步保障录音文件的安全性,新产品可以设置专属指纹识别功能,再也不用担心文件泄露啦!

5.讯飞智能办公本:聚焦读写的“一”级体验

如何让传统的手写笔记习惯,与先进的数码设备生活方式相结合?讯飞智能办公本用四个“一”来诠释。

“真实手写一张纸”,讯飞智能办公本配备了10.3英寸Eink柔性墨水屏,书写阅读体验接近于真实纸张,不伤眼,视觉无疲劳感,表面耐磨,微蚀刻。办公本获得了2018年中国最高设计奖红星奖。

“录音成文一秒钟”,讯飞智能办公本,基于科大讯飞语音识别和特写技术,支持智能语音听写和手势修改。无论是在会议、课堂还是采访现场,都可以将语音内容实时转换,在笔记本上进行编辑修改。同时在语音转写的过程中可以随时手写添加笔记,勾画重点。

12

“搜索笔记一句话”,讯飞智能办公本还支持语音检索、快捷搜寻历史笔记,以及一键分享的功能,真正可以做到获取信息即时性,便捷性,解放你的双手,只需简单发出指令,就能获得自己想要的信息。

“安全储存一辈子”,讯飞智能办公本实现了内容云端存储,通过语记云备份,笔记将永不丢失。科大讯飞的语音云技术已获得工信部安全可靠云和公安部三级等保的认证,多重保障永不丢失。

6.讯飞学习机:因材施教,辅导不再“鸡飞狗跳”

教育绝对是个经久不衰的话题。讯飞基于智学网随机调研的400万学生中35亿条数据进行了调查,发现大部分学生60%的日常练习都是无效的。这些无效练习不仅浪费了学生大量的时间,还造成了过重的学习负担,甚至让孩子害怕学习。

因此,围绕着这一问题,讯飞学习机提供了两大功能:一是数理化精准学习提升效率,二是英语听说读写综合提升。

13

如何实现数理化精准学习?基于知识图谱系统,我们将整个过程拆解成了三个步骤:首先基于人工智能技术快速测试,找到弱项;然后针对弱项进行精准学习;最后巩固内化形成学习闭环。

而在英语听说读写综合提升方面,学习机中具备语音评测和语音转写功能,在不同学习阶段都有同步听说读写训练,并以雷达图形式清晰展示学习情况。

此外,作为一款学习机,这款设备还有名师视频、拍照搜题、同步练习、历年真题试卷等等功能,也都内置其中。可以说是一机在手,教育资源全有。

在6大新品不断突破大家惊喜预期的同时,胡郁还宣布由科大讯飞发起的人工智能竞赛平台——第二届iFLYTEK A.I.开发者大赛正式启动!

科大讯飞保持技术领先和源头技术领先的同时开始向C端市场发力,并且加强对合作伙伴的生态赋能和扶持。本届A.I.开发者大赛将继续开放科大讯飞优质大数据资源及人工智能核心技术,开放2大赛事,9大赛题,面向全球开发者发起新挑战!

14

目前,第二届iFLYTEK A.I.开发者大赛已开启预约通道!6月21日前预约提交报名信息的参赛选手可以获得额外的一对一电话辅导!点击阅读原文进入报名窗口,获取更多比赛介绍!

你还可以添加我们A.I.小助手的微信iFLYTEKAI,抢先一步获取活动相关资讯哦!

温馨提示

添加微信号请备注“姓名+赛事类型”

例如“张三+A.I.创新应用赛”

讯飞新品发布会直击 | 2019 A.I.开发者大赛正式启动

技术顶天,应用立地!

5月21日,科大讯飞2019新品发布会在上海世博中心盛大开启,本次发布会以“你的世界,因A.I.而能”为主题,发布了讯飞翻译机3.0、讯飞转写机、讯飞智能录音笔、讯飞智能办公本、讯飞学习机、iFLYOS6大新品。
科大讯飞董事长刘庆峰作题为《你的世界,因A.I.而能》的演讲,他提出2019年是人工智能应用价值的兑换年,并与大家分享了判断A.I.技术价值兑现的三大标准:真实可见的实际应用案例、能规模化推广的对应产品、可用统计数据证明的应用成效。

1

科大讯飞执行总裁胡郁带来讯飞翻译机3.0等新品发布,胡郁介绍本次新品将让沟通、办公、学习因A.I.而能。同时,胡郁宣布由科大讯飞发起的人工智能竞赛平台——第二届iFLYTEK A.I.开发者大赛正式启动!

2

本届A.I.开发者大赛将继续开放科大讯飞优质大数据资源及人工智能核心技术,开放2大赛事,9大赛题,面向全球开发者发起新挑战!

一.2大赛事,共建顶天立地A.I.生态

2018年,首届iFLYTEK A.I.开发者大赛设置方言种类识别A.I.挑战赛,应用开发A.I.挑战赛,共吸引全球超过4000支团队,10000余名A.I.开发者积极参与。

第二届开发者大赛延续“技术顶天、应用立地”理念,设置A.I.算法挑战赛、A.I.创新应用赛两大赛事,总奖金池100万。希望聚集全社会的开发者和我们一起开放创新、共建A.I.生态。

3

算法挑战赛主要面向高校学生,将为参赛者提供锻炼个人能力,丰富项目经验的优质平台与机会。选手需要基于开源大数据,用算法解决社会类问题。

4

创新应用赛主要面向社会团体,如创业团队或中小型企业,选手需要基于开放的SDK、API或硬件开发板等,围绕具体业务场景进行应用开发,比赛将对参赛者的媒体曝光、资本对接起到良好的推动作用。

二.赛题升级,9大战场激发A.I.创造力

在两大赛事下,第二届iFLYTEK A.I.开发者大赛进一步赋能行业与生活场景,针对赛题进行了全新升级,立足医疗、营销、车载、教育、硬件、家居等领域设置9大赛题!

A.I.算法挑战赛包含4个赛题:

1.阿尔茨海默综合症预测挑战赛

参赛者通过对语音、语言智能化的分析和处理,可以为阿尔茨海默综合症临床认知障碍的检测提供有效技术支持。

2.移动广告反欺诈算法挑战赛

广告欺诈是数字营销面临的一个重大挑战,选手将基于讯飞A.I.营销云的现网流量数据,构建模型来预测流量作弊与否,预防数字营销欺诈事件的发生。

3.大数据应用分类标注挑战赛

如何对应用进行精准分析始终是一个业界难题。赛题将由选手基于提供的二级分类标签以及若干随即应用标注样本,实现应用分类标注算法。

4.工程机械核心部件寿命预测挑战赛

对工程机械核心部件寿命预测可以据此对相应部件进行维护,参赛者将利用大数据分析、机器学习、深度学习等方法建立合适的寿命预测模型,预测核心部件的剩余寿命。

A.I.创新应用赛包含5个赛题:

1.通用赛道

讯飞开放平台聚焦人机交互这一核心技术,邀请广大开发者基于讯飞开放平台技术开发一款智能产品,共同探索A.I.使用场景,推动人工智能创新成果转化。

2.智能汽车赛道

我们向广大开发者发起挑战,共同推进关于汽车场景引擎的研究。参赛者将利用开放的汽车行驶、位置数据进行模型构建,判断汽车所处场景类型,并设计良好的架构提升系统性能。

3.智慧教育赛道

为了应对信息化技术与教育的结合给教学带来的巨大挑战,希望参赛者基于讯飞人工智能语音技术,以基础教育应用为场景,完成一款以帮助师生减负增效为目标的教或学产品研发。

4.智能硬件赛道

伴随着人机交互方式由触屏交互到语音交互,本次大赛平台希望与开发者一起协同,配合讯飞开放平台开放的其它能力,打造更多的智能硬件创新产品。

5.智慧家庭赛道

参赛者需以电视大屏为载体,基于讯飞人工智能语音技术,完成一款应用类型为APK/H5的电视语音交互应用或技能的产品设计和研发。

通过9大赛题,我们力求覆盖更广泛的场景,激发开发者们的创造力,带来A.I.在全社会各领域的更多解决方案!

三.赛程赛制

赛程安排上,A.I.算法挑战赛和A.I.创新应用赛相同,详情如下——

5

四.大赛报名

目前,第二届iFLYTEK A.I.开发者大赛已开启预约通道!6月21日前预约提交报名信息的参赛选手可以获得额外的一对一电话辅导!点击阅读原文进入报名窗口,获取更多比赛介绍!

你还可以添加我们A.I.小助手的微信iFLYTEKAI,抢先一步获取活动相关资讯哦!

温馨提示

添加微信号请备注“姓名+赛事类型”

例如“张三+A.I.创新应用赛”

AI领域「听风者」:声纹识别5大核心知识点!

今天也是新课来了的一天。

在移动互联网大行其道的时代,人们不用出门不用见面就可以完成很多事情,比如购物、生活缴费、投资理财等,在享受着移动互联网带来的便捷的同时,人们也在担心在不见面的情况下进行认证身份的安全性。

传统的密码验证不仅容易忘记,更容易被黑客攻击盗取,不过好在我们每个人身上都有一些“活密码”,声纹、人脸、虹膜、指纹等,这些生物识别代表了每个人固有的特点。

今天班主任就来带大家了解下人工智能领域的「听风者」——声纹识别。

1

1.声纹的概念

为了更好地理解声纹,首先了解一下它的载体,也就是语音。一段语音到底包含了哪些信息呢?

一个人听到一段语音之后,基本上就可以从这一段语音里判断出:内容、说话人、语种、性别年龄、情感、信道环境等信息。

这一系列的信息对应了相应的智能语音识别技术,包括内容识别、语种识别、男女老少识别、情感识别以及场景识别。这其中判断该段语音的说话人信息就叫做声纹识别,也就是今天我们所要讨论的内容。

为了更直观地看到声音,我们采用语谱图的形式,语谱图的横坐标是时间,纵坐标是频率,坐标点值为语音数据能量。

2

由于采用二维平面表达三维的信息,所以能量值的大小是通过颜色来表示的,颜色越深表示该点的语音能量就越强。

声音在语谱图中的表示如上图所示,两个人说相同的内容,在语谱图上的纹路是不同的,这就是声纹最直观的表现。这种独特的特征主要有两个因素决定,第一是声带振动的频率,不同的人声带震动频率不同;第二是声腔的尺寸。除此之外,发声器官被操纵的方式也会使每个人的声纹不同。

2.自动声纹识别技术

声纹识别技术又称说话人识别技术,它是利用计算机系统自动完成说话人身份识别的一项智能语音核心技术。

这种技术基于语音中所包含的说话人特有的个性信息,利用计算机以及现在的信息识别技术,自动鉴别当前语音对应的说话人身份。

按照待识别语音的文本内容,可以把声纹识别划分为以下三种:文本无关、文本相关和文本限定。

3

文本无关是指识别系统对于语音文本内容是没有任何要求,说话人的说话内容比较自由随意。而文本相关是指说话人识别系统,要求用户必须按照事先指定的内容进行发音。对比这两类说话人识别,文本相关的说话人识别的语音内容匹配性是优于文本无关的说话人识别。所以一般来说其系统的性能也会相对较好,但需要用户配合,并且识别文本容易被窃取。

而文本无关的说话人识别,使用较为灵活方便,用户是无感知的,因此它具有更好的推广性和适应性,适合海量后台监控场景。

为综合文本相关和文本无关的两者优点,文本限定的说法就应运而生了。它是指识别的时候,从限定的文本库中随机提取若干词汇组合后提示用户反应。这样不仅避免了文本相关的假冒录音闯入,并且实现相对简单,安全性高,是说话人识别技术的一大热点。

例如采用10个数字的组合来生成限定文本,就是一种最常用的方式。包括科大讯飞公司的数字声纹密码系统也是采用这种形式的。

3.声纹辨认与声纹确认

除了根据识别文本内容来划分以外,声纹识别根据实际的应用范畴,分为声纹辨认和声纹确认。

这两类任务的识别目标略有不同,声纹辨认是指判定待测试语音属于目标说话人模型集合中哪一个人,是【1:N】的选择问题。而声纹确认是确定待识别的一段语音是否来自其所声明的目标说话人,是一个【1:1】的判决问题。

对于声纹识别辨认来说,根据测试识别来自说话人范围的不同,说话人辨认就又可以划分为闭集识别和开集识别。

4

闭集识别是指代测试语音必定属于目标说话人集合中的某一位,即待识别语音为集内说话人。

开集识别是指代识别语音的发音者可能不属于目标说话人集中的任何一位。除此之外,根据实际的应用场景,声纹识别还包括说话人检测(检测目标说话人是否在某段语音中出现)和说话人分离(以时间为检索,实时检测每段音所对应的说话人)。

然而无论是声纹辨认还是声纹确认,核心均是对声纹相似度的判决。

下面我们来学习下声纹相似度判决的流程。声纹识别是典型的模式识别问题,它主要包含了说话人模型训练和测试语音识别两阶段。

下图是一个基本的说话人识别框架,首先是注册阶段,对使用系统的说话人预留充足的语音,并对不同说话人提取声学特征,然后根据每个说话人的语音特征训练得到对应的说话人模型。最终将全体说话人模型集合在一起组成系统说话人模型库。

5

注册完成之后是测试阶段,在测试阶段中说话人进行识别认证时,系统对识别语音进行相同的特征提取过程,并将语音特征与说话人模型库进行比对,得到对应说话人模型的相似性打分,最终根据识别打分判别得到识别语音的说话人身份。

4.错误接受率与错误拒绝率

那么我们如何衡量说话人识别系统的性能?首先我们看一看对于1:1场景的声纹确认系统,声纹确认识别系统的评价主要有两个参数,分别是错误接受率(FAR)和错误拒绝率(FRR)

错误接受率是指将非目标说话人判别为目标说话人所造成的错误。而错误拒绝率是指将目标说话人判别成目标说话人。

两者的定义就是如下图公式所示,在声纹识别系统中可以通过设定不同的阈值,对错误接受率和错误拒绝率进行权衡。

6

当系统所要求的安全性越高,则设定的阈值应该越高,此时接受条件就越严格,相应的错误接受率就越低,但错误拒绝率可能就越高。

反之,如果系统追求较好的易用性,也就是通过率高,则阈值设定的应该越低,此时接受条件就比较宽松,错误接受率就高一些,错误拒绝率便会低一些。

图中所示的中间阈值的区域,是一个比较平衡的区域。一般采用检测错误权衡曲线,即DET曲线来反映两个错误率之间的关系。

7

对于一个特定的声纹识别系统来说,以错误接受率为横坐标,错误拒绝率为纵坐标,通过调整阈值得到错误接受率与错误拒绝率之间的关系曲线图,即DET曲线。DET曲线离原点越接近,系统性能越好。

在DET曲线上,第一象限角平分线与其交点处,错误接受率和错误拒绝率的值相等,该错误率称之为等错误率(ERR)。显然等错误率值越小,系统性能越好。同时它也是代表了声纹识别系统的一个大约性能,是衡量系统性能的重要参数。

说完了1:1的生物确认场景之后,我们再来看一下声纹辨认的场景

通常情况下,在开启的声纹辨认系统中,我们仍然可以采用错误率来评价系统的性能指标。而在这种闭集的辨认系统中,我们通常采用正确率或者识别率,或者是前N正确率作为评价系统性能的指标。

识别率就是指待识别的语音能够从目标说话人集合中,正确找到所对应说话人的概率。通常认定待识别语音与目标说话人集合中相似度最大的就作为辨认说话人,其辨认正确的比率又可称为Top-1的辨认召回率。若目标说话人集合中相似度最大的N个辨认说话人包含正确说话人时为辨认正确,如此统计出来的辨认正确的比率称为Top-N辨认召回率。

8

5.声纹识别的优势与劣势

最后我们来看一下,声纹识别相对其他生物特征识别有什么优劣势,除了声纹识别以外,常见的生物特征有指纹、掌纹、人脸、虹膜、视网膜等。生物特征代表了每个人固有的特点,它具有普遍性、唯一性、稳定性和不易复制性等。

与其他这些生物特征相比,声纹主要有以下三方面的优势:

1、非接触、易接受:

声纹由于其非接触性是可以用于远程领域的生物识别技术。另外蕴含声纹特征的语音获取方便、自然。在采集过程中涉及到的用户个人隐私信息较少,因此更容易被使用者接受。

2、成本低:

语音采集装置成本低廉,使用简单,一个麦克风即可,在使用通讯设备(如电话、手机)时更无需额外的录音设备。

3、伪造难:

声纹信息必须是活体采集,可使声纹口令动态变化而无需担心密码遗忘、丢失和窃取问题,防止录音假冒。

当然,声纹也有其自身的劣势,声纹特征的稳定性不够,受附着语音长短、内容、采集信道及环境、包括说话人自身身体情况影响,自动识别效果不及指纹等生物特征。

 

【重要的号外】

今天的科普课程就到这里啦,想了解更多关于声纹识别的知识,可以点击“阅读原文”进行课程视频观看~在文章结束之前,班主任有个2小惊喜要和大家分享

第一:AI大学公众号新增【每日签到】功能点击菜单栏【个人中心】—【每期签到】,立刻体验新功能。

9

签到即可获得相应积分,积分可用户兑换AI大学限量版台历、笔记本等精美礼物。

10

第二:AI大学新增【邀请码】功能每邀请一位好友关注”AI大学“公众号,即可获得5积分,累计获得100积分可兑换价值299元的AI大学书包1个!在公众号“讯飞AI大学”后台回复“AI大学码”立刻体验新功能吧~

1111

机器人时代,如何优雅地选择一份工作

机器人来了之后,我瞬间失业,又当场就业。

11

再过不久,一年一度的毕业季就要来了。

根据有关统计,今年的高校毕业生达到了800多万,如此庞大的毕业人口必然会带来就业难和找工作难的问题。

再加上科技的飞速发展,大量的低技术含量岗位实现自动化。更令一众学弟学妹呼号“找工作怎么这么难啊!”

其实大多数人没有意识到的是,在旧工作消失的同时,新工作也在不断地产生,就看你有没有敏锐的嗅觉去主动发现和挖掘了。

今天,小智就来和大家聊一聊,AI时代有哪些值得一试的有趣职业。

入门级 | 机器维修师

22

在电影《查理与巧克力工厂》中,查理的父亲因为工厂引进了新的机器人而失业。但没过多久他就找到了新的工作,那就是解决这些机器出现的故障。

听起来象一个悖论,却是智能时代我们不得不面对的一个问题:替人类解决问题的机器人也会产生问题,反过来需要人来帮助解决。

机器的各种“病”包括外科问题——关节锈蚀、电路老化;内科问题——程序bug,系统迭代等等。当机器人自己无法处理身体的毛病时,就要交给从事机器保养师们来进行“诊疗”了。

一名机器保养师,既可以是专精于机体整备和维修的技师,也可以是擅长排查乱码、设计升级系统的码农,还可以是内外兼修的跨领域人才。

33

甚至,考虑到未来机器人在情感逻辑上会不断进步,他们在“看病”时可能会像人类一样产生“情绪”,这时就需要具备心理学、医学等知识的专家配合技工保养师进行操作。

当然,如果你不满足于简单的修修补补,也许你会享受把一个机器人从白纸一张,培养成一个德智体美劳全面发展的楷模,那么你可以去试试充满浓厚“养成系”色彩的进阶级工作——

进阶级 | AI心智塑造员

“当仿真机器人的外表和动作越接近人形,但又不是完美拟合时,作为观察者的人类会产生厌恶反应。”

这就是上世纪70年代,由日本现代仿生机器人教父森政弘提出的“恐怖谷理论”

这一理论认为,机器人从完全不像人类到逐渐具有真人外形,人们对它的好感度会逐渐增加;但达到某个仿真的临界点时,好感度会快速下跌到一个谷值,即恐怖谷。

44

基于恐怖谷理论,如何让未来的AI仿生人不令人厌恶呢?这就需要AI心智塑造员来让机器拥有“心”,变得更加人性化。

每个新生产出来的机器人就如同刚来到世界的婴儿,虽然拥有极高的智力和知识,但对人类思维以及人的喜怒哀情感缺乏认知。

塑造员的任务,就是引导它们去认识这个世界,形成“三观”。一方面需要与机器人交流知识,以“逻辑”的形式启发AI;另一方面也会带领机器人走入外面的世界,让它吸取真实人类世界的经验。

55

适合从事AI心智塑造师的人可以是哲学家、文学家、社会学者,也可以是导演、诗人、教师。因为AI想了解人性,也必须和我们一样,与不同的人打交道。

好吧,假如你觉得自己实力强劲,渴望在未来的AI时代拥有更刺激精彩的生活,不如来尝试一下挑战级的工作吧——

挑战级 | AI检察官

在游戏《底特律:成为人类》中,有一段剧情讲的就是具备了自我意识的仿生人杀死了自己的主人,并劫持了主人的女儿。玩家则要通过控制谈判专家型仿生人康纳,跟绑匪生化人展开“嘴炮”大战挽救危局。

66

知名科幻作家阿西莫夫设定过经典的“机器人三定律”:

1.机器人不得伤害人类,看到人类受到伤害不可袖手旁观;

2.在不违反第一定律的前提下,机器人必须绝对服从人类的任何命令;

3.在不违反第一定律和第二定律的前提下,机器人必须尽力保护自己。

即使如此,仍可能有一些AI因为心智的不断成熟、逻辑故障,或者系统被恶意篡改操控,而产生错误的自我认知,从而引发事故甚至命案。

AI监察官就是为此而设立的岗位。

他们主要负责以下方面的工作:AI事故及案件的调查与甄别,监督产生自我意识的AI,抓捕将AI用于非法目的的个人及组织。

77

就如科幻片里的特工一样,这个工作听起来超级酷对不对?

但是正如我们把这个工作列为“挑战级”,首先,这份工作具有极高的风险,毕竟要经常面对失控的AI和罪犯,算是一份脑袋别在腰上的工作。

其次,长期面对具备自我意识的AI,监察官会需要面对一个无法逃避的问题:面前这个从内到外无比类似人类、甚至本性纯良的机器人,我们该如何选择自己的立场?是坚定地站在人类这一边,打压所有对人类不利的机器人;还是客观冷静地思考判断,替AI机器人争取它们应有的权利?

艺术级 | 机器人美容师

随着机器人在人们的生活中普及,除了了功能上的刚需,外观打造的需求也必将随之而来,尤其是对于女性用户群体。

这一点从手机装饰的发展上就能看出来——手机链、手机壳、防尘塞、手机膜、按键贴······这些还没有算上大类下的细分类别,要知道,单单是手机膜就已经有普通膜、钢化膜、高清膜、磨砂膜等等数不清的种类了。

四四方方的手机尚有如此多的美容需求,形状不规则且造型复杂的机器人就更不用提了。

美容美发美甲,服装饰品化妆品,可以预想到,各类传统行业的从业者都可以无缝对接到机器人美容工作中。

99

在此呼吁各位具备手机贴膜、汽车贴膜手艺的朋友们,请把握商机,机器人贴膜的广阔天地等你来发挥。

除了以上这些,你认为机器人时代还有哪些职业值得一试呢?

在文末给我们留言吧~

科大讯飞携手德国摩根深耕智能家居领域,重磅发布多款智能家居新品

一“呼”即应。

11

5月13日,德国摩根智能家居北京居然之家金源体验中心盛大开幕,科大讯飞作为重要合作伙伴出席开业仪式及新品发布会。当天,科大讯飞与德国摩根联合发布了首款集成MORFEI CORE的智能语音面板与集成讯飞IoT能力的智能闹钟等新品,以领先的人工智能技术与严谨的产品态度引领行业新风潮。

22

随着智能家居市场的兴起和产品的普及,家庭中添置的智能单品越来越多,因此智能连接和控制类产品作为家居联动的一环也显得格外重要。依托强大的A.I.技术和前沿的产品思路,科大讯飞联合德国摩根发布了智能语音面板和智能闹钟。两款产品不仅拥有各自的特色功能,而且皆可连接和控制其他智能家居产品,成为用户生活中的好管家、好助手。

不仅是面板,还是你的管家

33

摩根智能语音面板采用双麦麦克风阵列,以讯飞MORFEI CORE为开发框架,集成了前端降噪、语音唤醒、在线/离线语音识别、语义理解、语音合成等语音技术,支持全双工语音交互,用户可与面板进行多轮对话并不受语音打断的干扰。

44

通过接入MORFEI Link家居平台,摩根智能语音面板可连接、控制MORFEI智能家居生态的其他设备,变身大管家。同时,摩根智能语音面板还具备本地分布式控制功能,可与其他具备该功能的智能家居设备实现全屋联动。

不能当助手的中控不是好闹钟

55

采用讯飞四麦麦克风阵列,集成讯飞降噪算法、回声消除,摩根智能闹钟在安静环境下可实现5米精准拾音;通过接入AIUI,摩根智能闹钟可与用户流畅地进行多轮对话交互。得益于语音交互功能,摩根智能闹钟还能充当生活小助手,帮助用户日常查询天气情况、交通路况、空气质量、新闻资讯、股票信息等资讯。

66

集成了讯飞IoT能力的摩根智能闹钟还可作为智能家居中控,对家中的智能设备,如灯、窗帘、空调、新风、地暖等进行控制;同时智能闹钟还支持场景模式控制,如回家模式、离家模式、影音模式、休息模式、会客模式等。值得一提的是,摩根智能闹钟集成了讯飞本地分布式功能,可与其他具备分布式功能的智能设备共同实现整体智能家居的分布式控制。

有力度的支持,有温度的服务

77

作为科大讯飞核心合作伙伴,德国摩根正式入驻讯飞AI服务市场智能家居版块,共同深耕智能家居领域。以讯飞开放平台与讯飞AI研究院支撑,讯飞AI服务市场覆盖上百个行业,拥有上亿用户,将为德国摩根带来持续稳定的订单与商机,并提供最新的核心AI技术支持、品牌渠道支持等服务。后续,多款德国摩根智能家居产品将在讯飞AI服务市场线上商城开售。

科大讯飞将以领先的人工智能技术和服务为德国摩根赋能,推动更多智能家居产品落地。同时,科大讯飞致力于通过MORFEI智能家居生态为产业链上、下游合作伙伴带来良好的行业环境,为用户带来“有声音、高品质”的智能家居体验。

这台「伪智能」榨汁机,从硅谷骗走了8个亿

强行高科技,最为致命。

1

如果说硅谷这块土地上,工作着全世界最聪明的人们,应该没人会反对。

不过谁能想到,这样一群超高智商的人,却曾经被一台榨汁机耍得团团转。而这场“诈骗”的关键点,正是他们为之工作、引以为豪的“智能”。

让我们一起来听听这个融资1.2亿美元的冷笑话吧——

明星产品诞生

优雅高级的灰白色机身,线条流畅,质感十足。这就是本次事件的主人公,智能榨汁机Juicero。

2

Juicero是一台一辈子都不用清洗的榨汁机,售价为699美元,约合人民币4700元。

如果你想要喝鲜榨果蔬汁,不需要去市场买材料,也不用经历洗刷、削皮、压榨等繁琐工序,只要购买一台Juicero榨汁机,再配上其独有的材料包,按下按钮,新鲜的果蔬汁就立刻送到你面前,就像胶囊咖啡机一样简单。

b4a47f9e1b78623e353b9d399cc1c075

Juicero采用了时下最流行的冷榨技术,能够提供超过4吨的挤压力!这足以抬起2台特斯拉汽车。公司创始人道格·埃文斯称“只有如此强大的压力,才能将原料压榨成浓郁柔和的果汁”。

4

苹果、草莓、西瓜、红萝卜、甘蓝······混合口味的果蔬包精心搭配,材料天然有机,并且保持在“完美的41度”。通过连接手机APP,用户可以轻松追踪材料包里果蔬的生产日期、出产农产、营养成分等信息。

5

这样一款超能榨汁机,连可口可乐的前总裁杰夫·邓恩都被吸引过来,担任了Juicero的CEO。截至2016 年4月,Juicero已获得约1.2 亿美元的投资,成为美国当年最受关注的智能硬件公司。连球星科比都是其投资人之一,脱口秀女王奥普拉(Oprah)也给它做过宣传。

6

Juicero的前途可以说是一片光明啊。

神话坍塌

然而没过多久,事情突然发生了转折——有几个用户闲得无聊,突发奇想地没有把蔬果包放入榨汁机,而是直接用手去挤。

结果发现,稍微一用力,果汁就挤出来了……

7

更尴尬的是,测试结果显示,人手和机器挤压的效果完全一样,甚至力气大一点的朋友,挤得比机器还要快。

兵败如山倒。不久又接连有人爆出Juicero“识别生产日期”的功能也不是什么高科技,完全可以通过一个简单的App实现。甚至保鲜日期明明就直接印在包装上,根本不需要多此一举。

消息传开之后,顾客们立刻炸了:你就算能抬起来挖掘机也不管用了,这就是一个骗局!投资人们也纷纷撤资。

事情发生后,Juicero将价格降到了399美元,但是用户们仍然不买账,最终公司只得以承诺全额退款来平息众怒。

回过头来看,这款这么没有科技含量的伪科技产品竟然能受到一众知名和人士的青睐,并成功获得巨额融资,实在是让人惊讶。

9

但或许正是因为面对硅谷这一群体,Juicero的套路才有了成功的可能:Juicero的创始人是圈内有名的素食者,在好莱坞明星中小有名气;而在硅谷及好莱坞生活的人又大都沉迷于追求健康,而且相信科技可以实现一切。再加上Juicero不低的品牌溢价,使用者可以成功塑造自己“品质生活”的形象,一款现象级的产品就此诞生。

高价的真相

Juicero首席执行官Jeff Dunn曾尝试对自己的产品进行辩护,他写道:”每次的挤压都能产生最美味和最有营养的果汁,而与互联网连接,使得每一条供应链上的产品都足够新鲜。这套系统所有部分的结合带来绝佳的体验,是用户用手挤压无法带来的。“

e386783bd5fc7db9b09ea9eff65022e0

听起来似乎有点道理。但是Juicero发售早期主打的是健康和智能,现在突然强调”体验“,怎么听都像是在给自己洗白。

11

更何况,如果单纯地强调体验而不是科技,这样一台榨汁机也根本不值699美元(约4700人民币)。

直到后来,一位名叫Ben Einsten的硬件设计师拆开了一台Juicero,发现它内部装配的确非常复杂,细节设计也很讲究。例如其内部的齿轮,使用的就是量产消费品中很少见的淬硬钢齿轮。

12

细看了整个机器构造之后Ben Einstein表示,从工程学上看,Juicero榨汁机把各种硬件整合得相当好,并且确实具备厂商声称的”抬起两辆特斯拉“的压榨能力。但其精加工零部件的成本占了总制造成本的 50% 以上,也就是说,用户的花费超过一半都花在了没用的地方。

到了这一步,小智觉得单纯地说Juicero是”诈骗“的确有失公允了。因为它不仅使公众相信这款产品是智能的、有价值的,Juicero公司自己都对此深信不疑,硬是造出了这款效果跟普通手动操作别无二致的昂贵机器。

从”自嗨“到”众嗨“,Juicero为世人展现了一场高科技背景下的集体失智大戏。

伪需求下的高科技自嗨

Juicero这样的产品并不是个案。

在智能市场上,此类“高射炮打蚊子”的案例并不少见,有太多建立在不同程度伪需求之上的鸡肋产品。它们的确都有着不俗的设计构思和科技含量,但因为产品本身的立意和定位问题,导致它们变成了所谓的“高科技废物”,例如——

显示剩余鸡蛋数量的Egg Minder智能鸡蛋架

13

这款智能鸡蛋架可以通过网络与用户的智能手机连接,实现多种提醒功能。例如鸡蛋的剩余数量、每个鸡蛋的放置时间等等,甚至告知用户应该优先吃掉哪一个。

这真的让人有点不解,为啥非得跟鸡蛋这么较真······况且20以内的加减法就这么困难吗?

收到短信就点火的AGA智能灶台

14

即使不在家,直接通过手机也能将灶台点上火。这真的是······

毫无用处啊!

我实在是想不到有什么场景可以使用这一功能,难道是用来纵火的?

15

能够记录如厕时长的Throne Master智能马桶

16

这款Throne Master可以记录下全家人的蹲马桶时长······

人类的攀比心已经蔓延到蹲厕所时间上了嘛?

只能用手机控制的iMagic智能灯

17

你可以在手机APP上操控,实现iMagic的开、关以及颜色调节。

看似还不错,但大概只能用在KTV等娱乐场景里了。因为在日常生活中你会发现,半夜起来上厕所的时候乌漆嘛黑,你想开灯,得先找到手机;想找到手机,你又得先开灯……

智能捕鼠器

18

这是一款颇为厉害的智能捕鼠器,它的功能超多:可以手机遥控、可以把老鼠电死、掐死,可以发强烈的噪音把老鼠震得七窍出血·······

唯一的缺点就是,你需要自己抓住老鼠放进去。

19

像这样让人哭笑不得的产品还有不少。它们确实高智能,却创造的是伪需求,强行把现有产品进行智能化。表面看起来似乎更厉害了,实际上却让原本简单的事变得复杂,物品变得更加不实用。

智能傍身,价格猛增

除了伪需求下产生的尴尬产品,还有许多企业为了蹭上“智能”的热度,硬往自己的产品上贴金,企图借此抬高商品价格、吸引资本。

例如一些装上简单预设程序的音箱、机器人,就敢冠以”智能机器人“的名号;而一些传统的自动化设备也被偷换了概念,包装成了人工智能。还有许多声称可以连接手机APP来进行操控的产品,看似比按键操控高级了不少,其实并没有太高的门槛,只需要加装上一个便宜的无线网络模块,就能够实现和手机App的连接。

20

由于技术知识的门槛较高,普通人很难辨别这些智能产品的真假。再加上商家煽动性的炒作和营销手段,许多消费者很容易就掏钱交了“智商税”。

而在一众技术欺骗事件频发,伪需求、伪智能产品频出之后,期待和现实之间的巨大落差导致公众对AI和其它智能技术产生了严重的信任危机,恶化消费环境,阻碍了产品和技术的发展。

在今年初,华为创始人任正非曾在访谈中提到:“在资本的力量大于研发的力量之后,所有的企业活动都会被资本裹挟,失去发展方向。“

希望一众吹捧“AI超过人类”以吸引眼球的媒体噤噤声,另一些为吸引资本强行给产品冠上智能名号的商家收收手。是时候脚踏实地做好技术,还给人们一个真相了。

讯飞人工智能录音笔京东预约火热开启,开启高效记录时代

京东0元选购,语音秒转文字!

11

整理采访录音常常要花费记者等文字工作者们大量的时间和精力,但在今年两会上我们发现不少媒体记者都“装备”上了新一代的人工智能设备——讯飞智能录音笔。这款“黑科技”产品显著提升了记者的工作效率,更提升了报道的准确性,受到众多媒体记者的热捧。就是这个在两会上走红的人工智能录音笔,现在可以预约购买了!

5月6日,支持语音转文字的新一代智能录音笔——讯飞智能录音笔将在京东正式开启预约,0元预约赢蓝牙耳机

22

颠覆传统录音,讯飞智能录音笔助力高效工作

科大讯飞在智能语音、人工智能领域深耕二十年,这次推出的讯飞智能录音笔搭载了自主知识产权的核心技术,同时考虑消费者使用场景需求,一举打破录音笔单纯的录音-播放限制,充分利用人工智能语音转文字辅助人工。

讯飞智能录音笔颠覆式地推出语音实时转文字功能,不但能完成高质量的录音,还能将录音转写成文字并保存。1个小时的录音,只需要5分钟即可完成转写,为日常工作、学习中的信息记录与整理工作提供一体化解决方案

33

44

传统录音笔即便是几千元的高价位产品在应对不同录音场景时,小到几人的会议,大到上百人的活动现场,也很难“面面俱到”。讯飞智能录音笔采用了2颗哈曼卡顿定向麦克风+6颗矩阵麦克风,一共8颗麦克风的组合,可实现15米超长距离以及360度环绕无死角收声。并且针对使用场景智能调用麦克风,同时结合自有的降噪技术,达到对应场景下的优质使用体验。

使用传统的录音笔经常会遇到的另一个问题就是音频文件的编辑处理。一段录音反复听,二次加工整理文字,费时费力,工作量非常之大。讯飞智能录音笔拥有触摸屏幕,录音时,所说的话实时转写成文字呈现在屏幕上,高效“看”得见。依托业界领先的语音转文字引擎,识别率高达98%。原先1小时的录音,人工整理大约需要3小时;现在通过讯飞自研的智能转写功能,5分钟即可转写成文字,可以帮助你将处理信息的时间大大缩短

55

不仅如此,该款产品的外形设计也可圈可点,航空级铝合金材质,人体工学设计,舒适的握持体验……就是这样一款颠覆传统录音笔的新产品在京东正式开启预约。

未上市先走红,讯飞智能录音笔开启消费者A.I.新体验

早在今年1月的美国CES展上,讯飞智能录音笔就在拉斯维加斯正式展出。科大讯飞副总裁、消费者BG副总裁李传刚博士向现场参会者正式介绍了这款面向消费者的最新智能硬件产品。

66

两会期间,讯飞智能录音笔再次“大显身手”,成为两会记者采访的科技新装备。一边录音一边就可以转成文字、还可以同步翻译成英文 …… 央视、新华社、人民日报、环球时报等多家媒体记者在两会现场中使用了讯飞智能录音笔,其精准快速的录音和转写能力获得了记者们的一致好评。博鳌亚洲论坛期间,讯飞智能录音笔发挥也相当出色。

77

用人工智能突破传统录音笔的桎梏,为生活和工作带来更多可能。讯飞智能录音笔作为支持语音转文字的新一代智能录音笔,让声音信息的存储、编辑、转写、查看功能更加智能和高效。点击链接抢“鲜”预约:http://item.jd.com/100005145212.html,和讯飞智能录音笔一起,开启智能化的高效时代!

超过80%语音开发者的共同选择