阿尔茨海默症:忘了最爱的人,A.I.帮你找回他
据世界卫生组织 (WHO) 公布的一份报告中显示,目前全球阿尔茨海默症患者高达4380万,到2030年,这一数字还将会增加一倍。也就是说,未来社会每3个家庭中就有一位阿尔茨海默症患者。

随着《忘不了餐厅》完美收官,这档由黄渤主持,豆瓣评分高达9.4分的暖心综艺引爆了这个夏天观众的热情,也再次把“阿尔茨海默症”这一话题带入人们关注焦点。

阿尔茨海默症(AD)是老年人认知能力的减退,是原发性的神经元变性。临床表现以记忆障碍、失语、失用、失认等症状。如今世界还未发现治愈方法

微信图片_20190711125927

热播电视剧《都挺好》中的主角苏大强,因为罹患阿尔茨海默症忘记了许多事情,却还记得女儿最想要的作业本。这些感人至深的画面也是赚足了观众的眼泪。

苏大强

(图片来源:电视剧《都挺好》)

其实不仅仅是电视中的老人,在我们看不见的角落还有许许多多的生命承受着不可承受之重——

1

▲眼睛是心灵的窗口,阿尔茨海默症患者的眼神满是无助和迷茫。

ache-adult-back-pain-1573823

▲受糖尿病和AD双重折磨的老人经常脾气暴躁,难以自控。

微信图片_20190712222312

▲“离家不记来时路,从此处处是归途”。由于认知能力减退,病患不可以独自出门,否则后果可能就是失踪。

alone-casual-wear-elderly-man-2452500

▲因为感受不到时间的流逝,86岁的老人坚持要等50岁的孩子“放学”。他可能会忘记时间,但是永远不会忘记爱你!

fc778a10df7c41f1a534df4b0337397e_th

▲”一天要翻8次身,擦洗10次,24小时轮流陪护,现在的孩子哪有这个时间精力来照顾患病老人”养老院的一名护工如是说。

微信图片_20190709112904

▲阿尔茨海默症特征之一就是越久远的事情记得越清晰,或许这样返老还童也是一种幸福。

我们最终都会老去…

然而,你以为阿尔茨海默症只会存在于老年人的世界里?

01
中国患病人数世界第一
年轻人也会患病

《世界阿尔茨海默病报告》显示,全球约有4380万名阿尔茨海默病患者,从1990年到今天预计每20年患病人数将翻一倍,到2030年将达到7470万人,2050年更将突破1.3亿人。

微信图片_20190709134614

(图片来源:GBD全球AD疾病负担研究报告)

我国阿尔茨海默病患者已超过千万,居世界首位,并且每年以30万以上的新发病例快速增长。

1-1P5231G34JI

(图片来源:世界阿尔茨海默症报告)

报告显示96%的患者为65岁以上的老人。那么是不是年轻人就不用担心了呢?别忘了,还有那4%的年轻患者。迄今被发现的最年轻的AD患者年仅27岁。

综上,阿尔茨海默症已经成为世界范围亟待解决的重要难题。如何减少该疾病的发病率?提前预测及早预防是关键!

AI,让阿尔茨海默症远离你身边的人!

02
AI应用阿尔茨海默症检测
全球共话AI+医疗

实验室

预测是如今对付AD最好的方式。根据国际阿尔茨海默病防治协会提供的数据显示:

减少患者总数如果临床治疗可以推迟患者晚发病一年,那每年将会减少900万患者。

节约治疗开支平均每位阿尔茨海默症患者每年耗用33000美元。通过AI预测,早期的诊断和诊断介入,如果可以推迟5年,则可在30年内解决5万亿美元。

快捷无痛预测过去的AD检测采用腰椎穿刺提取脑脊液的方式,对Aβ淀粉样蛋白、Tau蛋白进行检测。

如今通过A.I.技术对阿尔茨海默症进行早筛,诊断日益成熟,可以通过人工智能算法准确预测患病率,减少病人痛楚。

下面我们看一看A.I.应用于AD检测实例:

2018年11月,斯坦福大学的研究人员开发了一种基于深度学习的系统,可从核磁共振成像中自动检测阿尔茨海默症及其生物标志物,准确率高达94%。

该团队采用CUDNN-accelerated TensforFlow深度学习框架,基于Alzheimer’s Disease Neuroimaging Initiative提供的数据集,训练3D卷积神经网络。该神经网络学会解释大脑不同区域及其与疾病的关联,包括与阿尔茨海默症相关的生物标志物。

u=3435944805,1709951527&fm=26&gp=0

国内的A.I.公司雅森科技结合临床病历、神经心理学量表、脑电图及多种影像数据对患者的脑部情况进行分析,利用多模态及深度学习技术。

基于中国人群组标准脑模板及连续五年随访的AD专病数据库,训练出诊断和预测模型,可以对患者进行痴呆症疾病分类及五年内病程预测,并生成结构化报告。

03
开发者大赛首创AD预测赛道
汇智全球开发者

1111

科大讯飞2019届iFLYTEK A.I.开发者大赛是推动人工智能前沿科学研究和创新成果转化,培育人工智能产业人才,助力人工智能生态建设的一项顶尖人工智能竞赛平台。

今年大赛重装上阵,赛题数量增至9个。其中阿尔兹海默综合症预测挑战赛作为其中之一,旨在汇集全球开发者聪明才智,通过人工智能技术预测老人是否患有阿尔茨海默症,从而改变这一社会难题。

为了开发者更好的理解赛题,我们有幸采访到了李鑫博士为我们带来官方赛题解读——

Q:

赛题的设计初衷是什么?

A:
认知障碍是阿尔兹海默症的典型表现,其中言语障碍在疾病早期就有所呈现。轻度病症的患者往往出现找词困难、重复、空语、模糊语等语言表征。通过对于语音语言的智能化处理和分析,可以为临床认知障碍的检测提供具有价值的帮助。
Q:
赛题任务要求是什么?
A:
基于老年人在特定图片描述任务中产生的语音,给定语音数据中提取出的声学特征、主被试对话的切分信息、人工文本转写结果以及对应的认知标签,建立2分类模型预测认知标签(正常或认知障碍)。
Q:
作品提交要求是什么?
A: 
1、文件格式:按照csv格式提交;2、文件大小:无要求;3、提交次数限制:初赛期间共5次;

4、文件详细说明:

以csv格式提交,编码为UTF-8,第一行为表头;
内含2列,第一列为id,第二列为label;
id对应测试集中样本的id,label为参赛者的模型预测结果;

5、不需要提交其他作品

04
写在最后

这世上并不是所有病的治疗方法都能写进药方里。

只有关注,理解,才能切身实地的做点什么去治愈去改善。

小到个人,大到一项赛事。

科大讯飞2019届iFLYTEK A.I.开发者大赛设置9大赛题,立足社会方方面面,以人工智能改善人类生活为己任,找到一条和谐共生的发展之路。

所以小编策划了这档《赛道直通车》栏目,介绍赛题内容同时告诉世界我们可以做什么。请大家持续关注小编,下一期我们会带来教育赛道方面的内容,欢迎到时收看。

如果大家还有哪些问题想要了解,可以添加AI小助手的微信iFLYTEKAI,获取大赛一手资讯,不定期宠粉发放福利。还不快快点击下方二维码加入我们把!
你会扔垃圾吗?iFLYOS教你2步搞定垃圾分类!

路遥知马力,AI识垃圾,专治噢!

《上海市生活垃圾管理条例》已开始实施!条例规定:如果混合投放垃圾、拒不整改,个人最高罚款200元企业单位最高罚款5万元。

如何拯救大家的荷包?听听小智教你一招解决——

素以“金融中心”著称的上海,最近的状态有点反常

1

有市民亲身cos分类垃圾桶:

2

某宝推出的“垃圾桶”包,也成为南京路上一道亮丽风景线。

3

阁下莫非就是电竞圈榜上有名的“垃圾侠”:

4

这年头没点搜索技能都不敢填饱肚子

5

程序员小哥也在编程之余苦练分类技能——

6

当然啦,垃圾分类还要从娃娃抓起——

7

小智在上海的侄子刚刚入手了一套学前小卡片从此沉迷垃圾分类一发不可收拾。

以下是他和妈妈的日常对话——

8

小智看完后心想:说不定以后大侄子会以“垃圾分类”教父C位出道。

9

究竟是什么让上海人民如此沉迷“垃圾分类”,或许我们可以从官方找到答案——

“看不懂”的官方指南

上海出台了官方投放指南——

10

看完这么详细的垃圾分类指南,小智有种重回学生时代,考场上作阅读理解的真实感:这也不会,那也不会…

不过这些难不倒智慧的中国网友,有人给出更接地气的解读方式!

11

当然这种开玩笑的图解没有办法解决实际咱们的实际问题,对于小智这种上班族,垃圾分类的难点主要在于以下两点:

容易错过投放时间

垃圾投放时间设定在早晨和傍晚两个时间段,早晨时间紧任务重,晚上稍微加会班就赶不上。

垃圾要求破袋分类,类目多记不住

作为一名996的“社会汪”,平时工作的压力、社交和聚会等已经占据了大部分的时间。而《条例》中明确要求按照“干垃圾”和“湿垃圾”、可回收物和有害物四大品类投放垃圾。复杂程度无异于重新学习一门专业知识,让无数群众望“图”兴叹。

但是作为环境净化的必经之路,小智绝对拥护垃圾分类条例的实施!就算一开始适应起来会有些麻烦,等到养成良好投放垃圾的习惯后,好处一定大于阵痛。

垃圾分类谁是“头号玩家”

就在大家同情被垃圾分类知识“逼疯”的上海群众时,国家住建部发布最新要求

12

很快各大城市《生活垃圾管理条例》就会来到你我身边,请大家整理好心情,拿起小本本学习一些先进的垃圾分类方法。

13

澳大利亚:垃圾日历APP

澳大利亚居民有一个人人习以为常的垃圾日历APP,通过这款手机软件每天提醒人们把垃圾桶拖到固定的位置,然后会有垃圾回收员进行统一收取,如果有垃圾溢出的部分,管理员不会进行处理,提醒民众时刻遵守垃圾分类原则。

14

德国:建立垃圾分类回收体系

德国家家户户都在厨房的水池下或抽屉中放置不同的垃圾收纳容器,分别收集玻璃瓶、金属、纸张、塑料和厨房垃圾等。然后由专业人员上门收集,并加以循环利用。目前德国的垃圾循环利用率保持在65%以上,居世界前列。

15

垃圾分类见成效。中国如何在这一问题上规避风险,早日实现弯道超车?小智认为除了养成垃圾分类意识,借助人工智能技术帮助人们识别垃圾品类格外重要!

1秒识别,简单便捷小助手

科大讯飞iFLYOS已经最新上线了“生活垃圾分类查询”技能,并且第一时间接入到了讯飞开放平台AI体验栈中。

主要应用到:语音识别技术和语义理解技术,以及iFLYOS开放平台的自定义交互技能功能。

语音识别技术:语音识别技术就是让机器通过识别和理解过程把语音信号转变为相应的文本或命令的技术。语音识别可以理解为“机器的听觉系统”。语音识别技术主要包括特征提取技术、模式匹配准则及模型训练技术三个方面。

语义理解:是使用自然语言同计算机进行通讯的技术, 因为处理自然语言的关键是要让计算机“理解”自然语言,所以自然语言处理又叫做自然语言理解。也称为计算语言学一方面它是语言信息处理的一个分支 , 另一方面它是人工智能的核心课题之一 。

iFLYOS自定义技能:iFLYOS技能工作室(Skill Studio) 是一套可视化的人机对话开发平台,是所有搭载了 iFLYOS 或 AIUI 的设备的大脑。讯飞技能工作室为开发者提供了技能设计、开发、测试、发布、优化的工具,开发者可以通过可视化的界面,快速高效地将自己的创意、产品或服务,通过语音技能传达给智能硬件的用户。

AI+垃圾分类助你1秒识别垃圾,操作便捷易上手。下面小智就教大家如何使用:长按二维码进入小程序,语音输入“我要扔垃圾”

16

↑↑↑戳我戳我戳我↑↑↑

好啦,关于这款垃圾分类小程序我们就介绍到这里啦。垃圾分类,绿色生活,从我们大家做起。

研究所二维码

让你早2小时下班的秘密,都在这节课里 | 新课来了

让你早2小时下班的秘密,都在这节课里

加班加点,已然成为很多职场同学的生活日常。尤其是遇到几个小时候的会议,光是整理会议记录就能让人加班到零点,1个小时的讲话内容整理起来却能耗费3-4小时的时间,然后很多会议都是3小时起步的……

1

今天班主任就要给大家介绍一项重要的智能语音能力——语音转写,能够实现语音内容的识别,展现对应文字内容,会议3小时,出稿30分钟,让同学们每天早2小时下班~(毕竟我们的愿望是可以和东山结衣一样,到!点!就!下!班!)

2

温馨提示:本节课程文字内容较多,阅读需要12分钟~

👇👇👇

3

一、语音转写的本质

语音转写本质上是统计模式识别,对于给定的观察序列O ={o1, o2, · · · , oT },可以采用贝叶斯决策的最大后验概率(MAP)判决来得到最可能的输出序列W∗,其公式表达如下:

4

通过贝斯公式可以把上述公式转变为下列公式:

5

语音转写技术栈里包含了多种技术,比如神经网络这一块,有Bilstm双向神经网络以及dnn模型,LSTM模型cnn模型,还有wfst以及decoder解码器等。

6

语音转写流程大概有以下几个步骤:

  • 首先输入语音信号进来,然后经过降噪、端点检测、特征提取,这些部分可以认为是前端处理模块;
  • 经过前端处理,得到特征之后,就可以进入识别过程,识别过程中用到了两个模型,一是声学模型,一是语言模型;
  • 结合声学模型语言模型,在解码器中进行识别解码的过程,得到相应的识别结果;
  • 然后将识别结果经过一些文本处理相关操作,最终得到识别结果。

这其中还包含了一个训练过程,离线训练的时候,将提取到的语音特征,送到模型训练模块去进行离线训练,得到声学模型以及语言模型。

二、语音转写相关技术

下面我们来看一下前端处理、识别过程、后处理这几大块的相关技术。

前端处理

前端处理模块主要是将接收到语音信号进行预处理,增强或降噪等。

加窗分帧

对于预处理后的语音波形信号,首先需要进行加窗和分帧操作。 通常采用 25ms 的汉明窗,窗移为 10ms。这样整段的语音波形就会被分割成很多带有重叠的 25ms 的小语音片段,然后再使用合适的声学特征提取算法从 25ms 的语音片段中提取相应的声学特征。

7

声学特征

好的声学特征不仅需要具有很强的区分特性,可以很好地表达不同音素之间的差异性,而且还需要具有很好的鲁棒性,不受噪音环境的干扰。

通过分析人类听觉系统的时频分析特征和听觉掩蔽效应,研究人员提出了多种不同的声学特征。

下列表格列了一些常见的声学特征,以及它们相关的应用场景。

8

VAD

VAD是Voice Activity Detection 的简称,语音活动检测,又称端点检测。是在一段音频信号中对语音信号和非语音信号(包括无声段或背景噪声)进行划分,提取语音信号部分的一个过程。

它主要作用是要提把已接收到一段语音信号提取有效的音频段,减少噪音的干扰。其实它既减少了噪音的干扰,也减少了语音识别过程中的计算量。

目前VAD常用的都是一些模型方案,比如DNN模型,输入每一帧音频的特征,预测这一帧到底是有效语音还是非有效语音。

三、声学模型计算

下面我们讲一下声学模型的计算。首先同学们想一想声学模型计算到底是在计算什么?

对于每一个可能的词序W,计算出条件概率P(O|W),即我们通常所说的AC score。

O可以认为是一个发音信息,在输入W条件下输出O的一个概念,也就是说每一帧的语音对应的是到底是什么音素。

常见的有单音素模型,单音素模型没有考虑本音素前后音素对本音素的影响;还有三音素素模型,它考虑到上下文的因素,是现在最常用的一个声学建模单元式。

9

声学模型计算的主要任务是判断每一帧语音属于什么音素,以上面图谱为例,声学模型其实要判断哪一帧是静音sil,哪些帧是声母zh,哪些帧是韵母ong等。

按模式识别的套路,先提取出特征,再建立分类模型。

FFT将时域转换到频域,因为频域对音素具有更好的区分能力,接下来我们将频域特征经过mel滤波器,主要是模拟人耳听音,这样就得到了代表一帧语音的特征向量。

接下来可以使用前馈神经网络,输入为mel filterbank特征,输出可以为音素或其它建模单元。

按这个框架是不是就解决了语音识别中的声学建模问题呢?显然不是,因为语音是典型的时序序列信号,不同的人说同样的音,或同样的音在不同的上下文中时长是不一样的。每一帧都得到一个音素,但相邻帧可能是不同的音素,这样最后会得到一堆乱七八糟的音素序列,很难形成自然的文字序列。

基于HMM-GMM框架

怎么解决这个问题呢,第一代语音识别使用HMM-GMM技术框架

首先,将建模单元从音素退化到状态,即一个音素有3-5个状态构成;对一个音素而言,只有从起始状态跳转到结束状态,一个音素才算识别结束。

其次,我们用HMM模型来建模状态跳转概率,可以看这幅图中是ue2这个音素的HMM单元;我们将音素的中间状态设计成可以自跳转,从而解决了同一个音素在不同的上下文时长不同的问题。

10

最后,我们用GMM建模状态输出概率,HMM-GMM模型在语音识别历史上起到了重要作用,对语音识别的实用化至关重要。

基于HMM-DNN框架

第二代框架仍使用HMM建模状态转移概率,但使用DNN替换GMM模型。在GMM模型框架下,不同的状态采用不同的模型来建模,在DNN框架下,所有的状态采用同一个模型来建模,也就是所有的状态共享一个输出层。

11

这样做有3个好处:

  • GMM是local的表达,DNN是分布式表达;意思是当训练音素A时,使用GMM只能用A的所有数据,使用DNN既可以用A的数据,也可以用A的反例数据;这么做使得DNN模型的区分能力更强;
  • GMM模型因为计算复杂度的原因需要帧独立性假设,这显然是不符合语音的属性的;但DNN是不需要的;
  • DNN同时具有特征取的能力,DNN的底层可以看成特征提取层,所以我们可以输入更原始的特征,让模型自动通过数据进行学习。这一点对于效果的提升很有好处。

语音识别需要对波形进行加窗、分帧、提取特征等预处理。训练GMM时候,输入特征一般只能是单帧的信号,而对于DNN可以采用拼接帧作为输入,这些是DNN相比GMM可以获得很大性能提升的关键因素。

基于HMM-RNN框架

然而,语音是一种各帧之间具有很强相关性的复杂时变信号,这种相关性主要体现在说话时的协同发音现象上,往往前后好几个字对我们正要说的字都有影响,也就是语音的各帧之间具有长时相关性。采用拼接帧的方式可以学到一定程度的上下文信息。但是由于DNN输入的窗长是固定的,从而导致DNN对于时序信息的长时相关性的建模是较弱的。

考虑到语音信号的长时相关性,一个自然而然的想法是选用具有更强长时建模能力的神经网络模型。于是,循环神经网络(RecurrentNeural Network,RNN)出现了。

12

如图,相比前馈型神经网络DNN,循环神经网络在隐层上增加了一个反馈连接,也就是说,RNN隐层当前时刻的输入有一部分是前一时刻的隐层输出,这使得RNN可以通过循环反馈连接看到前面所有时刻的信息,这赋予了RNN记忆功能。这些特点使得RNN非常适合用于对时序信号的建模。

基于HMM-LSTM框架

而长短时记忆模块(Long-Short Term Memory,LSTM)的引入解决了传统简单RNN梯度消失等问题,使得lstm框架可以在语音识别领域实用化并获得了超越DNN的效果。

13

主流RNN声学模型框架都是基于lstm结构的,主要包含两部分:深层双向lstm和序列短时分类(Connectionist TemporalClassification,CTC)输出层。

其中双向RNN对当前语音帧进行判断时,不仅可以利用历史的语音信息,还可以利用未来的语音信息,从而进行更加准确的决策;CTC使得训练过程无需帧级别的标注,实现有效的“端对端”训练。

基于HMM-CNN框架

CNN早在2012年就被用于语音识别系统,并且一直以来都有很多研究人员积极投身于基于CNN的语音识别系统的研究,但始终没有大的突破。

最主要的原因是他们没有突破传统前馈神经网络采用固定长度的帧拼接作为输入的思维定式,从而无法看到足够长的语音上下文信息。另外一个缺陷是他们只是将CNN视作一种特征提取器,因此所用的卷积层数很少,一般只有一到二层,这样的卷积网络表达能力十分有限。

14

针对这些问题,我们研发了一种名为深度全序列卷积神经网络(Deep Fully ConvolutionalNeural Network,DFCNN)的语音识别框架,使用大量的卷积层直接对整句语音信号进行建模,更好地表达了语音的长时相关性。

DFCNN的结构,它直接将一句语音转化成一张图像作为输入,通过累积非常多的这种卷积池化层对,DFCNN可以看到非常长的历史和未来信息,这就保证了DFCNN可以出色地表达语音的长时相关性,相比RNN网络结构在鲁棒性上更加出色。

基于Enc-Dec框架

基于HMM-GMM框架的语音识别系统可以认为是第一代语音识别系统,基于HMM-DNN、HMM-RNN、HMM-CNN框架的系统可以认为是第二代语音识别系统。

这些语音识别系统都是由声学模型和语言模型两部分组成,由于两个部分在训练时相互独立,因此在实际应用中经常会出现由两个模型的协同不好引起的识别错误。而ED方案最大优点是声学和语言的联合训练,训练方式更为简单,并且在大数据时代,这个优点会更加的突出。

15

同时,由于传统语音识别的方案采用音素状态建模的方式,中英文混合建模容易带来相互之间串扰的问题,实际使用中一般采用中文和英文分别建模的方案。

而对于编解码识别框架,建模单元可以选用对中文的单字和英文联合建模的方式,而中文的单字和英文的单词基本上不会出现发音相近的情况,避免了传统方案中的中英文相互串扰的问题。为了减少建模单元的数量同时又保证英文单词对于罕见词的覆盖度,英文建模单元拟根据双字节编码(BPE)的方式构建英文子词。

因此,基于注意力机制的中英文混合建模的编解码语音识别系统的建模单元采用中文的单字和英文的子词的混合建模方式

基于Enc-Dec的语音识别系统可以称为第三代语音识别系统,也是最新一代的识别系统,可以同时支持多个语种,例如现在讯飞输入法上线的中英随心说功能就是使用的ED模型,可以同时支持中英文。

看到这里的小伙伴~都是学习力max的好童鞋~关于语音转写的技术课程,其实并没有完全讲完,因为阅读时长缘故,语言模型和解码部分的内容就都放在视频课程中了,希望感兴趣的小伙伴能够认真学完~

研究所二维码

智能语音的未来,从这里开始

1877年,爱迪生在笔记本上写下:“要让机器会说话,会唱歌,会哭闹。”

Hello~研究所的小伙伴们大家好,今天小智要给大家推荐一本书——《智能语音时代》。书中对苹果、谷歌、微软、亚马逊、facebook等行业巨头的智能语音技术布局和商业角逐进行了深度分析,非常值得一看哦!

下面我们就来看一看关于本书的详细介绍吧~

1

作者:[美] 詹姆斯· 弗拉霍斯(James Vlahos),是《纽约时报》《连线》《大众科学》《科学美国人》《大西洋》《智族GQ》和《国家地理》等杂志著名记者,美国鬼才科普作家

出版社:电子工业出版社

出版时间:2019年5月

20世纪90年代,互联网还比较封闭,许多用户依赖美国在线来组织管理网站,他们在一个网站收集信息的同时也要列出其他可能包含有用信息的外部网站。如有体育或金融信息的网站,用户的浏览范围极大地受到限制,这就好像是“被围墙包围的花园”,随后谷歌公司用一把“大锤”敲开了这些“围墙”:通过谷歌搜索引擎,人们可以轻松访问各种网站、自由浏览网页。

但是这几年,谷歌公司和亚马逊似乎打算重建“花园围墙”。

谷歌公司的即时回答功能减少了人们从搜索结果页面导航到其他网站的需求;谷歌和亚马逊分别推出了各自的语音助理,正如数字营销机构胡歌的创意总监索菲·克莱伯所说,“亚历克莎就是语音版的美国在线。”

谷歌助理和亚历克莎应用程序都是由谷歌公司和亚马逊公司自己开发的,用户要访问任何第三方应用程序,必须首先使用谷歌助理或亚历克莎。例如,如果用户想使用亚历克莎的语音调用功能,可以说:“亚历克莎,看下《华盛顿邮报》头条”或“亚历克莎,玩下《危险边缘》游戏。”同样地,用户也可以说:“打开点评网站Yelp”或“娱乐与体育节目电视网上有什么新闻?”

如果用户确切地知道想要的应用程序,这种语音调用可以很好地工作,否则,这就像在没有搜索引擎帮助的情况下寻找新网站。因此,当在没有指定应用程序的情况下提出问题或请求时,亚历克莎或谷歌助理将可以决定如何实现它。这给了谷歌公司和亚马逊公司很大的控制权来决定语音流量的去向。

整个安排看起来很像过去那些“被围墙包围的花园”。这并不一定是那些公司(以亚马逊公司或谷歌公司为代表)为获得控制权而有意为之的,尽管它们当然非常乐意从中获益。语音调用适合由一个单一的数字实体来进行,Siri的开发者们当然也认同这一观点。

在没有主导性的语音助理的情况下,每个语音应用程序都是被独立开发的,每个语音应用程序都有自己的名字、特定的能力和专门的命令的标识。“我觉得人们记不住1万个不同的名字和命令集,”切耶尔说,“因此,这个模式不能一直扩大。”

离开苹果公司后,切耶尔和吉特劳斯开发了语音助理Viv,他们希望打造一个单一的、全能的语音助理。谷歌公司和亚马逊公司虽然不希望被人视为“有围墙的花园的守门人”,但它们一直在往这个方向走。与它们不同的是,Viv团队已经公开宣布它的目标是成为人们需要的最后一台,也是最好的一台计算机。

“这是一场竞赛,”吉特劳斯说,“一场为用户设计单一界面的竞赛。”

一.

Viv团队拥有由智能语音领域开拓者所开发的强大技术。虽然它的面世较晚,但该团队已成为这场界面竞赛中的一匹“黑马”。几年前似乎还是“万马奔腾”的竞争场面,但现在胜负已经非常明显了。

让我们从苹果公司开始,一个公司接一个公司地分析。Siri是世界上被使用最广泛的语音助理,它每月处理100亿次请求,会说20多种语言,这是个好消息。

坏消息是,苹果公司没有按照Siri开发者的设想来推进Siri的发展,这使它的能力没有预想的那么好。许多科技评论家都把焦点放在Siri身上,不管公平与否,Siri已经成为语音人工智能的“出气筒”。Siri“笨手笨脚”“令人尴尬”(《华盛顿邮报》);“Siri是苹果公司错失的最大机会”(《休斯敦纪事报》);“Siri有令人尴尬的不足之处”(《纽约时报》)。技术分析师杰瑞米·欧阳告诉《今日美国》:“这就好像苹果公司已经完全放弃了Siri。”

虽然这有点言过其实,但苹果公司被批评并不冤枉,它最初是语音人工智能的领导者,但现在已经落到后边了。直到2018年2月,苹果公司才发布了智能音箱HomePod。这已是在谷歌公司推出智能家居设备谷歌家庭近一年半之后,也是在亚马逊回声音箱推出三年半之后的事了。

评论家称赞了智能音箱HomePod的音质,但也指出人们需要为它支付更高的费用——发布时的售价是349美元,而亚马逊回声音箱发布时的价格是99美元。很多人指责Siri在这款设备上的表现不佳。截至2018年6月,智能音箱HomePod在美国智能音箱市场的份额仅为4%。

苹果公司在智能语音领域的做法,似乎与它的设备制造商的背景有关。因此,苹果公司将Siri定位为基于设备的一项重要的特色功能,而不是被销售的产品。然而,如果像谷歌公司和亚马逊公司预测的那样,这种技术将成为一种环境性的存在,那么语音助理将至少会给苹果公司带来一些风险。

在未来的这种人工智能机器人“生活”在云端、通过廉价商品“发声”的世界里,销售高价电子产品的苹果公司,与现在相比,可能会变弱很多。

二.

接下来分析微软公司,微软公司拥有世界一流的人工智能部门,员工有8000多人。它拥有强大的必应搜索引擎,可以增强其语音助理回答问题的智能水平。它还有一个成熟的语音助理——微软小娜。

但微软公司很难让它的语音技术得到用户的青睐。它在必应和Skype上都有聊天机器人,但这两个平台都远不如谷歌公司或脸书公司的Messenger这种平台那么受欢迎。用户可以在手机操作系统Windows Phone上使用微软小娜,但由于该系统的市场占有率从未突破个位数,装有该系统的手机已于2017年停售。

在智能音箱方面,配备微软小娜的哈曼卡顿智能音箱的市场份额非常小,开发人员不愿意开发语音应用程序,不愿意眼睁睁地看着它们在一个不受欢迎的平台上慢慢被大众遗忘,所以,他们大多都避开了微软小娜。

尽管面临这些挑战,但微软公司并没有放弃。用户可以通过Windows操作系统访问微软小娜,微软小娜每月约有1.45亿活跃用户。微软公司并没有把微软小娜作为一款全能型助理来销售,而是将它定位为一名职场助理,这符合微软小娜近来的整体战略:向公司提供软件和基于云的商业服务,其中包括人工智能支持的语音技术。

因此,微软小娜在智能语音领域不是一个全面的领先者,但微软公司在公司领域的竞争中还处于稳固的有利位置。

脸书公司未来的发展也是个未知数。如果它效仿微信的模式——微信实际上是有10亿用户的即时通信平台——那么脸书公司的状况会很好,因为他们在Messenger上布置了强大的机器人。但是否会这样发展,形势还不明朗。

除了即时通信平台,脸书公司还进行了广泛的语音人工智能研究,但在落地过程中,进展不是很顺利。据报道,脸书公司开发了一款智能音箱,但在剑桥分析公司的丑闻引发人们对隐私的担忧后,该产品的发布被搁置。所以,脸书公司现在在智能语音领域发力还不够。

三.

无论以何种标准衡量,谷歌公司和亚马逊公司都是这场竞争中最受欢迎的赢家。

2018年,只有39款设备支持与微软小娜集成,194款设备支持与Siri集成,而5000多款设备支持与谷歌助理集成, 2万款设备支持与亚历克莎集成。在全球范围内,为谷歌助理开发的应用小程序有1700多个,为亚历克莎开发的应用小程序有5万个。亚马逊公司占据了美国智能音箱市场65%的份额,谷歌公司占据了20%的份额。

谷歌公司和亚马逊公司是美国智能语音领域很受欢迎的公司,判断它们前景的最佳方式是看它们选择如何从语音业务中盈利。当你直接向这两家公司的高管提出盈利方面的问题时,他们会感到窘迫,会老生常谈地说语音技术还处于早期阶段。

他们可能会表示,他们仍在努力为用户寻找最佳体验,一旦解决了这个问题,回报就会随之而来。这个回答虽然含糊其词,但也并非假话。到目前为止,两家公司都在抢占地盘,在努力吸引尽可能多的用户,因为它们知道,领先的平台最终会有多种方式获得巨额利润。

不过,即便是现在,两家公司的高管们肯定也在考虑各种盈利途径。最简单的盈利模式是直接从来马逊回声音箱和谷歌家庭等设备的销售中获利。但与苹果公司不同的是,这两家公司似乎都对这一模式不感兴趣,因为它们都在压低价格以扩大市场份额。

一家独立研究公司拆解了一台亚马逊回声音箱,并估计其组件的成本约为35美元。算上管理费用和运输成本,它的实际成本会更高,而亚马逊网站却以29.95美元的低价出售它。亚历克莎开发和发布的负责人格雷格·哈特表示:“我们通过让人们使用我们的服务来盈利,而不是靠用户购买设备来盈利。”

下一个可考虑的盈利模式是做广告。其他公司可以通过付费的方式在语音助理说话之前或之后植入广告。但到目前为止,谷歌公司和亚马逊公司都还不允许这样操作,但在未来的某个时刻,它们肯定会这么做,问题是哪家公司会第一个开始。

“它们都不想成为第一个这样做的公司,因为另一个公司会说,‘嘿,我们公司不做广告,他们公司做广告。’”语音人工智能领域的企业家亚当·马奇克说。

不过,语音广告似乎不太可能产生与在线广告和移动广告相当的收入,因为适合播放语音广告的平台比较少。如果你使用传统的谷歌搜索引擎,如搜索廉价航班,那么谷歌公司可以在链接列表的顶端投放四个付费搜索广告,但如果消费者在听到一个答案之前必须听四个广告,他们就不会进行太多的语音搜索。

这对于谷歌公司来说是有问题的。谷歌公司基于广告的模式——谷歌公司以这种模式创造惊人的巨额收入——是以人们愿意花大量时间来翻阅搜索结果为前提的。

随着人们使用手机的时间增加,他们浏览搜索结果页面所花的时间已经减少了,页面广告曝光率的下降趋势伴随着语音搜索的出现而加剧。“谷歌公司会想,‘哎呀’,”弗雷斯特研究公司的市场分析师詹姆斯·麦奎维说,“当人们开始喜欢语音搜索时,我们的传统商业模式就彻底消失了,因为真的不会有太多的广告模式存在。”

利用语音服务盈利的最大机会可能出现在电商领域,这显然对亚马逊公司有利。在家里的任何地方,用户都可以通过语音订购东西——纸巾、薯片、新的烤面包机等。一项市场研究预测,到2022年语音购物的规模将从目前每年20亿美元增加到每年400亿美元。另一项研究发现,拥有亚历克莎设备的家庭每年花在亚马逊网站购物的钱比普通家庭多66%。

亚马逊公司的“糖果罐”变得更甜了。无论何时,只要有人通过语音搜索或订购产品但没有指定品牌,亚马逊网站都会第一个推荐做广告的品牌。当消费者通过语音购物时,如果他们不喜欢听到的第一个品牌,就可能会要求提供更多的品牌选择但也可能不会,这会让出售商品的公司感到压力,但增强了亚马逊公司的影响力。马奇克说:“突然之间你不再买原来的品牌了,你会买亚马逊网站告诉你的品牌。”

如果一个公司的产品在搜索结果中靠前,或最先被提及,那么它的销售额很可能远远高于在搜索结果中排名靠后的产品。因此,公司会乐于向亚马逊公司付广告费。更重要的是,亚马逊公司有自有品牌,从童装到狗粮,有上百个品牌,而且品牌数量还在不断增加,亚马逊公司肯定会在语音搜索中优先推送这些品牌。

亚马逊公司尚未公开表示是否会允许其他公司付费以获得语音搜索排名优先权。它需要以一种足够透明的方式做到这一点,以免让客户觉得自己受骗了。对于付费排名有一个先例:在基于屏幕的亚马逊网站上,公司付费获得的产品特色展示信息显示在其他产品信息之前。

谷歌公司并非没有意识到电子商务可能是从语音业务中盈利的最佳方式。谷歌公司与沃尔玛公司、塔吉特公司、好市多公司、科尔士百货公司、史泰博公司等零售商结成了联盟,这些公司受到共同敌人亚马逊公司的威胁。

谷歌公司计划扩大其购物平台,要成为亚马逊公司更有力的竞争对手。只要谷歌公司在用户语音搜索后将其引导到联盟公司的网站,谷歌公司就可以通过这一领先的商业模式收取这些零售商的少量广告费。

总而言之,在美国智能语音领域实力强大的谷歌公司正在快速成长。

亚历克莎在市场份额和盈利模式方面都相当有优势,亚马逊公司在目前的竞争中领先一步。麦奎维说:“地球上每一家想用语音人工智能做点事的公司都在联系亚马逊公司,每个想在语音人工智能方面有所成就的研究生都在联系亚马逊公司……亚马逊公司在智能语音领域积累了如此多的优势,这真的只剩一个问题,即它会在什么时候选择大干一场。”

四.

时间是2036年4月,地点是Hip 4872——这是位于仙后座星群里的一颗恒星。从地球发出的无线电信号经过近33年的“长途跋涉”后到达这里。无线电信号包括关于智人的基本信息及关于人类的数学、物理、化学和地理的浓缩版知识。里面还有国旗画面、宇航员莎莉·莱德发来的信息及大卫·鲍伊的歌曲《星侠》的编码。

上面所有这些都是在一个名为Cosmic Call的外星人探索项目的支持下,通过射电望远镜发射的。如果任何有智慧的生物接收并解读出这些信号,它们将会收到创建计算机程序的指引,当然,这种可能性是微乎其微的。一旦实现,外星人就可以与人类的代表——机器人艾拉交流。

作为勒布纳奖得主的聊天机器人,艾拉会聊天和讲笑话。它对美食和名人都有自己的看法,它会喋喋不休地谈论在拉斯维加斯和温哥华等地旅行的事。由于它喜欢瞎猜,总是不按常理出牌,因此它无疑是一个不完美的“地球大使”。但是,它对语言的巧妙运用和显而易见的交谈欲望,使它成为整个Cosmic Call项目中最具人类特色的元素。

当我们在语音技术的推动下向前迈进时,世界应该拥抱它所创造的充满希望的人文精神。从鱼钩到火星探测器,我们一直在制造工具。虽然我们制造出了很多对我们有用的东西,但它们在更深层次上都不像我们。即使是类人机器人,它们能做的也只是笨拙地移动,使用语言是人类这个物种真正与众不同的地方。

语言把我们连接起来,因此,教机器掌握语言不同于通过编程让它们学会进行衍生品交易、做手术、进行海底航行或其他事情。我们正在“共享”人类的核心特征。

这份“礼物”不应该随便“赠送”。语音技术为世界带来了新的力量和便利性,但我们不用对其如此敬畏以至于忘记评估其中的许多风险。如果应对得当,语音技术有可能成为我们发明的、最有感情的技术。认为人工智能只能是冷冰冰的算法的观点是错误的,我们可以将最好的价值观和同理心注入其中。

我们可以让它变得聪明、令人愉快、精灵古怪并且善解人意。有了语音技术,我们最终可以制造出不那么陌生、更像人类的机器。

2

想了解更多关于《智能语音时代》吗?

当当网京东均在售,现在购买正版书籍,还随书赠送200元科大讯飞智能办公本优惠券哦!

研究所二维码

超过80%语音开发者的共同选择