科大讯飞魏思:技术在不断发展的同时,也在朝着历史「回归」

技术在不断发展的同时,也在朝着历史「回归」
如何去定义这些问题,并在有限的场景下去部分解决问题,才是我们下一步的发展方向.

在刚刚结束的全球1024开发者节上,科大讯飞研究院魏思就模式识别和人工智能的发展关系和发展历史问题,做了他自己15年来的A.I.追光故事分享。

他在分享中提出如下观点:

技术在不断发展的同时,也在朝着历史「回归」

如何去定义这些问题,并在有限的场景下去部分解决问题,才是我们下一步的发展方向

……

这些观点是非常值得我们去学习和思考的,我们将魏思院长的演讲文稿整理出来,希望对大家未来的研究之路能够有所启发。

以下为演讲稿的文字整理,有部分微调

我叫魏思,来自科大讯飞研究院,我大概有15年的时间一直在从事模式识别方面的工作。

模式识别大概有60、70年的发展历史,最近这十年好像行业技术发展得很好,但实际上我认为它是朝着历史回归了

目前所有研究的方向、模型都回归到了条件相关性或者是条件依赖性的数学模型上,而此模型是在80年代中期由美国科学家Judea Pearl提出来的,后来这套模型演变成了图模型,目前的基于深度学习的模型和图模型在数学上的变化非常小,但是实际效果变化却非常大。

接下来我会从4个方向去讲述这几十年来技术的发展脉络。这4个方向分别是人类或者动物的神经元信号的传递机理和人工神经网络;统计和模式识别;语音和语言方面的研究;图像识别的研究进展

 

点击查看魏思演讲全部视频

从生物神经网络到人工神经网络

18世纪,意大利的科学家伽伐尼发现青蛙的蛙腿放在金属上会引起抽搐,这是人类第一次发现肌肉可以由电刺激而产生动作,于是伽伐尼猜测了生物电的存在。

1920年阿德里安通过实验证明了神经元动作电位的存在。而早在20世纪初的时候,科学家伯恩斯坦提出了静息膜电位的概念,并发现静息膜电位为-70mv,同时他猜测带电物体穿越细胞膜或许是动作电位产生的机理。

1939年霍奇金和赫胥黎通过枪乌贼神经元的系列精细实验证明了神经元的细胞内外确实存在电流,并测量出了动作电位的大小(110mv)。他们发现是钠离子的内流形成了真正的动作电位,钠离子内流之后钾离子外流保持细胞内外的静息膜电位然后他们猜测了两件事情,第一,膜上有离子通道,第二,存在离子转运蛋白保持膜内外离子平衡,这些后来都被分子生物学所证明。静息膜电位,离子内外流动和转运蛋白一起完成了动作电位的产生。
h'y640

 

魏思现场演讲

同期(1920-1930)Loewi,Dale,Katz发现了神经递质乙酰胆碱,乙酰胆碱引起离子通道打开从而在神经元间形成动作电位,完成了信息在不同神经元之间的传递,至此,神经元的信号传递分子机理基本梳理清楚了。

在此基础上,1943年McCulloch和Pitts提出一种非常简单的数学模型(MP模型)去近似神经元的信号处理机制。1958年美国科学家罗森布拉特首次发现可以用MP模型,去完成很简单的模式识别任务,也就是让机器识别物体和数字,这也是第一代神经网络,我们称之为感知机

我们把那个阶段称之为神经网络第一次浪潮,但很快浪潮就过去了,因为当时的感知机的识别性能比较低,在实际中很难发挥作用。

同时在50年代,Kuffler,Hubel和Wiesel发现了视觉神经系统的工作机理,原来视觉不是响应弥散光的照射,而是响应不同形状的光照。他们创造性的提出了感受野的概念,现在我们知道这就是滤波器。

受此研究的影响,贝尔实验室的科学家LeCun在80年代末90年代初想到了利用卷积或者形状响应机理设计一种算法去进行文字的识别,但当时,模式识别界被SVM主导,这个发明并没有引起很大的反响。

640了魏思现场演讲

同时,从80年代到90年代,Hopfield提出了动态神经网络,Schmidhuber和Hochreiter提出带遗忘机制的动态神经网络模型。但那时并不被看好,直到近几年这个模型才逐渐流行开来。2006年以后,Hinton复兴了深度学习,并在语音和图像上取得了突破性进展,深度学习也获得了极大的应用这就是我们说的从神经元的工作机理,到人工神经网络的发展历史。

 

统计和模式识别的发展

统计的雏形是概率和计算而最早的广为人知的统计算法是最小二乘法,它是在1805年由勒让德首先发明的,并在1824年由高斯用误差分析的方式重新阐述以后获得了极大的影响力,是前模式识别时代应用最广泛的算法。

1885年弗朗西斯·高尔顿发明了回归,同时利用数据统计和图形化首次得到了二维正态密度的分布图和相关系数等重要概念,要说现代统计肇始于高尔顿也不为过。

高尔顿赞助卡尔.皮尔逊在伦敦大学学院(UC London)成立了统计实验室,造就了20世纪早期开始的统计学革命。费舍尔(Sir R. A. Fisher)在1936年提出的线性区分性分析(LDA),纽曼,爱根·皮尔逊(卡尔·皮尔逊的儿子)同期提出的似然比检验(Likelihood Ratio Test)则可以称之为现代分类器的雏形。这些概念后来演变成了现代模式识别体系。

1950年美国科学家Abraham Wald系统地将“统计决策理论”阐述清楚。从那时候开始,模式识别慢慢成熟,我们有了很多可用的模型,比如说线性分类器、树分类器,GMM模型,HMM模型等。

这里面特别值得一提的就是条件相关性模型,1985年Judea Pearl提出来贝叶斯网络, 此后,Judea Pearl对图模型的学习、推理等进行了系统性的研究,并解决了一系列数学问题他在科普书(The book of why)中自豪的称自己的工作解决了人类智慧的秘密(寻找事物之间的因果关系),他也因此得了2011年图灵奖。

64045魏思现场演讲

但事实上图模型的学习和推理非常难(数学上的术语是图模型的学习是NP-Hard的),在实际应用中的效果并不是很好。在2006年到2010年期间,以Hinton为代表的人工智能学者发现在用神经网络让模型通过数据和算法自动去获数据之间以及数据和标签之间的条件相关性,可以获得非常好的效果

从上面我们可看到,模式识别也慢慢地发展到了对条件相关性的利用和训练方向上来了。

 

语音和语言的发展

在语音方面我会讲两个方向,语音合成和语音识别。

语音合成在90年代以前都只是实验室的项目,到了90年代后,研究人员发现可以通过预先录制很多的语音,在实际使用的时候把数据拿出来进行拼接来进行语音合成。奇怪的是,这么简单的做法,居然可以获得相当好的效果。但是这样得到的语音连贯度和平滑度不够,所以研究人员设计了很多的启发式的规则和方法,去调整语音合成的连贯度和平滑度。

2000年,日本科学家Tokuda把语音识别中的常用方法HMM用到了语音合成上,提出了新的语音合成方法,虽然在当时它的效果不是很好,但很快人们发现用这种新的方法,在语音合成的效率、平滑度问题上,都有很好的表现。

2016年年Google提出了WaveNet,我们也利用条件自回归模型取得了较大进展。目前,由于利用了长时的相关性,我们的语音合成效果非常棒,语音合成也慢慢收敛到条件相关性上来了。

语音识别历史就更长了,而且更有意思。 1971年JennyBaum发明了HMM,1975年James Baker把HMM用到了语音识别上80年代到90年代,GMM/HMM的EM算法被几个小组(CMU,IBM,Bell lab)重新定义(1977年Dempster就已经从数学上把EM算法做出来了),一批科学家从无到有地将EM算法和HMM语音识别上的整套体系建立起来了。自此语音识别被HMM主导并由于HTK(HMM Toolkit, Cambridge)的出现而得到了大面积的推广。

2010年,Hinton首次提出利用深度网络结合HMM进行语音识别,并和微软研究院俞栋和邓力合作在SWB上获得了相对30%的提升,从此语音识别翻开了新的一页。

综上所述,可以看出语音合成和语音识别也都收敛到条件相关性的数学模型上来了


64088

 

魏思现场演讲

下面,我们来看看语言。

在很早的时候,语言是定性和分析的科学。

到了90年代,随着HMM模型的普及,特别是HMM在机器翻译上的成功应用,语言也进入了统计的时代。

2001年JohnLafferty发明了条件随机场模型,这个模型考虑了特征域和标签域的条件相关性(相比HMM,多考虑了标签域的相关性),由于考虑到了更多的条件相关性,条件随机场的效果好过其他的模型,也获得了大量的应用在2001年之后,条件随机场几乎主导了需要处理动态信息的自然语言处理系统。

2012年,Minklov首次利用(RNN)语言模型取得了语音识别的显著提升,同时他们发现可以利用RNN语言模型生成符合语法规范的句子,而在此之前机器自动生成合乎语法规范的句子几乎是不可能完成的任务。

2015年,Google和Universityof Montreal几乎同时提出了利用编码解码机制去进行机器翻译,再加上注意机制(Attention)的引入,机器翻译在过去的几年间发生了翻天覆地的变化。机器翻译的效果在简单场景下已经达到了人工的水平。而这套模型也是利用了神经网络实现了特征域和标签域的全部条件相关性

由上我们可以看到,语音和语言,也都收敛到了条件相关性模型上了。

 

图像识别的研究进展

图像识别的发展可以分为2个阶段, 2012年之前和2012年之后。

在2012年以前,大部分图像识别类的任务都是在发明非常精巧的算法,或者定义更加复杂有效的滤波器。这些工作虽然比较漂亮,但在实际复杂场景下的推广性不佳,如说人脸识别和物体识别。视觉识别方面(如人脸,物体,物体分割等)的研究也一直没有获得大规模应用。

2012年Krizhevsky和Hinton首次提出了利用多层子卷积神经网络来进行图像识别在2012年的ImageNet比赛上遥遥领先传统方案,以显著优势获得第一名。从2012年以后,深度卷积网络几乎主导了计算机视觉的研究,现在几乎所有的视觉类任务都可以看到深度卷积网络。

为什么会出现这样的现象?实际上所有人工设计的分类器或者特征,都是在试图用人工的方法去找到特征之间的条件相关性,这是非常困难的。

而深度卷积网络让机器通过海量数据自动去提取条件相关性,这样可以发现非常复杂和隐藏的相关性

由此可见,图像识别也收敛到了条件相关性上来了。
64000

 

魏思现场演讲

下一步的发展方向

我讲完了刚才的四个方向,大家会发现在模式识别的各种实际应用领域,模型通通都回归到条件相关性这个数学概念上

唯一的区别是,我们现在找到了非常棒的一个动态模型,它能够比较自然地去描述条件相关性,然后我们再给模型很多训练数据,用基于梯度下降的BP算法去训练此模型,便可以在实际应用中取得很好的效果。

看到这里大家可能要问,这便是人工智能了吗?

不,并不是。

智能和我们现在算法的差距非常远。我们现在的算法是给定了模式、给定输入,通过模型找到模式和输入之间的条件相关性,仅此而已。

64099魏思现场演讲

但是人类的智能是什么?人类的智能并不是在给定的模式下面做分类。人类会新定义模式(发现新模式)、拆解模式(进行模式重组和加工),所有这些都是现在我们模型所不具备的

总结来说,现在的模型可以让我们非常自如地去发现数据中的复杂的条件相关性或者依赖关系。但由于这种关系可能是远距和复杂的,直接利用梯度信号训练,我们需要非常多的训练数据。

现在的模型虽然好,但是它的实现原理和人类机理差别还是很大的。人是通过无监督学习,把所有的结构或者相关性梳理好,然后通过有监督的学习去进行标注和贴标签并不是直接用有监督数据来进行模型训练的(请大家回顾一下小孩子学习语言和进行图像识别和分类时,他得到的有监督数据是非常有限的)。

同时,人类智能更多体现在认知上,也就是从无到有地产生概念和模式,这是机器所更加不具备的。给机器一幅图,让它用有逻辑、有语义的方式来描述这幅图,我们就会发现机器的表现非常糟糕。

这是因为机器只具有模式分类和识别的能力,它不具有概念生成糅合拆解、新概念产生的能力,也就是机器无法深层理解语义并对语义进行加工。

在这些方面我们如何去定义问题?怎么在有限的场景下去部分解决它?我认为这才是我们下一步的方向

3
超过80%语音开发者的共同选择