让计算机「看懂」世界,从这6个知识点开始!

对于人类而言,最重要的两种感官应该就是视觉和听觉了。而在人工智能的发展中,如何让机器“看懂”和“听懂”信息,也一直是研究人员们的重点工作方向。

在上一期的文章中,班主任主要带大家回顾了计算机“听觉”方面的智能语音技术知识点,大家有好好消化吸收吗?这一期,我就来为同学们讲述一下计算机视觉方面的重点知识。

1
5大常规任务

计算机视觉是研究如何让机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉。

计算机视觉中有5项常见任务,分别是图像分割、物体检测、物体识别、图像描述、语义推理

图像分割是将图像分解成若干特定、具有独特性质的目标区域。例如用户输入左边这张照片,机器会对其做一些场景语义分割,将照片中的人和摩托车区分开来。

timg (69)

物体检测是发现目标并确定其位置。其最常见的任务有三类:这张图片中是否有XX?XX的数量是多少?XX的位置在哪里?

物体识别是在物体检测的基础上,不仅找到物体在哪里,还能确认它是什么。物体识别通常由两类常规任务构成:第一类任务是相似检索问题,比如搜索引擎中的相同或相似图像的搜索功能;第二类任务是相似比对问题。

图像描述即“看图说话”,由机器来描述照片中的内容。

语义推理是五项任务中最难的一项,即挖掘图像或视频内容背后更深远的故事。以上图为例,机器根据“鞋子里的小猫”这张图像进行背后故事挖掘,猜想小猫是因为好奇所以钻进鞋子玩耍。

2
计算机视觉的应用领域

计算机视觉在现实中的应用非常广泛。可以说,机器不仅能帮助人完成许多需要“看”的工作,还能“看见”更多人眼无法辨别的东西。例如以下几种应用:

指纹及其它生物特征识别

通过计算机利用人体所固有的生理特征(指纹、虹膜、面相、DNA等)或行为特征来进行个人身份鉴定的技术。比如科幻片中经常看到的指纹和虹膜识别,就都是运用了计算机视觉技术。

timg (74)

人脸检测识别在往期的AI大学课程中,班主任有跟大家讲解过人脸识别的详细知识点哦视频监控和安防分析

如住宅区分布的智能视频监控系统、银行安防系统等,能够有效地监控、分析现场情况。

 

医学生物图像检测分析

X线图像、多排螺旋CT等可获取人体内部的二维、三维医学图像,大大提高了诊断准确性和效率。

除了以上四类应用,计算机视觉在拍照翻译和图像搜索方面也被广泛使用。例如讯飞翻译2.0就可以通过拍照来识别出文字,同时实现翻译。

撒啊

还有文档分析识别、VR虚拟现实、辅助驾驶领域等等,都是计算机视觉领域的热点。

近两年有大量的资本涌入计算机识别领域,比如商汤科技已经融资33亿,旷视科技也融了31亿。在今年的4月份,商汤科技就宣布完成了6亿美元的C轮的融资,再次创下了人工智能单轮融资的记录。

济公活佛

 

由此可见,计算机视觉技术应用的发展前景是十分可观的。

3
计算机视觉技术的难点与挑战
尽管能力强大且应用广泛,计算机视觉技术仍然有许多难点尚未找到合适的解决方法,因此可以说是机遇与挑战并存。计算机视觉技术的第一大难点是多变和非均匀的光照场景,例如一些逆光的场景。第二个是成像质量差异比如说不同清晰度的相机拍出来的照片质量不同。第三个是复杂易混淆的背景,比如说雪地里的一只白猫。第四点是不同场景存在干扰和遮挡timg (79)此外还有一些难点,包括失焦透视变形等等。

4
卷积神经网络处理图像的过程

图像识别最常用的就是卷积神经网络,而卷积神经网络主要是模拟人的视觉神经系统提出来的。

以CNN做人脸识别任务为例,先得到一些像素信息,再往上层得到一些边界信息,然后再往上提取就是一些人脸的部件信息,包括眼睛、耳朵、眉毛嘴巴等,最后是人脸识别,这整个过程和人的视觉神经系统是非常相似的。

6403

 

卷积神经网络的结构依旧包括输入层、隐藏层和输出层,其中卷积神经网络的隐含层包含卷积层、池化层全联接层3类常见构筑,接下来我们着重讲解下卷积和池化的相关知识点。

卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,一个卷积核覆盖的原始图像的范围叫做感受野(权值共享)。

一次卷积运算(哪怕是多个卷积核)提取的特征往往是局部的,难以提取出比较全局的特征,因此需要在一层卷积基础上继续做卷积计算,这就是多层卷积。

6401

 

在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

通过这种池化的操作,能够一定程度上克服图像的一些旋转和局部的细微变化,从而使得特征的表达更加稳定。

5
人脸识别

人脸识别技术是计算机视觉的一个典型应用,接下来我们就来讲解一下人脸识别中的相关知识点。

人脸识别的分类

人脸识别大体上分为静态人脸识别动态人脸识别,它们的难度是不同的。静态的人脸识别,人是非常配合的,难度小很多,比如身份证的录入、银行办理业务时的人脸验证。

timg (80)

 

而动态的人脸识别会由于人脸距离摄像头的距离等因素,配合度较低,需要准确捕捉到运动的人脸,难度就比较大了。

人脸识别技术

人脸识别技术中有两项常见任务:判断图像或视频中出现的人是不是同一人,即人脸认证;判断这个人到底是谁,即人脸检索。人脸认证和人脸检索的核心均为人脸相似度的判决。

机器在判断两张图片中人脸的相似度时一般有以下4步:人脸检测—预处理—特征提取—特征对比。通过这些步骤不难看出,人脸识别技术是模仿人类识别人脸的过程,用计算机比较人脸图像的相似性。

timg (70)

看到这里可能有些同学要问:既然是比较相似性,那我们该如何评价人脸识别的效果呢?

说到人脸识别的效果,就不得不提到人脸识别的公开测试集。目前在国际上比较有名的人脸识别公开测试集一个是LFW公开集,此公开集中6000个图像对,最高准确率已经达到99.83%,超过了人眼的水平;另一个公开集是华盛顿大学发布的MegaFace公开集。

为人父为人few

如果从公开测试集的效果来看人脸识别技术已经逐步接近甚至是超过人眼的水平。

人脸识别效果的影响因素

虽然在公开集中人脸识别取得了很高的准确率,甚至在某些特定情况的准确率已经超过了人眼识别,但在实际应用过程中会存在很多影响因素,一类是外因,一类是内因。

外因的影响因素主要有光线影响,比如说极端的光线或者人脸光照分布不均等,除了光线以外摄像头分辨率也是一个很大的影响因素,拍摄角度不好或者离拍摄人物很远的时候,会导致机器识别不出人脸。

内因则包括人脸部的遮挡——墨镜、刘海、口罩等;还有些拍照角度以及脸部纹理变化也会影响人脸识别的效果。

6
图文识别

图文识别是计算机视觉的另一个典型应用。

图文识别的分类

图文识别的基本概念就是根据已有的文字把它识别出来。它主要有两个分类,第一个是OCR光学字符识别,即对已有的文字把它把它识别出来;另外一个就是在线手写识别,像大家熟悉的讯飞输入法里的手写输入,相比于OCR识别来说,手写识别包含了更多的笔划信息。

 

timg (72)

手写识别的演进过程

以讯飞的图文识别技术为例,大概经过了这4个演讲过程:

手写输入法

输入法中运用的单个字的识别技术。

手写图文

对于手写的中英文字、词、句子的识别。

行业文档识别

例如发票以及快递号的识别。

通用文字识别

这是现在我们要做的,就是随机拍个照片,就能对里面的文字进行识别了。

图文识别现在广泛运用于试卷评阅中。我们先让机器把手写的文字识别成机器能够看懂的格式,然后下面就可以做作文的评阅等相关工作了,现在,数学公式也能读出来了。最终,我们想要达到的目标是“Read anything”

4
超过80%语音开发者的共同选择