• 让计算机「看懂」世界,从这6个知识点开始!

    对于人类而言,最重要的两种感官应该就是视觉和听觉了。而在人工智能的发展中,如何让机器“看懂”和“听懂”信息,也一直是研究人员们的重点工作方向。

    在上一期的文章中,班主任主要带大家回顾了计算机“听觉”方面的智能语音技术知识点,大家有好好消化吸收吗?这一期,我就来为同学们讲述一下计算机视觉方面的重点知识。

    1
    5大常规任务

    计算机视觉是研究如何让机器“看”的科学,更进一步的说,就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉。

    计算机视觉中有5项常见任务,分别是图像分割、物体检测、物体识别、图像描述、语义推理

    图像分割是将图像分解成若干特定、具有独特性质的目标区域。例如用户输入左边这张照片,机器会对其做一些场景语义分割,将照片中的人和摩托车区分开来。

    timg (69)

    物体检测是发现目标并确定其位置。其最常见的任务有三类:这张图片中是否有XX?XX的数量是多少?XX的位置在哪里?

    物体识别是在物体检测的基础上,不仅找到物体在哪里,还能确认它是什么。物体识别通常由两类常规任务构成:第一类任务是相似检索问题,比如搜索引擎中的相同或相似图像的搜索功能;第二类任务是相似比对问题。

    图像描述即“看图说话”,由机器来描述照片中的内容。

    语义推理是五项任务中最难的一项,即挖掘图像或视频内容背后更深远的故事。以上图为例,机器根据“鞋子里的小猫”这张图像进行背后故事挖掘,猜想小猫是因为好奇所以钻进鞋子玩耍。

    2
    计算机视觉的应用领域

    计算机视觉在现实中的应用非常广泛。可以说,机器不仅能帮助人完成许多需要“看”的工作,还能“看见”更多人眼无法辨别的东西。例如以下几种应用:

    指纹及其它生物特征识别

    通过计算机利用人体所固有的生理特征(指纹、虹膜、面相、DNA等)或行为特征来进行个人身份鉴定的技术。比如科幻片中经常看到的指纹和虹膜识别,就都是运用了计算机视觉技术。

    timg (74)

    人脸检测识别在往期的AI大学课程中,班主任有跟大家讲解过人脸识别的详细知识点哦视频监控和安防分析

    如住宅区分布的智能视频监控系统、银行安防系统等,能够有效地监控、分析现场情况。

     

    医学生物图像检测分析

    X线图像、多排螺旋CT等可获取人体内部的二维、三维医学图像,大大提高了诊断准确性和效率。

    除了以上四类应用,计算机视觉在拍照翻译和图像搜索方面也被广泛使用。例如讯飞翻译2.0就可以通过拍照来识别出文字,同时实现翻译。

    撒啊

    还有文档分析识别、VR虚拟现实、辅助驾驶领域等等,都是计算机视觉领域的热点。

    近两年有大量的资本涌入计算机识别领域,比如商汤科技已经融资33亿,旷视科技也融了31亿。在今年的4月份,商汤科技就宣布完成了6亿美元的C轮的融资,再次创下了人工智能单轮融资的记录。

    济公活佛

     

    由此可见,计算机视觉技术应用的发展前景是十分可观的。

    3
    计算机视觉技术的难点与挑战
    尽管能力强大且应用广泛,计算机视觉技术仍然有许多难点尚未找到合适的解决方法,因此可以说是机遇与挑战并存。计算机视觉技术的第一大难点是多变和非均匀的光照场景,例如一些逆光的场景。第二个是成像质量差异比如说不同清晰度的相机拍出来的照片质量不同。第三个是复杂易混淆的背景,比如说雪地里的一只白猫。第四点是不同场景存在干扰和遮挡timg (79)此外还有一些难点,包括失焦透视变形等等。

    4
    卷积神经网络处理图像的过程

    图像识别最常用的就是卷积神经网络,而卷积神经网络主要是模拟人的视觉神经系统提出来的。

    以CNN做人脸识别任务为例,先得到一些像素信息,再往上层得到一些边界信息,然后再往上提取就是一些人脸的部件信息,包括眼睛、耳朵、眉毛嘴巴等,最后是人脸识别,这整个过程和人的视觉神经系统是非常相似的。

    6403

     

    卷积神经网络的结构依旧包括输入层、隐藏层和输出层,其中卷积神经网络的隐含层包含卷积层、池化层全联接层3类常见构筑,接下来我们着重讲解下卷积和池化的相关知识点。

    卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,一个卷积核覆盖的原始图像的范围叫做感受野(权值共享)。

    一次卷积运算(哪怕是多个卷积核)提取的特征往往是局部的,难以提取出比较全局的特征,因此需要在一层卷积基础上继续做卷积计算,这就是多层卷积。

    6401

     

    在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

    通过这种池化的操作,能够一定程度上克服图像的一些旋转和局部的细微变化,从而使得特征的表达更加稳定。

    5
    人脸识别

    人脸识别技术是计算机视觉的一个典型应用,接下来我们就来讲解一下人脸识别中的相关知识点。

    人脸识别的分类

    人脸识别大体上分为静态人脸识别动态人脸识别,它们的难度是不同的。静态的人脸识别,人是非常配合的,难度小很多,比如身份证的录入、银行办理业务时的人脸验证。

    timg (80)

     

    而动态的人脸识别会由于人脸距离摄像头的距离等因素,配合度较低,需要准确捕捉到运动的人脸,难度就比较大了。

    人脸识别技术

    人脸识别技术中有两项常见任务:判断图像或视频中出现的人是不是同一人,即人脸认证;判断这个人到底是谁,即人脸检索。人脸认证和人脸检索的核心均为人脸相似度的判决。

    机器在判断两张图片中人脸的相似度时一般有以下4步:人脸检测—预处理—特征提取—特征对比。通过这些步骤不难看出,人脸识别技术是模仿人类识别人脸的过程,用计算机比较人脸图像的相似性。

    timg (70)

    看到这里可能有些同学要问:既然是比较相似性,那我们该如何评价人脸识别的效果呢?

    说到人脸识别的效果,就不得不提到人脸识别的公开测试集。目前在国际上比较有名的人脸识别公开测试集一个是LFW公开集,此公开集中6000个图像对,最高准确率已经达到99.83%,超过了人眼的水平;另一个公开集是华盛顿大学发布的MegaFace公开集。

    为人父为人few

    如果从公开测试集的效果来看人脸识别技术已经逐步接近甚至是超过人眼的水平。

    人脸识别效果的影响因素

    虽然在公开集中人脸识别取得了很高的准确率,甚至在某些特定情况的准确率已经超过了人眼识别,但在实际应用过程中会存在很多影响因素,一类是外因,一类是内因。

    外因的影响因素主要有光线影响,比如说极端的光线或者人脸光照分布不均等,除了光线以外摄像头分辨率也是一个很大的影响因素,拍摄角度不好或者离拍摄人物很远的时候,会导致机器识别不出人脸。

    内因则包括人脸部的遮挡——墨镜、刘海、口罩等;还有些拍照角度以及脸部纹理变化也会影响人脸识别的效果。

    6
    图文识别

    图文识别是计算机视觉的另一个典型应用。

    图文识别的分类

    图文识别的基本概念就是根据已有的文字把它识别出来。它主要有两个分类,第一个是OCR光学字符识别,即对已有的文字把它把它识别出来;另外一个就是在线手写识别,像大家熟悉的讯飞输入法里的手写输入,相比于OCR识别来说,手写识别包含了更多的笔划信息。

     

    timg (72)

    手写识别的演进过程

    以讯飞的图文识别技术为例,大概经过了这4个演讲过程:

    手写输入法

    输入法中运用的单个字的识别技术。

    手写图文

    对于手写的中英文字、词、句子的识别。

    行业文档识别

    例如发票以及快递号的识别。

    通用文字识别

    这是现在我们要做的,就是随机拍个照片,就能对里面的文字进行识别了。

    图文识别现在广泛运用于试卷评阅中。我们先让机器把手写的文字识别成机器能够看懂的格式,然后下面就可以做作文的评阅等相关工作了,现在,数学公式也能读出来了。最终,我们想要达到的目标是“Read anything”

    100年后AI统治下的世界,最珍贵的圣诞礼物原来是TA

    你有准备过一个有创意的圣诞节吗?

    灵魂拷问:还有两周就到圣诞节啦!大家都准备怎么过圣诞呢?

    缀满装饰的圣诞树放在壁炉的旁边,下面摆满了包装精美的礼物,红色的袜子挂在壁炉旁,一家人欢声笑语拆礼物。一说到圣诞节,脑海里一定浮现出这样的画面。是的,还有两周的时间就到圣诞节了,你有想好怎么过了吗?为了不显得太过俗套,不如让AI策划一个圣诞旅行,过一个黑科技满满的圣诞节。

    AI研究所淘出了3个有意思的视频,看能不能给你天才的大脑一些启发,为你的圣诞增添一丝趣味,然后一起开心过圣诞!

    你们家的机器人会送快递
    这个AI会送圣诞礼物

    机器人公司波士顿动力(Boston Dynamics)在视频网站YouTube上发布了一个视频。在视频里,波士顿动力公司生产的三台Spot机械狗被装扮成了圣诞老人的驯鹿,拉着装饰成雪橇的轮椅。而在轮椅上,一个圣诞老人打扮的妹子在向观众问候节日快乐。

    你会唱歌的机器人你见过
    这个AI能根据一张图谱曲

    最后,会唱歌的机器人你可能见过,但你见过能根据一张图片,就能创作一首圣诞歌曲的人工智能吗?

    加拿大多伦多大学的研究人员开发出了一种人工智能系统,能自动谱写新的圣诞节歌曲。这一人工智能系统被称作“神经卡拉OK”,可根据节日的数码照片生成歌曲。软件能自行谱写简单的旋律,并在屏幕上配以歌词。

    如果有一天AI统治了世界
    那Ta们也要过圣诞!

    这是一支来自德国超商 EDEKA 的圣诞节广告,全片采用 CG 技术讲述了在遥远的未来,地球已被机器人所占领,而这些机器人们都不过圣诞节。

    某天,其中一个机器人被路边墙上张贴的旧圣诞海报所吸引,强烈的好奇心促使它去偷偷了解当年的人类是如何欢度圣诞的。

    可是当它把服装模特还有各种礼物摆在餐桌前想重现圣诞节氛围时,它发现并不是那么有趣,那么令人高兴。

    正当它沮丧万分的时候,再次翻看了那条有关人类逃离城市的新闻,于是它决定按图索骥去寻找真正的人类。

    微信截图_20181214112138

    经过一番跋山涉水,小机器人终于在森林中的一所小木屋找到了人类,并受邀一起参加他们的圣诞晚会。

    当人类小女孩把爱心贴在它胸前的时候,很明显能察觉到它感受到了人类的爱。

    短片最后也点明了主题:“没有爱,圣诞节就只是一个机器人的盛宴”,强调了爱在节日期间的重要性。

    微信截图_20181214112228

    在广告创意方面一向锐意创新的 EDEKA ,这次的圣诞广告也充分发挥了优势,将一直所倡导的品牌理念——“爱与陪伴”又一次转换了一个新的角度,告诉我们即使是在有可能被人工智能占领的未来,爱都是永恒不灭的主题。

    所以,无论吃饭、看电影、送苹果,只要有爱,就足够了。你有准备过一个有创意的圣诞节吗?快来留言分享属于你的圣诞节的打开方式吧!

    为媒体人减负!更懂你的语音转写能力上线

    在语音转写产品下,讯飞开放平台对语音转写能力进行了优化, 升级为4.0版本。新版本不仅提供更好的性能支持,同时上线了个性化热词功能。

    最近,媒体人的工作真是忙到飞起。

    纵观国内外,近来的这几个月真可谓是多事之秋。互联网、医疗、文学、影视等各个行业都接连有重大新闻爆出,成为人们的茶余饭后的话题。

    对普通人来说是八卦谈资,对新闻媒体人来说可就是实打实的工作了。

    人工智能?人工智障?

    “无论是什么行业的热点,我们都要第一时间出街采访。“

    小编的记者朋友小D负责一档针对时下热点的街头采访节目,对他来说,今年是格外忙碌的一年。

    ”比如有IT新闻,我们就去高新产业园采访,娱乐新闻我们就去大学采访。所以几乎每天都在接触到不同行业的术语。”
    64011

     

    主题多样的街头采访类节目

    小D多次都跟我抱怨,说最头疼的部分就是后期制作,因为被访者的术语和口头语太多,原本靠转写软件可以轻松完成的文稿整理和字幕制作工作,现在变得困难重重。

    例如早前iphone XR发布时进行的街头采访,有这样的语音素材——

     音频内容是: XR的屏占比确实变高了,但是这个黑边也太夸张了,作为一个颜控,我还是继续用我的8吧。

     转写结果是:  差而凭站笔确实变高了,但是这个黑边也太夸张了,作为一个严控我还是继续用我的巴巴。

    小D说,有些时候修改字幕比直接人工输入还麻烦,真不知是人工智能还是人工智障了。

    个性化热词——让机器更懂你

    小D的经历并非个案,语料的丰富度是影响语音识别技术的重要因素。前期提交的语料越多、越全,语音识别的效果也就越好。

    宏观上看,人们说话的规则具有统一性,但同时也具有一定程度的变化性。例如行业的专业用语,一些口头禅、自行创造的暗语、某些特定事件带来的等等。一个人的遣词造句深受他“个性”的影响,因此产生的语音也带有“个性”标签。

    这种情况下,单纯使用通用化模型来识别风格各异发语音,显然是不够科学的。唯有做到“去陌生化”,进一步理解特定用户的语言习惯,才能得到更高效精准的结果。

    因此,在语音转写产品下,讯飞开放平台对语音转写能力进行了优化, 升级为4.0版本。新版本不仅提供更好的性能支持,同时上线了个性化热词功能。

     使用方法:

    用户将一些在转写中会出现的专用词汇上传至识别引擎,形成自己的个性化词库。后期在待转写音频中出现该词汇时,即可将其识别出来。
    640

     

    添加热词操作示例

     原理:

    运用声学激励语言激励两种方式,提高个性化热词的识别度。

    以词语“开放平台”为例,语言激励会在热词形成时对“开放平台”一词直接加分,提高识别出这个词的概率。

    声学激励的方法会将kai-fang-ping-tai泛化成kai-fan-ping-tai,kai-fang-pin-tai等,音频中出现类似发音时就会对待选词中的“开放平台”加分。

    如虎添翼

    除了新增个性化热词能力,本次更新的语音转写4.0版本还支持Web API调用形式,为开发者们提供了更多的便利与可能性。有了这些新功能的加入,语言转写能力可谓是如虎添翼。

    开放平台语音转写能力最初于2017年7月上线,能力基于科大讯飞独立研究的深度全序列卷积神经网络语音识别框架(DFCNN)建立声学模型和语言模型,将音频数据转换成文本数据,使信息传递更为高效,也为后续的数据检索和数据挖掘提供基础。

    更尖端的核心技术

    采用的DFCNN技术能更好地表达语音的长时相关性,比目前业界最好的语音识别框架——双向递归神经网络性能更优,遥遥领先于同类竞品。

    更可靠的硬件支持
    讯飞开放平台在多地进行了机房部署,服务器集群每天可承载30亿的语音交互量。每个IDC机房采用BGP或三网接入,保障接入速率。核心硬件方面采用内存双通道策略,GPU+CPU复合运算组合,提高引擎速度。

    更智能的转写能力
    运用超大规模的语言模型预测语境,提供中文智能断句和标点预测,并能将结果中的数字、日期、时间等格式化为规整的文本,最大程度地减少人工修改。

    更安全的用户数据
    转写系统接入讯飞开放平台统一账户体系,采用公钥与私钥结合的认证方式保证账户安全。接口统一采用https加密方式进行数据传输,用户上传的语音文件待转写完成后会彻底删除,不留痕迹。

    希望在不断的改进和完善中,开放平台能为大家提供更好的技术和服务,从而更好地落地到实际场景,为各行各业创造更高效的解决方案。

    现在就来讯飞开放平台体验吧!【点击体验最新的语音转写4.0版本】

    关注我们6407
     

    DNN、RNN、CNN.…..一文带你读懂这些绕晕人的名词

    在AI界也有一些“长相相似”专业名词,让初学者傻傻分不清,比如我们今晚要科普的「相似三连」DNN、RNN、CNN。
    这3个名词其实是第三代神经网络里运用非常多3大算法:DNN(深度神经网络)、RNN(递归神经网络)、CNN(卷积神经网络)。

    「撞脸」一直都是娱乐圈一大笑梗。

    要是买火车票的时候碰上孙楠、杨臣刚、王大冶……脸盲症患者可以直接放弃回家,原地暴哭了。

    640

     

    当然,「撞脸」可不是娱乐圈的特有的,在AI界也有一些“长相相似”专业名词,让初学者傻傻分不清,比如我们今晚要科普的「相似三连」DNN、RNN、CNN。

    这3个名词其实是第三代神经网络里运用非常多3大算法:DNN(深度神经网络)、RNN(递归神经网络)、CNN(卷积神经网络)。
    6401

     

    1、三代神经网络的发展

    在正式开讲这3者的区别之前,我们先简单做个回顾,第一代和第二代神经网络到底是什么?

    第一代神经网络又称为感知器,在1950年左右被提出来,它的算法只有两层,输入层输出层,主要是线性结构。它不能解决线性不可分的问题,对稍微复杂一些的函数都无能为力,如异或操作。

    为了解决第一代神经网络的缺陷,在1980年左右Rumelhart、Williams等人提出第二代神经网络多层感知器(MLP)。和第一代神经网络相比,第二代在输入层之间有多个隐含层的感知机,可以引入一些非线性的结构,解决了之前无法模拟异或逻辑的缺陷。

    第二代神经网络让科学家们发现神经网络的层数直接决定了它对现实的表达能力,但是随着层数的增加,优化函数愈发容易出现局部最优解的现象,由于存在梯度消失的问题,深层网络往往难以训练,效果还不如浅层网络。

    2006年Hinton采取无监督预训练(Pre-Training)的方法解决了梯度消失的问题,使得深度神经网络变得可训练,将隐含层发展到7层,神经网络真正意义上有了“深度”,由此揭开了深度学习的浪潮,第三代神经网络开始正式兴起。
    6402

     

    2、深度神经网络最常用的三大算法

    说完了三代神经网络的大概发展,我们现在来看下第三代神经网络中经常让大家叫苦的3大名词:DNN、RNN、CNN。

    DNN:深度神经网络

    从结构上来说,DNN和传统意义上的NN(神经网络)并无太大区别,最大的不同是层数增多了,并解决了模型可训练的问题。

    简言之,DNN比NN多了一些隐层,但这些隐层的作用是巨大的,带来的效果是非常显著和神奇的。
    6403

     

    当然第三代神经网络能够带来神奇的效果,并不仅仅是因为它的模型结构和训练方法更为优化、算法更加先进,最重要的是随着移动互联网的普及海量数据的产生和机器计算能力的增强。

    DNN中的“deep”意为深度,但深度学习中深度没有固定的定义或者衡量标准,不同问题的解决所需要的隐含层数自然也是不相同的,就大家比较熟识的语音识别来说,解决问题可能4层就够了,但一般图像识别需要达到20多层才能够解决问题。

    DNN最大的问题是只能看到预先设定的长度的数据,对于语音和语言等前后相关的时序信号的表达能力还是有限的,基于此提出了RNN模型,即递归神经网络。

    RNN:递归神经网络

    全连接的DNN存在着一个无法解决的问题:无法对时间序列上的变化进行建模。

    为了应对这种需求,业内提出了上文中提到的递归神经网络RNN。

    在普通的全连接网络中,DNN的隐层只能够接受到当前时刻上一层的输入,而在RNN中,神经元的输出可以在下一时间段直接作用到本身。换句话说,就是递归神经网络它的隐层不但可以接收到上一层的输入,也可以得到上一时刻当前隐层的输入。

    这一个变化的重要意义就在于使得神经网络具备了历史记忆的功能,原则上它可以看到无穷长的历史信息,这非常适合于像语音语言这种具有长时相关性的任务。
    6402

     

    CNN:卷积神经网络

    卷积神经网络主要是模拟人的视觉神经系统提出来的。

    以CNN做人脸识别任务为例,先得到一些像素信息,再往上层得到一些边界信息,然后再往上提取就是一些人脸的部件信息,包括眼睛、耳朵、眉毛嘴巴等,最后是人脸识别,这整个过程和人的视觉神经系统是非常相似的。
    6403

     

    卷积神经网络的结构依旧包括输入层、隐藏层和输出层,其中卷积神经网络的隐含层包含卷积层、池化层和全联接层3类常见构筑,接下来我们着重讲解下卷积和池化的相关知识点。

    卷积层的功能是对输入数据进行特征提取,其内部包含多个卷积核,一个卷积核覆盖的原始图像的范围叫做感受野(权值共享)。

    一次卷积运算(哪怕是多个卷积核)提取的特征往往是局部的,难以提取出比较全局的特征,因此需要在一层卷积基础上继续做卷积计算,这就是多层卷积。
    6401

     

    在卷积层进行特征提取后,输出的特征图会被传递至池化层进行特征选择和信息过滤。池化层包含预设定的池化函数,其功能是将特征图中单个点的结果替换为其相邻区域的特征图统计量。

    通过这种池化的操作,能够一定程度上克服图像的一些旋转和局部的细微变化,从而使得特征的表达更加稳定。
    好啦,今晚对DNN、CNN和RNN的简单科普到这里就结束了,关于每种网络的用法大家还需要在实际建模中努力探索。

    当然不论是哪种算法,它们往往都会混合在一起使用以达到效果的最优化,同学们要做的便是掌握好理论知识,在实践中找到最灵活的组合方式。

    同时「AI大学移动端」已经上线了科大讯飞AI研究院王海坤院长的人工智能系列课程,小伙伴们记得戳菜单栏【AI大学】或点击阅读原文,去学习更多AI知识!
    640

     

    AI研究院副院长  王海坤博士

    w640

     

    5G网络第一条微博已发出!即将驱动AI进入新时代

    人工智能不可怕,可怕的是出现“人工智能克隆人”

    昨天晚间,小米联合创始人、小米总裁林斌在5G网络下发了一条微博:这可能是第一条5G网络下的微博吧

    微信截图_20181123164401

    我们由此得到的信息是:1、目前已经有测试环境下的5G网络;2、小米已经有了自己的5G终端。但最主要的是:5G时代终于来了!

    在4G网络下刷着抖音、吃着鸡的我们,终于等来即将到来的精彩5G时代,相信昨天这条微博,让无数人内心充满了期待。

    5G作为第五代移动通信网络,被认为将是彻底改变人与万物交互方式的技术浪潮。在对5G网络技术及发展趋势的相关报道中,朵妹和小智,特意挑选了几个最具代表性问题为大家集中解答,希望能帮助提前感受5G时代的厉害。

    小智

    5G网络只是速度快这么简单?

    朵妹

    当然不止,除了提升网速,5G带来的是更快的速率,更低的功耗,更短的延迟,更强的稳定性,能支持更多用户。不仅仅是网速的变化,更多的是生活方式的颠覆。

    任何一次移动通讯网络的换代升级都将带来网速的大幅提升,3G至4G如此,5G自然也不例外。5G网络延迟将从115毫秒降至5毫秒以内,这意味着不仅可以大幅度提升对战类手机游戏体验,更可在广阔的商业领域发挥威力。比如医生在远程通过5G网络连接机械臂和监控画面来进行手术,5G网络将为各个行业带来新机遇。

    ChMkJltZSu6IH9h2AADD2nQAZ-AAAqCRQCF8OYAAMPy197

    5G毫米波频段拥有高带宽和高速率的优势,因此可以容纳更多的人同时在线。比如在大型展会和赛事活动现场,我们再也无需面对人多挤占网速的尴尬。因毫米波波长较短,因此所需天线也更为小巧,更为灵活的小基站也更便于运营商部署,因此在实现高速大容量的5G网络同时,也可提升网络质量。

    小智

    5G时代手机将会变成什么样?

    朵妹

    我们的“智能手机”或将在5G时代升级成为“智联手机”。

    5G网络作为第五代移动通信网络,最直接的受益者恐怕就要数我们手里的手机了。由于5G网络具备速度快和延迟低这两大技术特性,并且对万物互联提供了底层技术支持。因此可以预见的是,当今我们手中的“智能手机”或将在5G时代升级成为“智联手机”。

    所谓“智联手机”,首先需要强调的变化是“智”。2019年后无疑将成为手机人工智能的爆发年。人工智能的核心是将机器赋予人类的“智慧”,我们的手机或许会变成“人”。“Ta”可以是你的助手、伙伴,甚至朋友。“他”会帮你安排生活中的一切,就好像《钢铁侠》中Tony的管家Jarvis。

    timg

    手机管家仅具备自身的聪慧远远不够,5G网络将赋予人工智能手机万物互联的能力,也就是“智联手机”中“联”字的诠释。作为最适合随身的智能终端,手机将成为我们与万物连接的中心。手机可以和智能家居、智能城市、无人机、车联网、机器人等互联。如果“智”的变化将你的手机变成“人”,那么“联”将赋予“他”更更广阔的应用。

    小智

    5G会给人工智能领域带来哪些改变?

    朵妹

    5G网络的落地应用将会开启一个全新的智能时代。

    5G时代,人工智能技术的发展将会呈现两大趋势,云端和边缘。基于云端的超强算力、庞大数据,以及深度学习能力可以打造一个近乎完美的“全能贴身管家”,透过5G网络您可以让“他”帮你看病拿药、决策理财、挑选产品,甚至控制你家里的智能机器人帮你洗衣做饭打扫卫生。

    而人工智能边缘计算,则是在靠近用户侧的边缘终端实现本地人工智能,和云端形成互补。未来更智能的手机可以根据你的习惯实现自动调节,懂你所需。基于5G+AI的手机应用将迎来广阔的发展空间,如更聪明的虚拟助手、更强交互的AI游戏、基于AR和AI技术的智能识别等创新应用。

    试想一下,我们下班后可以通过手机呼叫自动驾驶汽车在楼下等你,车上已经为你准备好合适的温度和你喜欢的音乐。路途中,我们通过手机连接VR沉浸体验一部短剧或者跟你的虚手机虚拟助手聊天打趣。到家后,汽车通过5G网络自动寻找停车位并进行无线充电,完全不再需要为抢车位而烦恼。而这一切,都是你的手机管家“Jarvis”帮你搞定。

    从“智能手机”到“智联手机”的变化,或将给我们的工作和生活带来翻天覆地的变化,并将成为催生手机全新应用形态的最大推动力。

    5G网络和人工智能技术的出现会将那些重复且繁重的工作解决掉,从而释放你的精力去进行创造,同时也会让你拥有更多的时间享受生活。

    小智

    5G网络能否再次改变这世界?

    朵妹

    一定能!我坚信,毕竟,我们都改变这么多次了……

    5G网络的意义是什么?或许,它就像是一条纽带,将所有未来的科技趋势连接在一起。5G+人工智能、5G+大数据、5G+云服务、5G+物联网、5G+智能家居、5G+远程医疗、5G+VR和AR新兴显示技术、5G+车联网、5G+智慧办公,几乎我们目光所能及的一切都将从5G网络身上获益,从而形成星火燎原般的彻底改变这个世界。

    ChMkJltZR6yIArlvAARP8KF94-EAAqCKAAwK-cABFAI688

    5G网络无疑将再次改变这个世界。无论是网联汽车、智慧家居和智慧城市、工业物联网、终端侧人工智能,还是网络基础设施或智能移动终端,都在热烈呼唤着5G万物智能互联时代的到来。

    在看过5G网络将带来众多新变化之后,或许你已经迫不及待的想要进入那么梦幻般的5G时代了。万物智能互联时代,无疑将给我们带来翻天覆地的变化。5G网络将成为连接世间万物的纽带,彻底改变整个世界沟通和运行的方式。而我们每个人,都将从5G网络中获益。

    当你还在使用2G或3G手机的时候,你会想到如今的4G时代会如此精彩吗?如果没有4G,你几乎不可能在地铁里刷着抖音,也不可能随时随地就能吃一把“鸡”。如今,5G网络箭在弦上,一场前所未有的革命或将爆发,你,准备好了吗?

    关注聋哑人,从“手”开始!

    你能想象一副手套就能让聋哑人“听到”声音并开口“说话”吗?

    发表于2018-11-21 18:47| 来源CSDN| 作者CSDN

    你能想象一副手套就能让聋哑人听到声音并开口说话吗?这事儿听起来很神奇,却被来自福州大学的一群在校生实现啦,而且还在科大讯飞AI开发者大赛的决赛现场技压群雄,勇夺冠军。


    据了解,这支颇具创新意识的冠军学生团队主要由三名研究生以及多名本科生组成,十几个人通过近半年时间,研发了一款具有社交功能的手套,主要通过手语识别、语音识别、语音合成等多项技术来破除听障人士的沟通障碍。

    据了解,“E-chat”聋哑人社交手套外形与普通手套无异,但上面却是机关密布。聋哑人只要佩戴手套后,通过采集相应的手势信息就可将手语表达翻译为语音信息;相反,正常人的语音通过识别之后,又将转化为聋哑人熟悉的手语,并显示在手机屏幕上,双向翻译形成语音和手语之间的沟通闭环,这就有点儿像风靡一时的语音翻译工具。

    谈及这款颇具人文情怀的发明,Forever Young团队的初创成员之一林鹏程表示,最初研发的灵感主要来自一场学校组织的手语比赛。当时我们都不懂手语,就想着先做个翻译器,后来觉得如果有一项技术可以将眼前的手语转化成声音,那不是更加方便了?而且对听障朋友会特别有意义!

    此外团队成员在本科阶段也确实接触并研发过这种性质的数据手套,又同时捕捉到MEMS传感器在最近几年内迅速发展的态势,所以从最初只是想通过这次实践深入学习一些有关传感器的技术点,结果却演变成通过见证聋哑人的生活并在学校图书馆进行学生手语调查等一系列切身实践后,深刻体会到这项发明的巨大潜力,也就随着时间推移不断完善,并加以推广了。


    据了解,就在去年12月,Forever Young团队凭借“Echat”聋哑人社交手套报名参加了与开发者相关的创新赛事,经过4个多月的比拼,从1700多支参赛队伍中脱颖而出,最终勇夺最佳创新项目特等奖。

    关于参加这次科大讯飞主办的AI开发者大赛,团队成员表示,之前本身就使用过科大讯飞的产品并对其深入了解过,如今看到这样一个现场学习的好机会,就抱着试一试的想法来了。没想到会有这么大的惊喜,而且能够为不懂手语的朋友与听障人士更便捷准确的交流带来助力,很有成就感。

    深入探讨这款酷产品,我们发现,从技术方面,Forever Young团队通过参加各类比赛切磋,带来了技术层面一次又一次的成功、精准的迭代,而且手语算法作为团队的核心竞争力,目前已经申请了国家级专利。历经发展,就在今年4月,团队首次尝试使用智能手机作为平台,并对算法进行提升,经过不断努力手套如今已能识别近300个词汇和短句。

    尽管这项创新应用已经获得了很多关注以及鼓励,但研发过程所中所面对的困难还是让人长舒一口气。

    硬件方面,我们希望产品完工后足够轻便,所以换了好几十版电路以及许多元器件的封装,最终为了可以更好集成在一块小电路板上。具体来说,我们开始使用的是0805的封装,后来又改用了0603,这样前前后后换了十几版电路,遗憾的是至今还没有达到我们理想中的大小,仍旧需要不断尝试。团队成员说。

    除了硬件层面,软件方其实也遇到了一些小问题。Forever Young团队的初创成员之一林鹏程总结道,其实开始从底层的驱动设计入手,就出现了很多bug,经过调试之后才有相对安全的范围以及稳定结果;另外对手势识别的设计方面,挑战是最大的:从最开始的机器学习过渡到深度学习方式,这是一个不断改进的过程,虽然目前已经达到了89%的识别率,但未来进步的空间还很大;此外对手套各项功能的提升,一直面临着不小的资金瓶颈,如果想要实现手套完全脱离手机这种智能化程度,未来还需要找到伯乐一枚共同完善设计。

    不过可喜的一点,通过参加比赛,团队成员纷纷从科大讯飞的语音技术上收获启发,将作品中加入讯飞的语音技术后收效明显,未来还将在识别能力以及硬件的外观方面完成更进一步的改进,更好发挥AIUI的能力,通过关键词语义理解技术来弥补词汇量的不足,实践更自然的表达。

    谈到对未来智慧时代的畅想,林鹏程觉得,在未来的发展中,即使AI不能完全替代人类枯燥乏味的工作,也至少可以帮助人类减少这类工作的重复执行,提高效率并解放双手根本不在话下;人们最起码的居家生活会不间断涌入AI 产品以及应用,就像如今风靡的智能音箱一样,丰富知识并拓宽信息获取的渠道将变得异常简单,在此背景下,来源于生活并助力生活便捷的手套只是一个开始。

    初学者不可错过的分布式机器学习4大知识点 | AI知识科普

    分布式机器学习成功解决了大量具有挑战性的关键问题,今天晚上班主任就来和同学们聊一聊分布式机器学习起源、流程、算法以及目前流行的分布式机器学习平台。

    随着“大数据”概念而兴起的分布式机器学习,在人工智能的新时代里解决了大量最具挑战性的问题。

    近几年,机器学习在很多领域取得了空前的成功,也因此彻底改变了人工智能的发展方向。大数据时代的到来一方面促进了机器学习的长足发展,另一方面也给机器学习带来了前所未有的新挑战。

    在这些发展与挑战中,分布式机器学习应运而生并成功解决了大量具有挑战性的关键问题,今天晚上班主任就来和同学们聊一聊分布式机器学习起源、流程、算法以及目前流行的分布式机器学习平台。

    1、起源:大数据和大模型带来的挑战

    在开始聊起源之前,我们先来看张图:
    1

     

    这张图是展示了ImageNet近几年的错误率,2011年的时候错误率还将近有25%,这样的错误率很难运用到实际应用中。到2015年,ImageNet错误率已经降低到3%左右,比人类的错误率(5%)还要低, 短短的4-5年时间,机器在ImageNet上的识别率便超过了人类。

    导致这一结果的原因有2个:一是数据,另一个是模型。

    大规模训练数据的出现为训练大模型提供了物质基础,大规模机器学习模型具有超强的表达能力,可以解决很多复杂和高难度的问题。

    在解决这些问题的同时,大规模机器学习模型也有着非常明显的弊端:包含参数众多,训练耗时;模型巨大,传统的计算机和工作站难以处理;容易过拟合,在训练数据集上表现良好,在未知测试数据上表现不尽人意。

    比较典型的例子是电商网站上的用户行为数据,比如在淘宝上很多用户每天都能看到系统推荐的产品,这些产品是根据用户日常浏览和点击习惯进行推荐的,淘宝的服务器将用户点击的产品行为记录下来,作为分布式机器学习系统的输入。输出是一个数学模型,可以预测一个用户喜欢看到哪些商品,从而在下一次展示推荐商品的时候,多展示那些用户喜欢的商品。

    类似的,还有互联网广告系统,根据几亿用户的广告点击行为,为其推荐更容易被点击的广告。
    2

     

    淘宝推荐系统大致如图所示

    由上述案例可以知,现在我们很难用一台计算机去处理工业规模的机器学习模型了,所以说分布式训练已经成为了一个先决条件。

    2、流程:了解-探索-设计

    分布式机器学习说白了,其实就是把任务发放给许多机器,然后让它们协同去帮忙训练数据和模型。
    3

     

    如图所示,我们会把任务下发给许多的worker,然后这些worker协同的去训练模型。

    通过对分布式机器学习起源的讲解,我们可以将分布式机器学习的使用场景粗分为三类:计算量太大、训练数据太多、训练模型太大太过复杂。

    这三种场景都有相对应的解决办法,对于计算量太大可采用共享内存的多机并行运算;对于训练数据太多,可以将数据进行划分,分配到多个工作节点上进行训练;而对于训练模型太大,也可以将模型进行划分,分配到不同的工作节点上进行训练。
    4

     

    不管是以上场景中的哪一种,还是几种场景混合在一起的情况,分布式机器学习都可以分为三步流程:

    第一步是了解机器学习的模型以及优化方法;第二步是要去探索分布式机器学习的范式;第三步是设计系统,无论系统的设计者还是系统的使用者,都要知道系统为什么要这样设计,这样设计对我们选择什么样的机器学习有怎样的帮助。

    3、算法:数据并行、模型并行、梯度下降

    数据并行

    数据并行是指由于训练样本非常多模型非常大,我们需要把训练数据划分到不同的机器上,比如说我们用100台机器同时存储这些数据,如果这些模型有10万个数据样,用100台机器来存储,每台机器存储1000条数据即可。

    对于每一台worker来说,训练算法、分布式和在单机上没有什么区别,只是需要在节点之间同步模型参数。

    其中参数平均是最简单的一种数据并行化。若采用参数平均法,训练的过程如下所示:

    1、基于模型的配置随机初始化网络模型参数

    2、将当前这组参数分发到各个工作节点

    3、在每个工作节点,用数据集的一部分数据进行训练

    4、将各个工作节点的参数的均值作为全局参数值

    5、若还有训练数据没有参与训练,则继续从第二步开始

    5

    模型并行

    模型并行将模型拆分成几个分片,由几个训练单元分别持有,共同协作完成训练。

    深度学习的计算其实主要是矩阵运算,而在计算时这些矩阵都是保存在内存里的,如果是用GPU卡计算的话就是放在显存里,可是有的时候矩阵会非常大。面对这种超大矩阵便需要将其拆分,分到不同处理器上去计算。6

     

    梯度下降

    1847年梯度下降被提出来之后,这些年业内提出了各种各样的优化算法,优化算法是一个非常漫长的演变过程。
    7

     

    大家可以看到图中有一条分界线, 在2010之前的算法主要是Deterministic algorithms,这种算法具有很强确定性。换句话说,就是可以在数学上保证此算法进行的每一步都是精确的,能够指导我们的优化目标。

    2010年之后的这些模型被称做stochastic algorithms,不再要求每一步都是精确的梯度下降,或者每一步要做最精确的优化。stochastic algorithms让每一步只进行随机的优化,最终把所有数据优化完以后,还是能够优化到最低点。

    随着数据越来越大,Deterministic algorithms规则已经越来变得越来越不适用了。对于大量的计算数据,我们不可能每一次都做梯度下降,随机梯度下降变得越来越有优势,资源利用率也会更高。

    4、分布式机器学习三大平台:Spark、PMLS、TensorFlow

    在纽约州立大学布法罗分校计算机科学与工程教授、Petuum Inc. 顾问 Murat Demirbas 和他的两位学生一起发表的那篇对比现有分布式机器学习平台的论文中,将分布式机器学习平台归类为了三大基本设计方法:

    1.基本数据流(basic dataflow)

    2.参数服务器模型(parameter-server model)

    3.先进数据流(advanced dataflow)

    并根据这三大基本设计方法,使用了业内著名的三大分布式机器学习平台,其中基本数据流方法使用了 Apache Spark、参数服务器模型使用了 PMLS(Petuum)、先进数据流模型使用了 TensorFlow 和 MXNet。

    并在测试中得出相应的结论,班主任摘取关键部分出来,供大家参考(论文原文可访问:https://www.cse.buffalo.edu/~demirbas/publications/DistMLplat.pdf,译文参考网络翻译)

    Spark

    在基本的设置中,Spark 将模型参数存储在驱动器节点,工作器与驱动器通信从而在每次迭代后更新这些参数。对于大规模部署而言,这些模型参数可能并不适合驱动器,并且会作为一个 RDD 而进行维护更新。

    这会带来大量额外开销,因为每次迭代都需要创造一个新的 RDD 来保存更新后的模型参数。更新模型涉及到在整个机器/磁盘上重排数据,这就限制了 Spark 的扩展性。

    PMLS

    PMLS节点会存储和更新模型参数以及响应来自工作器的请求。工作器会请求来自它们的局部 PS 副本的最新模型参数,并在分配给它们的数据集部分上执行计算。

    PMLS还采用了 SSP(Stale Synchronous Parallelism)模型,这比 BSP(Bulk Synchronous Parellelism)模型更宽松——其中工作器在每次迭代结束时同步。SSP 为工作器的同步减少了麻烦,确保最快的工作器不能超过最慢的工作器 s 次迭代。

     TensorFlow

     TensorFlow使用节点和边的有向图来表示计算。节点表示计算,状态可变。而边则表示多维数据数组(张量),在节点之间传输。

    TensorFlow 需要用户静态声明这种符号计算图,并对该图使用复写和分区(rewrite& partitioning)将其分配到机器上进行分布式执行。(MXNet,尤其是 DyNet 使用了图的动态声明,这改善了编程的难度和灵活性。)
    8关注我们,收看更多精彩课程

    640

    科技晚自习 | AI+教育 “生而不凡”

    一堂课告诉你,摆脱苦学模式,让教育回归快乐不是梦!

    现在,谈到学习,人人皆言“苦也!”比如个个在“陪娃写作业”中遭罪的家长——

    “不写作业,母慈子孝;一写作业,鸡飞狗跳!”的。

    f58daeea8b48347207dc53a35fa2c01b

    积郁成疾的。

    572de1f91546b81cae3eb1e52f17142c

    甚至还有“甩锅”给未来亲家的。

    77574ba703fa4e118638cadc9204e721

    连《三十六计》中的远交近攻,在当代也被赋予了全新含义:

    eebd0be59ef549f4b82031a168d60aee

    再看学生,人家也是“宝宝心里苦啊”。

    上不完的课,刷不完的题。尤其到了假期,功课量飙升,正可谓“我写一个月,师写一个‘阅’。”

    9fc4-fyqwiqi5991173

    那可以呼吁老师们给我们减轻一点压力吗?小编也曾这样想,直到看到了这张图:

    9eb4708cd7624195a75e50245c2aeefa

    ……算了,都不容易(囧)。

    那么,“埋头苦干”真的是当下教育的唯一正解吗?相信很多人都有这样的无可奈何:现在竞争激烈,知识爆炸,想不输在起跑线只能填鸭式吸收,素质教育呼吁了很多年,现在不是仍然没有完全落实吗?

    别急,我们准备了一堂课,听完它,启发你脱离苦海,让学习回归欢声笑语。它是——

    11月28日,AI大学第十七期《科技晚自习》

    480X720科技晚自习

    王士进院长将与大家一起探讨人工智能如何让教书育人展翅高飞。比如——

    对学生,自适应学习通过线上收集作业和考试成绩反馈,为每个学生定制教学方案,旨在帮助学生发挥特长,弥补薄弱环节。实现新时代的“因材施教”。

    对家长,伴随机器人等智能教育硬件将代替自己辅助孩子写作业和复习,它们全天候待命、可以和学生进行完全理性的无限制互动,让过去“输出靠吼”的陪读时光一去不复返。

    对老师,AI的大数据处理能力可以提供学生课业状态的反馈,AI助教则可以代替教师管理课堂秩序。未来的分工,将是AI陪着学生学习基础知识和构建知识图谱,而老师将主要精力放在与学生进行情感交流,帮助学生塑造正确的价值观和思想品德这些更有价值的工作上。

    AI+教育,能否让学生、家长、老师不再“苦干”?AI开发者想进入教育行业,又有哪些建议?

    11月28日晚7:00,第十七期科技晚自习,我们一起寻找答案!

    科技晚自习
    《科技晚自习》是由科大讯飞 AI 大学推出的一档轻量级科技脱口秀节目。

    聚焦人工智能以及其他前沿科技领域,关注技术在商业以及在生活中的应用,激发好奇心,体验黑科技,观察科技驱动的未来。

    关注“AI大学”公众号,后台回复关键词“教育”获得本期课程观看链接。

    我们在直播间为大家准备了精彩的福利互动,欢迎踊跃参与哦!

    扫码即可关注“AI大学”公众号

    AI大学

    服务商招募 | 我们诚邀你一起,搭几座未来城市

    讯飞服务市场招募物联网行业优秀服务商,推进IoT赋能智慧城市建设!

    太长不看版
    讯飞服务市场招募在物联网行业拥有成熟产品及解决方案的服务商,协同推进IoT在城市各个领域应用,加快智慧城市建设!点此登录讯飞服务市场,点击顶部“我是服务商”,选择“智慧城市”类目,即刻入驻! 

    随着AI、云计算和大数据的不断突破,越来越多的巨头们加入了塑造“智慧的城市”的宏大事业中——

    IBM开启“智慧星球计划”,希望基于大数据分析平台Watson的认知智能技术,对城市的空气状况,交通管理等进行实时优化。

    谷歌开启“Sidewalk Toronto”,在多伦多落地未来智能社区方案。在这个社区中,无人汽车、智能信号灯、送货机器人无处不在。

    9ea9283aaa6ade9ba4363a977b94fa6e

    “Sidewalk Toronto”概念图

    根据德勤《超级智慧城市报告》,目前全球已启动或在建的智慧城市达1000多个,中国在建500个,远超排名第二的欧洲(90个)。

    庞大的人口+移动互联网快速发展带来的多样化生活方式,在全世界最大的智慧城市项目实施国中,构建的每一座未来之城注定独一无二。

    在我们看来,“物联网(IoT)”将为未来的一座城市带来巨大能量。

    通过IoT,连接城市中所有智能设备,实现对城市的全面感知,并利用云计算等技术处理海量感知数据,完成对政务、民生、环境、公共安全等各项事务的实时响应与支持。

    而你,也许正好拥有这样的IoT产品及方案,为智慧停车场,智慧楼宇、智慧交通,智慧园区,智能抄表、城市安防等场景赋能。

    所以,我们想邀请你,一起抓住机遇,迎接挑战——

    讯飞服务市场招募广大在IoT行业有成熟产品、解决方案的服务商。

    我们希望与你协同努力,让IoT更好的应用在城市各个领域,加快城市智能化发展!

    PS:关于讯飞服务市场,点此了解

    加入我们,你将获得——

    首先——

    入驻讯飞服务市场的IoT服务商,只需使用讯飞IoT平台完成流程测试或项目实施,经评估即可通过各级认证服务,进入讯飞内部服务商资源池。依托城市、小镇、园区等项目可获得大量优质需求。

    除此之外,我们还为你准备了——

    服务商扶持,城市物联网需求对接支持
    依托讯飞强大的资源渠道吸引客户发布需求,旨在为广大服务商寻找最优质、最匹配的需求。同时我们提供完善的供需双方需求对接流程。
    IoT行业知识分享、优秀案例分析&方案指导                                                                  讯飞IoT为服务商提供全年多场线上线下行业知识分享,并会对优质服务商的优秀案例进行分析、拆解,帮助广大服务商提升方案质量及实施能力。

    服务商认证及露出,线上线下多维度品牌推广                                                                线上,我们为你提供服务市场、讯飞开放平台等优质广告位露出。在线下,你将有机会获得在各类行业峰会、1024开发者节等现场的开设展位,进行宣传推广的支持。

    服务商专属经理                                                                                                                    我们为服务商提供的专属经理是一对一为服务商提供服务,会快速响应服务商需求,并在反馈问题后24h内解决。

    我要如何入驻?

    1.登录讯飞服务市场 http://www.aifuwus.com/,点击顶部“我是服务商”

    微信图片_20181122140140

    2.选择“智慧城市”类目,完成服务商入驻申请

    3.平台进行资质审核,通过后即可入驻

    4.服务商入驻要求                                                                                                                       入驻的服务商公司需要符合国家相关法律、法规规定,拥有正规的公司资质。同时服务商需要具有15人以上的技术及客服团队,拥有2年以上的该行业服务经验。可提供不少于5*8小时的在线服务,具有一定的营销策划能力。按照讯飞服务市场相关协议开展业务合作。

    想了解更多,或有任何与服务市场有关的疑问,欢迎通过以下官方渠道与讯飞AI服务市场团队交流,我们期待您的声音!

    联系电话    4000-199-199

    邮箱交流    aifuwus@iflytek.com

    QQ交流    讯飞服务市场交流群(778105911)

    官方微信

    qrcode_for_gh_cfb53edb0e56_1280

    过去活跃在科幻片中的“克隆人”可自提,这事儿好像成真了……

    在前不久刚刚结束的科大讯飞1024开发者节上,关于首届“顶天立地”iFLYTEK A.I. 开发者大赛总决赛中,一家名为“奇幻科技”的企业果断get到了如此“妙不可言”的科技点。

    发表于2018-11-14 17:23| 来源CSDN| 作者刘晶晶


    289_181114172457_1
    《邓丽君·传奇》全息演唱会现场

    (图片来源:https://item.btime.com/m_9d090cf74ff9f25c7?page=1

    看到曾经的华人巨星邓丽君再现舞台,并真实领略了天后的倩影和歌声的经典重现,着实有点儿小鸡冻!

    话说,如果好莱坞大片中的“替身小分队”纷纷主动“换角”,动作演员替身要失业,你会怎么想?

    据可靠“情报”,如今确实有很多大牌动作明星都选择使用虚拟替身,就连好莱坞自己也并不想再使用真实演员完成高危动作,其中成本是首要被考虑的因素。例如我们熟悉的热门电影《创:战纪》、《复仇者联盟》三、四季以及前段时间霸屏的《头号玩家》等,在拍摄过程中均延用此道。

    虽说以上发生的这些事儿在鸡冻之余确实有些麻烦,但以虚拟人技术与MR技术(AR+VR)混合成的“虚拟人全息”技术,的确让“随时随地创建属于自己的阿凡达”这事儿成功突破了科学幻想的边界。

    试想一下,过去活跃在科幻片中的“克隆人”可自提?实在有趣!

    需要解释说明的一点,这里提到的“克隆人”并非我们通常意义上的以生物学为基础的基因复制,而是来源于美国知名生物制药公司联合治疗公司创始人兼CEO玛蒂娜·罗斯布拉特的争议之作《虚拟人》,书中提出的“思维克隆人、网络人等虚拟人将如何颠覆人类对‘我’的定义”。
    289_181114172521_1

    图片来源:www.cyzone.cn

    说来也巧,就在前不久刚刚结束的科大讯飞1024开发者节上,关于首届“顶天立地”iFLYTEK A.I. 开发者大赛总决赛中,一家名为“奇幻科技”的企业果断get到了如此“妙不可言”的科技点。

    通过图像建模、语音识别、语义识别等人工智能技术,搭建了一套数字化人物模型及智能的中心系统,用户使用后可以通过上传自己的照片来快速获得虚拟人形象,这款基于AI技术的智能虚拟人系统被大家称作“Amazing Me”,并荣获了应用开发 AI 挑战赛的亚军圣冠。

    奇幻科技方面表示,研发Amazing Me最初的想法,是想让每个人都可以创建与自己长相一样的虚拟人,更重要的是能够让虚拟人成为人类的“陪伴者”,填补精神层面的缺失与空虚。


    289_181114172551_1

    Amazing Me 虚拟人

    (图片来源:http://finance.huanqiu.com/cjrd/2017-08/11068843.html 

    据了解,除了长相的高度重合外,奇幻科技的研发团队还通过AI 算法为每个虚拟人在表情、动作、记忆等细节中“生发”个性化的形象特点,更有趣的是,新鲜出炉的虚拟人还能做到自我学习,在外形和思维方面不断趋近于真人,果然如名字般够惊喜!

    具体来说,为了让上线的虚拟人形象越来越像“真的你”,Amazing Me采用了一套“AI自适应整容”方案。就是利用照片与视频建立与真人一样的虚拟人模型之后,通过AI 算法,捕捉和学习与真人在形象上的细微变化,不断对虚拟人模型加以调整优化,从而达成虚拟人与真人同步成长。

    此外,虚拟人还可以学习真人的表情和动作,通过捕捉建立个人的表情动作数据库;具备的人脸识别和唤醒功能让其在机器学习的技术“影响”下,做到与人真正对话,在交谈中提升技能,值得提出的一点,应用中涉及到的语音能力均是讯飞开放平台所提供。

    不同于美国科幻电影《Her》中陪伴男主人公的萨曼莎只有声音,智能虚拟人还有一个逼真的实体。对此奇幻科技表示,未来,高度类同真人的智能虚拟人前景优势巨大,可以融入到很多实际应用中“放光发热”!

    “首先,他们真的可以创造一种新的生活场景,例如虚拟人的VR电影!”让每个人走入电影中成为主角,明星的虚拟人甚至可以代替真人表演发挥,是一个驱动电影发展的好办法!奇幻科技方说。
    289_181114172614_1

    篮球运动员马布里虚拟人首发

    (图片来源:http://ent.ifeng.com/a/20181015/43124051_0.shtml

    另外就是目前比较常见的应用类型,对故去人物的还原。这方面主要通过历史故事或者相关的数据信息,将历史名人、故去的明星偶像等搬到故居、蜡像馆甚至是舞台上,与游客以及观众实现交互,产生活灵活现的对话。

    此外,还可以模拟斯坦福大学虚拟人机界面实验室(VHIL)的虚拟角色,创建一个老师的虚拟镜像。怎么用?系统会根据每个学生的言行举止“创造”出一个与学生相貌以及举止行为类似并更有亲和力的老师形象,从而提高听课的效率。事实证明,让一个学生喜欢的老师来授课,确实会大大提高其学习效率,何乐而不为呢?

    现如今市场上在售的、具有陪护功能的智能机器人多不胜数,虚拟人的成熟上线正可打破机器人“第三者”的身份,从“真正亲人”的角度出发,甚至可以在特殊时间代替家庭重要角色进行互动交流,让诸如留守儿童等特殊群体随时得到父母关爱。

    更重要的是,智能虚拟人通过自我学习可以不断加深对服务对象的了解,还能够实时记录个人成长,例如在不同的年龄阶段建立档案等,或许未来某一天,人类可以与某个时期的自己对话也说不定呢!

    畅聊智能虚拟人之后,我们再来详细聊一聊这家名为“奇幻科技”的企业吧!

    “我们是一家以内容为切入点的技术公司。”这是奇幻科技团队上下赋予自己的定位。

    创业之初,在VR发展的五大方向(操作系统、硬件、线下体验、应用于内容)中,奇幻科技妥妥选择了从内容出发,寻找与产品和技术的结合点。在这个前提下,加大技术的自研力度,例如语音交互、眼球追踪等,成为团队一直以来的不断追求达成的目标。

    技术的高效研发需要一支高精尖的团队,据悉奇幻科技还有一支强大的、来自国内以及美国的人工智能团队,同时包括高校资深的科研任务为其提供技术指导,如此来看内容以及交互技术才有了落地的可能性。

    除了“智能虚拟人”的新鲜上线之外,奇幻科技还在线下打造了一种全新模式——“奇幻乐园”,将人工智能与VR技术有机结合,目前已在成都、青岛、厦门、宁波等地陆续落地。

    例如在宁波,奇幻科技的线下VR主题乐园已经建立并投入运营,乐园涵盖二十多项VR体验项目,是目前最大的一处VR乐园,主要包括探索宇宙的天文馆、探索太空的虚拟航天飞机、回到侏罗纪时代的恐龙馆等诸多基于虚拟现实的体验项目。

    289_181114172727_1

    图片来源:http://www.sohu.com/a/168535878_117206 

    其中VR教室能够为中小学生提供科学类、自然灾害的安全教学以及红色教育等“真实”内容,这些在传统课堂中都很难实现。“我们在所有VR主题乐园中都设有VR教室,主要面向宁波几十万小学生,让广泛开展的课外实践活动可以具备身临其境的体验。”据小编了解,未来智能虚拟人将成为主题乐园的核心。

    关于未来,奇幻科技的规划很清晰,就是把人工智能和VR、AR、全息投影等创新技术结合起来,打造虚拟人的技术体系,并以此建立线上线下的各种应用。更重要的是,做成一家真正关注未来、关心人性且不以盈利为唯一目的企业,是奇幻科技的初心所在。

    凭借创新的AI应用,奇幻科技在科大讯飞首届iFLYTEK AI开发者大赛上表现亮眼。

    据了解,本次大赛共设置了“方言种类识别AI挑战赛”和“应用开发AI挑战赛”两项赛事,历时6个多月,吸引了1万余名世界各地的优秀开发者踊跃参加,共计收到全球3千多支团队提交参赛作品,经过决赛的选拔,眼前一亮的厉害作品更是层出不穷。

    更重要的是,大赛面向全球首次开放中文方言语音数据集以及 AIUI 人机对话交互,语音听写、合成、评测、翻译,人脸识别,声纹识别等十余项人工智能核心技术,极大促进人工智能应用场景的升级。

    不但技术上大力支持开发团队,还将为参赛选手们提供百万现金、科技晚宴、就业通道等全方位资源扶持,试想一下,在科大讯飞如此给力的助动下,未来如同奇幻科技一样的出色企业以及醉心语音研究的开发者们,定会迅速崭露头角,大放光彩……

    万物智联,从这里开始| iFLYIoT物联网平台正式上线!

    为了构建智能物联网的基础设施,实现便捷快速的网络连接,为开发者、消费者提供更强大的设备智能解决方案,科大讯飞iFLYIoT物联网平台现在正式上线!

    NEWS
    科大讯飞iFLYIoT物联网平台上线!通过建立设备、云端双向通信通道,使设备可以稳定、便捷、高效地连接到物联网云平台。此外,更是与最新推出的iFLYOS结合,真正实现让A.I.轻松触达每个设备。了解详情:iFLYIoT物联网平台

    IoT平台(Internet of Things)即物联网平台。从产业分工的角度来看,IoT平台负责连接海量设备并对设备数据进行汇聚、管理与分发,具有影响产业价值分配的能力,是物联网生态中有力的赋能者。
    6401

     

    物联网平台的重要性毋庸置疑。而在如火如荼的发展过程中,一些问题和痛点也逐渐显露出来:架构僵化、物与物协作效率低下、个人隐私和设备安全问题严峻等等。这些问题无疑是对平台的智能性、高效性提出了更高的要求。

    为了构建智能物联网的基础设施,实现便捷快速的网络连接,为开发者、消费者提供更强大的设备智能解决方案,科大讯飞iFLYIoT物联网平台现在正式上线!

     

    功能概述

    能力强大·可视化控制

    iFLYIoT平台通过建立设备、云端双向通信通道,使设备可以稳定高效地连接到物联网云平台。除此之外,更是与讯飞丰富的A.I.能力结合,凭借自身语音识别、语义理解技术优势,快速构建行业智能解决方案。下面将从平台功能、A.I.接入和构建IoT解决方案几个方面进行介绍。

     设备接入 

    平台针对不同操作系统、终端类型、联网方式的设备提供设备端SDK,使其可以快速连接至iFLYIoT平台。开发者可基于SDK和XLink协议开发设备端功能,并让设备与云端进行消息通信。同时还可集成多种A.I.能力,实现设备智能化。
    6402

     

     平台能力 

    iFLYIoT平台提供完善的产品开发、设备管理等基础能力,可快速在云端构建产品及功能,并且提供事件管理、规则引擎等拓展服务,方便开发者拓展产品能力。具备亿级设备的连接能力,安全可靠地实现消息收发及路由,帮助开发者构建自己的IoT应用。

    6403

     

     协议互通 

    提供第三方设备厂商的通讯协议与Xlink协议的互通,开发者可编写协议转换脚本,将第三方设备的通讯协议与Xlink协议进行适配,iFLYIoT平台通过协议转换脚本解析第三方设备上传的数据信息,下发设备指令。
    6404

     

     数据统计 

    实时统计基于产品的设备、消息、行为数据,并基于数据进行定时、定性分析,分析结果通过可视化报表进行展示。

     语音交互 

    为了让开发者更简单接入和享受到讯飞强大的A.I.能力,我们在云端实现了一键接入IFLYOS控制。

     

    平台特点

    灵活快速·高效安全

    高效易用

    简单易用的平台操作,完善的产品、设备管理,强大的数据统计分析功能助力开发者快速、高效的创建自己的IoT方案。
    灵活开放

    支持Android、RTOS等多种方式接入IoT平台,提供丰富的服务和数据API和规则服务,支持多源数据开发。
    安全可靠

    支持亿级海量连接,提供多重防护保障设备信息安全,安全、完善的访问权限控制。业务可靠性达到99.9%,为开发者保驾护航。
    快速落地提供第三方设备厂商的通讯协议与Xlink协议的互通。面向工业物联网、智慧城市等领域提供行业开发组件,帮助开发者快速孵化行业应用及解决方案。 

    突出优势

    3小时·万物互联触手可得

     —快速构建解决方案— 

    iFLYIoT针对开发者所在的不同行业提供了高效、强大的功能解决方案。

    针对智能硬件,iFLYIoT提供语音交互系统+设备管理平台,为厂商提供一站式的设备智能方案,提升设备的用户体验;针对城市物联网,iFLYIoT提供边缘解决方案+云平台的混合组网方案,满足城市物联网私有数据存储、高安全性、低网络依赖的需求。
    6405

     

    同时iFLYIoT为开发者提供了高效、易用的开发平台,只需3个小时即可完成demo开发,极大地提升了开发效率。

     —结合A.I. 实现万物智联— 

    智能硬件是IoT的重要应用领域,但目前面临设备多、交互方式繁琐等问题。为此,讯飞依托在语音交互领域的布局,将iFLYIoT与最新推出的iFLYOS结合,推出语音操作系统+设备连接的解决方案。利用语音识别、语义理解技术优势,实现统一高效的交互方式。

    6406

     

     —赋能开发者,共建IoT生态— 

    借助讯飞在生态产品上的优势,iFLYIoT物联网平台还为开发者提供了服务市场。企业可将自己生产的产品通过服务市场与需求方进行沟通,达成商业合作。同时还提供功能强大的数据运营功能,助力开发者挖掘数据价值,创建更好的IoT生态。

     

    解决方案

    典型场景·轻松落地

    聚焦家居、生产、办公等典型场景,iFLYIoT提供包括数据、安全、管理等一系列面向IoT场景的云服务,实现在各类场景下的顺利落地。

    智能家居

    智能家居设备通过使用IoT开发者平台完成与云端连接,使消费者可以随时随地掌握家中智能设备的状态,并实现远程操控。
    6407

     

    生产监控

    通过iFLYIoT平台可将工业设备连接至云端,使企业相关人员可以实时监控工业设备的生产状态,制定更加科学的生产计划。

    智慧楼宇

    通过跨产品、跨厂商的设备打通,使消费者拥有的智能设备组成一个设备网络,实现设备互通。再借由规则引擎实现设备间的联动,为消费者打造更为便捷舒适的家居、办公环境。
    6408

     

    优秀案例

    MORFEI智能麦克风

    目前,IoT的一个重要应用就是智能家居。智能家居作为一个已经发展了几十年的产业,在最近几年终于迎来了大爆发,智能语音也成为继路由器之后的又一智能家居控制中心。

    MORFEI智能家居生态则是IoT落地家居领域的优秀案例。

    2017年6月,科大讯飞发布了面向智能家居场景的MORFEI智能麦克风1.0。这款麦克风能让开发者经过短暂的调试对接,实现智能交互能力。进一步提高智能家居的集成度,降低了合作伙伴的开发难度。
    6409

     

    MORFEI麦克风通过分布式拾音,可以实现在整个空间内任何一个角落随意说,MORFEI的云连接能力可以实现和所有的周边的合作伙伴的产品的连接,形成解决方案。

    以这款 MORFEI 智能硬件平台为核心,讯飞想要打造一个「标杆性」的语音 IoT 生态。

    正如在今年的全球1024开发者节上,胡郁总说的那样:”在不同的用户和场景组合中,你设计的智能产品是多样化的,有感情的。它应该有自己的名字,连接了不同的内容。而通过iFLYOS和iFLYIoT,我们可以将它们连接在一起。“
    64010

     

    快来体验吧!

    登陆讯飞开放平台官网,点击“产品服务”栏目,找到“iFLYIoT物联网平台”入口即可体验
    64011

    扫描二维码,关注我们——
    64012

    新能力上线 | 精准识别2万种物体,还能看人脸测颜值!

    现在,由科大讯飞能力星云计划的优秀A.I.服务合作伙伴,图普科技提供的人脸特征分析、场景识别、物体识别在讯飞开放平台上线!让你可以开发拥有更多样化智能识别能力的产品。

    划重点

    科大讯飞能力星云计划的优秀AI服务合作伙伴——图普科技,带来人脸识别、自然场景识别新能力!戳一下了解详情:人脸特征分析场景识别物体识别

    如今,打开微信朋友圈,一条条动态几乎没有不配图的。晒风景,晒美食,晒自拍……一天不“晒图”简直浑身难受。

     

    全世界每天每分钟会上传超过5亿张图片到互联网,随着高速网络的普及与智能设备的发展,图片已成为用户表达、事件记录中不可或缺的部分。内容审核、照片管理、营销推广等需要处理大量图片的工作对图像识别能力的需求正在不断增强。

    对于开发图像智能识别产品的开发者,想让产品脱颖而出,不仅要让识别高效精准,还要能通过独一无二的功能带来全新的玩法,比如可以给好友的自拍评一个颜值指数、从一张晒吃照片中迅速获得美食信息……

    现在,由科大讯飞能力星云计划的优秀A.I.服务合作伙伴,图普科技提供的人脸特征分析、场景识别、物体识别在讯飞开放平台上线!让你可以开发拥有更多样化智能识别能力的产品。

     

    人脸特征分析

    颜值、表情多维度识别,准确度99.5%

    基于深度学习算法,可以检测图像中的人脸并进行一系列人脸相关的特征分析,当前支持识别出包括性别、颜值、年龄、表情多维度人脸信息。可用作基础人脸信息的解析,智能分析人群特征。

     

    年龄

    对上传的图片中人物的年龄段进行判断分类,如婴儿、青年、中年、老年等。

    性别

    识别出上传的图片中人物的性别。对露出全脸、侧脸的真人或动漫人物进行“男性”、“女性”的分类。图中有多个可辨别面部特征的人或动漫人物时识别为“多人”。对画面无人、面部未显示或无法辨认的图片归为“其它”。

    颜值

    对上传的图片中人物颜值进行分析,给出对应结果:漂亮、好看、普通、低颜值等。

    表情

    识别出图片中人物的表情特征:喜悦、愤怒、悲伤、惊恐、厌恶等。

    能力优势

    1、准确度达99.5% 

    对于日常生活中的人脸,准确率高达 99.5%。

    2、可适应多种复杂环境

    在遮挡、光照不佳、头部姿态变化等复杂场景下均具备高性能表现。

    3、处理高效稳定

    毫秒级响应速度,在 PC、移动设备上均能迅速处理。

    可应用场景

    1、客流属性识别 

    通过对图像或视频中的人脸特征分析,分析客流的性别、年龄等属性。

    2、广告精准投放

    通过人脸特征分析,可以实时分析受众人群的性别、年龄等特征和分布状况,精准投放广告。

    3、线下营销

    基于人脸特征分析,商场、餐厅等场所可展开颜值测试类的互动营销活动,增加与顾客的互动。

    自然场景识别

    覆盖数十种场景,2万种物体

    场景识别

    精准识别自然环境下数十种场景,让智能相册管理、照片检索和分类等基于场景的应用展现得更加直观。

    对实际应用场景分为室内、室外、自然风景和其他四大分类,每个分类都会按照实际场景细分为多个类别,根据用户上传的图片里对应的实际场景返回结果。

     

    物体识别

    全球领先的通用物体检测算法,有效检测图像中的动物、交通工具、生活家具等2万多种生活常见物体。可分析图片主要内容,帮助技术团队对图像语义进行自动化解读。

     

    能力优势

    1、超高准确度

    全球领先的智能识别算法,让图片内的场景和物体可以被准确识别。

    2、功能强大

    支持数十种场景、数万种物体识别,并在持续增加中。

    3、适应复杂环境

    在模糊、倾斜、光照不均、背景杂乱等情况下均保持高性能表现。

    4、处理高效稳定

    毫秒级响应速度,并在实际场景中不断优化性能表现。

    可应用场景

    1、拍照识图

    自动识别所拍照片的内容,减少人工录入成本及出错率。

    2、图片内容检索

    根据图片场景自动分类,建立快速检索系统。

    3、智能相册

    根据用户上传照片进行主体检测,精准识别照片信息,批量读图实现相册智能分类管理。

    4、内容及广告推荐

    识别用户经常浏览的网页中的图片信息,推送相关内容或广告。

    5、以图搜物

    在不知道图片中物体的名称时,自动化检测并展示图片内的物体信息,方便进一步搜索物体的相关内容。

    来官网进一步了解吧!
    人脸特征分析

    场景识别

    物体识别

    A.I.能力星云

    除了自研能力,科大讯飞还与业内优秀的技术厂商进行战略互补形式的合作。带来能力星云计划

    讯飞开放平台自2010年成立以来,经过8年的积累,现已开放近百项A.I.能力,赋能88万开发者团队。在能力星云中,A.I.服务合作伙伴通过讯飞开放平台的桥梁,为更多的A.I.开发者和爱好者提供服务,让技术为在更多场景中落地,为各行业赋能。

    A.I.服务合作伙伴在能力星云中拥有:

    官网专栏产品页

    讯飞开放平台上线A.I.能力详情页,产品介绍,接入流程,能力提供方等信息一应俱全!

    全渠道推广宣传

    线上渠道,线下市场活动,会针对A.I.服务合作伙伴的产品进行全网宣传和推广,扩大影响力,吸引更多开发者使用A.I.能力!

    商机即时对接

    专业团队负责商机梳理和对接,A.I.新能力商机将会即时处理,定期同步给A.I.服务合作伙伴,带来更多商业资源引流。

    共享开放平台开发者

    讯飞开放平台丰富的开发者将率先体验A.I.新能力,并应用在产品中,形成更多的合作案例以及解决方案!

    未来,能力星云将让厂商的实用级核心技术陆续与讯飞的核心能力一起,汇聚成A.I.能力的星云,释放巨大的组合效应!

    科大讯飞魏思:技术在不断发展的同时,也在朝着历史「回归」

    技术在不断发展的同时,也在朝着历史「回归」
    如何去定义这些问题,并在有限的场景下去部分解决问题,才是我们下一步的发展方向.

    在刚刚结束的全球1024开发者节上,科大讯飞研究院魏思就模式识别和人工智能的发展关系和发展历史问题,做了他自己15年来的A.I.追光故事分享。

    他在分享中提出如下观点:

    技术在不断发展的同时,也在朝着历史「回归」

    如何去定义这些问题,并在有限的场景下去部分解决问题,才是我们下一步的发展方向

    ……

    这些观点是非常值得我们去学习和思考的,我们将魏思院长的演讲文稿整理出来,希望对大家未来的研究之路能够有所启发。

    以下为演讲稿的文字整理,有部分微调

    我叫魏思,来自科大讯飞研究院,我大概有15年的时间一直在从事模式识别方面的工作。

    模式识别大概有60、70年的发展历史,最近这十年好像行业技术发展得很好,但实际上我认为它是朝着历史回归了

    目前所有研究的方向、模型都回归到了条件相关性或者是条件依赖性的数学模型上,而此模型是在80年代中期由美国科学家Judea Pearl提出来的,后来这套模型演变成了图模型,目前的基于深度学习的模型和图模型在数学上的变化非常小,但是实际效果变化却非常大。

    接下来我会从4个方向去讲述这几十年来技术的发展脉络。这4个方向分别是人类或者动物的神经元信号的传递机理和人工神经网络;统计和模式识别;语音和语言方面的研究;图像识别的研究进展

     

    点击查看魏思演讲全部视频

    从生物神经网络到人工神经网络

    18世纪,意大利的科学家伽伐尼发现青蛙的蛙腿放在金属上会引起抽搐,这是人类第一次发现肌肉可以由电刺激而产生动作,于是伽伐尼猜测了生物电的存在。

    1920年阿德里安通过实验证明了神经元动作电位的存在。而早在20世纪初的时候,科学家伯恩斯坦提出了静息膜电位的概念,并发现静息膜电位为-70mv,同时他猜测带电物体穿越细胞膜或许是动作电位产生的机理。

    1939年霍奇金和赫胥黎通过枪乌贼神经元的系列精细实验证明了神经元的细胞内外确实存在电流,并测量出了动作电位的大小(110mv)。他们发现是钠离子的内流形成了真正的动作电位,钠离子内流之后钾离子外流保持细胞内外的静息膜电位然后他们猜测了两件事情,第一,膜上有离子通道,第二,存在离子转运蛋白保持膜内外离子平衡,这些后来都被分子生物学所证明。静息膜电位,离子内外流动和转运蛋白一起完成了动作电位的产生。
    h'y640

     

    魏思现场演讲

    同期(1920-1930)Loewi,Dale,Katz发现了神经递质乙酰胆碱,乙酰胆碱引起离子通道打开从而在神经元间形成动作电位,完成了信息在不同神经元之间的传递,至此,神经元的信号传递分子机理基本梳理清楚了。

    在此基础上,1943年McCulloch和Pitts提出一种非常简单的数学模型(MP模型)去近似神经元的信号处理机制。1958年美国科学家罗森布拉特首次发现可以用MP模型,去完成很简单的模式识别任务,也就是让机器识别物体和数字,这也是第一代神经网络,我们称之为感知机

    我们把那个阶段称之为神经网络第一次浪潮,但很快浪潮就过去了,因为当时的感知机的识别性能比较低,在实际中很难发挥作用。

    同时在50年代,Kuffler,Hubel和Wiesel发现了视觉神经系统的工作机理,原来视觉不是响应弥散光的照射,而是响应不同形状的光照。他们创造性的提出了感受野的概念,现在我们知道这就是滤波器。

    受此研究的影响,贝尔实验室的科学家LeCun在80年代末90年代初想到了利用卷积或者形状响应机理设计一种算法去进行文字的识别,但当时,模式识别界被SVM主导,这个发明并没有引起很大的反响。

    640了魏思现场演讲

    同时,从80年代到90年代,Hopfield提出了动态神经网络,Schmidhuber和Hochreiter提出带遗忘机制的动态神经网络模型。但那时并不被看好,直到近几年这个模型才逐渐流行开来。2006年以后,Hinton复兴了深度学习,并在语音和图像上取得了突破性进展,深度学习也获得了极大的应用这就是我们说的从神经元的工作机理,到人工神经网络的发展历史。

     

    统计和模式识别的发展

    统计的雏形是概率和计算而最早的广为人知的统计算法是最小二乘法,它是在1805年由勒让德首先发明的,并在1824年由高斯用误差分析的方式重新阐述以后获得了极大的影响力,是前模式识别时代应用最广泛的算法。

    1885年弗朗西斯·高尔顿发明了回归,同时利用数据统计和图形化首次得到了二维正态密度的分布图和相关系数等重要概念,要说现代统计肇始于高尔顿也不为过。

    高尔顿赞助卡尔.皮尔逊在伦敦大学学院(UC London)成立了统计实验室,造就了20世纪早期开始的统计学革命。费舍尔(Sir R. A. Fisher)在1936年提出的线性区分性分析(LDA),纽曼,爱根·皮尔逊(卡尔·皮尔逊的儿子)同期提出的似然比检验(Likelihood Ratio Test)则可以称之为现代分类器的雏形。这些概念后来演变成了现代模式识别体系。

    1950年美国科学家Abraham Wald系统地将“统计决策理论”阐述清楚。从那时候开始,模式识别慢慢成熟,我们有了很多可用的模型,比如说线性分类器、树分类器,GMM模型,HMM模型等。

    这里面特别值得一提的就是条件相关性模型,1985年Judea Pearl提出来贝叶斯网络, 此后,Judea Pearl对图模型的学习、推理等进行了系统性的研究,并解决了一系列数学问题他在科普书(The book of why)中自豪的称自己的工作解决了人类智慧的秘密(寻找事物之间的因果关系),他也因此得了2011年图灵奖。

    64045魏思现场演讲

    但事实上图模型的学习和推理非常难(数学上的术语是图模型的学习是NP-Hard的),在实际应用中的效果并不是很好。在2006年到2010年期间,以Hinton为代表的人工智能学者发现在用神经网络让模型通过数据和算法自动去获数据之间以及数据和标签之间的条件相关性,可以获得非常好的效果

    从上面我们可看到,模式识别也慢慢地发展到了对条件相关性的利用和训练方向上来了。

     

    语音和语言的发展

    在语音方面我会讲两个方向,语音合成和语音识别。

    语音合成在90年代以前都只是实验室的项目,到了90年代后,研究人员发现可以通过预先录制很多的语音,在实际使用的时候把数据拿出来进行拼接来进行语音合成。奇怪的是,这么简单的做法,居然可以获得相当好的效果。但是这样得到的语音连贯度和平滑度不够,所以研究人员设计了很多的启发式的规则和方法,去调整语音合成的连贯度和平滑度。

    2000年,日本科学家Tokuda把语音识别中的常用方法HMM用到了语音合成上,提出了新的语音合成方法,虽然在当时它的效果不是很好,但很快人们发现用这种新的方法,在语音合成的效率、平滑度问题上,都有很好的表现。

    2016年年Google提出了WaveNet,我们也利用条件自回归模型取得了较大进展。目前,由于利用了长时的相关性,我们的语音合成效果非常棒,语音合成也慢慢收敛到条件相关性上来了。

    语音识别历史就更长了,而且更有意思。 1971年JennyBaum发明了HMM,1975年James Baker把HMM用到了语音识别上80年代到90年代,GMM/HMM的EM算法被几个小组(CMU,IBM,Bell lab)重新定义(1977年Dempster就已经从数学上把EM算法做出来了),一批科学家从无到有地将EM算法和HMM语音识别上的整套体系建立起来了。自此语音识别被HMM主导并由于HTK(HMM Toolkit, Cambridge)的出现而得到了大面积的推广。

    2010年,Hinton首次提出利用深度网络结合HMM进行语音识别,并和微软研究院俞栋和邓力合作在SWB上获得了相对30%的提升,从此语音识别翻开了新的一页。

    综上所述,可以看出语音合成和语音识别也都收敛到条件相关性的数学模型上来了


    64088

     

    魏思现场演讲

    下面,我们来看看语言。

    在很早的时候,语言是定性和分析的科学。

    到了90年代,随着HMM模型的普及,特别是HMM在机器翻译上的成功应用,语言也进入了统计的时代。

    2001年JohnLafferty发明了条件随机场模型,这个模型考虑了特征域和标签域的条件相关性(相比HMM,多考虑了标签域的相关性),由于考虑到了更多的条件相关性,条件随机场的效果好过其他的模型,也获得了大量的应用在2001年之后,条件随机场几乎主导了需要处理动态信息的自然语言处理系统。

    2012年,Minklov首次利用(RNN)语言模型取得了语音识别的显著提升,同时他们发现可以利用RNN语言模型生成符合语法规范的句子,而在此之前机器自动生成合乎语法规范的句子几乎是不可能完成的任务。

    2015年,Google和Universityof Montreal几乎同时提出了利用编码解码机制去进行机器翻译,再加上注意机制(Attention)的引入,机器翻译在过去的几年间发生了翻天覆地的变化。机器翻译的效果在简单场景下已经达到了人工的水平。而这套模型也是利用了神经网络实现了特征域和标签域的全部条件相关性

    由上我们可以看到,语音和语言,也都收敛到了条件相关性模型上了。

     

    图像识别的研究进展

    图像识别的发展可以分为2个阶段, 2012年之前和2012年之后。

    在2012年以前,大部分图像识别类的任务都是在发明非常精巧的算法,或者定义更加复杂有效的滤波器。这些工作虽然比较漂亮,但在实际复杂场景下的推广性不佳,如说人脸识别和物体识别。视觉识别方面(如人脸,物体,物体分割等)的研究也一直没有获得大规模应用。

    2012年Krizhevsky和Hinton首次提出了利用多层子卷积神经网络来进行图像识别在2012年的ImageNet比赛上遥遥领先传统方案,以显著优势获得第一名。从2012年以后,深度卷积网络几乎主导了计算机视觉的研究,现在几乎所有的视觉类任务都可以看到深度卷积网络。

    为什么会出现这样的现象?实际上所有人工设计的分类器或者特征,都是在试图用人工的方法去找到特征之间的条件相关性,这是非常困难的。

    而深度卷积网络让机器通过海量数据自动去提取条件相关性,这样可以发现非常复杂和隐藏的相关性

    由此可见,图像识别也收敛到了条件相关性上来了。
    64000

     

    魏思现场演讲

    下一步的发展方向

    我讲完了刚才的四个方向,大家会发现在模式识别的各种实际应用领域,模型通通都回归到条件相关性这个数学概念上

    唯一的区别是,我们现在找到了非常棒的一个动态模型,它能够比较自然地去描述条件相关性,然后我们再给模型很多训练数据,用基于梯度下降的BP算法去训练此模型,便可以在实际应用中取得很好的效果。

    看到这里大家可能要问,这便是人工智能了吗?

    不,并不是。

    智能和我们现在算法的差距非常远。我们现在的算法是给定了模式、给定输入,通过模型找到模式和输入之间的条件相关性,仅此而已。

    64099魏思现场演讲

    但是人类的智能是什么?人类的智能并不是在给定的模式下面做分类。人类会新定义模式(发现新模式)、拆解模式(进行模式重组和加工),所有这些都是现在我们模型所不具备的

    总结来说,现在的模型可以让我们非常自如地去发现数据中的复杂的条件相关性或者依赖关系。但由于这种关系可能是远距和复杂的,直接利用梯度信号训练,我们需要非常多的训练数据。

    现在的模型虽然好,但是它的实现原理和人类机理差别还是很大的。人是通过无监督学习,把所有的结构或者相关性梳理好,然后通过有监督的学习去进行标注和贴标签并不是直接用有监督数据来进行模型训练的(请大家回顾一下小孩子学习语言和进行图像识别和分类时,他得到的有监督数据是非常有限的)。

    同时,人类智能更多体现在认知上,也就是从无到有地产生概念和模式,这是机器所更加不具备的。给机器一幅图,让它用有逻辑、有语义的方式来描述这幅图,我们就会发现机器的表现非常糟糕。

    这是因为机器只具有模式分类和识别的能力,它不具有概念生成糅合拆解、新概念产生的能力,也就是机器无法深层理解语义并对语义进行加工。

    在这些方面我们如何去定义问题?怎么在有限的场景下去部分解决它?我认为这才是我们下一步的方向

    科大讯飞胡郁:因为看见,所以相信 | A.I.·生态计划2.0回顾

    人工智能给我们带来的不仅是交互的便捷,而且是情感上的依托。

    首先,想请大家思考一个问题。“有些产品一开始有非常多厂家做,比如说PC,最早全球有几万家厂商生产,而目前PC大厂商不过几家;智能手机也是一样,现在全球只剩七大手机厂商”。

    但是玩具、衣服、鞋子,一开始就有几千家几万家厂商生产,现在还是有几万家厂商。为什么会有这样的差异?这对创业者有什么启示呢?

    阅读下面文章,你可以找到答案

    10月24日,科大讯飞全球1024开发者节在合肥举办,会上科大讯飞轮值总裁胡郁发表了《致敬时代光芒》的主题演讲,向人工智能时代的“追光者”表达了敬意。在演讲中,胡郁也分享了很多对未来发展的思考,其中的一些思考对创业者来说,可以让大家有所启发。现在和大家分享一下。

    微信图片_20181030161212

    未来,五大发展趋势

    这个社会唯一不变的是变化,未来的人工智能将会如何发展呢?

    一、交互方式从图形交互,触摸交互向基于视觉呈现的语音交互发展

    在每一次计算机代与代的更替中,一直在改变的是我们和机器交互的方式。语音交互方式的变化必将带来芯片、云计算、外观设计和软件设计整个一系列的变化,这是趋势。

    二、单纯的软硬件模式向软硬一体的云+端模式发展

    原来你只要做个软件或者做个硬件就能满足用户的需求,但是现在随着移动互联网的发展,软硬件一体化、云端一体化已经成为一个必然的趋势,任何一个开发者不能绕开。

    三、面向最终用户的产品从大C向小C发展

    如果说PC这些产品,我们称为大C产品,就是大型的消费品,汽车、家电、电脑、手机都是,大家要的是标准化的统一。而衣服、玩具这种则是小C,在这些产品上人类要的不是标准化,而是多样化和差异化。这就是最前面让大家思考的答案。

    那么在未来人工智能时代,所有智能化的人工智能产品应该属于哪一类呢?是被几家巨头垄断还是百花齐放?我们认为是百花齐放,因为人工智能给我们带来的不仅是交互的便捷,而且是情感上的依托。它可能比历史上所有的小C产品都更加的情感化、差异化和多样化。这也意味着给很多2C的创业者打开了一扇门。创业者们都可以坚持下去,因为可以不必像生产手机、PC一样,最后只剩下几家巨头来竞争。

    四、参与生态的产品向多样化和去寡头化发展

    只有生态系统里面的角色足够多,有多样性的生态成员在生态系统和生态链条上存活,生态才会更加有活力。创业者是这个生态中最有活力的一部分。

    五、商业业态从中心化向去中心化发展

    我们称之为混合正交的商业生态。在一个去中心化的混合正交的商业生态系统中,开发者、传统企业、互联网企业、人工智能企业……大家像编一个篮子一样,混合正交地把大篮子编出来,而篮子里面存放的就是整个生态系统,由所有编篮子的参与方共同分享生态系统。

    现在,AI·生态计划2.0

    在上面的趋势中,我们可以看到很多关于生态的思考。在这样的趋势下,讯飞可以为创业者、开发者在构建未来人工智能的生态中做些什么呢?胡郁给出了答案——A.I.·生态计划2.0!

    微信图片_20181030163427

    A.I.应用专属服务保障

    创建应用-集成开发-交付测试-应用发布-版本更新,一个A.I.应用从诞生到落地,将会有专属的服务经理、全渠道的响应、全业务的支持和我们7×24小时的服务保障,为其整个生命周期保驾护航。

    服务商优先试用A.I.新技术

    讯飞AI服务市场,作为人工智能全产业链综合服务型市场,服务市场为所有上下游企业连接商机,匹配需求。讯飞会推进服务商业务的升级,品牌推广的升级和项目服务的升级,让更多开发者能够有更好的渠道。

    三段投资,助力合作伙伴从0到1

    还有最新的1024投资基金。投资基金将分为三个层面:

    第一个层面是一级基金,主要目标是打造流量池,用讯飞的品牌势能帮助想要成为讯飞生态链伙伴的人打造自身势能,聚集流量。

    第二个层面是天使基金,讯飞将用精准渠道帮助生态链企业把流量沉淀在场景里,帮助这些生态链企业更有效地利用讯飞提供的平台资源并转化成自己的场景优势。

    第三个层面就是星光加速器。开发者都会通过不同的加速器和基金的联合支持来获取他们更大的能量。

    因为相信,所以看见

    在分享中,胡郁特别提到“因为相信,所以看见”应该是对企业家精神诠释中最重要的一条。因为世界上大部分的人是“因为看见,所以相信”。公司做起来了、有钱了,我们才认为他很棒。但试想一下,一个公司是在名声大噪的时候,才能成为一个伟大的公司吗?一个人是在宣传曝光出来以后,他才是一个伟大的人吗?

    并不是这样的。人和事都一样,在你不知道、在一般人不知道的时候已经是这样了,已经是一个伟大的人,伟大的公司。但是一般人是发现不了这一点的,只有坚定自己的信念、能够看到未来的人,才会是追光者。没有坚定的内心,很难在创业道路上走得很远的!

    6408

    1024颁奖盛典,让 A.I.在爱中传递!

    领航时代1024颁奖盛典,致敬人工智能时代的科技领航者!

    科技从来都不是冰冷的存在,它有温度、有情绪。领航时代1024颁奖盛典,让每一位身处A.I.时代的同路人,看到前行的力量。

    人工智能,未来必然如水电、燃气,高铁一样泛化为社会的基础设施。开发者,未来世界的建设者,亦是人工智能时代的领航者!

    为了鼓励和表彰这样一群走在人工智能前沿的科技领航者,1024开发者节,这个专属开发者的日子,我们进行领航时代1024年度颁奖盛典!此次颁奖盛典共分设三大类奖项,分别为:1024年度“A”爱奖、1024年度优秀合作伙伴奖、AI开发者大赛颁奖。

     

    1024年度 “A” 爱奖

    有这样一群人,他们致力于通过 A.I.让人类生活的更有尊严,致力于将科技融合善意,在这样一个浮躁的时代,公益的初心与坚守更显弥足珍贵,因此我们设立了1024年度A爱公益奖,我们期待与更多热心公益的人们携手,用A.I.+公益之钥开启未来之门!

    微信图片_20181030111241

    颁奖嘉宾:科大讯飞轮值总裁 吴晓如

    人工智能和公益本身就有强羁绊』

    公益是社会持久不衰的话题,公益亦是 A.I.温暖的底色。人工智能的英文简称是两个字母A和I,用汉语拼音去读其实就是爱。可以看到人工智能和公益、爱心之间本身就有非常强的羁绊。

    人工智能本身是一个没有温度的技术,但是因为有了我们开发者的爱心,使人工智能能够在各个行业里面能够散播温暖。

    1024年度 “A” 爱奖——最佳公益组织

    用科技融合善意,用善意汇聚力量

    获得最佳公益组织的有:三声有幸公益团队、方言保护计划团队、A.I.教育公益团队、A.I.教育“百校千师”团队

    1024年度 “A” 爱奖——最佳公益人

    意识迸发的火花,在时代的实践中被点燃,温柔敦厚,博施济众

    获得最佳公益人的有:Zoe、蔡子、姚大、朱林芳、郭萍、杨娟、黄仕友、刘煜、杨保花、刘红军、吴国安、张玉涵、于梓贝

    1024年度 “A” 爱奖——最具创新公益项目

    在科技的维度里天马行空、在限定的围栏里推陈出新

    获得最具创新公益项目的有:心智互动、心声、手服宝、元络科技、音书科技、金寨百校千师教育公益项目、湖北五峰县百校千师教育公益项目、清镇市百校千师教育公益项目、苏白学堂、吴语学堂、新申音工作室

     

    年度优秀合作伙伴

    有这样一群人,他们奋勇拼搏,用人工智能引领行业聚变。比如科大讯飞的合作伙伴咪鼠科技,为鼠标设置100多种语音使用场景,用语音控制鼠标,很好的解决了医生、银行从业者的日常使用问题。

    微信图片_20181030111247

    颁奖嘉宾:科大讯飞高级副总裁 胡戈宁

    『志同道合的伙伴在一起,才会拥有改变世界,搭建生态的力量』

    科大讯飞取得今天的成绩,靠的不是单打独斗,而是背后站着很多优秀的合作伙伴,因为有这些合作伙伴的期待与陪伴,让科大讯飞在风起云涌的资本市场中逐渐实现了人工智能的落地与突破。

    只有志同道合的伙伴在一起,才会拥有改变世界,搭建生态的力量。未来人工智能领域不仅仅是单一的技术和产品,而将是一个完整的生态链

    年度优秀合作伙伴——粒子飞跃奖

    创新思路、锐意进取

    获得粒子飞跃奖的团队有:青岛日日顺乐信云科技有限公司、北京墨迹风云科技股份有限公司、厦门傲播网络科技有限公司、北京汽车股份有限公司、中粮地产、旭辉地产、深圳海克莱特科技发展有限公司、北京木仓科技有限公司、红星美凯龙家居集团股份有限公司、上海本趣网络科技有限公司

    年度优秀合作伙伴——智造万物奖

    用胆识攻坚克难,用智慧运筹帷幄

    获得智造万物奖的团队有:安徽咪鼠科技有限公司、安徽筋斗云机器人科技股份有限公司、吉林省盛创科技有限公司、成都上生活网络科技有限公司、安徽语鼠信息科技有限公司、北京易掌云峰科技有限公司、北京市商汤科技开发有限公司、深圳市格熙信息科技有限公司、跨越速运集团有限公司、北京奇幻科技有限公司

    年度优秀合作伙伴——听见未来奖

    人类社会每一次翻天覆地的变化,都离不开科学技术的进步

    获得听见未来奖的团队有:北京三快在线科技有限公司、北京天天乐学教育科技有限公司、芯讯通无线科技(上海)有限公司、北京光年无限科技有限公司、作业帮教育(北京)有限公司、杭州人民广播电台西湖之声、深圳市安信祥和科技有限公司、安徽声讯信息技术有限公司、北京三个逗号科技有限公司、安徽硕威智能科技有限公司

    年度优秀合作伙伴——领军突破奖

    勾勒未来生活图景,突破未知新兴领域

    获得领军突破奖的团队有:江铃汽车股份有限公司、上海哔哩哔哩科技有限公司、荣事达智能家居、深圳市优必选科技有限公司、深圳狗尾草智能科技有限公司、深圳机器时代科技有限公司、中国金茂控股集团有限公司、深圳勇艺达机器人有限公司、安徽影联云享医疗科技有限公司、苏宁消费金融有限公司

     

     AI 开发者大赛颁奖

    有这样一群人,他们在人工智能时代潜心研究算法,致力于A.I. 应用落地,推动技术与智慧的融合。比如 AI 开发者大赛的参赛选手们,他们用算法传递态度,用技术传递温度。

    微信图片_20181030111250

    颁奖嘉宾:科大讯飞轮值总裁 胡郁

    『A.I.时代,每位开发者的梦想都更有机会成为现实』

    在开发者大赛中,我们不仅仅是要决出一个胜负,而是更重要的让我们在这个过程中看到我们能够为整个社会做些什么,我们的人工智能通过我们开发,到底有什么样的创新的应用的落地。

    方言种类识别 AI 挑战赛

    冠军、杨国富,成绩90.5分

    亚军:黄德平,成绩88.3分

    季军:蒋逸恒和王绘团队,成绩87.85分

    注:分数也代表选手使用的算法对方言识别的准确率

    应用开发 AI 挑战赛

    冠军: Forever Young团队

    亚军:奇幻科技

    季军:Seed Change 团队

    AI开发者大赛单项奖

    算法精英奖:周勇、朱天佑、王之行、倪浩天、李楠

    社会公益奖:音书科技

    智能创意奖:正太网络

    商业价值奖:AiButleric

    技术运用奖:Cocktail Party

    2018届科大讯飞全球1024开发者节虽已结束,但科大讯飞践行公益的心仍将持续,今年提出A.I.公益计划2.0,让A.I.为公益注入更多正能量。同时,科大讯飞也将与合作伙伴们积极合作,共建A.I. 生态圈!

    2018届科大讯飞全球1024开发者节,主论坛有7500多人参加,大会总参会人员超过了1万人,分论坛也场场爆满,整个开发者的生态蓬勃发展。

    642

    超过80%语音开发者的共同选择