• 演讲清华大学张长水:图像识别背后的机器学习

    演讲清华大学张长水:图像识别背后的机器学习1新智元推荐

    演讲清华大学张长水:图像识别背后的机器学习

    演讲清华大学张长水:图像识别背后的机器学习

    图像识别是人工智能领域非常核心的一个课题。同时从研究的角度来看,机器学习也是人工智能下的一个研究方向。因此,这个题目会更容易引起大家的共鸣。

    一、什么是图像识别?

    演讲清华大学张长水:图像识别背后的机器学习

    图 像识别是什么?以这张图像为例,第一个问题是:在这个图像里面有没有街灯。在学术研究中,我们把这个问题叫作图像检测。第二个问题就是把街灯的位置给找出 来,这叫做定位。第三个问题是物体的分类和识别,指出这是山,这是树,这个是招牌,建筑。我们可能还会对整张图片做一个场景的分类,是在什么环境下拍照 的。它可能是一个室外的图像,关于城市的生活等等。基本上这些就是我们在图像识别里面涉及到的一些可能的研究问题。

    二、图像识别有什么应用?

    做这些研究可以有哪些用途?比如无人驾驶汽车:如果汽车上有一个带有摄像头的辅助系统,能够识别这个场景下所有的情况,包括车道线,交通标识,障碍物等,这样能够让我们驾驶汽车更方便、更轻松。

    另外,一些相机在拍照的时候,在用户摁下快门到一半的时候,相机就会去找到这个图像的人脸在什么地方。找到人脸以后把焦点对焦在脸上,使这个图像能够让人更清楚一点。

    还有,我们的计算机里面往往会有成千上万的照片,怎么组织它们,从而用户快速找到一张照片?如果有这样的图像识别系统,我可能会告诉计算机,我要找的照片里有两个人,这个照片是在颐和园照的。

    三、图像识别的困难在哪里?

    图像识别有很多难点。第一个困难就是它的视点变化很多。当我们对同样一个物体拍照的时候,因为视点不同,得到的图像外观是不一样的。所以对同一个物体这样看或者那样看,看外观非常不一样。但是也许两个不同的物体,外观又可能会很相近。所以这是造成图像识别的一个困难。

    第二个难点就是尺度问题。物体在图像中近大远小,这给我们做图像识别会带来一定的难度。

    演讲清华大学张长水:图像识别背后的机器学习

    光影的变化一向是计算机视觉特别关心的一个问题,光影变化是图像识别的第三个难点。同样一个人在不同光影下看起来判若两人。

    第四个难点是背景复杂。在复杂背景下,找到某一个人带着拐杖,找到一个戴帽子的人难度很大。

    演讲清华大学张长水:图像识别背后的机器学习

    第五个难点是遮挡。遮挡是计算机视觉特别关心的一个难点。比如说,这个图片里熙熙攘攘的人中,我们知道这大概是一个女孩:她有棕色的头发,穿着一个短袖衫。我们人的本领很强,这种情况下还能识别出男女。但是计算机现在还做不到这一点。

    第六个难点是变形。非钢体在运动的时候会产生变形。同样一匹马在不同的情况下的图像表现会非常不一样。

    四、图像识别的发展历史

    演讲清华大学张长水:图像识别背后的机器学习

    图 像识别刚开始的时候是从单一的物体识别做起。上边这张图像展示的是传统的几何方法的结果。我们的客观世界那么复杂、那么多样,我们该怎么做识别呢?那就先 从特别简单的问题做起。这也是我们做科学研究的一般的方法:从简单的问题着手。比如从做积木的识别入手。因为积木有很规范的几种形状。上图是识别出的简单 的剃须刀。这些人造的非常规范的几何体的组合,只要识别出长方形、矩形、正方形、三角形等,就会把剃须刀,工具检测和识别得非常好。另外一种方法,是根据 外观识别。我不考虑要识别的物体的几何结构,仅仅看它外观长什么样。这里列出的是做人脸检测的例子。

    演讲清华大学张长水:图像识别背后的机器学习

    做人脸识别的研究历史相对比较长。大概七几年就开始有这样的研究工作了。直到现在仍然有很多人脸识别的研究工作发表。

    另 外一个课题就是手写数字识别。手写数字看起来是很简单的事,但是对手写数字识别的研究引发出相当多的研究方法,给我们带来很多的成果,是一个很有意思的课 题。此外的课题还有汽车的检测。我这里只是列了这几个。其实同时期还有指纹识别、文字识别OCR等等。当时有的研究工作已经发展到了产品化的程度,包括 OCR和指纹识别。

    在2000年之前的图像识别曾经采用过几何的方法、结构的方法、规则的方法,当然也用了一些比较简单的模式识别的方法。

    在 20世纪80年代后期、90年代期间,机器学习领域发生了什么?这个时期的机器学习有了一个飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方 法,AdaBoosting方法,计算学习理论等。成果出现。这些都使得机器学习和识别大大的往前走。在2002年后的一段时间里,一个华人女科学家,叫 李飞飞,开始用一个新的思路做图像识别。他们希望设计一个统一的框架做图像识别,而不是就事论事地针对一种图像识别任务设计一套专门的方法。他们希望这个 统一的框架能识别成千上万种物体。另外,希望机器学习领域的出色成果可以用在图像识别上。她们还借鉴文本分析里的方法-“词袋”(bag of words)的方法用于图像识别。

    演讲清华大学张长水:图像识别背后的机器学习

    什么是“词袋”方法?举一个例子。比如要识别一张人脸,我们不考虑人脸结构那么复杂,我们只要看看里面有没有鼻子、眼睛、嘴巴、下巴。有了这些部件,只要这些部件在一起,就说这是一张人脸。你可能会觉得这很简单。

    这个方法来源自对文本的研究。在自然语言处理里面,有一个任务是对文本分类。文本分类中就采用了“词袋”方法。

    比 如说有这样一篇文章,我们想知道这篇文章是属于哪个类别。它是在讨论军事,还是在讨论科学。那么我们怎么做呢?一种办法是按我们通常会想到的方法,就是把 每一句话都读懂,做解析,知道句子的语法结构,然后去理解句子的内容。但是,对句子做做语法分析很难,理解句子很难。我们往往做不好,所以就不采用这种方 法。实际上,我们可以用一个简单的方法:我们只要看这篇文章出现过哪些词出现的频率高。这篇文章中的高频词是:视觉、感知、脑、神经,细胞,你会说这篇文 章属于神经科学类。还有一篇文章,其中的高频词是:中国、贸易、出口、进口、银行、货币等,你会知道这篇文章属于经济类。这个方法不用分析和解析句子和段 落的语法结构,而只要把这些高频词放到一块,叫“bag of words”。

    怎样把这种方法用于图像识别呢?在识别图像的时候,我们也可 以把图像中的“高频词”放在一起来识别图像。这里的“词”是什么?直观地说就是小的图像块。比如我们要识别一张人脸,这样的图像上就会有像皮肤一样,或者 像眼睛一样的图像块。而相对来说,如果识别自行车,就会出现和车有关的图像块,如:车座、车梁。这些图像块就是“词”。这样就可以采用“词袋”方法。实际 上,图像中的词不是我们说的这么直观,而是下方这样的图像小块。它是很底层的图像块,非常小,3*3,5*5或者7*7大小的图像块。这样小的图像块不表 达很抽象的语义。

    演讲清华大学张长水:图像识别背后的机器学习

    这 种方法提出后,有很多有意思的相关的论文发表。但是这种方法还有缺陷。我们看这样的几个数字,在图像识别领域有一个物体识别比赛,这个比赛就是给你一些图 像,让你去设计和训练你的算法。比赛的时候就是提供一些新的图像,要求算法告诉哪张图片是什么类别。如果预测前5个类别中有标准答案,就算预测正确。否则 计算错误。这个比赛在2010年的第一名的成绩是72%,到2011年第一名的成绩是74%。我们知道,全世界那么多优秀的团队,有那么好的资源去做这个 事,每年的进步大概就是1%-2%的样子。

    在2000年之后这些年,机器学习在做什么事?机器学习仍然是做基础研究,出现了很多优秀成果。 其中,2006年Hinton在Science上发表了一篇文章介绍他们的深度学习方法。有人建议Hinton用他们的方法试一试这个物体识别问题。结果 在2012年的比赛中,他们获得了第一名,成绩是85%的识别率。后来大家发现这个方法原来那么好,所以大家一拥而上,纷纷用这种方法解决各自关心的问 题。为什么人工智能现在这么热?主要就是因为这个原因。

    张长水教授的实验室也用这个方法做了交通标识的识别,这是基金委的一个项目。花了很大的力气,成果很好,基本上可以到实用的程度。

    五、面临的困难和今后要研究的问题

    看起来图像识别已经很好了,很多人很乐观,很多人热血沸腾。其实图像识别还没有做得那么好。有什么样的困难?我们举几个例子。

    比 如说我们在做图像识别的时候,通常我们要标注数据,就是要标注这是鸟、这是猫。然后用这些图像去做训练。标注数据其实是很头疼的事,很花时间很花钱。李飞 飞的项目组收集的第一个数据集有101类物体。这个图像库做得很好,后来一些算法可以在这个数据库上达到99%多的识别率。人们说,这些图像质量太好了, 种类也太少。后来她们又做了这个数据库,这个数据库有256种物体,图像也没有对齐得那么好。尽管这样,这个数据库开始太小。

    演讲清华大学张长水:图像识别背后的机器学习

    演讲清华大学张长水:图像识别背后的机器学习

    在2009年李飞飞他们发布了新的数据库ImageNet,大概有几千万张图像数据。

    标数据是件头疼的事。例如这个数据库就要对每个物体用一个方框框起来,并给出一个类别标号。这是一些典型的图像,给每个物体都要框起来,都要标好这是什么物体。

    演讲清华大学张长水:图像识别背后的机器学习

    还 有一个图像数据库叫LabelMe。上图是其中一张图像,标得非常细,房屋的外形、轮廓、窗户、汽车、所有草地、马路都标得很清楚。大概有十万多张图片, 标得非常好的图像大概一万张。张教授有一次对MIT的一个学生说,你们这个数据库做得真了不起,花了那么大功夫。他说这是另一个学生做的。其实不是那个学 生标的图像,大部分图像都是他妈妈标的,他妈妈退休在家,每天给他标数据,做妈妈的多么了不起。

    演讲清华大学张长水:图像识别背后的机器学习

    还 有一个华人科学家,也很了不起,叫朱松纯。他说我们应该把图像标得更细。例如这张图片,其中的椅子可以标得非常细,座椅、椅背、腿的轮廓都标得很准确。他 们还标了各种各样的椅子。他们雇了几十个美工,一天到晚标数据,干了几年,但是数据库才几十万张图片。所以标数据是一个非常花钱的事。因此做机器学习的人 就在考虑,能不能不用那么费心去标数据而把图像识别做得更好一点。比如这张图片,只要你就是告诉我,你这张图片有摩托车,你不用说车在哪儿我也能把车检测 和识别出来。

    现在还有很多问题没解决。比如说我们现在的技术只是对图像做了一些解析,可以识别出这张图中这个部分鸟、这是树,但是没有对这个图片做更深入的理解。例如:这个算法并不知道这些物体之间的关系是什么。而对于我们理解一张图片来说,理解物体之间的关系非常重要。

    在 这个方面给大家介绍一下我们做的一个工作,叫image caption。这件事好几个单位都在做,微软、百度、Google都在做。给大家看的这些结果是实验室在做的工作。Image caption这是一个什么样的工作呢?就是你给我一张图片,你不需要告诉我这儿有一只狗,它叼的是一个什么样的东西。你只需要告诉我一只狗在叼着一个飞 碟就够了。我们现在就利用这八万多张图片和对应的自然语言的句子来设计一个模型,并且训练这个模型,使得当你给我一张新的图片的时候,这个算法能生成一个 自然语言的句子来描述它。比如这是针对对这张图片生成的句子:火车站旁边的轨道上停了一辆火车。再比如这个图像:一群斑马彼此很紧密地站在一起。还有这张 图片:一只狗嘴里叼着飞碟。不仅如此,在做这个时候,还得到了另外一些有意思的结果。这个算法里有一个视觉的注意模型。这个模型可以自动找到关心的图像 块。在对这张图像生成的句子A brown cow is standing in the grass时,我们看到 brown,cow, grass 都对应着正确的图像块。大家注意,我们在训练数据里面并没有告诉算法哪一块是牛,哪一块是草地。这说明,这个算法学习到了这些概念。既然是这样,除此以 外,其他的概念是不是也能找对?我们就把其他的一些词所对应的图像块找出来,看一看。比如说这一排是消火栓这个词对应的图像块。这是黑猫这个概念。结果都 找对了。比较有意思的是,除了名词以外,程序还找到了动词对应的概念。比如说fill with(把…填满),你会发现图片全是容器里面盛东西。

    这个结果很有意思,非常像小孩在成长过程中学习。我们会教一个一岁多的孩子,告诉他“这是一张桌子”,“这是一个激光笔”。我们不会,也无法说:“一张”是量词,“桌子”是关键词。但是孩子慢慢就能学会这些概念。我们的算法也是这样。

    演讲清华大学张长水:图像识别背后的机器学习

    上面列举了我们取得的成果。但是,面前还有很多很多的问题没有解决。比如,我们现在看深度网络很有效,但是它为什么有效?我们还不太明白。除此之外还有其他的模型吗?比如说有一些工程上的问题,那么多数据你能算吗?机器跑得动吗?做机器学习的人非常关心这些问题。

    另 外,比如说这里有一束花。现在算法可以识别出这是一束花。但是它还不能说出哪里是叶子,哪里是花蕊,哪里是花瓣。我们看起来已经取得了那么多的成果,从某 种意义上来说我们也可以把它们做成产品,为我们服务,但同时我们看到还有更多的问题没有解决得很好,这就需要我们继续努力。

    本文基本上是在讲图像。但是我们看到背后用的很多方法都是机器学习的方法。所以是机器学习人的努力,计算机视觉科学家的努力,大家共同的努力,取得了现在的成果。我们可以用这些成果转化成产品,使我们的生活可以更智能化一点。

    整理:李柯南

    权威解读 | 10种机器学习方法,正在让制造业产生颠覆性革新
    概要:每个制造商都有潜力将机器学习集成到自身的业务上,并通过获得可预测性的洞察投入生产从而使企业变得更具有竞争力。

    机器学习的核心技术与制造商每天要面对的复杂问题相一致。从努力保持供应链的高效运行,到按时生产专门定制的产品,机器学习算法有能力在生产的每一个阶段带来更高的预测准确性。许多正在开发的算法都是迭代的,旨在不断的学习,以寻求最优化的结果。这些算法以毫秒为单位进行迭代,使制造商能够高效的寻求优化结果。

    正在变革制造业的机器学习方法包括以下10个:

    1.产品生产量增加了20%,而材料消耗率只降低了4%。

    智能制造系统旨在利用预测数据分析和机器学习提升机器、生产单元和设备水平的综合收益率。下面是通用电气引自国家研究所标准(NIST)提供的图表摘要,列出了当今制造业中正在使用的预测分析和机器学习的优势分析。

    来源:Focus Group: Big Data Analytics for Smart Manufacturing Systems

    2.提供了更多的相关数据,以便财务、运营和供应链团队可以更好地管理工厂和需求方面的制约因素。

    在许多制造企业,IT系统并不集成,这使得跨职能的团队很难实现共同的目标。机器学习可以为他们的团队带来一个全新水平的洞察力和智慧,使他们优化生产流程、库存、WIP和价值链的决策目标成为可能。

    来源: GE Global Research Stifel 2015 Industrials Conference

    3.通过对组件及级别提供更高的预测准确度,以改善预防性维护和保养、修理和大修(MRO)的表现。

    亚马逊、谷歌和微软的公告显示,集成机器学习数据库、应用和算法到云平台正在变得无孔不入。下图说明了机器学习整合到Azure平台的过程。微软正在通过Microsoft Azure制造业务的自动化方面,使Krones能够实现其工业4.0的目标。

    来源:Enabling Manufacturing Transformation in a Connected World John Shewchuk Technical Fellow DX, Microsoft

    4.启用状态监测流程,它可以为制造商提供规模管理,并将整体设备效率(OEE)在平均性能上从65%提高到85%。

    一家汽车OEM为了提升生产效率与Tata咨询服务公司合作,该公司生产过程中已经明显出现了冲压生产线的整体设备效率(OEE)低至65%,与断裂时间点只差17-20个百分点的现象。进行了对传感器数据中15个操作参数的集成(如油压、油温、油的粘度、油泄漏和空气压力等),这些数据来自于12个月间每15秒对设备数据的收集。该解决方案的组件如下所示。

    来源:Using Big Data for Machine Learning Analytics in Manufacturing

    5.机器学习正在变革与智能的关系,Salesforce正在迅速成为领导者。

    Salesforce的一系列收购造就了他们在机器学习和人工智能(AI)领域的全球领导者的地位。Cowen和公司研究报告中指出,Salesforce:起步早;2016年6月23日顺利发布的增长引擎总结了一系列Salesforce对机器学习和人工智能的收购,其次是新产品发布,并对预计营收贡献进行了分析。由Alex Konrad进行分析的价值28亿美元的 Salesforce最近对电子商务提供商Demandware的收购是他最拼的动态,Salesforce将获得Demandware 的28亿美金进军数字商业。随着Demandware出售成为一个重要的贡献者,Cowen和公司预测云商务部将通过FY18贡献出3.25亿美元的收入。

    6.机器学习算法上的革命化产品和服务质量,确定了哪些因素最多和最少的影响全公司范围内的产品质量。

    制造商通常都面临着生产产品和服务要匹配于公司核心部分水平的挑战。通常,质量是单独的。机器学习是通过确定内部流程、工作流和因素贡献对目标质量得到满足的多少,成为革命性的产品和服务质量。使用机器学习制造商将能够通过在定义、测量、分析、改进和控制(DMAIC)框架内预测其质量和采购决策是如何协助提高Six Sigma水平的,这将有助于实现更强大的制造智能。

    7.机器学习已经应用于通过优化团队、机器、供应商和客户的要求来提高生产产量。

    机器学习已经在当今的航空航天与国防、分立元件、工业和高科技制造业等方面做出显著影响。制造商正在利用自己的生产能力转向生产更复杂的、定制的产品,并通过机器学习做出对机器、训练有素的员工和供应商的最佳选择。

    8.“制造业是一种服务”的愿景将成为现实,这得益于机器学习使订阅模式为生产服务。

    生产工艺旨在支持快速、高度定制化生产运行的制造商,由其良好的地位推出全球规模服务订阅率的新业务。包装消费品(CPG)、电子产品供应商和零售商的制造成本飞涨,使他们将不得不订阅制造服务,并在品牌、营销和销售上投入更多的精力。

    9.机器学习非常适用于优化供应链和创造更大的规模经济。

    对于许多大型的生产厂家,他们70%以上的产品销售来源是首先满足顾客需求的小型供应商。使用机器学习,买家和供应商可以更有效地协作,减少缺货现象,提高预测的准确性,并达到或提前于更多客户的交货日期。

    10.给固定客户在合适的时间设定合理的价格,以获得最大的利润和封闭销售,将是机器学习的家常便饭。

    机器学习正在扩展服务到提供企业级的价格优化应用程序。其中最显著的差异将是如何根据给定策略优化定价,从而达成交易并加快销售周期。

    本文为数盟原创译文,转载请注明出处为数盟社区。

    胡郁:5年内,机器语音识别率达到人类水平

    干货胡郁:科大讯飞的深度学习之路(PPT下载)1新智元推荐

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    请在新智元后台回复“0628”下载PPT全文

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    【胡郁】首先非常高兴有机会在这里跟大家进行交流和讨论,刚才汪建老师说,将来的世界是一个生命科技的时代,我非常同意这一点,将来人类的命运掌握在我们自己手里,我们可以改造自己,但是我们人类也想扮演上帝的角色。

    大 家都知道人类能够在地球上统治整个世界,是因为我们有智能,现在人类不仅仅自己有智能,还希望能够创造出新的智能。在当前世界,各种各样的智能层出不穷, 甚至有段时间“智能”一词都被用滥了,到底智能应该向什么方向发展,智能到底应该给我们带来什么?今天我们带着这个疑问想跟大家探讨一下。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    大 家都知道3月份时有个非常著名的AlphaGo大战李世石,在此之前很多人都给出了预测,包括我自己在内,我当时的预测是机器人一定能够战胜人类。为什么 呢?其实在研究界有句很有名的话,机器人在智能方面战胜人类一定用它最擅长的方式,而不是用人类思维的方式。我们原来在讨论时总想着下围棋是一个非常高尚 的运动,并不是每个人都能把围棋下得很好,但其实机器根本不是这么想的,在下完这个比赛后,凤凰卫视《一虎一席谈》请我去讨论AlphaGo和李世石对弈 的情况,记得在比赛前柯洁九段并不认为AlphaGo有多厉害。但在节目上连线柯洁九段时,他就比较谦虚了,说自己还需要好好准备。

    为什么这么说呢?我们来看一下,AlphaGo为什么能够战胜人类,因为它用的确实不是人类所擅长的方法,而是机器所擅长的方法,AlphaGo能够同时计算每步棋下几十步甚至上百步的可能性,而且AlphaGo能够记住3000万种法的对弈,而这是我们人类所不擅长的。

    反过来人工智能是不是能够在所有方面超越人类呢?我觉得这也不一定,因为我们看到围棋是一个完全信息透明情况下的公开博弈,就像以前的国际象棋,机器是占有很大优势的。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    很 多人会问,人工智能到底体现在什么方面呢?我们知道人类有农业革命、工业革命,还有现在讲的信息革命,但可能很多人不知道的是,人类在统治地球的过程中其 实经过了漫长的历史发展。有一本书《人类简史》,以色列一个年轻的历史学家写的,他在这本书里写道,其实人类在地球上已经出现200万到300万年了,但 这些人类在全球各地,就是我们讲的猿人——中国的山顶洞人、元谋人和蓝田人——但经过历史学家和基因工作者的研究,大家知道,7万年前,我们的祖先叫智 人,从非洲走出来,走到世界各地,把其他猿人都给灭种了。现在不管是黑人白人还是棕色人种、黄种人,都是智人的后代。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    在 这个过程中,好像他们突然开窍了一样,人的智能在经过两三百万年的发展,突然迈上一大步,是什么让他们走到这一点?历史学家把这叫做“认知的革命”,因为 他们发现这些人跟其他猿人最大的不同是在他们的语言得到了极大的丰富,大家知道先有对话才产生文字,产生文字后有几个好处:

    第一个好处,它 可以更好地描述周围的自然世界,比如河边有只狮子,他们知道狮子长多大,身上有没有病,处于什么样的状态,更重要的是因为有了语言、有了语音,我们可以描 述团队和团队之间的关系,如果没有语言,看现在动物群种里面的黑猩猩,一个团队最大不能超过50头,超过50头就无法管理。但智人因为有了语言,因为他们 之间可以八卦,张家长李家短,他们可以组织上千人的团队做一件事情。更重要的是,有了语言以后我们可以描述我们共同想像的内容,一些虚构的概念,“公 司”、“梦想”都是从此得来。所以我们可以看到,现在历史学家一个非常重要的认为,就是人类的认知革命将人类的智能带到一个新的高度。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    回顾一下我们可以看到,从刚才讲的机器所擅长的运算智能,算棋谱时机器比我们强很多,但如果讲到感知智能,就是我们看到世界、听到周围世界的能力,机器也在快速赶上来,但在认知方面,让我们能够有语言、有语音,能够积累知识、能够进行判断这方面,机器其实比我们差得很远。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    这也是科大讯飞现在以语音和语言为入口的计算机的认知革命,我们所执行的讯飞超脑计划想要做的事情,就是把机器的感知智能和认知智能通过传感器和算法感知世界,并且能够对自然的人类世界进行认知,作为我们人工智能一个非常重要的突破点。

    用机器计算模拟人类的感知和认知

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    怎 样实现这种突破,其实我们有两种不同的途径,一种和我们的脑科学非常有关,我们可以对大脑所有的神经元构造和它的工作机理进行分析,我们甚至可以根据大脑 的整个工作机理重构出来真正和大脑相同的机制,这是一条思路,但这条思路时间比较长,现在包括一些发达国家也在投入这方面的研究,另外一条思路就是用互联 网的思维,利用我们机器学习算法和大数据在尽可能快的过程中,就像AlphaGo一样,它其实就是利用了这种方法,不完全能模仿大脑,但利用机器运算的方 法能够模拟我们的感知和认知。今天我讲的主要是后面的具体方式。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    从人脑中获取智能最关键的一点是,就像我们都知道人类现在能飞上天,但我们并没有把自己变成鸟,我们是知道了鸟在飞行时的空气动力学,我们研究大脑,其实并不是把大脑完全复制,而是希望找到大脑中的“智力动力学”,进一步优化我们整个学习的算法。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    从 另一个角度,如果用互联网思维来解决、改进我们的人工智能,要感谢三个方面的进展:一是人工神经网络,这个人工神经网络就像我刚刚说的,只是学到了大脑一 些简单的机理,没有大脑那么复杂,但已经可以很好地工作了;另外拜互联网和移动互联网所赐,我们可以得到大量的数据;更重要的是我们有千千万万的,就像网 易、讯飞这些直达用户的产品,这些产品把用户的使用习惯源源不断传入后台,我们可以利用网络的效应不断地优化它。正是因为有这三者的支撑,我们得到了非常 好的结果。

    用识别图像的方法“看”语音,正确率大幅提高

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    真 正人工智能的框架应该是什么样的呢?再给大家举个例子,人类大脑皮层在工作过程中分为两个层面:一个叫感知层面,就是我们讲的视觉、听觉和触觉,还有一个 层面是认知层面,当我们看到一只猫,听到猫的叫声,或者是摸猫的皮毛,人脑里有一个概念,这些概念形成了我们语言中的单词和词汇,就是“猫”这个概念,它 们汇聚到我们讲的语言和理解的大脑的认知皮层层面。所以在讯飞超脑里分两个层面:一是感知智能,是对我们听到的、看到的、碰到的东西进行识别,另一个是认 知智能,就是把识别结果上升到我们认知的层面,形成一个概念空间的表示和推理。在过去5年中,科大讯飞相继把深度学习网络应用在刚才讲的感知和认知,包括 视觉、包括听觉,包括自然语言,包括翻译的各个方面。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    介绍一下我们最新的研究成果(工作人员播放一下第一句,再播放一下第二句)。

    这 是一段语音片断,大家听到第一个好像是“休息”,第二个好像是“休息室”。但当听完完整片断时你会知道,原来是“《西游记》之大闹天宫”,人脑是怎么工作 的呢?人脑能够记下短时或中间的或长时的记忆,通过这种记忆,我们可以看到我们现在的神经网络其实是可以很好地模拟这个过程的,我们通过一种递归的方法, 就可以让神经网络能够模拟大脑方面的感觉,这是现在最新型的递归神经网络用于语音识别的过程,这个过程非常复杂,我就不一一介绍了。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    但光有递归还不够,光能够存储记忆还不够。现在最新的一个方式是用图像的方法识别语音, 这是当前最新的技术,什么叫做图像方法呢?大家可以看到,下面这个语音是我们平常在录音里看到的波形,但当语音进入我们的耳朵时,耳朵里的纤毛会根据它的 长度不同与语音中不同的频率进行共振,如果把共振的频率分析出来,我们可以得到下面的语谱图,这张图可能会受噪音、口音的干扰,但这个图形里的信息很丰 富。在MIT专门有科学家研究,如何根据这些图形就能够分辨出你说的这句话里用了哪些文字。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    如果你是一个盲人,你的耳朵就会特别灵,因为它借用了我们在视神经方面的一些神经系统和细胞,这样可以把一些能力借用过来。

    可以说,现在我们的语音不仅可以听到,而且可以看到。因为这样的结果,在各种各样的输入法里,在语音搜索里,还有在各种各样的语音交互式系统里,语音识别的错误率正在以每年30%的水平下降我相信再过四到五年的时间,最后的语音识别系统就能跟人整个的感觉完全一样了

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    刚 才说了,在感知方面,讯飞的语音识别技术不断取得提升,但是在认知方面,它还要解决几个非常核心的任务——讯飞超脑关于语言理解及深层、知识表述及推理, 还有自主学习,要实现这些必须要有两个层面的东西:第一是要解决自然语言描述的问题,在此基础上我们要解决语言理解,还有更深一层的知识表述及推理。下面 我们一一看一下。

    用“词语卷积”在空间上表达词语

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    刚 才我们提到了大脑在大脑皮层中关于概念的表示,它是一张图,不同的词语它们之间概念是有空间的,我给大家举个例子,比如“大家好”,传统的表达,每个词就 代表了一个空间,我们把每个词的出现看成“1”,不出现的地方看成“0”,这是传统表现词语的一种方法,词语和词语之间,要不就是距离相同,要不就是不 同。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    现在我们采用一种连续的空间来表现词语,每个字、每个词都可以用“词语卷积”的方法,用一段连续的数字,相当于一个空间里的坐标系,这样每两个单词之间的距离就可以把它计算出来

    把 所有词分一下类就可以看到这么一个结果,比如我们可以看到新浪、网易、腾讯,这些东西是连在一起的;我们可以看到吕布、张飞、关羽、诸葛亮,它们是比较接 近的。实际上,在我们的大脑皮层中如果你来测量,比如我播放一个词语,我的大脑里会出现放电,相关词语在大脑皮层中存储的位置也是非常接近的。

    利用这种方法,我们就建立了一种表现词语空间概念的表达体系,在这样的表达体系之下,我们可以进一步地去分析词语层面、句子层面和篇章层面,以及它们在各个层面上的连接和计算的距离。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    有了这个以后,我们来看一些实际的作用,它们能做什么样的事情呢?首先我们看一下语言的理解。

    首先来看翻译,在翻译方面,我们知道要进行语句的练习,因为不同语言是不一样的,这时候用到人脑中一个非常重要的概念——关注度模型,比如我们人在看一幅图像,海边有一个灯塔,我们看的时候注意力是集中在灯塔上而不是其他方面。

    基于注意力模型的神经网络

    下边这张图比较有意思,下面这张图是一个女司机在开车时观察各种各样的东西,她的注意力只能集中在有限的方面,相对男性要窄一些,所以人们常说“女司机杀手”可能就是这么来的。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    如果我们来看一段文字,这两天正好欧洲杯,我们的注意力其实也是集中在那些文字中比较有信息量的地方。这种关注度模型,其实它的方法是能够把我们最关注的那些输入量自动寻找出来,与我们最终的结果进行对应。我们来看一下基于机器翻译的实际例子:

    大 家都知道,不同的语言之间的机器翻译,比如有很多谓语、主语、宾语,它们的位置是不同的,会进行倒装,顺序也会发生很多变化,原来用规则的方法来描述这些 变化非常复杂,通过我们现在讲的这个神经网络,大家可以看到,输入“我是谁”,“谁”和“我”,它们的位置是有差异的,利用attention这个神经网 络,它们可以自动找到对应关系。采用全新注意力模型的神经网络翻译系统,相比传统系统,提高会非常多。

    再看下一个具体的例子,我们都知道最近科大讯飞在教育方面做了非常多的工作,我们希望能够利用机器人帮助我们的老师进行卷面批改,比如我们写了一个作文,这篇作文,我们希望机器人也能给它打出分数并给出它的评语。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    大家看这个样例,右上角的94分是这篇文章的得分,从这篇文章中可以看到它用到了排比,用到了一些语句的引用,我们如何来做,让机器也能看懂这些东西?机器的关注度如何自动落在这些关键的地方呢?其实很简单,刚才我们讲了,用连续空间把它表示出来,这些范文和作文之间的向量,利用关注度模型,会自动找到彼此之间比较对接的地方,它找到这些对接之后,就会进行深层分析

    通过这种方法,机器自动找到了这中间有相关的地方,应该讲,现在我们这方面的结果在中考和高考的作文评卷,不管是中文还是英文,都取得了很好的效果,比普通老师改得还要准确,当然这是大规模的结果。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    最 后我们来看一个阅读理解题,大家看到了,这其实是一个答题系统,我们看一段话,“月牙的影子在水中晃动”,原来有个题目叫“小鸭子看见了,以为是条鱼,赶 紧游过去”,这是阅读理解,现在题目是我把“小鸭子”抠掉,让机器看完这段话以后自动在上面填出来这地方应该填什么,利用我们现在的系统,我们会把篇章和 问题进行attention的规划,“小鸭子”也在其他地方也出现过,它可以计算出每个地方热力度(关注度)的情况,后来我们发现“小鸭子”的关注度最 高,这样我们就可以把“小鸭子”填在这个地方,而且是填对的。

    现在我们的机器在阅读理解方面能达到6岁儿童的水平,大家不要小看6岁儿 童,6岁儿童在常识的理解达到了一个水平,而在6岁以后主要是学各种各样的知识,这就跟我们认知到的,2岁、3岁、4岁形成个人最重要的学习能力,这方面 是最一致的。相信随着6岁儿童常识的学习能力达到以后,我们再给他灌输小学、初中、高中的知识以后,它最后就能考上大学。

    非常感谢大家的聆听,谢谢。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    谁把王石坑到了这一步

    把王石带进坑的,是他的队友。

    宝能否决重组议案和“血洗董事会”两波冲击明显让他猝不及防。据说审计部门也在介入。

    在股东大会上,王石向姚振华道歉,向小股东道歉,表示愿意妥协,两次提及离职。

    从来不低头的王石,低头了。

    他的队友没有跟他一起低头,因为他们没在坑里。

    一、看错了势

    悦涛以前提过,万科股权争夺背后的大势是,没有资本愿意再做配角,无论原来的大股东华润,还是新晋大股东宝能。

    以前资本方交给经理人主导,因为经理人能带来最大的成长性:利润和市值双扩张。

    “华润入主万科的2000年,是房地产业爆发的前夜。无论从量,还是价,中国地产业都有巨大的增长空间。

    资本方什么都不做,只靠企业本身的经营,都能获得足够可观的回报。这个阶段需要充分释放经营管理者的积极性,这是华润的智慧。王石管理层也对华润的“积极不干预”政策感激涕零。

    2000年-2007年,万科的净利润增长了15倍,股价则增长了20倍。作为大股东的华润无论从分红,还是股价增值上,都赚得盆满钵满。管理层和资本方皆大欢喜。

    2007年以后,好梦不再。2015年万科净利润比2007年增长了3倍,但股价每况愈下。要不是宝能的姚大哥前来打劫,股价连2007年的一半都不会到。”

    万科的股价走势,以2007年为中点,前后鲜明反差,最后一段拉升是宝能自己作出来的

    房地产的扩张周期彻底结束了,首先终结的是资本溢价。这时管理层在经营层面再牛逼,也给不了资本想要的回报。

    资本的着眼点是以公司为平台进行资本运作,而非局限在产业经营。新晋的资本方会有同样的诉求。这就是大势,不因哪一个股东而改变。

    此时王石继续反客为主,把资本当玩偶进行配置,运作越得意,越激怒资本。

    王石其实没有追求过万科的股权。但郁亮运作了一个“合伙人计划”。一直到宝能敲门,他们都没意识到,这个计划会让所有大股东不安。

    计划不在大股东掌控之内,倏忽间,万科两个资管计划加工会持股超过了7个点,之前已是仅次于华润的万科二股东。

    相比万科公司层面蜻蜓点水的百亿回购,合伙人计划用了加杠杆的激进风格。岂不让大股东生疑?

    不要说华润和宝能在争夺控制权,万科管理层自身已争权在先。

    一路走来,体现出的是万科管理层整体对资本方存在感的漠视。到宝能进场,演变成资、管对立的局面,万科管理层对大势的错判,是根本原因。

    二、看错自己

    王石和万科管理层一直自恃的是团队优秀到无可替代,资本离我不行。因此有我行我素甚至叫板的权利。

    首先优秀不是轻慢的理由。

    其次,这是一个被夸张了的错判。

    优秀是相对的,相对是看程度的。

    万科某种程度上是被符号化了:把想做到什么,当成已经做到了什么。

    万科在研发,但也待实现

    万科的优势在于杰出,劣势在于没杰出到不可替代。这是与资本博弈的最大短板。

    万科的专业,说到底是土地、资金周转和流程管理上的专业,还没转化到用户端的口碑和品牌溢价。

    也就是在开发端,效率很强;在产品质量、社区服务等用户端的专业溢价上,还没体现出来。

    但是在中国地产业,开发端的这种差异,还谈不上是壁垒。从拿地的资质,到产品销售时的溢价,都没有不同。

    如郁亮所说:“住宅行业一直是粗放式的发展,万科的管理能够精细化到哪里去呢?我们的粗放管理问题还没解决呢,在精细化管理上可以说还在学习阶段。”

    这也是整个中国地产业在粗放发展期的特征:开发端的钱好赚,用户端还在理念阶段,边研究边等风来。

    这阶段企业经营间的差异,不是苹果和小米的区别,而是小米与小米。

    经理人对企业的差异,也就是成本、周期上的差异,和苹果对乔布斯的依赖,有本质不同。

    孙宏斌谈到万科之争,举例自己的融创:有万科1/4的销售额,但只有万科1/27的市值。他如果是资本,会选择收购自己的企业。虽然他敬重万科。

    为免误解,再说一遍:万科和万科经理人都很优秀,没达到不可替代。

    当万科管理层以不可替代来博弈股东时,只会让股东加速进场。因为这是对股东永久的威胁:任何一家公司的大股东也承担不了管理层的集体罢工。

    三、看错股东

    王石最初对宝能的出言不逊,因为两方确实结过梁子:深圳东部海上运动基地的争夺。情有可原。

    但此后跟两大股东都闹翻,说明确实太任性。

    像华润这样的大股东,在A股市场不会再有了。自身有地产,让位万科去发展,为挺万科,不惜让任志强净身出户。

    企业是自己的,你尽可以去做自己。但你是上市公司时,必须考虑大股东的阶段性诉求。

    遗憾的是,万科从没考虑过。有个段子,说当年郁亮制定了万科的发展战略,向大股东华润的新任董事长宋林介绍,宋林表示挺好,然后来了一句:郁亮,你告诉我,在万科整个发展战略里,股东在哪里?

    郁亮当时是懵逼的。我好不就是你好么?可他解释不了万科这么好,王石为什么还要去登山游学。股东亦然,是有自身的发展规划和成长诉求的。

    在万科历史上,华润郑重其事追求过控股股东地位,连操作方案都拿出来过。宋林落马前都表达:履职期间未能令华润控股万科,系其职业生涯憾事。万科不是不知,但最后搞了自己的“合伙人计划”。

    王石去年求救华润时,就应该感觉到华润态度暧昧背后的意图。他最后的决定是坚决引入深铁新股东,其实是连华润做控股股东都不想接受。

    这个股东,不该小看

    董事会一战,已是冰冻三尺之后的结果,绝不是突如其来的对决。这一战,各自已无退路。

    王石想毕其功于一役,宝能想毕其功于一役,都输了。华润找漏洞反制即可。

    华润的特殊性还在于,它是个有信心整合外部资产的玩家。包括万家、怡宝、雪花啤酒、三九医药,无一不是并购整合而后发扬光大。而且市场化运作为主导。

    当万科说“我输了你能赢么”的时候,这个大股东,有理由不这么想。

    基于自身的经验、地产业务的布局、长期规划和短期阵痛的平衡,以及对管理团队的分化策略。都是可出的牌。

    四、看错队友

    王石在对外沟通和换位思考方面是有短板的。点火为主,需要的是水。他的队友如果真心把老王看作家人,不会看着他一步步走到今天。

    在傅育宁说“这合适吗”的时候,万科的回应居然是:合适。管理层上下无一人去跟华润沟通,哪怕是获取华润的真实想法也好。

    华润要拿回第一大股东。是傅育宁在华润履新以来,头一次做这么大的决策,一旦定下,会使出多么大的力度来给自己立威,可以想象。

    万科这边,即使不认可这个诉求,也不能说,因为有一个已经闹翻的大股东宝能。更何况把华润直接打入敌营。

    6月26日,万科发出“致合伙人”的内部信(其实是对外)。内容一共有10段,分段总结如下:

    1、2000亿、500强、新十年;

    2、全体合伙人,勇敢面对新股东;

    3、数英雄人物,还看事业合伙人;

    4、曾经有一份股权摆在我面前,我没要,我骄傲;

    5、请股东和我们共建和谐社会;

    6、我们是优秀团队,不是资本奴隶;

    7、数人才和知识,还看事业合伙人;

    8、数各种压力,还看事业合伙人;

    9、数东山再起,还看事业合伙人;

    10、全体合伙人大团结万岁!

    看到这封信时我先替王石崩溃了。是要用这阵势来镇住两个大股东?还是自我感动?

    这是股权争夺战啊兄弟,真正应该发出的是“致全体股东信”。告诉全体股东,这些年管理层为股东做了多少事情,奉献了多少心血,哪些是别人没做到而我万科为你们做的,以及希望股东支持什么,理由是什么?

    并不需要多么高深的公关策略,坦诚、开放、尊重股东是最好的策略。

    任何强化管理层存在感、弱化股东存在感的口号,都把老王往坑里又推进了一步。

    通观万科股权战,王石是点火的人,需要的是水。但队友里没人给他,反而帮他点火,强化对立。戏到半场时,面对两大股东,还是如此。

    然而,出头的是王石,压力集于他一身。宝能提案罢免的是董事会和监事会,实质是针对王石,而非郁亮及其领衔的业务管理层。

    在年度股东大会,王石自己已经意识到这一点,对大股东和小股东双双致歉,姿态放到最低,对所有问题尽量沟通,希望弥补自己之前的出言不逊和高高在上。

    但他的队友没跟他走一个频道。对“不善意”的问题,不善意回应之。在小股东建议王石和郁亮向小股东因沟通不畅鞠躬致歉时,王石起身,郁亮没动。

    说明……

    1、管理层不认为自己有股东沟通上问题。只要公司干得好,这不是事。

    2、王石想挽回,下面的人也不听他的了。

    老王点火的时候,队友帮他火上浇油。现在想灭火,没有队友来帮他。

    这形势就像,王石给自己挖了一坑之后,一堆有情怀的支持者把他往坑里推,但是没有人跟他往下跳。甚至包括他的“合伙人”。

    “事业合伙人”,不是一个强纽带的联系,也不是一份攻守同盟的契约。在外压面前极其脆弱。

    万科停牌前,17名万科高管清空股票。一位万科高级副总裁出售1379万股,仅余2.1万股。这位“万科合伙人”,很可能把万科抛给了姚振华。

    万科团队会因董事会改组集体出走么?我看难。对大多数人来说,情怀诚可贵,饭碗价更高。

    离开万科还有他发挥的舞台么?中小地产商这些年一样活得滋润,并不是靠万科的模式,政商关系、银企关系。他适应别人还是别人适应他?

    郁亮淡定。因为:

    1、这事里出头的是老王,他没有直接开罪大股东;

    2、他的筹码,比老王多,万科的管理主干目前在他这里,资本对他的需求超过老王。

    最终是走是留,恐怕也会权衡利弊。

    虽然人们情感上希望看到有难同当的江湖豪情,但大概率是老王一个人留在坑里。其他人成为新股东的“新合伙人”。

    文:悦涛。转自虎嗅。http://www.huxiu.com/article/154191/1.html?f=index_top1

    通往人工智能的未来 科大讯飞何以跑在Google前面?

    北京时间5月19日凌晨1点,一年一度的Google I/O大会拉开大幕。众所周知,每年的Google I/O大会都是一次拥抱未来的展示、一场Google粉丝的狂欢、一顿开发者的盛宴。在本届GoogleI/O大会上,Google又展示了什么样的黑科技?这些科技在中国“现身”了吗?

    Google I/O是由Google举行的开发者年会,自2008年开始举办,到目前为止已举办过8届。从借助Android抓住互联网移动化的大潮,到发布Android Wear、Android TV、Android Auto将业务延伸到家庭的每一个角落,再到去年的物联网操作系统与通用语言,包括今年的Google Assistant、Google Home、Android N等,每一届的I/O大会都代表着科技的味道和未来的方向。


    2016年5月19日 Google I/O2016发布会节选(视频改编自爱范儿)

    不必羡慕”别人家”的孩子,其实,以科大讯飞为代表的中国企业在语音和人工智能领域早已走在了世界的前列。


    2015年12月21日 科大讯飞年度发布会现场

     

    通往人工智能的未来

    重要的事情需要重复三遍,因此发布会上重复的越多,越能体现一个项目的重要。在今年的I/O大会上,Google CEO Sundar Pichai重复最多的词是自然语言处理(NaturalLanguage Processing)、人工智能机器学习。因此在I/O大会里,出乎大家预料登场的第一个产品并非Android系统的最新版本,而是一个虚拟的智能助手:Google Assistant。

    Pichai在演讲中表示,人工智能是未来。因此,谷歌今天推出了Google Assistant。Pichai说到,目前搜索中20%都是基于语音的搜索,借助于Google多年积累的大数据,和Google在语音识别、搜索、数据分析和机器学习方向的技术融合,Google Assistant将可以在手机、智能手表、智能汽车和智能家居中提供帮助。

     

    如果你已经关注科大讯飞很久,听到这里有没有觉得有一点似曾相识。是的,科大讯飞2012年就联合中国移动发布了全球首个中文智能语音助手——灵犀。

     


    融入了Assistant服务的Allo(左)与灵犀助手(右)

     

    灵犀翻译功能

     

    灵犀语音助手  
    由科大讯飞和中国移动联合推出,采用全球最先进的语音识别技术,结合丰富的本土化服务,做到了识别准确,唤醒迅速和针对中文口音问题的识别优化。在与灵犀助手的对话中,可轻松完成打电、发短信、设提醒、中英文翻译等功能,是一个专属于你的聪明睿智的人工智能助理。目前,灵犀语音助手总用户数已达1.33亿,超过业内第二至第四名用户数总和。

     

    通往人工智能的未来

    在Google Assistant之后,Chromecast小组的Mario Quieroz向大家介绍了Google Home。

     

    简单来说,Google Home就是一个具有联网功能的小音箱,它可以成为家庭设备的控制中心。基于人工智能和语音识别技术,Google Home可以接收语音指令,可以控制闹钟,甚至还可以控制汽车。

     


    Google Home

    此前,亚马逊推出过Echo系列产品,其围绕Alexa语音助手打造,能够处理包括搜索、音乐播放、产品或服务订购在内的任务,同时支持各种智能家居功能。

    Amazon Echo

     

    可是诸如此类的智能化语音控制终端,难道只有国外公司的足迹吗?

    并不!一年前的首届亚洲消费电子展上,科大讯飞与京东智能联手推出了双方合作的首款产品DingDong智能音箱。


    2015年面世的DingDong音箱

    DingDong音箱通过嵌入科大讯飞业界领先的语音技术,无需任何手动操作,就可以通过自然语言交互实现音频点播和播放控制,凭借出色的人工智能处理,它可以成为用户的音频助理,完成百科查询、讲故事、聊天等功能。同时,DingDong可以让用户通过语音控制接入京东微联的智能产品,成为智能家居的全新交互入口。

     

    不仅如此,相比还在概念图上的Home和不支持多平台的Echo。DingDong早已实现量产及多平台合作。在过去的2015年, DingDong智能音箱成为京东商城Wi-Fi音箱品类销量的冠军,并在业内获得了多项大奖,包括中国好设计奖、年度最佳智能硬件(2015全球移动物联网大会)、中国设计奖(2015金玲大会)

    除了智能音箱,科大讯飞已经实现人工智能多行业的延伸。

    • 在教育业务方向上,基于全面领先的人工智能核心技术,现已构建起可持续运营的教育教学生态体系,以及完善的面向国家、省市、区县、学校、家庭的智慧教育产品体系,实现了教学主业务流程的场景全覆盖、终端全覆盖、数据全贯通。目前,讯飞教育产品已在全国31个省、自治区、直辖市及新加坡等海外市场广泛应用,覆盖师生超过8000万。

     

    • 在智能汽车方向上,除在宝马中文评测及奔驰中文语音云效果测评中力拔头筹外,现已与奔驰、宝马、大众、丰田、雷克萨斯、马自达、上汽、一汽、长城、长安、吉利、奇瑞、江淮、广汽、海马、东南等国内外汽车品牌开展合作,搭载讯飞语音技术的轿车前装出货车型达到31款,牢牢掌握了行业市场占有率第一的先发优势。

     

    • 在智能客服方向上,科大讯飞的人工智能技术已在中国移动、中国联通、中国电信、工商银行、中国银行等主要呼叫中心市场领域实现了大规模落地和全面布局,市场占有率超过80%,有效节省大量人力成本。讯飞智能客服平台已经成为呼叫中心行业转型发展最为倚重的内在驱动力之一。最近,科大讯飞正式推出全球首台全程语音交互的银行服务机器人“小曼“,未来将在金融、运营商、展厅等商业领域推广应用,引领服务行业新一轮变革的到来。

     

    • 在电视入口方面,讯飞已经和TCL、海尔、海信、长虹、康佳、创维六大电视厂商,以及主流的电视盒子商迈乐、小米盒子等,和广电系统的歌华有线、广东广电等进行了合作,科大讯飞也是迄今为止,业界唯一能在家庭客厅噪声环境下达到实用的产品。

     

    通往人工智能的未来

    众所周知,现在是一个大数据时代,大数据服务对于企业来说颇具吸引力。面对这样迫切的需求,业界巨头纷纷”跑马圈地”。Amazon推出了AWS,微软推出了Azure,Google推出了公共云。在此次大会上,Pichai表示,Google已经开始打造属于自己的定制集成电路芯片:张量处理单元(TPUs)。正是在TPUs的驱动下,AlphaGo打败了李世石。此外,Pichai还表示Google将提供更多的机器学习APIs,目前Google已经发布了云机器学习平台服务和视觉API。“我们的目标是领导机器学习行业并将这些创新传递给客户”,谷歌硬件工程师Norm Jouppi在一篇博文中这样写道。

    科大讯飞作为中国智能语音与人工智能产业领导者,早就领先业界,布局人工智能生态。目前已经取得了丰富的成果。 

    • 2010年,科大讯飞就发布了”讯飞语音云平台”(讯飞开放平台),目前,讯飞开放平台已成为全球最大的语音和人工智能开放平台覆盖终端用户数超过7亿,合作伙伴超过13万家,在线日服务量达15亿。

     

    • 2014年,提出讯飞超脑计划,核心就是让机器从”能听会说”到”能理解会思考”。作为”讯飞超脑”计划的重要组成部分,由讯飞牵头的国家科技部863重大专项——”基于大数据的类人智能关键技术与系统”相关研发工作也在有序进行,未来要让机器人参加高考,并且考上一本,甚至清华、北大和中科大。

     

     

     

    • 2015年,科大讯飞年度发布会上,科大讯飞推出具有里程碑意义的人机交互新产品——AIUI。包括双全工技术麦克风阵列技术声纹识别技术方言识别语义理解技术内容服务等技术。科大讯飞将系列尖端科研成果和完善服务融入AIUI,开发者将可以实现一键获取解决方案,集成麦克风阵列、集成SDK及定制云端服务等功能。

     

    从“让机器能听会说”到“让机器能理解会思考”,讯飞的梦想不断升级;从智能语音到人工智能,核心技术不断突破,产业不断拓展,取得了令人惊喜的成绩。

     

    • 在口语翻译方向上,2014年,科大讯飞首次参加国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation),即在中英和英中互译方向中以显著优势勇获第一,在2015NIST中英机器翻译评测大赛中获得人工评价环节翻译结果可用性比例最高的优异成绩,同时还推出全球首款可实用维汉口语翻译系统,目前已经在新疆展开大规模应用。

     

    • 在语音识别和语义理解方向上,针对人与人之间自由交流语音的语音转写正确率突破85%实用门槛,且针对会议演讲等场景达到95%以上的识别率,研制完成软硬件一体化的远场语音识别系统。

     

    • 在机器评测方向上,讯飞的技术从口语评测进一步向纸笔试卷评测延伸,在正式承担了广东英语高考的全部口语评测任务后,基于试卷扫描识别的中英文作文自动评分技术在重点考试的实际数据验证上已达到与人工专家评分高度吻合的水平。 在认知智能方向取得了重大突破,未来对教育、医疗等重要领域都有重要意义。

     

    科大讯飞董事长刘庆峰曾说,“以语音与语言为入口,人工智能的大门正向人类展开,在未来人工智能未来会像水和电一样无所不在。”而今天的谷歌I/O大会,同样以Google CEO Pichai的“我们生活在一个特殊的计算机时代”结束。

     

    不同的语言,不同的企业,对未来和人工智能都有着相同的判断与期待。未来科大讯飞将持续发力,保持源头技术国际领先,在中国,用人工智能改变世界!

     

    小课堂
    Google I/O

    Google I/O寓为”开放中创新”(Innovation in the Open)。此外,输入/输出(Input/Output)以及与I和O形似的二进制码中的”1″和”0″也常常被理解为Google I/O的另一层意思。Google通常都将重磅产品和技术的发布放在历年的I/O大会之上:

    2009
    第2届,5月27-28日

    在会上Google发布了Android、Google App Engine、Chrome、Google Web Toolkit等产品。

    2010
    第3届,5月19-20日

    Google发布了Chrome Web Store、Android 2.2、Google TV等产品。

    2011
    第4届,5月10-11日

    Android有史以来最大的更新Android4.0成为了会议的中心议题之一,此外Chrome OS和Chromebook也是此次会议的亮点。

    2012
    第5届,6月27-29日

    YouTube首次在线直播了这届大会。

    2013
    第6届,5月15-17日

    会上Google发布了Android Studio、全新设计的Google Plus及Google Maps等。

    2014
    第7届,6月25-26日

    在此次大会中,Android One、Android L、Android Wear、Android Auto、Android TV、Google Fit等重磅产品与项目悉数登场。

    2015
    第8届,5月28-29日

    会上Google发布了Android M、Android Pay、Android Wear更新、Chrome Custom tabs 、Google Maps离线模式、Google Photos、物联网操作系统Project Brillo和通用语言Project Weave、Google Now on tap等。

    中国硬件创新大赛来创业之都深圳啦!

    16年5月13日,备受瞩目的第二届中国硬件创新大赛以“突破蜕变”之势迎来了“全国巡回实战培训会”首站北京场活动。培训会上,来自主办方的星云智能硬件加速器、华强聚丰联合知名企业科大讯飞,IdeeBank等,从硬件创业的“供应链制造”、“资本对接”“技术方案”“市场营销”4个重点方向为创业者答疑解惑,并提供一对一30分钟辅导环节,为硬创者提供全方位支持。

    16年5月13日,备受瞩目的第二届中国硬件创新大赛以“突破蜕变”之势迎来了“全国巡回实战培训会”首站北京场活动。培训会上,来自主办方的星云智能硬件加速器、华强聚丰联合知名企业科大讯飞,IdeeBank等,从硬件创业的“供应链制造”、“资本对接”“技术方案”“市场营销”4个重点方向为创业者答疑解惑,并提供一对一30分钟辅导环节,为硬创者提供全方位支持。
    2016全国巡回实战对接会【北京站】精彩回顾
    第二站,深圳站!出发!
    第二届中国硬件创新大赛将以“全国巡回实战培训+专业领域聚焦赛事”的形式,覆盖近10座城市。“全国巡回实战培训”第二站将坐落在深圳这座硬件创业者的 “天堂”,借助北京场活动的余温,深圳场实战对接会将继续围绕智能硬件如何突破创新的话题,从研发思维到产品思维,帮助硬创团队软硬结合,从方案到量产, 实战硬件制造。
    讯飞开放平台强力进驻本届硬件创新大赛,从“供应链制造”、“资本对接”、“技术方案”、“市场营销”四大硬件创业命门为创业团队提供扶持,力助中国硬件创业团队快速获取成功!
    2016全国巡回实战对接会【深圳站】部分议程
       深圳作为公认的硬件之都,在供应链制造上有着得天独厚的优势,但即便是坐拥这样的优势,创业者们依然很容易迷失在各种各样的供应链陷阱中,轻易找不到前进的方向:
         陷 阱一:挑战工厂工艺极限。——每一种材料、工艺都有一个漫长的普及过程,先进的材料和工艺,意味着只有少量厂家能做,产能有限,只能保证大客户,战略客户 的供给,一般客户得不到支持,然而很多初创团队对此并不了解,在产品设计上喜欢一味地追求极致,到头来因为工艺问题又得重新调整参数,白白浪费前期宝贵的 试产时间。
        陷阱二:用软件迭代思维迭代硬件。 “快出图,快打样,多做几版!”——这是大多数做软件出身的老板会对自己团队提出的最不合理的要求之一。要知道硬件开发并不等同于软件,其中牵扯到手板制 作,开模试模,修模,PCB打样,贴片,匹配调试等复杂环节,加上昂贵的开发成本,制作周期和迭代速度相较软件来说往往要慢上许多。
        陷阱三:我要最好的供应商。——早期的创业团队还有一个容易被供应商嫌弃的“通病”,那就是打样的量少却经常还要货比三家,当然这是大多数创业者为了自己的 项目赌上身家而不得不“勤俭持家”的表现,但是不要忘记,你在挑选供应商的同时,对方的业务同样也在衡量,你那么点单到底值不值得他耗费那么多时间,遇上 挑剔的,说不定随便找个借口就把你搪塞了。
       陷阱四…
       陷阱五…
      你也遇到过这些问题吗?想知道如何避开这些常见的陷阱吗?
    2016-06-08 ~ 2016-06-20合肥
    超过80%语音开发者的共同选择