• 面对越来越火的机器人市场,我们到底应该关注什么?

    编者注:本文根据 IDG 资本的合伙人牛奎光、科大讯飞 AIUI 负责人马汉君、图灵机器人联合创始人杨钊、Rokid 联合创始人兼 CEO 黄伽卫和Emokit 创始人兼 CEO 魏清晨在「网易未来科技峰会」上的演讲整理,文章内容略有删改。


    「会话时代」的机器人经济

    111.jpg

    牛奎光:今天很高兴跟各位嘉宾一起讨论一下智能机器人的事,人工智能我们发现从微软上发布了微软的智能机器人,后来包括谷歌、苹果、亚马逊、Facebook 都发布了自己的智能机器人平台,智能机器人有一个新的名词,叫做「会话经济」。

    马 汉君:机器人这个事情应该是说最开始 2015 年突然是从以前的物业变成商用,非常普通,我们 2015 年下半年开始发力,机器人这个事情推动了机遇的起步期吧,这个事情的确到现在为止整个行业已经是非常清晰的商业模式,这个方向非常明显,机会是属于前期扩 张、快速沉淀的模式,我们一定会参与,而且在这里面和行业一起寻找真正未来能够落地的机会。

    杨钊:从 2014 年起,我们也是转向机器人这个行业,因为我们觉得人工智能对话系统是共同的,机器人应该是更自然的交互,从 2014 年开始我们开始做机器人这块的产品和模型,在 2014 年 11 月份发布了图灵机器人的一个对话系统平台,到现在应该是将近 20 万开发者,其实是以我们的力量来迎接和推动整个行业的发展。

    黄伽卫:我们是把很多不同的技术集合起来,做一个面向用户的产品,有很多不管技术方面的水平,目前为止我们看到的机会,我们开始看到把这些不同的技术,不管它是 AI 方面的,或者是传感器、硬件,把它融入到一起,觉得很好用,是我们的一个很大的机会。

    刚刚我们记得是一个搜索器,牛总说我们是一个做机器人的公司,而且我们看到一个更大的机会,我们认为是叫做通 AI,我们看到一个很大的机会,把 AI 的一切可能放在家庭层面,所以这样的一个产品它也可能长得像机器人,它也可能不是。

    所 以我们第一代产品去看它的话,它其实不太像机器人,因为他没有手、没有脚,不过它是去把 AI 的那种可能性,比如说很多这方面去想的话,我们去听音乐,整个去做机器人的不会想到听音乐那么重要,我们的产品把音乐体验放大,它背后的 AI 会了解你的喜好。他们聚集更好的音乐给你,他有一个很特殊的灯光的效果,其实我们看到这方面很多新的尝试。刚刚牛总也说到了,国外的据说卖了 300 万台,后面又看到了谷歌发布了 Google Home,它长得不像机器人,但是它是机器人。

    机器人应用的两大切入点

    222.jpg

    牛奎光:我想我们机器人现在看起来的话,主要的应用也应该是两个方向,一个是刚才黄总讲的我们叫做情感类的机器人,更多的是以家庭应用场景为主,还有一类是叫交易型的机器人,我不知道剩下的两位嘉宾对这两个具体应用的切入点怎么看?

    谢 殿侠:我先接着您刚才讲的那个问题,聊机器人和会话经济还是跟人机交互发展的阶段有关,最早 PC 出现的时候,键盘鼠标是人机交互的媒介。移动互联网手机平板,它的主要媒介变成了触摸,现在智能硬件、包含机器人,我们把 Robot 放在这里面,现在键盘鼠标没有了,触摸屏也没有了,还原到了最自然的人和人之间的交互方式,就是说话,我们必须要学习了。

    这意味着任何可能过去的产品服务,过去通过网页来呈现的,通过 APP 来呈现的,现在可以通过聊天对话来呈现了,不管是在手机还是 PC 机上,以及各种各样的智能硬件上,所以从这个角度上来讲,可能现在是一个分水岭,以后人人、事事、物物都可以来交互。

    在 交互的过程中,如果说是跟情感有关,尤其是做这一块的,人和机器之间聊天,对微软来讲主要是完成任务,它不管你的情感,对小工来讲呢,就是跟你闲聊的,怎 么能够消磨时间。这个时候对他来讲情感就会变得非常非常地重要,如果说再深入到更深层面,我们儿童机器人经常聊天,律师机器人帮着判案子,股票机器人可以 跟交易对接,再更进一步深入,企业内部企业的管理怎么能够跟这些机器人对接,在报销方面,财务方面制度那么多,我怎么来了解,财务制度那么多,我遇到了什 么问题就问。

    这种情况下,只要有智库,只要用户的交互方式过去用键盘鼠标,或者是触摸屏,现在都可能会变成是用聊天的方式,对方无非是个 人,还是个机器人,我作为一个用户我用我最适合最自然的方式获得我想要的结果,得到我想要的服务。我们刚好在中间做语音的 API,我们做得更垂直一点,各位都可以合作,我们有一些音乐也可以聊,最终帮助我们做最终端产品的能够超越用户的期待。

    牛奎光:第二个问题,您现在做语音类里面,你碰到的做交易类型的多一些还是做情感类型的多一些?

    谢殿侠:实际上对我来讲,我做交易本质上没有区别,我还有一个观点,支持我们的合作伙伴做面向特定用户,针对特定场景提供特定领域服务的这么一些可能性。语义理解我们关注的点有三个,第一个是懂用户的意图,这是语言层面的东西,跟你有相关性,但是弱。

    第二部分我知道你的答案,那好了,这个我们反过来来讲要构建知识图谱,这一块我们会做一些基础的,合作伙伴他可能会有一些他自己独特领域的积累,他有模拟性就可以了,还有一个连接的服务,不论是哪一块,第三方服务的对接。

    魏 清晨:我非常赞同黄总说的观点,机器人未必像人的形态一样,有胳膊、有腿、有眼睛、有嘴,机器人它只是一些分子而已,其实它背后人工智能的部分,他说过这 么一句话,他是在《情感计划》这本书下了一个很重要的结论,如果要让机器实现真正智能,并且跟我们产生自然而然的交互,需要具备情绪识别和表达的能力,就 需要具备情感。

    其实机器人不光要具备智力方面的一些东西,还要具备情感方面的一些东西,这句话里面渗透两个信息,第一个未来的智能和机器人具备情感是它智力的很重要的一部分。

    第二个观点,他认识到情感这一块分为情绪的识别和情绪的表达,不光是让机器人知道我们在说什么,或者知道我们长得怎么样,我说的过程是什么样一种情绪,在这个技术上再做一些匹配的服务,实现这样一些东西,这是我们对机器人的一些想法。

    机器人如何听懂人话?

    333.jpg

    牛 奎光:今天来的五位嘉宾也都比较一致,基本上都是把软件作为自己核心的突破的点,我觉得这件事也应该是对的,因为软件,包括计算能力,包括数据的搜集的可 获得性,现在基本上都还是在继续以摩尔定律也好,以一个爆炸数在增长,实际上它本身的进展是很难的,今年进展 3% 到 5% 就不错了,未来的创新我的观点也是这样,我觉得可能更多的创新,或者是说你更容易突破的地方可能还是在软的机会上可能会更大一些。

    具体再说 回来,刚才我们谈到了会话经济,它一个起源和大家认为的机会。再反过来说,它解决了跟用户之间的沟通界面更加自然的一个,叫技术的发展上来讲,深度学习的 发展上来讲,它对于自然语言的理解还是有很大的困难,跟之前的语音不一样,语音可能是最早解决的第一个问题,图像和人脸可能是解决的第二个问题。

    确实相对来讲自然语言的理解应该是第三个问题,而且这个事情往前看起来还有很多的路要走。所以我想也请因为讯飞也做了大量的工作,我想请马总讲一下在语义的理解上,您认为未来两三年是一个什么样的看法?

    换句话说,我们之所以能够让机器人有感情,能够听懂人说的话,未来的两三年之内你认为是一个什么样的进展?

    马汉君:其实刚才牛总问到一个问题,你已经把语义分成两端,一个叫做语义和情感,我们在讯飞一种叫做服务,一种叫做闲聊。

    牛奎光:应该是一个分法,两种叫法。

    马汉君:对,我们这个观点跟谢总刚才讲的略有差异,我们讨论的时候,这两种语义解决的问题是不完全一样的,你像我们举一个闲聊来说的话,先老很多时候我们要解决的问题是说大家是想去跟他进行一些互动。

    我 想获得的是一种放松,或者是进行一些玩啊为目的,能陪着它一起说下去就好,刚才导航来说,导航的时候我们可能会说我要去哪儿,我从哪儿出发,我大概要考虑 什么路线,但是大家很多人也提过这个问题,但是其实在人和人的对话也是一种合理的情况,我们转化成用最少的对话帮你完成你的问题。

    可能是你先提了一个问题以后,你要去哪儿,我能主动帮你问出来最主要的问题是什么?所以我们正在解决语义这个事情上面,会有两种手段。所以从讯飞的角度,我们现在来做的会把更多的精力集中在解决一个服务的目标,这是我们的一个重点的工作。

    牛奎光:第一个问题是交易型的问题。

    马 汉君:做闲聊这一块有很大的接触,我们解决的服务的目标也被认为是切入点,我们真正需要解决的问题可能是音乐、可能是订票,可能是一个什么领域,每个领域 它有它的特性,大家每个人都可以集中在自己擅长的领域去做,最后每个人做出来的领域合并在一起以后,整个行业、整个大众老百姓的生活里面他想要的各种领域 下面都能完成比较好的理解了。我们在做的时候能形成一种模式和趋势。

    牛奎光:马总也说了一个比较有意思的现象,有的机器人聊天是越短越好,有的机器人聊天是越长越好,结合以下具体的应用,我想先请黄总讲一下你在家庭应用场景中,你是这两种情况都存在呢?还是说基本上是聊天聊得越长越好?

    黄 伽卫:就是两种都存在,语义这方面确实是一个很大的挑战,这种方法其实是分层级,这个很窄的场景里面你能很准确地去给用户一个很直接的反馈,我觉得场景方 面,尤其是我们产品的设计,几个场景用的时候你很清楚,控制智能家电、智能计算,这些场景你很清楚,根据不同的场景你在语音方面其解决。

    另外一方面,刚刚提到的也会有人忍不住去调侃,他要去聊天,所以我觉得这个性质有点不一样,给他一个很有趣的方法来聚焦,这两个性质是不一样的。

    要 是你去问我们的话,我会希望用户怎么用呢?我希望是一个在家庭里面使用的产品,我希望它给我们的感觉是放松、很好玩、很有乐趣,比如说我回家的时候,我回 到家不会一直跟机器聊天,我回到家也不会跟我太太聊天,想休息一下。其实很多别的服务变得很重要,像垂直的领域,听音乐也好,你讲个故事给我,听新闻,这 些更多我们会觉得比较有用、更放松、更好的,能够用到 AI 方面的一些场景。

    当然,也会有一些自由的交谈,这方面我们也会一直去加深,因为产品已经上市了,我们会很主动地了解用户怎么用到产品,我们发现用户会问到这种问题,根据我们本身搜集到的一些真实的数据,我们来优化产品,不管是垂直的产品还是只有聊天闲聊。

    牛奎光:产品迭代的过程是非常重要的,图灵机器人杨总您这边看到跟用户沟通也是做得挺久的了,你这个地方看到的应用和数据反馈的情况是什么样的?能不能给大家介绍一下?

    杨 钊:我觉得现在有一个机器人的平台,让我们平台上面有各种产品的接入,刚才两位讲的就是有的产品可能偏向于聊天,纯粹就是找乐子的,另外一种就是实际应 用,我要解决实际问题的。当然还有很多产品两者兼有之,它会有一个共通的,在我们的架构里面,其实也跟两家差不多,一个是调侃聊天是一类,另外一块是垂直 应用,在我们的使用数据的情况来看,在明确意图的情况下,它的目标比较狭窄,我们通过数据的训练,包括模型迭代是很容易能做到一个非常高的水准的。

    因 为聊天这块它的意图相对不明显,表达过量,加上如果你没有很好的知识库和计算的话,包括它的 NLG 生成不够有趣的话,都会极大地影响每个用户跟它进行交互的欲望,所以从目前来讲,因为我们有一个开放平台。所以从我们开放平台出来的产品和用户的数据来看 的话,总体来讲我们的平台的垂直场景准确率还是非常地高。

    从对话系统,聊天这个场景来看的话,它的整个对话的准确度,包括它的上下文关联也都在逐步提升至中。当然这块确实刚才讲到对非明确意图的聊天确实是一个很大的难题,这块确实还得根据不同的场景、不同的产品来做对应的优化。

    牛 奎光:这个我再稍微请教一下,按理说明确意图的比较容易形成用户的反馈,换句话说你比较容易做到闭环,比较短的迭代的产品。相反的话,因为情感类的事情, 他自己也很难表达他自己的情感,给你反馈说你给我的东西好还是不好,相对来说闭环更难一些。但是你刚才讲的好像做服务类的他们会更难一些?

    杨钊:可能我刚才表达得不是很清楚,做垂直应用场景肯定是容易做闭环的,我们的需求问题都非常地明确,另外调侃聊天,因为用户的表达多样化,目的更明确,包括他关心的一些内容都会很多样化,这块其实相对来说更难形成闭环。

    但是通过不同的算法和模型我们可以对一些调侃、聊天的一些数据进行一些深层的分析和迭代,然后我们能把对话能够衔接起来,这个衔接的效果确实数据的积累和模型的优化是有提升,但是它准确度肯定是比不上垂直应用场景带来的情况。

    机器人创业如何应对巨头竞争?

    444.jpg

    牛 奎光:了解了,我想接下来问一个稍微尖锐一点的问题,先从这边的四位嘉宾开始,你们在做应用的时候有没有担心因为数据积累的速度不够快,或者是因为计算立 项成本的问题,导致你有担心说以后巨头干了怎么办?我们因为讯飞相对来讲语音干得比较早,至少在语音这个层面上算是一个巨头,我们马总最后说,我们从谢总 先开始说,这个事你怎么想?

    谢殿侠:这个问题的确也是个好问题,但我觉得几点,第一因为语音交互张嘴说话,它带来的情况是什么呢?它不像任 何传统的产品或者应用,你没有菜单,你没有界面、尺寸大小的限制,我们知道大家一说话一张嘴随便讲什么都可以。就意味着过去有很多 APP 的时代过碎了,单点解决一个问题。

    但是现在到了开口说话的时候,就容易有我想到哪儿就说到哪儿,前面还有讲闲聊,就是你有问我能够单向回 答。但是任务型的我希望能够准确,如果不准确吃不准的我不回答,为什么比如说现在 BAT 还慢,我们就说苹果、谷歌、Facebook,他们能力、资源都很厉害,大家仍然很大程度上把它当做一个玩具,每个人张嘴说话之后的随意性,以为着我们日 常生活工作中的需求,假定如果是八千个,或者是一万。

    牛奎光:技术还是不成熟。

    谢殿侠:还不够成熟,所以这种情况下,对 于这种创业的公司来讲,如果你是 CMO,一个细分领域扎得比较深,那好了,我在这个领域里边我挖,我可能让针对这个领域的用户场景,或者说是我们能够提供的服务能够让用户的满意度更高, 这种情况下可能巨头看不上的,我们做一些脏活、苦活、累活,我们让用户爽了。

    魏清晨:就像前几年有人问这个活如果腾讯干了,BAT 干了你会怎么办?他们如果干这个事就证明这个事有价值,但是具体谁能跑出来,从以往的经历来讲这是一个未知数,这是第一点。

    第二点,你刚才说那个问题是数据的积累和算法决定你精度的提升,但是还有一块,我们算法有很大一部分算法是基于专家模型加上深度学习的,而不是单纯进行深度学习的。

    还 有一点,可能巨头它切的是某一块,比如说有只切语音的,有只切表情的。我们知道如果判断情绪呢,我们主要是分两类数据,第一类数据就是说我们的大脑可以控 制的,可以伪装和掩饰的,比如说语音和表情,还有一类是大脑控制不了的,比如说心率和皮电。这是作为一个多模态的形式判断,从渠道数据来源的角度去做综合 判断,这是专业性的,我们希望这一点上能走得更远更长一些。

    我补充一下刚才提的那个问题,我对于情感和交易这两块还有自己的一些看法,我认 为情感它不仅只是闲聊,它同时也是一种服务,甚至它是评价服务品质和质量的很重要的一个因素,比如说送菜机器人,如果只是把某一盘菜端到某一个人面前,这 样的服务顾客很难认可、很难买单的。比如说他说出来一种语音不是纯机器很深的应验,它带有某种情感,当他看到这个顾客伤心的时候,或者看到这个顾客开心的 时候,它以不同的语音表达出来。

    谢殿侠:我补充一下情感结合的问题,比如说听音乐,我听周杰伦的音乐是这样,实际上是我回家了今天比较积 累,他给你放一个比较放松的音乐,我今天签了一个大单非常爽,它给你放贝多芬的《第九交响曲》,所以当构建了个人的知识图谱、音乐的图谱之后,你要表达的 只是你的一个情绪和诉求。

    这种诉求当这些文化类的服务是跟情感密切相关的,所以在这个时候我高兴了,你放一首不好听、不好听。这个有点好听,但是有点好听你可能会是一个积极的情绪,也可能会是一个消极的情绪,当如果知道了之后后边再去调整算法的时候,给你的可能是适合你的音乐。

    你说它是一个完全任务型的领域服务呢,还是闲聊型的,或者是一个情感服务呢?这个界限已经模糊了。所以这两块只是说我们在分类的时候这么分,但是对用户来讲实际上是一码事。

    魏清晨:用户只是以自己的感受为主,拿了一个音乐举例子,我们现在分析根据情绪提供音乐,3 分钟的音乐我们采集六千个数据点,分析它的音高、旋律,打一个标签,这种标注过的应用我们已经超过 160 万首了。

    所以说我们跟讯飞、跟图灵都是那种在合作的机构,跟图灵的合作就是除了基本的情绪的识别以外,针对幼儿会有一些更深的基于大数据的对他情感情绪的分析和建议,这个还没有正式发布,就不多讲了。

    包 括跟讯飞的合作,有些集成厂商他接入的是讯飞的语义识别的功能,同时又想通过语音,通过语调、语速来判断情绪的功能。可能讯飞的接口占用麦克风以后,其他 的 SDK 就没法再占用了,要占用就会产生冲突,这个机器人厂商正好推动和讯飞的合作,一段语音讯飞来分析识别语义我来判断情绪。

    牛奎光:今天来的都是上下游关系。我们听听黄总准备把自己的科技竞争力、壁垒护城河建立在什么地方?

    黄伽卫:我们不担心大公司都来做这个事情,我们看到这是一个大趋势,我们做的创新模式是大模式,这个是很早期,现在的问题是要教育市场,从这个角度很多客户来做确实是好事情,到头来确实需要竞争,我们希望能够在市场里面能够留一席之地。

    一个家庭的领域里边听的不一定是技术,听的是用户的体验和产品,这个就不一样了。

    牛奎光:一旦不拼技术了,大公司也没有什么优点。

    黄 伽卫:我们很糟的时候在考虑,因为我们是一个以产品为导向的公司,在家的产品我们要不要设置那么多好的选择?我们最终做了一个比较风险高的决定,我们还是 相信不同的场景它的需求是不一样的,性质不一样,那个时候很早我们做了一个决定,从语音识别到语义,我们自己来,这里面其实有一个原因,因为我们做的一个 产品比较全,我们相信这个产品到家庭环境里面,我们可能需要比如说它的算法、硬件,包含了灯光的效果要结合在一起,要这样做的话,只有我们自己来做。

    比如说我举一个简单的例子,我们发现用这种声控产品一定要唤起他的注意,因为唤醒是很重要的,他要很快很准,现在比如说大公司都是唤醒音节越多越好,我们发现在用户使用的过程当中,发现唤醒的感觉很坏,特别是对中国人,声音有点怪,我们把这个压缩成两个音节。

    因为我们自己做这个技术,我们自己投入,所以我们把它缩到两个音节的原因我们认为这将会更加智能,我们产品交互的时候,说请就可以了,一个小的案例背后技术投入是蛮高的。

    牛奎光:黄总把产品用户体验的能力作为自己一个很高的壁垒,我们期望黄总能卖到 300 万台。杨总对这事怎么看?

    杨 钊:我认为现在市场还在一个教育期,人机交互,包括语音交互这一块,整个生活场景,包括解决用户的需求,范围还是非常广的。现在我觉得在一个广袤的想象空 间里边,其实很难说直接是竞争,更多是一个合作,谁能率先以这种语音交互、人机交互方式能解决实际用户的痛点需求,能让市场、让用户能够接受,会为自己买 单,然后让整个产业能够快速地成熟起来,我觉得这个东西其实更有价值。

    另外一点,假若这个事情逐渐地在所有的合作商,不管是做语义的、做情感的、做产品的、包括做 AI 技术的,做数据服务的,做内容的等等等等,在整个产品里大家一起把这个市场做得足够大、足够成熟的时候,可能这个时候谈竞争可能是更加合适。

    当然我是相信不管是大公司也好、小公司也好,跟所有产业相似的一点,如果一个公司在自己关心的一块、感兴趣的一块有很长时间的积累,如果很担心大公司进来的话,这个心态是有问题的,如果持这种心态,很多事情都不用做了。

    杨钊:我感觉大家都想合作,每个公司都有自己最擅长的一部分,但是要真正把这个行业推起来,推出很多经典的产品,能够教育市场、教育用户的话,我觉得合作更关键。

    牛奎光:我们听完了创业公司的想法之后,听听巨额是怎么想的?讯飞在语音识别上还是第一把交椅。

    马汉君:我这个观点跟黄总有一点相似,数据的确从技术角度来说是很关键的一个东西,我们想在行业里来说,数据我们可能有一个比它还要关键的问题,就是说你的定位。在讯飞里我们把它叫做命题,首先你想做个什么东西,你想解决什么问题去做这个事情。

    这个跟杨总讲的一样,在当前比较早期的时候,大家甚至做得一模一样,比如说我们就是为家庭做贡献,一模一样的东西,我们两边的想法和定位对它未来的发展都是一模一样的。在这个时间点的时候,取决于你的成败,很多时候是取决于你对你想做的东西是一个什么样的定位。

    如果说最后真的走到一个阶段大家定位是一模一样,再拼的时候,在座的在那个时候都已经是大公司了,更多拼的是合作了。

    牛 奎光:所以马总心态很开放,从一个垂直领域扎进去,定位定准了,等这个事情被大家所接受的时候,都变成是大公司了,这也是个好事,应该说会话经济,或者叫 智能机器人,这个事情今年刚刚开始,我觉得在这样的一个背景之下,在人工智能取得一个算是突破性的发展的情况下,还是会有很多的机会,也是你希望能有更多 稀奇的、好玩的、实用的、高效的机器人出来,能够简化和丰富我们的生活。

    原文来自极客公园,链接:http://www.geekpark.net/topics/215957

    演讲清华大学张长水:图像识别背后的机器学习

    演讲清华大学张长水:图像识别背后的机器学习1新智元推荐

    演讲清华大学张长水:图像识别背后的机器学习

    演讲清华大学张长水:图像识别背后的机器学习

    图像识别是人工智能领域非常核心的一个课题。同时从研究的角度来看,机器学习也是人工智能下的一个研究方向。因此,这个题目会更容易引起大家的共鸣。

    一、什么是图像识别?

    演讲清华大学张长水:图像识别背后的机器学习

    图 像识别是什么?以这张图像为例,第一个问题是:在这个图像里面有没有街灯。在学术研究中,我们把这个问题叫作图像检测。第二个问题就是把街灯的位置给找出 来,这叫做定位。第三个问题是物体的分类和识别,指出这是山,这是树,这个是招牌,建筑。我们可能还会对整张图片做一个场景的分类,是在什么环境下拍照 的。它可能是一个室外的图像,关于城市的生活等等。基本上这些就是我们在图像识别里面涉及到的一些可能的研究问题。

    二、图像识别有什么应用?

    做这些研究可以有哪些用途?比如无人驾驶汽车:如果汽车上有一个带有摄像头的辅助系统,能够识别这个场景下所有的情况,包括车道线,交通标识,障碍物等,这样能够让我们驾驶汽车更方便、更轻松。

    另外,一些相机在拍照的时候,在用户摁下快门到一半的时候,相机就会去找到这个图像的人脸在什么地方。找到人脸以后把焦点对焦在脸上,使这个图像能够让人更清楚一点。

    还有,我们的计算机里面往往会有成千上万的照片,怎么组织它们,从而用户快速找到一张照片?如果有这样的图像识别系统,我可能会告诉计算机,我要找的照片里有两个人,这个照片是在颐和园照的。

    三、图像识别的困难在哪里?

    图像识别有很多难点。第一个困难就是它的视点变化很多。当我们对同样一个物体拍照的时候,因为视点不同,得到的图像外观是不一样的。所以对同一个物体这样看或者那样看,看外观非常不一样。但是也许两个不同的物体,外观又可能会很相近。所以这是造成图像识别的一个困难。

    第二个难点就是尺度问题。物体在图像中近大远小,这给我们做图像识别会带来一定的难度。

    演讲清华大学张长水:图像识别背后的机器学习

    光影的变化一向是计算机视觉特别关心的一个问题,光影变化是图像识别的第三个难点。同样一个人在不同光影下看起来判若两人。

    第四个难点是背景复杂。在复杂背景下,找到某一个人带着拐杖,找到一个戴帽子的人难度很大。

    演讲清华大学张长水:图像识别背后的机器学习

    第五个难点是遮挡。遮挡是计算机视觉特别关心的一个难点。比如说,这个图片里熙熙攘攘的人中,我们知道这大概是一个女孩:她有棕色的头发,穿着一个短袖衫。我们人的本领很强,这种情况下还能识别出男女。但是计算机现在还做不到这一点。

    第六个难点是变形。非钢体在运动的时候会产生变形。同样一匹马在不同的情况下的图像表现会非常不一样。

    四、图像识别的发展历史

    演讲清华大学张长水:图像识别背后的机器学习

    图 像识别刚开始的时候是从单一的物体识别做起。上边这张图像展示的是传统的几何方法的结果。我们的客观世界那么复杂、那么多样,我们该怎么做识别呢?那就先 从特别简单的问题做起。这也是我们做科学研究的一般的方法:从简单的问题着手。比如从做积木的识别入手。因为积木有很规范的几种形状。上图是识别出的简单 的剃须刀。这些人造的非常规范的几何体的组合,只要识别出长方形、矩形、正方形、三角形等,就会把剃须刀,工具检测和识别得非常好。另外一种方法,是根据 外观识别。我不考虑要识别的物体的几何结构,仅仅看它外观长什么样。这里列出的是做人脸检测的例子。

    演讲清华大学张长水:图像识别背后的机器学习

    做人脸识别的研究历史相对比较长。大概七几年就开始有这样的研究工作了。直到现在仍然有很多人脸识别的研究工作发表。

    另 外一个课题就是手写数字识别。手写数字看起来是很简单的事,但是对手写数字识别的研究引发出相当多的研究方法,给我们带来很多的成果,是一个很有意思的课 题。此外的课题还有汽车的检测。我这里只是列了这几个。其实同时期还有指纹识别、文字识别OCR等等。当时有的研究工作已经发展到了产品化的程度,包括 OCR和指纹识别。

    在2000年之前的图像识别曾经采用过几何的方法、结构的方法、规则的方法,当然也用了一些比较简单的模式识别的方法。

    在 20世纪80年代后期、90年代期间,机器学习领域发生了什么?这个时期的机器学习有了一个飞速的发展,出现了一些了不起的研究成果,包括:支持向量机方 法,AdaBoosting方法,计算学习理论等。成果出现。这些都使得机器学习和识别大大的往前走。在2002年后的一段时间里,一个华人女科学家,叫 李飞飞,开始用一个新的思路做图像识别。他们希望设计一个统一的框架做图像识别,而不是就事论事地针对一种图像识别任务设计一套专门的方法。他们希望这个 统一的框架能识别成千上万种物体。另外,希望机器学习领域的出色成果可以用在图像识别上。她们还借鉴文本分析里的方法-“词袋”(bag of words)的方法用于图像识别。

    演讲清华大学张长水:图像识别背后的机器学习

    什么是“词袋”方法?举一个例子。比如要识别一张人脸,我们不考虑人脸结构那么复杂,我们只要看看里面有没有鼻子、眼睛、嘴巴、下巴。有了这些部件,只要这些部件在一起,就说这是一张人脸。你可能会觉得这很简单。

    这个方法来源自对文本的研究。在自然语言处理里面,有一个任务是对文本分类。文本分类中就采用了“词袋”方法。

    比 如说有这样一篇文章,我们想知道这篇文章是属于哪个类别。它是在讨论军事,还是在讨论科学。那么我们怎么做呢?一种办法是按我们通常会想到的方法,就是把 每一句话都读懂,做解析,知道句子的语法结构,然后去理解句子的内容。但是,对句子做做语法分析很难,理解句子很难。我们往往做不好,所以就不采用这种方 法。实际上,我们可以用一个简单的方法:我们只要看这篇文章出现过哪些词出现的频率高。这篇文章中的高频词是:视觉、感知、脑、神经,细胞,你会说这篇文 章属于神经科学类。还有一篇文章,其中的高频词是:中国、贸易、出口、进口、银行、货币等,你会知道这篇文章属于经济类。这个方法不用分析和解析句子和段 落的语法结构,而只要把这些高频词放到一块,叫“bag of words”。

    怎样把这种方法用于图像识别呢?在识别图像的时候,我们也可 以把图像中的“高频词”放在一起来识别图像。这里的“词”是什么?直观地说就是小的图像块。比如我们要识别一张人脸,这样的图像上就会有像皮肤一样,或者 像眼睛一样的图像块。而相对来说,如果识别自行车,就会出现和车有关的图像块,如:车座、车梁。这些图像块就是“词”。这样就可以采用“词袋”方法。实际 上,图像中的词不是我们说的这么直观,而是下方这样的图像小块。它是很底层的图像块,非常小,3*3,5*5或者7*7大小的图像块。这样小的图像块不表 达很抽象的语义。

    演讲清华大学张长水:图像识别背后的机器学习

    这 种方法提出后,有很多有意思的相关的论文发表。但是这种方法还有缺陷。我们看这样的几个数字,在图像识别领域有一个物体识别比赛,这个比赛就是给你一些图 像,让你去设计和训练你的算法。比赛的时候就是提供一些新的图像,要求算法告诉哪张图片是什么类别。如果预测前5个类别中有标准答案,就算预测正确。否则 计算错误。这个比赛在2010年的第一名的成绩是72%,到2011年第一名的成绩是74%。我们知道,全世界那么多优秀的团队,有那么好的资源去做这个 事,每年的进步大概就是1%-2%的样子。

    在2000年之后这些年,机器学习在做什么事?机器学习仍然是做基础研究,出现了很多优秀成果。 其中,2006年Hinton在Science上发表了一篇文章介绍他们的深度学习方法。有人建议Hinton用他们的方法试一试这个物体识别问题。结果 在2012年的比赛中,他们获得了第一名,成绩是85%的识别率。后来大家发现这个方法原来那么好,所以大家一拥而上,纷纷用这种方法解决各自关心的问 题。为什么人工智能现在这么热?主要就是因为这个原因。

    张长水教授的实验室也用这个方法做了交通标识的识别,这是基金委的一个项目。花了很大的力气,成果很好,基本上可以到实用的程度。

    五、面临的困难和今后要研究的问题

    看起来图像识别已经很好了,很多人很乐观,很多人热血沸腾。其实图像识别还没有做得那么好。有什么样的困难?我们举几个例子。

    比 如说我们在做图像识别的时候,通常我们要标注数据,就是要标注这是鸟、这是猫。然后用这些图像去做训练。标注数据其实是很头疼的事,很花时间很花钱。李飞 飞的项目组收集的第一个数据集有101类物体。这个图像库做得很好,后来一些算法可以在这个数据库上达到99%多的识别率。人们说,这些图像质量太好了, 种类也太少。后来她们又做了这个数据库,这个数据库有256种物体,图像也没有对齐得那么好。尽管这样,这个数据库开始太小。

    演讲清华大学张长水:图像识别背后的机器学习

    演讲清华大学张长水:图像识别背后的机器学习

    在2009年李飞飞他们发布了新的数据库ImageNet,大概有几千万张图像数据。

    标数据是件头疼的事。例如这个数据库就要对每个物体用一个方框框起来,并给出一个类别标号。这是一些典型的图像,给每个物体都要框起来,都要标好这是什么物体。

    演讲清华大学张长水:图像识别背后的机器学习

    还 有一个图像数据库叫LabelMe。上图是其中一张图像,标得非常细,房屋的外形、轮廓、窗户、汽车、所有草地、马路都标得很清楚。大概有十万多张图片, 标得非常好的图像大概一万张。张教授有一次对MIT的一个学生说,你们这个数据库做得真了不起,花了那么大功夫。他说这是另一个学生做的。其实不是那个学 生标的图像,大部分图像都是他妈妈标的,他妈妈退休在家,每天给他标数据,做妈妈的多么了不起。

    演讲清华大学张长水:图像识别背后的机器学习

    还 有一个华人科学家,也很了不起,叫朱松纯。他说我们应该把图像标得更细。例如这张图片,其中的椅子可以标得非常细,座椅、椅背、腿的轮廓都标得很准确。他 们还标了各种各样的椅子。他们雇了几十个美工,一天到晚标数据,干了几年,但是数据库才几十万张图片。所以标数据是一个非常花钱的事。因此做机器学习的人 就在考虑,能不能不用那么费心去标数据而把图像识别做得更好一点。比如这张图片,只要你就是告诉我,你这张图片有摩托车,你不用说车在哪儿我也能把车检测 和识别出来。

    现在还有很多问题没解决。比如说我们现在的技术只是对图像做了一些解析,可以识别出这张图中这个部分鸟、这是树,但是没有对这个图片做更深入的理解。例如:这个算法并不知道这些物体之间的关系是什么。而对于我们理解一张图片来说,理解物体之间的关系非常重要。

    在 这个方面给大家介绍一下我们做的一个工作,叫image caption。这件事好几个单位都在做,微软、百度、Google都在做。给大家看的这些结果是实验室在做的工作。Image caption这是一个什么样的工作呢?就是你给我一张图片,你不需要告诉我这儿有一只狗,它叼的是一个什么样的东西。你只需要告诉我一只狗在叼着一个飞 碟就够了。我们现在就利用这八万多张图片和对应的自然语言的句子来设计一个模型,并且训练这个模型,使得当你给我一张新的图片的时候,这个算法能生成一个 自然语言的句子来描述它。比如这是针对对这张图片生成的句子:火车站旁边的轨道上停了一辆火车。再比如这个图像:一群斑马彼此很紧密地站在一起。还有这张 图片:一只狗嘴里叼着飞碟。不仅如此,在做这个时候,还得到了另外一些有意思的结果。这个算法里有一个视觉的注意模型。这个模型可以自动找到关心的图像 块。在对这张图像生成的句子A brown cow is standing in the grass时,我们看到 brown,cow, grass 都对应着正确的图像块。大家注意,我们在训练数据里面并没有告诉算法哪一块是牛,哪一块是草地。这说明,这个算法学习到了这些概念。既然是这样,除此以 外,其他的概念是不是也能找对?我们就把其他的一些词所对应的图像块找出来,看一看。比如说这一排是消火栓这个词对应的图像块。这是黑猫这个概念。结果都 找对了。比较有意思的是,除了名词以外,程序还找到了动词对应的概念。比如说fill with(把…填满),你会发现图片全是容器里面盛东西。

    这个结果很有意思,非常像小孩在成长过程中学习。我们会教一个一岁多的孩子,告诉他“这是一张桌子”,“这是一个激光笔”。我们不会,也无法说:“一张”是量词,“桌子”是关键词。但是孩子慢慢就能学会这些概念。我们的算法也是这样。

    演讲清华大学张长水:图像识别背后的机器学习

    上面列举了我们取得的成果。但是,面前还有很多很多的问题没有解决。比如,我们现在看深度网络很有效,但是它为什么有效?我们还不太明白。除此之外还有其他的模型吗?比如说有一些工程上的问题,那么多数据你能算吗?机器跑得动吗?做机器学习的人非常关心这些问题。

    另 外,比如说这里有一束花。现在算法可以识别出这是一束花。但是它还不能说出哪里是叶子,哪里是花蕊,哪里是花瓣。我们看起来已经取得了那么多的成果,从某 种意义上来说我们也可以把它们做成产品,为我们服务,但同时我们看到还有更多的问题没有解决得很好,这就需要我们继续努力。

    本文基本上是在讲图像。但是我们看到背后用的很多方法都是机器学习的方法。所以是机器学习人的努力,计算机视觉科学家的努力,大家共同的努力,取得了现在的成果。我们可以用这些成果转化成产品,使我们的生活可以更智能化一点。

    整理:李柯南

    权威解读 | 10种机器学习方法,正在让制造业产生颠覆性革新
    概要:每个制造商都有潜力将机器学习集成到自身的业务上,并通过获得可预测性的洞察投入生产从而使企业变得更具有竞争力。

    机器学习的核心技术与制造商每天要面对的复杂问题相一致。从努力保持供应链的高效运行,到按时生产专门定制的产品,机器学习算法有能力在生产的每一个阶段带来更高的预测准确性。许多正在开发的算法都是迭代的,旨在不断的学习,以寻求最优化的结果。这些算法以毫秒为单位进行迭代,使制造商能够高效的寻求优化结果。

    正在变革制造业的机器学习方法包括以下10个:

    1.产品生产量增加了20%,而材料消耗率只降低了4%。

    智能制造系统旨在利用预测数据分析和机器学习提升机器、生产单元和设备水平的综合收益率。下面是通用电气引自国家研究所标准(NIST)提供的图表摘要,列出了当今制造业中正在使用的预测分析和机器学习的优势分析。

    来源:Focus Group: Big Data Analytics for Smart Manufacturing Systems

    2.提供了更多的相关数据,以便财务、运营和供应链团队可以更好地管理工厂和需求方面的制约因素。

    在许多制造企业,IT系统并不集成,这使得跨职能的团队很难实现共同的目标。机器学习可以为他们的团队带来一个全新水平的洞察力和智慧,使他们优化生产流程、库存、WIP和价值链的决策目标成为可能。

    来源: GE Global Research Stifel 2015 Industrials Conference

    3.通过对组件及级别提供更高的预测准确度,以改善预防性维护和保养、修理和大修(MRO)的表现。

    亚马逊、谷歌和微软的公告显示,集成机器学习数据库、应用和算法到云平台正在变得无孔不入。下图说明了机器学习整合到Azure平台的过程。微软正在通过Microsoft Azure制造业务的自动化方面,使Krones能够实现其工业4.0的目标。

    来源:Enabling Manufacturing Transformation in a Connected World John Shewchuk Technical Fellow DX, Microsoft

    4.启用状态监测流程,它可以为制造商提供规模管理,并将整体设备效率(OEE)在平均性能上从65%提高到85%。

    一家汽车OEM为了提升生产效率与Tata咨询服务公司合作,该公司生产过程中已经明显出现了冲压生产线的整体设备效率(OEE)低至65%,与断裂时间点只差17-20个百分点的现象。进行了对传感器数据中15个操作参数的集成(如油压、油温、油的粘度、油泄漏和空气压力等),这些数据来自于12个月间每15秒对设备数据的收集。该解决方案的组件如下所示。

    来源:Using Big Data for Machine Learning Analytics in Manufacturing

    5.机器学习正在变革与智能的关系,Salesforce正在迅速成为领导者。

    Salesforce的一系列收购造就了他们在机器学习和人工智能(AI)领域的全球领导者的地位。Cowen和公司研究报告中指出,Salesforce:起步早;2016年6月23日顺利发布的增长引擎总结了一系列Salesforce对机器学习和人工智能的收购,其次是新产品发布,并对预计营收贡献进行了分析。由Alex Konrad进行分析的价值28亿美元的 Salesforce最近对电子商务提供商Demandware的收购是他最拼的动态,Salesforce将获得Demandware 的28亿美金进军数字商业。随着Demandware出售成为一个重要的贡献者,Cowen和公司预测云商务部将通过FY18贡献出3.25亿美元的收入。

    6.机器学习算法上的革命化产品和服务质量,确定了哪些因素最多和最少的影响全公司范围内的产品质量。

    制造商通常都面临着生产产品和服务要匹配于公司核心部分水平的挑战。通常,质量是单独的。机器学习是通过确定内部流程、工作流和因素贡献对目标质量得到满足的多少,成为革命性的产品和服务质量。使用机器学习制造商将能够通过在定义、测量、分析、改进和控制(DMAIC)框架内预测其质量和采购决策是如何协助提高Six Sigma水平的,这将有助于实现更强大的制造智能。

    7.机器学习已经应用于通过优化团队、机器、供应商和客户的要求来提高生产产量。

    机器学习已经在当今的航空航天与国防、分立元件、工业和高科技制造业等方面做出显著影响。制造商正在利用自己的生产能力转向生产更复杂的、定制的产品,并通过机器学习做出对机器、训练有素的员工和供应商的最佳选择。

    8.“制造业是一种服务”的愿景将成为现实,这得益于机器学习使订阅模式为生产服务。

    生产工艺旨在支持快速、高度定制化生产运行的制造商,由其良好的地位推出全球规模服务订阅率的新业务。包装消费品(CPG)、电子产品供应商和零售商的制造成本飞涨,使他们将不得不订阅制造服务,并在品牌、营销和销售上投入更多的精力。

    9.机器学习非常适用于优化供应链和创造更大的规模经济。

    对于许多大型的生产厂家,他们70%以上的产品销售来源是首先满足顾客需求的小型供应商。使用机器学习,买家和供应商可以更有效地协作,减少缺货现象,提高预测的准确性,并达到或提前于更多客户的交货日期。

    10.给固定客户在合适的时间设定合理的价格,以获得最大的利润和封闭销售,将是机器学习的家常便饭。

    机器学习正在扩展服务到提供企业级的价格优化应用程序。其中最显著的差异将是如何根据给定策略优化定价,从而达成交易并加快销售周期。

    本文为数盟原创译文,转载请注明出处为数盟社区。

    胡郁:5年内,机器语音识别率达到人类水平

    干货胡郁:科大讯飞的深度学习之路(PPT下载)1新智元推荐

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    请在新智元后台回复“0628”下载PPT全文

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    【胡郁】首先非常高兴有机会在这里跟大家进行交流和讨论,刚才汪建老师说,将来的世界是一个生命科技的时代,我非常同意这一点,将来人类的命运掌握在我们自己手里,我们可以改造自己,但是我们人类也想扮演上帝的角色。

    大 家都知道人类能够在地球上统治整个世界,是因为我们有智能,现在人类不仅仅自己有智能,还希望能够创造出新的智能。在当前世界,各种各样的智能层出不穷, 甚至有段时间“智能”一词都被用滥了,到底智能应该向什么方向发展,智能到底应该给我们带来什么?今天我们带着这个疑问想跟大家探讨一下。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    大 家都知道3月份时有个非常著名的AlphaGo大战李世石,在此之前很多人都给出了预测,包括我自己在内,我当时的预测是机器人一定能够战胜人类。为什么 呢?其实在研究界有句很有名的话,机器人在智能方面战胜人类一定用它最擅长的方式,而不是用人类思维的方式。我们原来在讨论时总想着下围棋是一个非常高尚 的运动,并不是每个人都能把围棋下得很好,但其实机器根本不是这么想的,在下完这个比赛后,凤凰卫视《一虎一席谈》请我去讨论AlphaGo和李世石对弈 的情况,记得在比赛前柯洁九段并不认为AlphaGo有多厉害。但在节目上连线柯洁九段时,他就比较谦虚了,说自己还需要好好准备。

    为什么这么说呢?我们来看一下,AlphaGo为什么能够战胜人类,因为它用的确实不是人类所擅长的方法,而是机器所擅长的方法,AlphaGo能够同时计算每步棋下几十步甚至上百步的可能性,而且AlphaGo能够记住3000万种法的对弈,而这是我们人类所不擅长的。

    反过来人工智能是不是能够在所有方面超越人类呢?我觉得这也不一定,因为我们看到围棋是一个完全信息透明情况下的公开博弈,就像以前的国际象棋,机器是占有很大优势的。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    很 多人会问,人工智能到底体现在什么方面呢?我们知道人类有农业革命、工业革命,还有现在讲的信息革命,但可能很多人不知道的是,人类在统治地球的过程中其 实经过了漫长的历史发展。有一本书《人类简史》,以色列一个年轻的历史学家写的,他在这本书里写道,其实人类在地球上已经出现200万到300万年了,但 这些人类在全球各地,就是我们讲的猿人——中国的山顶洞人、元谋人和蓝田人——但经过历史学家和基因工作者的研究,大家知道,7万年前,我们的祖先叫智 人,从非洲走出来,走到世界各地,把其他猿人都给灭种了。现在不管是黑人白人还是棕色人种、黄种人,都是智人的后代。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    在 这个过程中,好像他们突然开窍了一样,人的智能在经过两三百万年的发展,突然迈上一大步,是什么让他们走到这一点?历史学家把这叫做“认知的革命”,因为 他们发现这些人跟其他猿人最大的不同是在他们的语言得到了极大的丰富,大家知道先有对话才产生文字,产生文字后有几个好处:

    第一个好处,它 可以更好地描述周围的自然世界,比如河边有只狮子,他们知道狮子长多大,身上有没有病,处于什么样的状态,更重要的是因为有了语言、有了语音,我们可以描 述团队和团队之间的关系,如果没有语言,看现在动物群种里面的黑猩猩,一个团队最大不能超过50头,超过50头就无法管理。但智人因为有了语言,因为他们 之间可以八卦,张家长李家短,他们可以组织上千人的团队做一件事情。更重要的是,有了语言以后我们可以描述我们共同想像的内容,一些虚构的概念,“公 司”、“梦想”都是从此得来。所以我们可以看到,现在历史学家一个非常重要的认为,就是人类的认知革命将人类的智能带到一个新的高度。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    回顾一下我们可以看到,从刚才讲的机器所擅长的运算智能,算棋谱时机器比我们强很多,但如果讲到感知智能,就是我们看到世界、听到周围世界的能力,机器也在快速赶上来,但在认知方面,让我们能够有语言、有语音,能够积累知识、能够进行判断这方面,机器其实比我们差得很远。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    这也是科大讯飞现在以语音和语言为入口的计算机的认知革命,我们所执行的讯飞超脑计划想要做的事情,就是把机器的感知智能和认知智能通过传感器和算法感知世界,并且能够对自然的人类世界进行认知,作为我们人工智能一个非常重要的突破点。

    用机器计算模拟人类的感知和认知

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    怎 样实现这种突破,其实我们有两种不同的途径,一种和我们的脑科学非常有关,我们可以对大脑所有的神经元构造和它的工作机理进行分析,我们甚至可以根据大脑 的整个工作机理重构出来真正和大脑相同的机制,这是一条思路,但这条思路时间比较长,现在包括一些发达国家也在投入这方面的研究,另外一条思路就是用互联 网的思维,利用我们机器学习算法和大数据在尽可能快的过程中,就像AlphaGo一样,它其实就是利用了这种方法,不完全能模仿大脑,但利用机器运算的方 法能够模拟我们的感知和认知。今天我讲的主要是后面的具体方式。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    从人脑中获取智能最关键的一点是,就像我们都知道人类现在能飞上天,但我们并没有把自己变成鸟,我们是知道了鸟在飞行时的空气动力学,我们研究大脑,其实并不是把大脑完全复制,而是希望找到大脑中的“智力动力学”,进一步优化我们整个学习的算法。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    从 另一个角度,如果用互联网思维来解决、改进我们的人工智能,要感谢三个方面的进展:一是人工神经网络,这个人工神经网络就像我刚刚说的,只是学到了大脑一 些简单的机理,没有大脑那么复杂,但已经可以很好地工作了;另外拜互联网和移动互联网所赐,我们可以得到大量的数据;更重要的是我们有千千万万的,就像网 易、讯飞这些直达用户的产品,这些产品把用户的使用习惯源源不断传入后台,我们可以利用网络的效应不断地优化它。正是因为有这三者的支撑,我们得到了非常 好的结果。

    用识别图像的方法“看”语音,正确率大幅提高

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    真 正人工智能的框架应该是什么样的呢?再给大家举个例子,人类大脑皮层在工作过程中分为两个层面:一个叫感知层面,就是我们讲的视觉、听觉和触觉,还有一个 层面是认知层面,当我们看到一只猫,听到猫的叫声,或者是摸猫的皮毛,人脑里有一个概念,这些概念形成了我们语言中的单词和词汇,就是“猫”这个概念,它 们汇聚到我们讲的语言和理解的大脑的认知皮层层面。所以在讯飞超脑里分两个层面:一是感知智能,是对我们听到的、看到的、碰到的东西进行识别,另一个是认 知智能,就是把识别结果上升到我们认知的层面,形成一个概念空间的表示和推理。在过去5年中,科大讯飞相继把深度学习网络应用在刚才讲的感知和认知,包括 视觉、包括听觉,包括自然语言,包括翻译的各个方面。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    介绍一下我们最新的研究成果(工作人员播放一下第一句,再播放一下第二句)。

    这 是一段语音片断,大家听到第一个好像是“休息”,第二个好像是“休息室”。但当听完完整片断时你会知道,原来是“《西游记》之大闹天宫”,人脑是怎么工作 的呢?人脑能够记下短时或中间的或长时的记忆,通过这种记忆,我们可以看到我们现在的神经网络其实是可以很好地模拟这个过程的,我们通过一种递归的方法, 就可以让神经网络能够模拟大脑方面的感觉,这是现在最新型的递归神经网络用于语音识别的过程,这个过程非常复杂,我就不一一介绍了。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    但光有递归还不够,光能够存储记忆还不够。现在最新的一个方式是用图像的方法识别语音, 这是当前最新的技术,什么叫做图像方法呢?大家可以看到,下面这个语音是我们平常在录音里看到的波形,但当语音进入我们的耳朵时,耳朵里的纤毛会根据它的 长度不同与语音中不同的频率进行共振,如果把共振的频率分析出来,我们可以得到下面的语谱图,这张图可能会受噪音、口音的干扰,但这个图形里的信息很丰 富。在MIT专门有科学家研究,如何根据这些图形就能够分辨出你说的这句话里用了哪些文字。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    如果你是一个盲人,你的耳朵就会特别灵,因为它借用了我们在视神经方面的一些神经系统和细胞,这样可以把一些能力借用过来。

    可以说,现在我们的语音不仅可以听到,而且可以看到。因为这样的结果,在各种各样的输入法里,在语音搜索里,还有在各种各样的语音交互式系统里,语音识别的错误率正在以每年30%的水平下降我相信再过四到五年的时间,最后的语音识别系统就能跟人整个的感觉完全一样了

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    刚 才说了,在感知方面,讯飞的语音识别技术不断取得提升,但是在认知方面,它还要解决几个非常核心的任务——讯飞超脑关于语言理解及深层、知识表述及推理, 还有自主学习,要实现这些必须要有两个层面的东西:第一是要解决自然语言描述的问题,在此基础上我们要解决语言理解,还有更深一层的知识表述及推理。下面 我们一一看一下。

    用“词语卷积”在空间上表达词语

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    刚 才我们提到了大脑在大脑皮层中关于概念的表示,它是一张图,不同的词语它们之间概念是有空间的,我给大家举个例子,比如“大家好”,传统的表达,每个词就 代表了一个空间,我们把每个词的出现看成“1”,不出现的地方看成“0”,这是传统表现词语的一种方法,词语和词语之间,要不就是距离相同,要不就是不 同。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    现在我们采用一种连续的空间来表现词语,每个字、每个词都可以用“词语卷积”的方法,用一段连续的数字,相当于一个空间里的坐标系,这样每两个单词之间的距离就可以把它计算出来

    把 所有词分一下类就可以看到这么一个结果,比如我们可以看到新浪、网易、腾讯,这些东西是连在一起的;我们可以看到吕布、张飞、关羽、诸葛亮,它们是比较接 近的。实际上,在我们的大脑皮层中如果你来测量,比如我播放一个词语,我的大脑里会出现放电,相关词语在大脑皮层中存储的位置也是非常接近的。

    利用这种方法,我们就建立了一种表现词语空间概念的表达体系,在这样的表达体系之下,我们可以进一步地去分析词语层面、句子层面和篇章层面,以及它们在各个层面上的连接和计算的距离。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    有了这个以后,我们来看一些实际的作用,它们能做什么样的事情呢?首先我们看一下语言的理解。

    首先来看翻译,在翻译方面,我们知道要进行语句的练习,因为不同语言是不一样的,这时候用到人脑中一个非常重要的概念——关注度模型,比如我们人在看一幅图像,海边有一个灯塔,我们看的时候注意力是集中在灯塔上而不是其他方面。

    基于注意力模型的神经网络

    下边这张图比较有意思,下面这张图是一个女司机在开车时观察各种各样的东西,她的注意力只能集中在有限的方面,相对男性要窄一些,所以人们常说“女司机杀手”可能就是这么来的。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    如果我们来看一段文字,这两天正好欧洲杯,我们的注意力其实也是集中在那些文字中比较有信息量的地方。这种关注度模型,其实它的方法是能够把我们最关注的那些输入量自动寻找出来,与我们最终的结果进行对应。我们来看一下基于机器翻译的实际例子:

    大 家都知道,不同的语言之间的机器翻译,比如有很多谓语、主语、宾语,它们的位置是不同的,会进行倒装,顺序也会发生很多变化,原来用规则的方法来描述这些 变化非常复杂,通过我们现在讲的这个神经网络,大家可以看到,输入“我是谁”,“谁”和“我”,它们的位置是有差异的,利用attention这个神经网 络,它们可以自动找到对应关系。采用全新注意力模型的神经网络翻译系统,相比传统系统,提高会非常多。

    再看下一个具体的例子,我们都知道最近科大讯飞在教育方面做了非常多的工作,我们希望能够利用机器人帮助我们的老师进行卷面批改,比如我们写了一个作文,这篇作文,我们希望机器人也能给它打出分数并给出它的评语。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    大家看这个样例,右上角的94分是这篇文章的得分,从这篇文章中可以看到它用到了排比,用到了一些语句的引用,我们如何来做,让机器也能看懂这些东西?机器的关注度如何自动落在这些关键的地方呢?其实很简单,刚才我们讲了,用连续空间把它表示出来,这些范文和作文之间的向量,利用关注度模型,会自动找到彼此之间比较对接的地方,它找到这些对接之后,就会进行深层分析

    通过这种方法,机器自动找到了这中间有相关的地方,应该讲,现在我们这方面的结果在中考和高考的作文评卷,不管是中文还是英文,都取得了很好的效果,比普通老师改得还要准确,当然这是大规模的结果。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    最 后我们来看一个阅读理解题,大家看到了,这其实是一个答题系统,我们看一段话,“月牙的影子在水中晃动”,原来有个题目叫“小鸭子看见了,以为是条鱼,赶 紧游过去”,这是阅读理解,现在题目是我把“小鸭子”抠掉,让机器看完这段话以后自动在上面填出来这地方应该填什么,利用我们现在的系统,我们会把篇章和 问题进行attention的规划,“小鸭子”也在其他地方也出现过,它可以计算出每个地方热力度(关注度)的情况,后来我们发现“小鸭子”的关注度最 高,这样我们就可以把“小鸭子”填在这个地方,而且是填对的。

    现在我们的机器在阅读理解方面能达到6岁儿童的水平,大家不要小看6岁儿 童,6岁儿童在常识的理解达到了一个水平,而在6岁以后主要是学各种各样的知识,这就跟我们认知到的,2岁、3岁、4岁形成个人最重要的学习能力,这方面 是最一致的。相信随着6岁儿童常识的学习能力达到以后,我们再给他灌输小学、初中、高中的知识以后,它最后就能考上大学。

    非常感谢大家的聆听,谢谢。

    干货胡郁:科大讯飞的深度学习之路(PPT下载)

    谁把王石坑到了这一步

    把王石带进坑的,是他的队友。

    宝能否决重组议案和“血洗董事会”两波冲击明显让他猝不及防。据说审计部门也在介入。

    在股东大会上,王石向姚振华道歉,向小股东道歉,表示愿意妥协,两次提及离职。

    从来不低头的王石,低头了。

    他的队友没有跟他一起低头,因为他们没在坑里。

    一、看错了势

    悦涛以前提过,万科股权争夺背后的大势是,没有资本愿意再做配角,无论原来的大股东华润,还是新晋大股东宝能。

    以前资本方交给经理人主导,因为经理人能带来最大的成长性:利润和市值双扩张。

    “华润入主万科的2000年,是房地产业爆发的前夜。无论从量,还是价,中国地产业都有巨大的增长空间。

    资本方什么都不做,只靠企业本身的经营,都能获得足够可观的回报。这个阶段需要充分释放经营管理者的积极性,这是华润的智慧。王石管理层也对华润的“积极不干预”政策感激涕零。

    2000年-2007年,万科的净利润增长了15倍,股价则增长了20倍。作为大股东的华润无论从分红,还是股价增值上,都赚得盆满钵满。管理层和资本方皆大欢喜。

    2007年以后,好梦不再。2015年万科净利润比2007年增长了3倍,但股价每况愈下。要不是宝能的姚大哥前来打劫,股价连2007年的一半都不会到。”

    万科的股价走势,以2007年为中点,前后鲜明反差,最后一段拉升是宝能自己作出来的

    房地产的扩张周期彻底结束了,首先终结的是资本溢价。这时管理层在经营层面再牛逼,也给不了资本想要的回报。

    资本的着眼点是以公司为平台进行资本运作,而非局限在产业经营。新晋的资本方会有同样的诉求。这就是大势,不因哪一个股东而改变。

    此时王石继续反客为主,把资本当玩偶进行配置,运作越得意,越激怒资本。

    王石其实没有追求过万科的股权。但郁亮运作了一个“合伙人计划”。一直到宝能敲门,他们都没意识到,这个计划会让所有大股东不安。

    计划不在大股东掌控之内,倏忽间,万科两个资管计划加工会持股超过了7个点,之前已是仅次于华润的万科二股东。

    相比万科公司层面蜻蜓点水的百亿回购,合伙人计划用了加杠杆的激进风格。岂不让大股东生疑?

    不要说华润和宝能在争夺控制权,万科管理层自身已争权在先。

    一路走来,体现出的是万科管理层整体对资本方存在感的漠视。到宝能进场,演变成资、管对立的局面,万科管理层对大势的错判,是根本原因。

    二、看错自己

    王石和万科管理层一直自恃的是团队优秀到无可替代,资本离我不行。因此有我行我素甚至叫板的权利。

    首先优秀不是轻慢的理由。

    其次,这是一个被夸张了的错判。

    优秀是相对的,相对是看程度的。

    万科某种程度上是被符号化了:把想做到什么,当成已经做到了什么。

    万科在研发,但也待实现

    万科的优势在于杰出,劣势在于没杰出到不可替代。这是与资本博弈的最大短板。

    万科的专业,说到底是土地、资金周转和流程管理上的专业,还没转化到用户端的口碑和品牌溢价。

    也就是在开发端,效率很强;在产品质量、社区服务等用户端的专业溢价上,还没体现出来。

    但是在中国地产业,开发端的这种差异,还谈不上是壁垒。从拿地的资质,到产品销售时的溢价,都没有不同。

    如郁亮所说:“住宅行业一直是粗放式的发展,万科的管理能够精细化到哪里去呢?我们的粗放管理问题还没解决呢,在精细化管理上可以说还在学习阶段。”

    这也是整个中国地产业在粗放发展期的特征:开发端的钱好赚,用户端还在理念阶段,边研究边等风来。

    这阶段企业经营间的差异,不是苹果和小米的区别,而是小米与小米。

    经理人对企业的差异,也就是成本、周期上的差异,和苹果对乔布斯的依赖,有本质不同。

    孙宏斌谈到万科之争,举例自己的融创:有万科1/4的销售额,但只有万科1/27的市值。他如果是资本,会选择收购自己的企业。虽然他敬重万科。

    为免误解,再说一遍:万科和万科经理人都很优秀,没达到不可替代。

    当万科管理层以不可替代来博弈股东时,只会让股东加速进场。因为这是对股东永久的威胁:任何一家公司的大股东也承担不了管理层的集体罢工。

    三、看错股东

    王石最初对宝能的出言不逊,因为两方确实结过梁子:深圳东部海上运动基地的争夺。情有可原。

    但此后跟两大股东都闹翻,说明确实太任性。

    像华润这样的大股东,在A股市场不会再有了。自身有地产,让位万科去发展,为挺万科,不惜让任志强净身出户。

    企业是自己的,你尽可以去做自己。但你是上市公司时,必须考虑大股东的阶段性诉求。

    遗憾的是,万科从没考虑过。有个段子,说当年郁亮制定了万科的发展战略,向大股东华润的新任董事长宋林介绍,宋林表示挺好,然后来了一句:郁亮,你告诉我,在万科整个发展战略里,股东在哪里?

    郁亮当时是懵逼的。我好不就是你好么?可他解释不了万科这么好,王石为什么还要去登山游学。股东亦然,是有自身的发展规划和成长诉求的。

    在万科历史上,华润郑重其事追求过控股股东地位,连操作方案都拿出来过。宋林落马前都表达:履职期间未能令华润控股万科,系其职业生涯憾事。万科不是不知,但最后搞了自己的“合伙人计划”。

    王石去年求救华润时,就应该感觉到华润态度暧昧背后的意图。他最后的决定是坚决引入深铁新股东,其实是连华润做控股股东都不想接受。

    这个股东,不该小看

    董事会一战,已是冰冻三尺之后的结果,绝不是突如其来的对决。这一战,各自已无退路。

    王石想毕其功于一役,宝能想毕其功于一役,都输了。华润找漏洞反制即可。

    华润的特殊性还在于,它是个有信心整合外部资产的玩家。包括万家、怡宝、雪花啤酒、三九医药,无一不是并购整合而后发扬光大。而且市场化运作为主导。

    当万科说“我输了你能赢么”的时候,这个大股东,有理由不这么想。

    基于自身的经验、地产业务的布局、长期规划和短期阵痛的平衡,以及对管理团队的分化策略。都是可出的牌。

    四、看错队友

    王石在对外沟通和换位思考方面是有短板的。点火为主,需要的是水。他的队友如果真心把老王看作家人,不会看着他一步步走到今天。

    在傅育宁说“这合适吗”的时候,万科的回应居然是:合适。管理层上下无一人去跟华润沟通,哪怕是获取华润的真实想法也好。

    华润要拿回第一大股东。是傅育宁在华润履新以来,头一次做这么大的决策,一旦定下,会使出多么大的力度来给自己立威,可以想象。

    万科这边,即使不认可这个诉求,也不能说,因为有一个已经闹翻的大股东宝能。更何况把华润直接打入敌营。

    6月26日,万科发出“致合伙人”的内部信(其实是对外)。内容一共有10段,分段总结如下:

    1、2000亿、500强、新十年;

    2、全体合伙人,勇敢面对新股东;

    3、数英雄人物,还看事业合伙人;

    4、曾经有一份股权摆在我面前,我没要,我骄傲;

    5、请股东和我们共建和谐社会;

    6、我们是优秀团队,不是资本奴隶;

    7、数人才和知识,还看事业合伙人;

    8、数各种压力,还看事业合伙人;

    9、数东山再起,还看事业合伙人;

    10、全体合伙人大团结万岁!

    看到这封信时我先替王石崩溃了。是要用这阵势来镇住两个大股东?还是自我感动?

    这是股权争夺战啊兄弟,真正应该发出的是“致全体股东信”。告诉全体股东,这些年管理层为股东做了多少事情,奉献了多少心血,哪些是别人没做到而我万科为你们做的,以及希望股东支持什么,理由是什么?

    并不需要多么高深的公关策略,坦诚、开放、尊重股东是最好的策略。

    任何强化管理层存在感、弱化股东存在感的口号,都把老王往坑里又推进了一步。

    通观万科股权战,王石是点火的人,需要的是水。但队友里没人给他,反而帮他点火,强化对立。戏到半场时,面对两大股东,还是如此。

    然而,出头的是王石,压力集于他一身。宝能提案罢免的是董事会和监事会,实质是针对王石,而非郁亮及其领衔的业务管理层。

    在年度股东大会,王石自己已经意识到这一点,对大股东和小股东双双致歉,姿态放到最低,对所有问题尽量沟通,希望弥补自己之前的出言不逊和高高在上。

    但他的队友没跟他走一个频道。对“不善意”的问题,不善意回应之。在小股东建议王石和郁亮向小股东因沟通不畅鞠躬致歉时,王石起身,郁亮没动。

    说明……

    1、管理层不认为自己有股东沟通上问题。只要公司干得好,这不是事。

    2、王石想挽回,下面的人也不听他的了。

    老王点火的时候,队友帮他火上浇油。现在想灭火,没有队友来帮他。

    这形势就像,王石给自己挖了一坑之后,一堆有情怀的支持者把他往坑里推,但是没有人跟他往下跳。甚至包括他的“合伙人”。

    “事业合伙人”,不是一个强纽带的联系,也不是一份攻守同盟的契约。在外压面前极其脆弱。

    万科停牌前,17名万科高管清空股票。一位万科高级副总裁出售1379万股,仅余2.1万股。这位“万科合伙人”,很可能把万科抛给了姚振华。

    万科团队会因董事会改组集体出走么?我看难。对大多数人来说,情怀诚可贵,饭碗价更高。

    离开万科还有他发挥的舞台么?中小地产商这些年一样活得滋润,并不是靠万科的模式,政商关系、银企关系。他适应别人还是别人适应他?

    郁亮淡定。因为:

    1、这事里出头的是老王,他没有直接开罪大股东;

    2、他的筹码,比老王多,万科的管理主干目前在他这里,资本对他的需求超过老王。

    最终是走是留,恐怕也会权衡利弊。

    虽然人们情感上希望看到有难同当的江湖豪情,但大概率是老王一个人留在坑里。其他人成为新股东的“新合伙人”。

    文:悦涛。转自虎嗅。http://www.huxiu.com/article/154191/1.html?f=index_top1

    通往人工智能的未来 科大讯飞何以跑在Google前面?

    北京时间5月19日凌晨1点,一年一度的Google I/O大会拉开大幕。众所周知,每年的Google I/O大会都是一次拥抱未来的展示、一场Google粉丝的狂欢、一顿开发者的盛宴。在本届GoogleI/O大会上,Google又展示了什么样的黑科技?这些科技在中国“现身”了吗?

    Google I/O是由Google举行的开发者年会,自2008年开始举办,到目前为止已举办过8届。从借助Android抓住互联网移动化的大潮,到发布Android Wear、Android TV、Android Auto将业务延伸到家庭的每一个角落,再到去年的物联网操作系统与通用语言,包括今年的Google Assistant、Google Home、Android N等,每一届的I/O大会都代表着科技的味道和未来的方向。


    2016年5月19日 Google I/O2016发布会节选(视频改编自爱范儿)

    不必羡慕”别人家”的孩子,其实,以科大讯飞为代表的中国企业在语音和人工智能领域早已走在了世界的前列。


    2015年12月21日 科大讯飞年度发布会现场

     

    通往人工智能的未来

    重要的事情需要重复三遍,因此发布会上重复的越多,越能体现一个项目的重要。在今年的I/O大会上,Google CEO Sundar Pichai重复最多的词是自然语言处理(NaturalLanguage Processing)、人工智能机器学习。因此在I/O大会里,出乎大家预料登场的第一个产品并非Android系统的最新版本,而是一个虚拟的智能助手:Google Assistant。

    Pichai在演讲中表示,人工智能是未来。因此,谷歌今天推出了Google Assistant。Pichai说到,目前搜索中20%都是基于语音的搜索,借助于Google多年积累的大数据,和Google在语音识别、搜索、数据分析和机器学习方向的技术融合,Google Assistant将可以在手机、智能手表、智能汽车和智能家居中提供帮助。

     

    如果你已经关注科大讯飞很久,听到这里有没有觉得有一点似曾相识。是的,科大讯飞2012年就联合中国移动发布了全球首个中文智能语音助手——灵犀。

     


    融入了Assistant服务的Allo(左)与灵犀助手(右)

     

    灵犀翻译功能

     

    灵犀语音助手  
    由科大讯飞和中国移动联合推出,采用全球最先进的语音识别技术,结合丰富的本土化服务,做到了识别准确,唤醒迅速和针对中文口音问题的识别优化。在与灵犀助手的对话中,可轻松完成打电、发短信、设提醒、中英文翻译等功能,是一个专属于你的聪明睿智的人工智能助理。目前,灵犀语音助手总用户数已达1.33亿,超过业内第二至第四名用户数总和。

     

    通往人工智能的未来

    在Google Assistant之后,Chromecast小组的Mario Quieroz向大家介绍了Google Home。

     

    简单来说,Google Home就是一个具有联网功能的小音箱,它可以成为家庭设备的控制中心。基于人工智能和语音识别技术,Google Home可以接收语音指令,可以控制闹钟,甚至还可以控制汽车。

     


    Google Home

    此前,亚马逊推出过Echo系列产品,其围绕Alexa语音助手打造,能够处理包括搜索、音乐播放、产品或服务订购在内的任务,同时支持各种智能家居功能。

    Amazon Echo

     

    可是诸如此类的智能化语音控制终端,难道只有国外公司的足迹吗?

    并不!一年前的首届亚洲消费电子展上,科大讯飞与京东智能联手推出了双方合作的首款产品DingDong智能音箱。


    2015年面世的DingDong音箱

    DingDong音箱通过嵌入科大讯飞业界领先的语音技术,无需任何手动操作,就可以通过自然语言交互实现音频点播和播放控制,凭借出色的人工智能处理,它可以成为用户的音频助理,完成百科查询、讲故事、聊天等功能。同时,DingDong可以让用户通过语音控制接入京东微联的智能产品,成为智能家居的全新交互入口。

     

    不仅如此,相比还在概念图上的Home和不支持多平台的Echo。DingDong早已实现量产及多平台合作。在过去的2015年, DingDong智能音箱成为京东商城Wi-Fi音箱品类销量的冠军,并在业内获得了多项大奖,包括中国好设计奖、年度最佳智能硬件(2015全球移动物联网大会)、中国设计奖(2015金玲大会)

    除了智能音箱,科大讯飞已经实现人工智能多行业的延伸。

    • 在教育业务方向上,基于全面领先的人工智能核心技术,现已构建起可持续运营的教育教学生态体系,以及完善的面向国家、省市、区县、学校、家庭的智慧教育产品体系,实现了教学主业务流程的场景全覆盖、终端全覆盖、数据全贯通。目前,讯飞教育产品已在全国31个省、自治区、直辖市及新加坡等海外市场广泛应用,覆盖师生超过8000万。

     

    • 在智能汽车方向上,除在宝马中文评测及奔驰中文语音云效果测评中力拔头筹外,现已与奔驰、宝马、大众、丰田、雷克萨斯、马自达、上汽、一汽、长城、长安、吉利、奇瑞、江淮、广汽、海马、东南等国内外汽车品牌开展合作,搭载讯飞语音技术的轿车前装出货车型达到31款,牢牢掌握了行业市场占有率第一的先发优势。

     

    • 在智能客服方向上,科大讯飞的人工智能技术已在中国移动、中国联通、中国电信、工商银行、中国银行等主要呼叫中心市场领域实现了大规模落地和全面布局,市场占有率超过80%,有效节省大量人力成本。讯飞智能客服平台已经成为呼叫中心行业转型发展最为倚重的内在驱动力之一。最近,科大讯飞正式推出全球首台全程语音交互的银行服务机器人“小曼“,未来将在金融、运营商、展厅等商业领域推广应用,引领服务行业新一轮变革的到来。

     

    • 在电视入口方面,讯飞已经和TCL、海尔、海信、长虹、康佳、创维六大电视厂商,以及主流的电视盒子商迈乐、小米盒子等,和广电系统的歌华有线、广东广电等进行了合作,科大讯飞也是迄今为止,业界唯一能在家庭客厅噪声环境下达到实用的产品。

     

    通往人工智能的未来

    众所周知,现在是一个大数据时代,大数据服务对于企业来说颇具吸引力。面对这样迫切的需求,业界巨头纷纷”跑马圈地”。Amazon推出了AWS,微软推出了Azure,Google推出了公共云。在此次大会上,Pichai表示,Google已经开始打造属于自己的定制集成电路芯片:张量处理单元(TPUs)。正是在TPUs的驱动下,AlphaGo打败了李世石。此外,Pichai还表示Google将提供更多的机器学习APIs,目前Google已经发布了云机器学习平台服务和视觉API。“我们的目标是领导机器学习行业并将这些创新传递给客户”,谷歌硬件工程师Norm Jouppi在一篇博文中这样写道。

    科大讯飞作为中国智能语音与人工智能产业领导者,早就领先业界,布局人工智能生态。目前已经取得了丰富的成果。 

    • 2010年,科大讯飞就发布了”讯飞语音云平台”(讯飞开放平台),目前,讯飞开放平台已成为全球最大的语音和人工智能开放平台覆盖终端用户数超过7亿,合作伙伴超过13万家,在线日服务量达15亿。

     

    • 2014年,提出讯飞超脑计划,核心就是让机器从”能听会说”到”能理解会思考”。作为”讯飞超脑”计划的重要组成部分,由讯飞牵头的国家科技部863重大专项——”基于大数据的类人智能关键技术与系统”相关研发工作也在有序进行,未来要让机器人参加高考,并且考上一本,甚至清华、北大和中科大。

     

     

     

    • 2015年,科大讯飞年度发布会上,科大讯飞推出具有里程碑意义的人机交互新产品——AIUI。包括双全工技术麦克风阵列技术声纹识别技术方言识别语义理解技术内容服务等技术。科大讯飞将系列尖端科研成果和完善服务融入AIUI,开发者将可以实现一键获取解决方案,集成麦克风阵列、集成SDK及定制云端服务等功能。

     

    从“让机器能听会说”到“让机器能理解会思考”,讯飞的梦想不断升级;从智能语音到人工智能,核心技术不断突破,产业不断拓展,取得了令人惊喜的成绩。

     

    • 在口语翻译方向上,2014年,科大讯飞首次参加国际口语机器翻译评测比赛(International Workshop on Spoken Language Translation),即在中英和英中互译方向中以显著优势勇获第一,在2015NIST中英机器翻译评测大赛中获得人工评价环节翻译结果可用性比例最高的优异成绩,同时还推出全球首款可实用维汉口语翻译系统,目前已经在新疆展开大规模应用。

     

    • 在语音识别和语义理解方向上,针对人与人之间自由交流语音的语音转写正确率突破85%实用门槛,且针对会议演讲等场景达到95%以上的识别率,研制完成软硬件一体化的远场语音识别系统。

     

    • 在机器评测方向上,讯飞的技术从口语评测进一步向纸笔试卷评测延伸,在正式承担了广东英语高考的全部口语评测任务后,基于试卷扫描识别的中英文作文自动评分技术在重点考试的实际数据验证上已达到与人工专家评分高度吻合的水平。 在认知智能方向取得了重大突破,未来对教育、医疗等重要领域都有重要意义。

     

    科大讯飞董事长刘庆峰曾说,“以语音与语言为入口,人工智能的大门正向人类展开,在未来人工智能未来会像水和电一样无所不在。”而今天的谷歌I/O大会,同样以Google CEO Pichai的“我们生活在一个特殊的计算机时代”结束。

     

    不同的语言,不同的企业,对未来和人工智能都有着相同的判断与期待。未来科大讯飞将持续发力,保持源头技术国际领先,在中国,用人工智能改变世界!

     

    小课堂
    Google I/O

    Google I/O寓为”开放中创新”(Innovation in the Open)。此外,输入/输出(Input/Output)以及与I和O形似的二进制码中的”1″和”0″也常常被理解为Google I/O的另一层意思。Google通常都将重磅产品和技术的发布放在历年的I/O大会之上:

    2009
    第2届,5月27-28日

    在会上Google发布了Android、Google App Engine、Chrome、Google Web Toolkit等产品。

    2010
    第3届,5月19-20日

    Google发布了Chrome Web Store、Android 2.2、Google TV等产品。

    2011
    第4届,5月10-11日

    Android有史以来最大的更新Android4.0成为了会议的中心议题之一,此外Chrome OS和Chromebook也是此次会议的亮点。

    2012
    第5届,6月27-29日

    YouTube首次在线直播了这届大会。

    2013
    第6届,5月15-17日

    会上Google发布了Android Studio、全新设计的Google Plus及Google Maps等。

    2014
    第7届,6月25-26日

    在此次大会中,Android One、Android L、Android Wear、Android Auto、Android TV、Google Fit等重磅产品与项目悉数登场。

    2015
    第8届,5月28-29日

    会上Google发布了Android M、Android Pay、Android Wear更新、Chrome Custom tabs 、Google Maps离线模式、Google Photos、物联网操作系统Project Brillo和通用语言Project Weave、Google Now on tap等。

    中国硬件创新大赛来创业之都深圳啦!

    16年5月13日,备受瞩目的第二届中国硬件创新大赛以“突破蜕变”之势迎来了“全国巡回实战培训会”首站北京场活动。培训会上,来自主办方的星云智能硬件加速器、华强聚丰联合知名企业科大讯飞,IdeeBank等,从硬件创业的“供应链制造”、“资本对接”“技术方案”“市场营销”4个重点方向为创业者答疑解惑,并提供一对一30分钟辅导环节,为硬创者提供全方位支持。

    16年5月13日,备受瞩目的第二届中国硬件创新大赛以“突破蜕变”之势迎来了“全国巡回实战培训会”首站北京场活动。培训会上,来自主办方的星云智能硬件加速器、华强聚丰联合知名企业科大讯飞,IdeeBank等,从硬件创业的“供应链制造”、“资本对接”“技术方案”“市场营销”4个重点方向为创业者答疑解惑,并提供一对一30分钟辅导环节,为硬创者提供全方位支持。
    2016全国巡回实战对接会【北京站】精彩回顾
    第二站,深圳站!出发!
    第二届中国硬件创新大赛将以“全国巡回实战培训+专业领域聚焦赛事”的形式,覆盖近10座城市。“全国巡回实战培训”第二站将坐落在深圳这座硬件创业者的 “天堂”,借助北京场活动的余温,深圳场实战对接会将继续围绕智能硬件如何突破创新的话题,从研发思维到产品思维,帮助硬创团队软硬结合,从方案到量产, 实战硬件制造。
    讯飞开放平台强力进驻本届硬件创新大赛,从“供应链制造”、“资本对接”、“技术方案”、“市场营销”四大硬件创业命门为创业团队提供扶持,力助中国硬件创业团队快速获取成功!
    2016全国巡回实战对接会【深圳站】部分议程
       深圳作为公认的硬件之都,在供应链制造上有着得天独厚的优势,但即便是坐拥这样的优势,创业者们依然很容易迷失在各种各样的供应链陷阱中,轻易找不到前进的方向:
         陷 阱一:挑战工厂工艺极限。——每一种材料、工艺都有一个漫长的普及过程,先进的材料和工艺,意味着只有少量厂家能做,产能有限,只能保证大客户,战略客户 的供给,一般客户得不到支持,然而很多初创团队对此并不了解,在产品设计上喜欢一味地追求极致,到头来因为工艺问题又得重新调整参数,白白浪费前期宝贵的 试产时间。
        陷阱二:用软件迭代思维迭代硬件。 “快出图,快打样,多做几版!”——这是大多数做软件出身的老板会对自己团队提出的最不合理的要求之一。要知道硬件开发并不等同于软件,其中牵扯到手板制 作,开模试模,修模,PCB打样,贴片,匹配调试等复杂环节,加上昂贵的开发成本,制作周期和迭代速度相较软件来说往往要慢上许多。
        陷阱三:我要最好的供应商。——早期的创业团队还有一个容易被供应商嫌弃的“通病”,那就是打样的量少却经常还要货比三家,当然这是大多数创业者为了自己的 项目赌上身家而不得不“勤俭持家”的表现,但是不要忘记,你在挑选供应商的同时,对方的业务同样也在衡量,你那么点单到底值不值得他耗费那么多时间,遇上 挑剔的,说不定随便找个借口就把你搪塞了。
       陷阱四…
       陷阱五…
      你也遇到过这些问题吗?想知道如何避开这些常见的陷阱吗?
    2016-06-08 ~ 2016-06-20合肥
    超过80%语音开发者的共同选择