2016国际语音合成大赛科大讯飞再创佳绩 用技术为中国发声

北京时间6月30日晚,在刚刚结束的国际语音合成大赛上,科大讯飞通过承建的语音及语言信息处理国家工程实验室报送的参赛系统,除了继续在自然度, 相似度,可懂度等传统指标上保持领先之外,更是在语篇段落表现测试中的所有7项测试指标位列第一。

北京时间6月30日晚,在刚刚结束的国际语音合成大赛上,科大讯飞通过承建的语音及语言信息处理国家工程实验室报送的参赛系统,除了继续在自然度, 相似度,可懂度等传统指标上保持领先之外,更是在语篇段落表现测试中的所有7项测试指标位列第一。这是科大讯飞自2006年首次参赛以来,第十一次参与该 项赛事,持续巩固了讯飞智能语音技术的全球领先地位。

国际语音合成大赛是由美国和日本联合发起的国际上规模最大、最具影响力的语音合成大赛,历届大赛吸引了美国卡耐基-梅隆大学、英国爱丁堡大学、日本名古屋工业大学、IBM研究院、微软亚洲研究院等语音技术领域的世界一流研究机构与企业参加。

与前两届相比,本次大赛再次将主要测试语种由非英语语种转换到英语,要求测试的数据库是一个5小时英文儿童有声读物,共有16个系统参测。主办 方拟定的测试指标除了传统的相似度、自然度、听写错误率外,还有针对故事合成的段落评分,包括总体感觉等共7项指标,科大讯飞全部是以显著优势获得第一。 其中,在非常关键的自然度指标上,讯飞是4.2分,第二名是3.9分,讯飞是唯一超过4.0分的参赛系统。

本次参赛,在不到两个月的时间内,研究团队克服了时间紧、音库小、风格变化极大等困难,充分发挥了科大讯飞的核心技术优势,采用基于统计声学模 型的单元挑选与参数合成技术方案,并研发了基于深度神经网络的语音合成新方法,高质量完成了语音合成系统的构建。最终提交的参赛系统获得了英语合成语音相 似度与自然度、可懂度等共计7个指标的第一名。

此次参赛再创佳绩,进一步扩大了科大讯飞在语音合成等关键技术领域的国际领先优势,对推动智能语音技术在社会各领域的深入应用、赢取国际竞争、开拓国际市场等方面具有重大而深远的战略意义。

一直以来,科大讯飞的语音合成技术代表着世界最高水平,不仅中文语音合成技术超过了普通人说话水平,而且在英语等多语种语音合成上牢牢树立了国 际领先地位。未来科大讯飞将积极开展人机对话、小说合成等热点领域的研究,着力提升语音合成的表现力和真实感,通过语音处理、个性化、定制化等技术,进一 步扩大应用范围,不断提升核心效果。

语音及语言信息处理国家工程实验室

语音及语言信息处理国家工程实验室是由国家发改委于2011年批复成立,由科大讯飞和中国科学技术大学联合共建,是我国智能语音领域唯一的国家级研究平台。

【原文转自新浪科技,链接http://news.sina.com.cn/o/2016-07-04/175933191342.shtml】

人去做文本摘要都挺困难了,机器要怎么做?

一篇关于自然语言处理的技术干货

文 本摘要是自然语言处理中比较难的一个任务,别说是用机器来做文摘了,就连人类做文摘的时候都需要具备很强的语言阅读理解能力和归纳总结能力。新闻的摘要要 求编辑能够从新闻事件中提取出最关键的信息点,重新组织语言来写摘要;paper 的摘要需要作者从全文中提取出最核心的工作,然后用更加精炼的语言写成摘要;综述性的 paper 需要作者通读 N 篇相关 topic 的 paper 之后,用最概括的语言将每篇文章的贡献、创新点写出来,并且对比每篇文章的方法各有什么优缺点。自动文摘本质上做的一件事情是信息过滤,从某种意义上来 说,和推荐系统的功能有一点像,都是为了让大家更快地找到感兴趣的东西,只是用了不同的手段而已。

问题描述

文本摘要问题 按照文档数量可以分为单文档摘要和多文档摘要问题,按照实现方式可以分为提取式(extractive)和摘要式(abstractive)。摘要问题的 特点是输出的文本要比输入的文本少很多很多,但却蕴藏着非常多的有效信息在内。有一点点感觉像是主成分分析(PCA),作用也与推荐系统有一点像,都是为 了解决信息过载的问题。现在绝大多数应用的系统都是 extractive 的,这个方法比较简单但存在很多的问题,简单是因为只需要从原文中找出相对来说重要的句子来组成输出即可,系统只需要用模型来选择出信息量大的句子然后按 照自然序组合起来就是摘要了。但是摘要的连贯性、一致性很难保证,比如遇到了句子中包含了代词,简单的连起来根本无法获知代词指的是什么,从而导致效果不 佳。研究中随着 deep learning 技术在 nlp 中的深入,尤其是 seq2seq+attention 模型的「横行」,大家将 abstractive 式的摘要研究提高了一个 level,并且提出了 copy mechanism 等机制来解决 seq2seq 模型中的 OOV 问题。

本文探讨的是用 abstractive 的方式来解决 sentence-level 的文本摘要问题,问题的定义比较简单,输入是一个长度为 M 的文本序列,输出是一个长度为 N 的文本序列,这里 M>>N,并且输出文本的意思和输入文本的意思基本一致,输入可能是一句话,也可能是多句话,而输出都是一句话,也可能是多句话。

语料

这里的语料分为两种,一种是用来训练深度学习模型的大型语料,一种是用来参加评测的小型语料。

1、DUC http://duc.nist.gov/

这个网站提供了文本摘要的比赛,2001-2007 年在这个网站,2008 年开始换到这个网站 TAC http://www.nist.gov/tac/。很官方的比赛,各大文本摘要系统都会在这里较量一番,一决高下。这里提供的数据集都是小型数据集,用来评测模型的。

2、Gigaword https://catalog.ldc.upenn.edu/LDC2003T05

该语料非常大,大概有 950w 篇新闻文章,数据集用 headline 来做 summary,即输出文本,用 first sentence 来做 input,即输入文本,属于单句摘要的数据集。

3、CNN/Daily Mail

该语料就是我们在机器阅读理解中用到的语料,该数据集属于多句摘要。

4、Large Scale Chinese Short Text Summarization Dataset(LCSTS http://icrc.hitsz.edu.cn/Article/show/139.html)[6]

这是一个中文短文本摘要数据集,数据采集自新浪微博,给研究中文摘要的童鞋们带来了福利。

模型

本文所说的模型都是 abstractive 式的 seq2seq 模型。nlp 中最早使用 seq2seq+attention 模型来解决问题的是 machine translation 领域,现如今该方法已经横扫了诸多领域的排行榜。

seq2seq 的模型一般都是如下的结构 [1]:

捕获转载.PNG

encoder 部分用单层或者多层 rnn/lstm/gru 将输入进行编码,decoder 部分是一个语言模型,用来生成摘要。这种生成式的问题都可以归结为求解一个条件概率问题 p(word|context),在 context 条件下,将词表中每一个词的概率值都算出来,用概率最大的那个词作为生成的词,依次生成摘要中的所有词。这里的关键在于如何表示 context,每种模型最大的不同点都在于 context 的不同,这里的 context 可能只是 encoder 的表示,也可能是 attention 和 encoder 的表示。decoder 部分通常采用 beam search 算法来做生成。

1、Complex Attention Model [1]

模型中的 attention weights 是用 encoder 中每个词最后一层 hidden layer 的表示与当前 decoder 最新一个词最后一层 hidden layer 的表示做点乘,然后归一化来表示的。

捕获转载1.PNG

2、Simple Attention Model [1]

模型将 encoder 部分在每个词最后一层 hidden layer 的表示分为两块,一小块用来计算 attention weights 的,另一大块用来作为 encoder 的表示。这个模型将最后一层 hidden layer 细分了不同的作用。

3、Attention-Based Summarization(ABS) [2]

这 个模型用了三种不同的 encoder,包括:Bag-of-Words Encoder、Convolutional Encoder 和 Attention-Based Encoder。Rush 是 HarvardNLP 组的,这个组的特点是非常喜欢用 CNN 来做 nlp 的任务。这个模型中,让我们看到了不同的 encoder,从非常简单的词袋模型到 CNN,再到 attention-based 模型,而不是千篇一律的 rnn、lstm 和 gru。而 decoder 部分用了一个非常简单的 NNLM,就是 Bengio[10] 于 2003 年提出来的前馈神经网络语言模型,这一模型是后续神经网络语言模型研究的基石,也是后续对于 word embedding 的研究奠定了基础。可以说,这个模型用了最简单的 encoder 和 decoder 来做 seq2seq,是一次非常不错的尝试。

4、ABS+ [2]

Rush 提出了一个纯数据驱动的模型 ABS 之后,又提出了一个 abstractive 与 extractive 融合的模型,在 ABS 模型的基础上增加了 feature function,修改了 score function,得到了这个效果更佳的 ABS+模型。

5、Recurrent Attentive Summarizer(RAS) [3]

这个模型是 Rush 的学生提出来的,输入中每个词最终的 embedding 是各词的 embedding 与各词位置的 embedding 之和,经过一层卷积处理得到 aggregate vector:

捕获转载2.PNG

根据 aggregate vector 计算 context(encoder 的输出):

捕获转载3.PNG

其中权重由下式计算:

捕获转载4.PNG

decoder 部分用 RNNLM 来做生成,RNNLM 是在 Bengio 提出的 NNLM 基础上提出的改进模型,也是一个主流的语言模型。

6、big-words-lvt2k-1sent 模型 [4]

这 个模型引入了 large vocabulary trick(LVT) 技术到文本摘要问题上。本方法中,每个 mini batch 中 decoder 的词汇表受制于 encoder 的词汇表,decoder 词汇表中的词由一定数量的高频词构成。这个模型的思路重点解决的是由于 decoder 词汇表过大而造成 softmax 层的计算瓶颈。本模型非常适合解决文本摘要问题,因为摘要中的很多词都是来自于原文之中。

7、words-lvt2k-2sent-hieratt 模型 [4]

捕获转载5.PNG

文 本摘要中经常遇到这样的问题,一些关键词出现很少但却很重要,由于模型基于 word embedding,对低频词的处理并不友好,所以本文提出了一种 decoder/pointer 机制来解决这个问题。模型中 decoder 带有一个开关,如果开关状态是打开 generator,则生成一个单词;如果是关闭,decoder 则生成一个原文单词位置的指针,然后拷贝到摘要中。pointer 机制在解决低频词时鲁棒性比较强,因为使用了 encoder 中低频词的隐藏层表示作为输入,是一个上下文相关的表示,而仅仅是一个词向量。这个 pointer 机制和后面有一篇中的 copy 机制思路非常类似。

8、feats-lvt2k-2sent-ptr 模型 [4]

捕获转载6.PNG

数 据集中的原文一般都会很长,原文中的关键词和关键句子对于形成摘要都很重要,这个模型使用两个双向 RNN 来捕捉这两个层次的重要性,一个是 word-level,一个是 sentence-level,并且该模型在两个层次上都使用 attention,权重如下:

9、COPYNET [8]

捕获转载7.PNG

encoder 采用了一个双向 RNN 模型,输出一个隐藏层表示的矩阵 M 作为 decoder 的输入。decoder 部分与传统的 Seq2Seq 不同之处在于以下三部分:

预测:在生成词时存在两种模式,一种是生成模式,一种是拷贝模式,生成模型是一个结合两种模式的概率模型。

状态更新:用 t-1 时刻的预测出的词来更新 t 时刻的状态,COPYNET 不仅仅词向量,而且使用 M 矩阵中特定位置的 hidden state。

读取 M:COPYNET 也会选择性地读取 M 矩阵,来获取混合了内容和位置的信息。

这个模型与第 7 个模型思想非常的类似,因为很好地处理了 OOV 的问题,所以结果都非常好。

10、MRT+NHG [7]

这个模型的特别之处在于用了 Minimum Risk Training 训练数据,而不是传统的 MLE(最大似然估计),将评价指标包含在优化目标内,更加直接地对评价指标做优化,得到了不错的结果。

结果

评 价指标是否科学可行对于一个研究领域的研究水平有着直接的影响,目前在文本摘要任务中最常用的评价方法是 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)。ROUGE 受到了机器翻译自动评价方法 BLEU 的启发,不同之处在于,采用召回率来作为指标。基本思想是将模型生成的摘要与参考摘要的 n 元组贡献统计量作为评判依据。

在英文数据集 DUC-2004 上进行评测,结果如下:

捕获转载8.PNG

在中文数据集 LCSTS 上进行评测,结果如下:

捕获转载9.PNG

不管是中文数据集还是英文数据集上,最好的结果都是来自于模型 10[7], 并且该模型只是采用最普通的 seq2seq+attention 模型,都没有用到效果更好的 copy 机制或者 pointer 机制。

思考

自动文摘是我关注的第一个 nlp 领域,早期了很多相关的 paper,从方方面面都有所了解,也有一些比较浅薄的想法,现在总结一下。

1、 为什么 MRT 那篇文章的结果会比其他各种各样的模型都要好呢?因为他直接将 ROUGE 指标包含在了待优化的目标中,而不是与其他模型一样,采用传统的 MLE 来做,传统的目标评价的是你的生成质量如何,但与我们最终评价的指标 ROUGE 并无直接关系。所以说,换了一种优化目标,直接定位于评价指标上做优化,效果一定会很好。这点不仅仅在自动文摘中出现过,我记得在 bot 相关的 paper 中还有机器阅读理解相关的 paper 中都有出现,只是具体的评价指标不同而已。这一点很有启发性,如果在文章 [7] 中采用 copy 机制来解决 OOV 问题,会不会有更加惊人的效果呢?我们拭目以待。

2、OOV(out of vocabulary) 的问题。因为文本摘要说到底,都是一个语言生成的问题,只要是涉及到生成的问题,必然会遇到 OOV 问题,因为不可能将所有词都放到词表中来计算概率,可行的方法是用选择 topn 个高频词来组成词表。文章 [4] 和 [8] 都采用了相似的思路,从 input 中拷贝原文到 output 中,而不仅仅是生成,这里需要设置一个 gate 来决定这个词是 copy 来还是 generate 出来。显然,增加了 copy 机制的模型会在很大程度上解决了 OOV 的问题,就会显著地提升评价结果。这种思路不仅仅在文摘问题上适用,在一切生成问题上都适用,比如 bot。

3、关于评价指标的问题。一个 评价指标是否科学直接影响了这个领域的发展水平,人工评价我们就不提了,只说自动评价。ROUGE 指标在 2003 年就被 Lin 提出了 [9],13 年过去了,仍然没有一个更加合适的评价体系来代替它。ROUGE 评价太过死板,只能评价出 output 和 target 之间的一些表面信息,并不涉及到语义层面上的东西,是否可以提出一种更加高层次的评价体系,从语义这个层面来评价摘要的效果。其实技术上问题不大,因为计 算两个文本序列之间的相似度有无数种解决方案,有监督、无监督、半监督等等等等。很期待有一种新的体系来评价摘要效果,相信新的评价体系一定会推动自动文 摘领域的发展。

4、关于数据集的问题。LCSTS 数据集的构建给中文文本摘要的研究奠定了基础,将会很大程度地推动自动文摘在中文领域的发展。现在的互联网最不缺少的就是数据,大量的非结构化数据。但如 何构建一个高质量的语料是一个难题,如何尽量避免用过多的人工手段来保证质量,如何用自动的方法来提升语料的质量都是难题。所以,如果能够提出一种全新的 思路来构建自动文摘语料的话,将会非常有意义。

【本文转载自微信公众号:ResysChina,作者张俊 】

蓝湖资本合伙人胡磊:独角兽不是吹出来的,是研究出来的

2016 年整个行业趋于理性,处在一个去泡沫化的阶段,而好的投资标的也显得愈发珍贵。

编者注:以下内容来自蓝湖资本创始合伙人胡磊在华兴阿尔法「思想联盟者」活动上的演讲。


当下的创投圈参与者众,噪声多,所谓 的投资热点频繁变幻,但整体上来说,经历了热情过度的 2015 年,2016 年整个行业趋于理性,处在一个去泡沫化的阶段,而好的投资标的也显得愈发珍贵。在投资机构散户化而优质投资标的相对更稀缺的大背景下,投资人修炼内功,提 升研究能力和看项目的方法论就显得尤为必要。在这样的市场环境下,华兴阿尔法携手新浪微筹集联合打造投资人线下活动「思想者联盟」,希望搭建投资人间的行 业交流平台,以每期一位投资界的「以研究为武器成功抓到独角兽」的投资人大咖作为嘉宾,向投资新锐分享做研究的心得以及研究指导出手的实例分析。

蓝 湖资本(Blue Lake Capital)是新一代的研究驱动的风险投资基金,于 2014 年创立,主要投资早期的互联网企业,主要案例包括美菜、手机贷、斗米兼职、5miles、周末去哪儿等。胡磊,蓝湖资本创始合伙人,入行风投行业前,胡磊 曾在波士顿咨询(BCG)工作了四年,期间主要工作是大量分析市场和运营数据,并结合行业发展趋势,为客户在激烈的竞争中寻找心得制胜模式,包括并购、销 售渠道、营销策略等。2007 年,胡磊加入纪源资本(GGV),期间主导投资了世纪互联、去哪儿、美丽说、豆果网、聚胜万合等公司。胡磊分享的观点包括:

1、当前独角兽概念有泡沫化现象

在 回答如何寻找独角兽这个问题前,胡磊给「独角兽」这个词加了一个注解。独角兽本意指的是估值超过十亿美金的公司。根据 2000 年至 2015 年的美股 IPO 数据,这十五年间 IPO 估值过十亿美金的科技公司共有 109 家,而今天没有上市且估值超过这个数额的公司有 179 家。也就是说,如果资本市场不发生大的变化的情况下,如今的这些独角兽公司等量于过去 15 年的 IPO 库存,这显然说明现阶段「独角兽」是有泡沫在,有些被高估的。所以这也提醒了如今的投资人,亟需放平心态,不要盲目追逐市场热点,未上市就估值很高的项 目,未必是一个很好的投资对象。

2、超大独角兽产生多数属于黑天鹅事件

独角兽是怎么产生的?回想过去 10 年产生的独角兽公司和产品,不管是 Facebook 还是推特、苹果,他们的成功都受诸多因素影响,很多影响因素不太容易预判。胡磊看来,真正百亿级以上市值的科技公司的出现是有很大的偶然性的,很多是黑天 鹅事件,作为投资人很难事先形成准确的预判。

3、抓独角兽的几个常用的方法:

(1)从老化的互联网公司(产品)中找机会

互 联网大部分的产品都是新老交替、前浪被后浪拍在沙滩上的过程。所以有一个捷径,就是从寻找谁是前浪倒推新投资机会。如何找前浪呢?可以从收入入手,通过分 析中国互联网的收入数据,如果一家互联网公司过去三年年化收入增长已经在 30% 或更低(30% 是接近传统行业收入增长的规模),就说明它的产品已经越来越老化,很可能被后面的公司取代。如果被取代,就相对容易产生一个体量不错的生意,甚至有希望成 长为下一个独角兽公司。

(2)从互联网巨头的流量和收入分布中找机会

另外一个让大家有所启发的是围绕美国著名分类信息网 站 Craigslist 所发生的事。2003 年起,Craigslist 借助互联网的普及,迅速取代了凌乱分散的报纸黄页广告,也因此成为美国流量最高的几个网站之一,收入实现爆发式的增长。但是,由于产品上的不思进取,特别 是移动端惨不忍睹的体验,间接培育了无数创业公司。几乎 Craigslist 上的每一个分类,都产生了几个创业公司。据统计,在垂直分类信息领域有 82 家公司累计拿到了接近 90 亿美元的融资,有 4 家已经成功上市。所以,仔细审视一下互联网巨头的收入/流量构成,说不定就会有令人惊喜的发现。

(3)从跨国市场的异同中找机会

国 内外的市场有很多差异,也有很多共性,在这些异同的分析对比中也能寻找到机会。在这里,胡磊举了两个例子。第一个例子是物流领域的,中国物流成本相对很 高,但并非是高速公路收费这个直观原因导致的,而是因为我们的产品分销效率太低,即产品从出厂到终端销售,搬了好多次。搬一次就多一次物流成本。了解到这 个原因之后,投资人就应该多看一些批发分销行业的机会,用 IT 手段提升分销效率低的问题。这个例子属于从中外差异中找机会。第二个例子是关于零售业的,借鉴美国零售行业过去 100 年发展创新的趋势,虽然整体增长不快,但是存在一个代际更替的机会,即每代人的消费习惯和偏好是不同的,在一个代际的主流消费时期过去而新一代人主流消费 时机到来的情况下,存在这个代际更替的创业机会。国内外市场在代际消费升级上是有共性的,抓住代际变换的规律并应用于国内市场,依然可以找到一个很好的投 资代际消费者变化的市场机会。

二、如何做研究?怎样保持一个陡峭的学习曲线?

1、保持一个陡峭的学习曲线需要一点强迫症

「因为新的事物不断出现,投资人都是在不断犯错,不断学习」。胡磊认为,投资人要保持一个陡峭的学习曲线,「需要一点强迫症,在创新的事情上有好的感知触角。」

具体来说,胡磊给出了他的三点建议:

(1)多花时间与被投公司在一起

「当 一个公司摆在你面前,需要对它做尽职调查时,你的评估标准来自于哪里?最好的判断方法就是找到一两家你投资过的优秀公司,花时间跟这些公司的管理层做一些 深入交流。在这样的场景下,你可以近距离的观察一家优秀企业的运营方式,然后以他们作为标杆,加上自己的判断,对被考察的公司管理能力做出客观评判。」

(2)不断提升提炼信息的能力

「做 投资其实是一个不断提炼、总结的过程。特别是互联网行业,往往被过量的信息所包围。大部分互联网公司会有形形色色的数据,但对一个公司来讲,最关键的核心 指标就三四个,能够把这三四个核心指标抓到并且把握好,就是提炼的过程。而通过对核心指标的分析和对比得出结论,就是总结的过程。」

(3)上市公司路演 PPT 和分析师初次覆盖报告是很好的参考资料

「一 些参考资料是可以帮助大家知道什么样的业务看什么样指标的。优秀的 CEO 通常会明确的告诉投资人应该看哪些指标,另外一个渠道就是上市公司 IPO 路演的 PPT,路演 PPT 里面的内容都是公司运营的核心数据,是很好的参考资料。还有一个,就是分析师做的初次覆盖报告,也会对这些公司业务做出比较好的总结。」

【转自极客公园】

六大院长:人工智能技术与趋势报告

“我们的目标是10年后让机器人考上 北大清华,PK掉99.9%以上的人类。”

【新智元导读】新智元“3·27”大会圆满成功,本文在介绍大会之外,更提炼了科大讯飞、微软、三星电子、华为、IBM和蚂蚁金服6大专家对人工智能发展形势的分析。在这次大会上,新智元人工智能智库和产业基金也宣告成立,新智元迈入新的发展阶段。2016 年3月27日下午,新智元携手工信部电子工业出版社联合举办了“新智元新书发布会、新智元智库成立大会暨新智元基金启动仪式”,会议取得圆满成功。中国工 程院院士、中国人工智能学会理事长李德毅亲临现场在会上呼吁:人工智能科技工作者应该投身社会的大浪潮中,用自己的智慧研究人工智能产业。

中国工程院院士、中国人工智能学会理事长李德毅亲临现场在会上呼吁:人工智能科技工作者应该投身社会的大浪潮中,用自己的智慧研究人工智能产业。

电子工业出版社总编辑刘九如在致辞中表示,“AlphaGo击败世界冠军李世石,我认为此次人机大战是不仅是人工技术与应用的大普 及,更是人工智能产业发展的重要分水岭”。刘九如还肯定了新智元是推动我国智能领域发展、联络我国人工智能领域顶级人才和企业的良好平台。来源:新智元

工 信部电子工业出版社总编辑刘九如在新智元新书《机器+人类=超智能时代》发布会致辞中表示,经过60年发展人工智能在互联网和大数据的强劲推动下迎来了春 天:“我们正在跨入一个新的时代,改革各行各业的新的产业形态正在形成。”正是基于这样的背景,电子工业出版社与新智元创始人杨静女士合作,及时推出了 《机器+人类=超智能时代》的新书。刘九如表示,这本书汇聚人工智能各界专家思想,集领域内之大成,其出版发行牵引和促使了新智元智库的成立和新智元基金 的启动,“由此我想提醒大家,今天3月27日值得大家铭记”。

新智元创始人杨静在大会发言中表示:“中国人工智能界在这里向世界发出最强音,我们必将在今天这个新起点,联手改变世界,拓展超越当前人类智慧的新维度与新疆界。”

新 智元创始人杨静则在接下来的发言中表示,AlphaGo与李世石的“人机大战”标志着人类已经迈入“超智能时代”,无论是围棋、大国博弈,还是智能跃迁, 中国必须赢得“超智能时代这三盘棋”。由此,新智元首创“人工智能社群三体模式”,用社群将高度聚焦于人工智能领域的资讯平台、智库和基金三位一体有机结 合,力求打造“智能+”中国的主平台。

新智元新书作者及智库专家当中,科大讯飞副总裁江涛,微软亚洲工程院院长刘震,三星电子中国研究院院长张代君,华为诺亚方舟实验室副主任张宝峰,以及蚂蚁金服副总裁、首席数据科学家漆远也发表了主旨演讲。

科 大讯飞副总裁江涛的演讲主题是“人工智能的三大挑战”,也即从计算智能(能存会算)到感知智能(能听会说、能看会认)再到认知智能(能理解会思考),而后 者的关键特征是实现对人脑的理解、推理和学习等高级智能的模拟。“认知智能要对人类的推理、联想、知识组织能能力进行模拟研究,”江涛说:“这阶段的人工 智能目前很热,但还处于比较新的状态。”

江涛致辞

2014年8月20日,在传统人工智能(即感知智能)领域取得突破的基础上,讯飞科大结合承担的863类人答题重点攻关项目,正式启动“讯飞超脑计划”——研发基于类人神经网络的认知智能系统,其目标是让机器人也能考上大学。

机器人考试美日中3国对比:据江涛表示,美国高中生物考试满分100分,目前能达到六七十分;日本高考满分900分,考上东大要 600多分,据说目前已经能达到300多分;中国科技部的计划是在2020年让机器人参加高考并考上一本,相当于PK掉80%的人类。

江 涛表示,机器人考试是当前认知智能的研究热点。他在演讲PPT(见上图)中展示,这方面美、日、中3国走在世界前列。“我们的目标是10年后让机器人考上 北大清华,PK掉99.9%以上的人类。”江涛说:“这方面要解决的重要就是语言理解、知识表示和联想推理3方面。”目前,科大讯飞已经取得了3大阶段性 成果:

口语翻译达到英语六级水平。2014年11月,科大讯飞在有美国麻省理工学院(MIT)、日本国家通信技术研究所(NICT)、香 港科技大学(HKUST)、加拿大蒙特利尔大学、德国卡尔斯鲁尔理工学院(KIT)、英国爱丁堡大学(Universityof Edinburgh)等参加的“国际口语机器翻译评测大赛”(IWSLT)中夺冠。2015年2月,科大讯飞在有美国国家安全局所属翻译中心、美国约翰霍 普金斯大学、韩国Naver搜索引擎公司、韩国浦项工科大学、荷兰阿姆斯特丹大学、台湾国立中央大学、中科院计算所、南京大学等参加的“NIST国际机器 翻译评测大赛”中人工评价第一。

口语和作文评测机器可以代替老师,并已在2014、15年广东高考中得到全面应用。

开放式主观测试题评测取得突破,OCR识别业界率先达到实用,以及机器作文自动评测技术率先超多人工评阅(在2015年7月安徽省的合肥和安庆两市会考中,中英语作文评分技术试点成效机器表现均超过人类评分水平)。

刘震致辞

微软亚洲工程院院长刘震的演讲题目是《从AI到PI》。“PI肯定不是圆周率,”刘震打趣地说:“大家接下来就会知道PI是什么。”

刘 震重点介绍了微软跨平台人工智能机器人“小冰”的性能特点。据刘震介绍,小冰经过学习后对话能力很高(性能指标CPS能达到38,其他类似产品只有 1.5~2),加入视觉能力、图像识别力(微软去年在图像识别上取得突破,误差率为4.9%)及评论功能以后,“小冰”还能猜测图中人物的年龄、关系,甚 至测颜值。

刘震指出“2016年是人工智能年”,人工智能得以在广度和深度两方面获得发展。其中,在深度上包括更好的算法、更高效的软硬件解决方案,“特别是硬件的发展,比如是不是要考虑计算机结构的变化”;而在广度上则是“铺开面,在各个层面上拉开”,投入更多应用领域。

演讲中,刘震引用MarkWeiser的话:“最深远的技术是那些会消失的技术,它们把自己编织在日常生活中直到不能把它们区分开来。”刘震认为,要让人工智能变成最深远的技术,或许就应该让它“消失”,让大家熟悉到不再提起它。

刘 震最后讲了“无时无处不在的智能”(PervasiveIntelligence,也即演讲题目中的“PI”):无处不在的场景智能、无时不在的智能助理 (能够理解场景和用户话语中用意)、需要的时候能代表自己(保证机器是可信赖的顾问,能够帮助人做一些正确的决策),最终一切都自然而然、理所当然地获 得。而要达到这个目标,刘震认为智能产业目前面临的困难包括:资源的分离(工程师分散、企业间数据不公开)、责能的重定义(数据科学家的职责定位),以及 终端和云的平台多样性。这就需要整合并共享资源、跨平台合作,特别是提供一些软硬件模块化的跨平台智能功能。

技术,产业

微软“牛津计划”:免费提供基于微软的数据模型和算法抽取出的视觉、语音和语言3大类API。刘震鼓励开发人员试用这些API开发新的程序。来源:微软亚洲研究院

由 此,微软于2015年启动了“牛津计划”,开放了一个智能服务开发平台,开发人员可以跨平台调用基于人工智能的REST、API和SDK,像去年很火的上 传照片“猜年龄”(How Old)、“测面貌相似度”(TwinsOrNot)等都是利用牛津计划中的FACEAPI开发的应用。刘震透露,微软的一个开发人员为此还推出了一款寻 找遗失儿童的App。刘震表示,微软即将在2016年3月底于旧金山召开的MicrosoftBuild Developer Conference公布更多新的API。

张代君致辞

三星电子中国研究院院长张代君的演讲主旨是“AIis Coming…”不过他认为,目前人工智能可能处于过度解读阶段,以我们相对熟悉的移动通讯发展进程为例,人工智能也就“大概1G到2G,现在还没有达到2G的标准”,因此在人工智能领域还有很多事情可做。

张 代君认为,AlphaGo用1200个CPU、280个GPU打败李世石,人工智能的发展不仅仅是机器战胜人类,而是说“能不能万物互联”。张代君表示, 随着多模式态识别的整合,深度学习、大数据等技术的发展,机器已经可以超过人的“三官”——眼睛、耳朵、嘴,而相互连接的一堆机器甚至可以超越人 脑,AlphaGo即使实证。“作为设备制造商,”张代君说:“我们更多考虑的是什么时候一个物联网的设备,比如一个手机,就能打败李世石。”

张代君的演讲PPT:上层是服务,包括智能助力、智能家居、智能汽车、智能服务机器人、物联网等;中间是算法,包括模式识别、机器学习、大数据分析、认知计算、人机交互等;底层是基础设施:存储器、GPU/CPU/FPGA、SoC、5G、操作系统等。来源:三星电子

这 一次人工智能的风口确实来了,但张代君认为只靠这些还不够。在介绍人工智能架构时,张代君说:“人工智能是技术,需要平台、需要计算、需要存储、需要芯 片、需要通信和操作系统,离开了这些的人工智能不是真正的人工智能。”接着,张代君介绍了三星电子作为智能硬件制造商,除了已有的智能手机、VR和智能手 表之外,在语音助理、智能家居、智能汽车和机器人这4大人工智能服务领域的发展情况。其中,张代君特别强调了,在智能机器人这块,硬件的物理尺寸、形状和 规格还没有定型。

“我们需要万物互联的操作系统。”张代君说。据他透露,三星电子跟英特尔、微软等合作,可以结合所有的设备、车载、办公 系统,实现标准化问题。此外,张代君还强调了5G移动通信的发展。“5G通信除了进一步提高通信速率以外,还要解决联网问题,”张代君表示,只有第一时间 快速反应并将信息反馈给用户,车辆网才能真正实现商业化。

张宝峰致辞

华为诺亚方舟实验室副主任张宝峰的主旨演讲以“受教式人工智能”(EducatedArtificial Intelligence,EAI)为题,他首先强调华为在人工智能领域是一个偏应用的厂商,更多考虑的是如何把人工智能带到产业实际的场景,可靠地解决实际的问题。

“我 们希望未来的人工智能人和机器是共生的,如何让机器更好辅助人,更好地完成任务。”张宝峰说:“我们强调的是人能够教会计算机解决具体的问题。”而在很多 时候,将问题约束于某一个特定的场景,华为的工程师就能更好地预测场景里的极限情况,获取更多相应数据集,而且简化对人工智能的依赖和约束。

此 外,就如何在约束情况下将人工智能变成商用、可部署的产品,张宝峰提出了3点。一是关联分析并不能代替因果推演,二是如何真正让人和计算机能够高效的进行 知识传递,“我们告诉计算机我们所认知的知识和逻辑,除了这种类似的机制之外,我们无法真正告诉计算机如何形成真正的知识体系。”张宝峰说:“在这个方向 上,机器学习+人的教育是非常好的方式,但是缺少了如何真正让计算机理解人类社会积累下的知识,这种知识无法放到整个人类社会,只能约束到特定场景里 面。”三是在确定场景约束下保证可靠性和可用性。

张宝峰说:“如果我们在一个确定的场景约束下实现99.9%的可靠性,我认为才是一个真正智能时代到来的标志。”

秦勇致辞

IBM中国研究院认知交互部门总监秦勇上台后,首先肯定了新智元“像一块吸铁石,能够把学术界、产业界和工 业界人士集中起来,为这个领域发挥更大的作用”。秦勇的演讲题目是《认知时代的科技创新》,他表示IBM对全球技术的展望更多是在思考关于近未来(3~7 年)的颠覆式技术和商业模型。

IBM的Waston系统在2011年之后从世人眼中似乎销声匿迹了,而据秦勇透露,IBM一直持续研发 Waston系统,目标做是一个会跟人沟通的系统。“IBM利用我们的云平台,把Waston技术拆分成不同的层次研发,”秦勇说:“我们把核心API分 成四个层次,包括语言、计算机视觉、语音识别、大数据领域,这是组织28个API的逻辑。”

秦勇表示,IBM更多在技术上推动人工智能和智能计算的发展,更注重如何把技术用到场景当中去解决商业问题。“目前,我们比较重视的是跟人相关的,包括医疗领域、环境污染、能源管理领域,以及提供个性化的教育和财富管理等等。”秦勇说。

秦 勇特别介绍了IBM中国研究院在领导全球实验室做的“绿色地平线计划”,利用包括传感器站点、工厂排污信息、交通信息乃至社交网络帖子在内的所有信 息,IBM现在已经“在北京城可以做到提前3天精准预测未来的PM2.5,未来的目标是提前10天精准预测”。秦勇透露,这得益于IBM收购了一家公司, 有了精准的天气预报系统,从而可以指导工厂更精准地利用风能、太阳能等新能源,同时更高效地使用化石能源。

秦勇表示,在医疗领域,通过与 多家数据公司合作,IBM掌握了海量的医疗影像和临床数据信息,从而在智能医疗方面取得进展。其中,IBM和一家公司合作,计划将来可以做到提前3小时预 测糖尿病人低血糖的可能性。秦勇说:“我们还进入了和健身相关的领域,我们和美国生产健身小器械的公司合作,大概有1.6亿用户,希望我们给以后的健身者 提供更好的有用的信息。”

“说句玩笑话,IBM如今已经不是什么软件公司或硬件公司,”秦勇说:“我们将来甚至可能成为一家天气公司,可能成为一家医疗公司。”

最 后,秦勇就IBM对认知时代和认知计算做了总结:一是认知计算技术不是单一的软件或硬件技术,而是一个“wholestep play”,包括底层芯片、服务器、网络、通信以及上层商业场景的选择;二是认知计算两个维度,包括①计算机必须和环境做非常自然的人机交互,否则对环境 很难做实时的采集,②计算机永远是放大人的能力的(“100年放大人的体力,今天是放大人的脑力”);三是IBM将认知计算的核心概况为“URL”,即 “理解、推理和学习”,而IBM今后的重点是如何真正让计算做到“UnsuprivsedLearning”。

漆远致辞

最后进行主旨演讲的是蚂蚁金服副总裁、首席数据科学家漆远。蚂蚁金融服务集团隶属阿里巴巴集团,主要业务包括支付宝、余额宝、招财宝和蚂蚁小额等。漆远介绍了人工智能技术在金融产业界的发展。

漆 远表示,“双十一”作为互联网电商金融标志性事件,最初2009年的交易量200笔/秒,2014年是3万8000笔/秒,2015年则是8万笔万/秒。 据漆远透露,交易数量激增的背后依赖的是大数据云计算。“2012年整个阿里巴巴依赖的是IOE经典存储架构,”漆远说:“2012年之后转变成了云计 算。”漆远表示,在阿里云开始之后,数据交易量几乎每年都在翻番,增长曲线符合摩尔定律。

据蚂蚁金服统计,支付宝活跃用户达到了4亿。其中,超过80%是移动用户。漆远表示,支付宝日交易笔数已经超越全球第二大交易平台Mastercard,他们今年希望超过第一大交易平台Visa。”

在大量用户活动数据的土壤之上,漆远表示,蚂蚁金服的人工智能部门搭建深度学习和机器学习的平台以及语音识别、图像识别等系统,从平台战略上支撑了营销、搜索、推荐、风控等各项业务。由此,蚂蚁金服得以提供一系列新的产品和服务。

一 个例子是智能客服。在引入深度学习和语音识别技术后,2015年“双十一”活动期间人工客服工作量骤减。“95%进行了自助,99%的电话全部打通——往 年是打不通的,”漆远表示:“交易量每秒8万多笔,[如果是]电话同时打进来,会接爆。”还有机器人QA,系统依靠用户支付宝的行为轨迹自动产生分析,在 用户提问前自动推测用户会提出哪些问题。此外是人机结合,除了提供更人性化的界面,客服小二能更容易定位顾客问题。

另一个例子是智能实时风险管控。漆远说:“蚂蚁金服是第一个基于真正的数据算法[的信贷平台],我们可以做到几分钟之内全部产生模型,自动判断是否合理,整个流程全部基于数据化和机器学习的氛围。”目前,蚂蚁金服在农村有18万家小微企业用户,个人用户则是5000万。

第三个例子是芝麻分,蚂蚁金服试图在中国打造一个基于大数据的芝麻分系统,以信用机制建立服务,依靠完全自动化的信用平台,“简单来说要和银行合作,提高审核率。”漆远说。

最后一个案例是保险。漆远表示,蚂蚁金服希望用大数据和人工智能技术为小微企业和个人用户提供服务,比如利用机器学习算法实行淘宝退货保险服务以及车险差异化定价。

在新智元人工智能智库成立大会中,上海证券交易所前CTO白硕作为智库首席执委发表致辞。白硕表示,新智元智库专家将通过新智元这一放大器,面向全国和人工智能产业开展一些对口、专业、垂直的智力支援。“这样的工作之前中国没有出现,我们希望这次大胆尝试能够取得成功。”

白硕致辞照片

白硕指出,智库专家受聘于新智元,并将在新智元的组织下深入人工智能产业、资本市场以及科学传播的第一线开展工作,范围包括:

面向企业的执行和管理做指导,尤其是新创公司创业的辅导;

面向散户投资者做解说,以及面向专业投资者做专业化的项目评估。白硕表示,“无论是经验丰富的资金经理还是散户,都需要人工智能方面专业性的指导和点播,尤其是普通散户,很容易被操纵”,人工智能技术门槛高,炒作可能性大,专家的作用不可或缺;

面 向公众做科普,“围棋大战余温尚在,我们接触了大量的普通老百姓,这些老百姓对新技术非常好奇,但在好奇中夹带了一丝恐惧,他们担心照这样发展下去我们会 不会受到威胁?”白硕说:“我很欣慰地看到在这样的环境中新智元多位专家都站出来对公众从不同角度进行科普,做得非常不错,这也给我们未来新智元专家智库 开展科普领域的活动打下了一个很好的基础。”

在发言最后,白硕强调:“专家不是光说好话的,有的时候也要泼冷水。”人工智能这60年的发展经历了几起几落,“在它热的时候,专家要保持冷静,不能跟着一起热,专家要适当说一些泼冷水和中肯、批评、冷静的话”。

“如果专家都不说冷静的话,这个领域就没有希望了。”白硕说,这就好比足球比赛胜利后,众人把队员抛到天空然后撒手不管,“不是软着陆,是硬着陆,这是大家都不希望看到的。我们既然要呵护这个产业健康发展,就要做好准备,热的时候怎么软着陆,不让它受伤害”。

同 样,三星电子中国研究院院长张代君在演讲中也表示,现在大家对人工智能的期待“太火了”,应该冷静下来;微软亚洲工程院院长刘震也指出,人工智能的春天又 来了,但要让人工智能技术融入日常生活,还“需要一个持续增长、极其活跃的生态系统”,而新智元“毫无疑问”能在推动中国智能产业发展方面起到积极作用。

在新智元“智能+”产业投资基金启动仪式上,平安银行行长助理、北京分行行长刘树云代表平安银行——新智元基金的合作伙伴之一——发表了演讲。刘树云上台第一句话就逗笑了在场很多人:“听了下午各位专家的演讲,我总感觉我有点儿钱多人傻的感觉。”

平安银行行长助理、北京分行行长刘树云在大会上发表演讲,“要为民族的智能制造实实在在地去投”。

刘树云表 示,2015年年底国家制定并开始实施稳健的货币政策和宽松的财政政策,这预示着银行不良资产增加,整个信贷服务减少,再加上余额宝、阿里小贷等新兴互联 网金融产品的发展,要顺应社会发展趋势,银行必须做出改变,深入了解行业,变成“前倾式服务”,和客户真正对接。

这也是平安银行携手新智 元创建“智能+”产业投资基金的目的:借助新智元智库专家力量,整合资源,更好地与企业合作,并最终打开国际市场。刘树云表示,顺应国家银监会的号召,平 安银行做了很多投贷联动的案子,“我们愿意做投贷,愿意和在座的有识之士,尤其是做企业[的合作]……要落地,为民族的智能制造实实在在地去投”。

科 大讯飞也是新智元基金的合作伙伴之一,科大讯飞高级副总裁江涛在会议发表中表示,在这一轮人工智能爆发的前夜,有很多中国工程师和企业都做了好准备和世界 同行站在同一起跑线上,未来人工智能变革中一定有中国的一席之地。除了介绍科大讯飞在认知智能方面的进展,江涛还介绍了科大讯飞助力创新创业的“讯飞超脑 人工智能开放平台”。江涛说:“未来几十年是人工智能大的产业周期中面临的巨大产业机遇……这其中一定会诞生出一些伟大的公司,我相信中国很多公司就有这 样的机会,讯飞也有这样的机会。”

除了平安银行、科大讯飞,新智元“智能+”产业投资基金的合作伙伴还包括洪泰AA加速器和赛伯乐投资集团等,将结合金融资本、政府开 发基金和创投资本的广泛资源,依托新智元在人工智能和机器人领域的强大社交资讯平台,整合领域内学界、商界、技术界、产业界领袖人物及有关政府部门的专业 影响力,建构对中国智能产业资金的强大配置力。

大会还公布了新智元基金将与新智元专家智库联合成立“新智元领域专家投资决策委员会”,介入基金全流程管理,在项目筛选、项目评估、投资决策、投后管理、项目孵化等关键环节提升投资项目的量化精准率和投资收益率。

2016 年2月,新智元携手电子工业出版社于新智元资讯平台举行了“2016最值得期待的人工智能创业家”评选。“最值得期待的人工智能创业家”旨在褒奖积极推动 中国智能产业发展的杰出创业者,激发人工智能及机器人领域从业者为我国智能产业事业发展发扬自主创新、科研结果产业化转型的精神。

【从左到右】新智元创世人杨静、2015新智元人工智能创业家汪兵、吴甘沙、邓鹏、俞志晨、李志飞、余凯、平安银行行长助理、北京分行行长刘树云和新智元天使投资人之一、百度“七剑客”雷鸣。

本 届大会中,由专家和群友投票选出的6位获奖创业家上台接受奖杯及证书并发表了各自的“梦想秀”,他们分别是:达闼科技创始人黄晓庆(由达闼科技联合创始人 汪兵代领,黄晓庆本人则通过远程视屏传达了获奖的喜悦)、驭势科技创始人吴甘沙、优必选创始人周剑(由优必选联合创始人兼首席战略官邓鹏代领并发表演 讲)、图灵机器人创始人俞志晨、出门问问创始人李志飞和地平线机器人创始人余凯。大会特邀嘉宾、寒武纪科技创始人兼CEO陈天石也上台发表演讲。在梦想秀 中,每位创业家都阐述了自己的创业理想和目标,积极响应李德毅院士的号召,致力于在中国乃至世界智能产业发展中做出成绩。本届大会成功地将领域内很多从业 者和众多专家、投资人联系在了一起。

会议在优必选机器人的精彩表演中开始。台上10多台小型优必选机器人一字排开,在《冲向巅峰》的背景音乐流畅舞动,动作整齐划一,中间还倒挂了一次金钩,给人留下深刻印象。

新 智元创始人杨静表示,作为中国的企业,要想在这场技术革新中获得胜利,就必须联合起来,人工智能是人类历史的大机遇,新智元定位于“智能+”中国主平台, 致力于促进跨企业沟通、合作以及共赢,越早加入新智元生态圈的公司,就能越早把握占据行业领先地位的机遇。杨静说:“我们希望能够真正推动中国的人工智能 事业,我们希望中国能够诞生世界级的人工智能企业,成为未来智能产业规则的制定者!”

本次大会将每年的3月23日定为“新智元群友日”, 并将与期间举办年度盛典进行庆祝。大会最后为6位“新智元社群超级副群主”颁奖。新智元语义计算群超级副群主白硕(上海证券交易所前CTO)、新智元“智 能+”传媒群超级副群主杨溟(新华网融媒体未来研究院院长、新华社《中国传媒科技》出品人)、新智元“AI+”投资群超级副群主李立军(宁波慈星股份执行 副总裁、慈星机器人董事长)、新智元智能汽车群超级副群主刘玉超(中国指挥与控制学会副秘书长)、新智元认知神经科学群超级副群主林思恩 (TalkingBrain联合创始人兼CEO、布雷恩科技首席科学家顾问)和新智元大数据群超级副群主王思彤(江苏省统计科学研究所所长)获此殊荣。在 颁奖最后,新智元创始人杨静表示:“相信还会有无数超级副群主涌现,让新智元的社群变得更多、理念传播更远,凝聚更强大的社会力量。”

【原文转自新智元】

各位大佬,别再拿人工智能当春药了!

”在今天,人工智能已经替代大数据、O2O,成为互联网各位卖野药的、开秀场 的、搞劫持的、做流氓软件的诸企业家们最好的春药。“

说到人工智能和机器人,上点儿岁数的码农们可能对封面这张图有点印象。不明就里的朋友,可以回去补习一下《编辑部的故事》。

我是个二手的人工智能表演艺术家:从博士毕业开始,就在MSRA做了几年语音识别项目的研究。虽然我们的两任院长——李开复老师和洪小文老师都是语音研究出身,却丝毫不能改变当年这一项目在全院最鸡肋的地位。

为什么鸡肋呢?因为在当年,各种各样的人工智能应用能真刀真枪上阵的并不多。就拿语音识别来说,从几十年前IBM和AT&T提出人类用语音与机器交互这一伟大的设想以来,就有无数的业内业外人士为之激动、为之奋斗,也为之失望。

我 们都知道新技术的发展有条Gartner曲线,先被炒得大热,再跌下来,又慢慢爬坡到稳定的状态。语音识别或人工自然则不然:它被爆炒了好几次,也深深地 摔下来好几次。这一方面反映了人工智能问题的巨大吸引力,也体现了它巨大的难度。在我从事语音的那几年,恰逢一个谷底时期,那是有无数的“有识之士”纷纷 站出来表达对互联网糙快猛的膜拜,并夹枪带棒地表达对人工智能的鄙夷,认为我们不过是马勺上的苍蝇——混饭吃的。我们要是向互联网界提起自己是做“语音识 别”的,也放佛在两会会场上上偷看了毛片那样无地自容。

A19

 

然 而不得不说,在真正从事人工智能的那几年里,我接触到了到目前为止看来最严谨、最具学者风范的几位良师和益友。比如我第一任的老板,Bell Labs来的资深科学家宋謌平老师、第二任的老板,原港大教授霍强老师、以及多年的好友,现科大讯飞执行总裁胡郁等。这些人工智能专家身上都有一种共同的 特质:思维深邃又有独立见解,长期甘守寂寞,在人工智能的低潮期从未放弃探索与研究。

那么事情是什么时候发生转折的 呢?2010年前后,我以前微软的同事俞栋老师、邓力老师等,将深度学习在图像领域的突破移植到语音识别领域,一下子把识别错误率降低了20%以上,这让 原来感觉总是差点儿火候的语音识别突然看到了在某些场景下实用的希望。从图像、语音等领域的突破开始,人工智能的一个新春天又悄然来临,同时也火了“深度 学习”这个词。

“深度学习”这个词儿,实在是太美妙了,不是有邓丽君的一句歌词么?“你问我爱你有多深?我爱你八公 分!”深,就意味着莫测,意味着正常人的智商大概难以企及。正常人不明白的事儿从我嘴里说出来,那我不牛逼谁牛逼?就是因为这样一个逼格甚高的词儿(有点 儿像广告领域的“程序化交易”),再加上若干人工智能应用确实有了一定的突破,在今天,人工智能已经替代大数据、O2O,成为互联网各位卖野药的、开秀场 的、搞劫持的、做流氓软件的诸企业家们最好的春药。

在春药的加持下,大佬们纷纷把自己满肚子的互联网思维呕吐出来, 摆出一副智能仁波切的嘴脸,像念“嗡嘛呢叭咪吽”那样把“人工智能、深度学习、机器人、无人驾驶”等词汇摆在嘴边,并且具备了时刻达到高潮的能力。我曾经 有幸听过几位大佬有关人工智能的论述和演讲,据说他们都已经成为人工智能先驱者一个多礼拜了。就内容而言,有一种郭德纲做政府工作报告的莫名喜感,只不过 没有那么密集的包袱罢了。

在智商不够的人看来,一切都是智能的。于是乎,一些充满了邪教气息的论断,在互联网界开始甚嚣尘上,例如:

“机器学习模型依靠左右互搏,可以迅速达到很高的智能水准。”(说他们智商低,是因为这一点他们真信了。)

“人工智能毁灭人类的奇点即将来到!”(我认为机器早就能毁灭人类了,不过这跟人工智能并没有关系。)

“只有人工智能才能拯救人类!”(潜台词是:只有我这样人工智能的使者才能拯救你们!)

“我们的产品融合了大数据和人工智能技术。”(其实多数情况下不过是用hadoop跑了个脚本。)

作为一个知识分子,我是不太擅长骂人的。咱们还是先讲讲道理,看看深度学习到底解决了什么,还有哪些挑战。

实 际上,到今天为止,无论什么样的机器学习,本质上都是在统计数据,从中归纳出模型。实际上,很早以前大家就认识到,深层的神经网络比起浅层的模型,在参数 数量相同的情形下,深层模型具有更强的表达能力。这个概念说起来也好理解:用同样的面积的铁皮,做个桶比做个盘子盛的水要多一些。对此,马三立大师早有论 述:碗比盘深,盆比碗深,缸比盆深,最浅的是碟子,最深的是缸。而盘子或桶里的水,则类比于模型可以接纳并总结的数据:太浅层的模型,其实很容易自满,即 使有大量的数据灌进去,也并没有什么卵用。

F55副本

 

既 然很早就知道深层模型的表达能力更强,那么为什么近年来深度学习才大放异彩呢?那是因为桶虽然盛水多,我们以前却没有掌握将它高效率地灌满的办法。也就是 说,以前对深度神经网络,没有太有效的工程优化方法。一个大桶摆在那儿,却只能用耳挖勺一勺勺往里灌水,多怎才能灌满啊?直到本世纪,Geoffrey Hilton和他的学生发明了用GPU来优化深度神经网络的工程方法,这就好比灌水时发明了水管,极大地提高了效率。这样的工程方法产生后,深度神经网络 才变成工业界实用的武器,并且在若干领域都带来了里程碑式的变化。

35

 

桶 有了,水管也有了,还缺什么呢?当然就是水了。对深度学习模型而言,水就是海量的数据。比方说原来用浅层的模型做人脸识别,训练样本到了一定的规模,再多 就没有用了,因为盘子已经灌满了,再灌就盛不了了。可是,改用深度学习,再加上有了水管以后,数据一直往里面灌,模型还是可以继续学习和提高。就拿机器识 别物体这样的任务来说,通过数百万副图片的训练,深度学习模型甚至可以超过人的肉眼的识别能力,这确实是人工智能在感知类问题上重要的里程碑。

296

 

然 而,上面的例子提醒我们:人工智能和人的智能,还真的不是一回事。几岁的小孩子,大人给他指过一次猫,下次他十有八九就能认出来。然而不论是多强的人工智 能模型,也不可能看几张猫的图片,就能准确地认识猫。也就是说,深度神经网络的“智能”,是建立在海量数据基础之上的,因此,深度学习与大数据,有着非常 紧密的内在联系。

关于深度学习,还有一个有趣的现象。就目前情况来看,深度学习技术在互联网应用(例如广告、推荐 等)上取得的提高,没有语音图像这些领域那样显著。这里面有什么规律性的解释么?个人认为,自然现象的数据处理,例如语音识别,我们完全可以通过主动的语 料采集,让各个phoneme甚至biphone、triphone都挺有充分的覆盖;而互联网收集的社会行为,例如广告点击、新闻阅读这些数 据,Ground truth并不清晰:即使对于同一个人、同一则广告、同一个广告位,点击与否也是个很不确定的事件,而这样的不确定性即使引入再多的上下文信息,也不可能 消除。而引入了大量的上下文信息(即模型需要的feature)后,在每个片段上的数据实际上非常稀少,并不能满足深度学习模型彻底进化的需要。怎么解决 这个问题呢?最近爆火的Alphago采用的deep reinforcement learning方法论,或有是个启发。

以 上种种人工智能技术经历的磨难与辉煌,乃至更加波澜壮阔的未来,都需要参与者们抱定一颗平常心,以十年磨一剑的决心和毅力去攻克一个个产品与技术难关。同 时,这需要对于科学技术真正的信仰与坚持,因为人工智能不同于卖盒饭或者搞劫持,凡小学肄业以上文化程度,对手段之道德底线无特殊要求者皆可以胜任,它需 要对于科学技术真正的信仰与坚持,对于背景理论多年的修养与磨练,远非看上去那样简单美好。

资本与大佬们对于人工智 能的追捧,当然不能说是坏事。不过说实话,在里面确实也能多少嗅出一些单纯追逐风口、顺风接屁的恶趣味。这个领域已经被捧杀了好几回,好不容易有些转机, 还是给大家正确的普及、合理的预期比较重要。就拿语音识别来说,Benchmark集合上词正确率的提升,其实并不意味着人机直接用语言进行交流已经可以 畅通无阻:各种复杂噪音环境下的鲁棒性问题、自然语言理解的巨大挑战、找到适合语音交流的杀手级应用场景,这些都是当我们推门以为豁然开朗时,又发现横亘 在面前的王屋与太行。理性的人工智能从业者,不要轻信各种花色品种的大佬们场外吃了春药后的摇旗呐喊——因为你并非正要向终点冲刺,而是刚刚踏上跑道。

599

 

                                        (图片来自@南大周志华 老师微博)

春 药吃下去,High是能High一阵,但精尽人亡就不好了。那些把人工智能捧成耶和华一般的行业分析师与大佬,是十分值得警惕的:我敢断言,当此领域再遇 波折,将“人工智能”这四个字踩在脚下、恶狠狠淬上一口的,还会是这一拨人。而其中有些个别人恶俗的热捧,则可以说是人工智能的耻辱——西施长得好不好, 是不需要八大胡同的选美比赛来品头论足的。

【本文转自虎嗅,原文作者:北冥乘海生 ,微信公众号:计算广告

科技企业是如何制造那些“病毒式传播”事件的?

”其实在消费背后,年轻人在表达着自己的社交需求,他们希望透过广告发现和自己相符合的价值观和追求“。

大家好,我是刘苏,赞意互动的 CEO。今天我们的主题是科技品牌如何进行年轻化营销,在我的分享开始之前,我想先介绍一下年轻人的消费观。我们从一些数据报告发现,90 后并非如我们想象中那么不愿承担责任,或者随心所欲。在我们的调查中,他们是一个感性的务实派。他们一方面看重质量,另一方面则在意品牌是否和自己有相同的共鸣点。第二个部分,年轻人其实非常强调个性化的消费,他们经常会穿一件体恤有自己的名字,或者是用富有情怀的产品。他们希望这些特别的产品可以代表自己的个性化。其实在消费背后,年轻人在表达着自己的社交需求。同时我们也对 90 后做了一些品牌和广告观的一些调研,年轻人不爱看传统广告了,他们希望透过广告发现和自己相符合的价值观和追求。所以接下来我们会结合自己公司的案例和市场上比较好的一些案例,做一些我们的分析。

OPPO:粉丝经济学

我 先介绍一下 OPPO 的一些背景,OPPO 从去年就花非常多的钱在娱乐营销,一部分是怎么利用明星和粉丝团进行营销,另外一部分就是帮 IP 做宣传,包括现下综艺节目和一些电视剧的推广。大家可以看到一句话叫充电五分钟,通话两小时。那他怎么做的?这个事情就是因为他其实达到两个差异化的产品 功能点,一个是讲闪充,一个是讲拍照。所以大家可以看到所有的广告上面,最后结尾说充电五分钟,通话两小时。但他最后的 TBC 的落板上,一定会是 OPPO 拍照手机。所以他其实是一个整个大的品类的定位和他产品功能点的一个利益。它的整个策略就是把国内的一线明星全部签掉,把所有明星签完,让竞争对手没有明 星可以签,这就是它的策略。

以下是 OPPO 定制机传播的成果:

科技企业是如何制造那些“病毒式传播”事件的?

从 李易峰开始,到鹿晗,到 TFboys,OPPO 已经走了一条明星定制机加一个定制微剧的传播路线,来打造代言人独立 IP。李易峰的喋喋 phone 的定制机 + 定制微剧,鹿晗的明星定制机 + 定制 MV,到现在 TFboys 的守护商业微电影,我是你的 Tfboys。我们打造代言人独立 IP 建立在我们详细的粉丝心理的调研,把明星和 OPPO,还有我们品牌的诉求,也就是闪充和拍照的功能,三者在消费者当中形成一个强关联。关于粉丝的心理特征,第一个是粉丝的群体造 “鲜” 行为,现在的鲜肉明星和粉丝之间的关系已经从之前的粉丝单纯地跟随明星行为上升到了造型阶段。也就是说粉丝会主动帮助明星宣传。只要他们觉得对明星形象的 建立有益,他们都会自发帮助明星传播。

另一个以 TFboys 这个粉丝来举例,他的粉丝内部会有一定的竞争关系,三个人对粉丝来讲有团饭和唯饭,团饭就是喜欢 TFboys 整个组合,唯饭是喜欢单个人。团饭和唯饭之间,唯饭和唯饭之间都有竞争关系,所以我们在传播的时候,也会利用到三家的粉丝内部的竞争关系。但是这是比较有 风险的,稍微处理不好就会变成三家指责品牌商了。我们在跟 OPPO 方面去剪辑微电影的时候,会确保三个人出镜秒数一样,即便如此,粉丝依然会对服装,角色争论不休。

科技企业是如何制造那些“病毒式传播”事件的?

下 一个是说第一次对于粉丝的重要性。我们在调查的时候发现 TFboys 的粉丝对步步高的认可度非常高。在他们的心目中,因为第一个是步步高他们形象是积极阳光向上的,符合明星的定位。第二,这是 TFboys 代言的第一家产品,所以他们觉得这个非常重要,是划里程碑的,他们更会非常配合做这个事情的传播。在我们这个 TFboys 定制机的传播过程当中,我们会把粉丝作为非常重要的传播者去看。我们构建了这么一个传播的阶层。通过我们广告公司、公关公司出的策略,然后引导核心粉丝圈 发声,包括媒体的发声,然后再去引导到我们大众消费者。我们用心做好核心粉丝圈,把他们当成我们传播的一部分来看。

小米:用户参与感

小 米在推出红米跟小米 4、5 这种系列的时候,又突然宣布大屏小米 MAX。在此情况下,怎么让大家来知道我要推新但是又不让客户那么反感。小米下了功夫。他从产品命名就开始了预热,让用户全程参与。我们的产品,用户分为 三类。第一类是既有需求者,铁定要买的。还有是说可有可无的。再有是,压根就不要。所以小米要维持第一类,传播信息给第二类,帮助第三类挖掘需求。

小米邀请了所有人参与它的命名。他在所有的营销平台发起投票。这样维持了第一类核心用户的关系。

科技企业是如何制造那些“病毒式传播”事件的?

而第二类第三类人,他们找到了开心麻花团队,通过这样一个病毒视频的形式,让大家知道你买大屏有这个好处。

科技企业是如何制造那些“病毒式传播”事件的?

再 看它微信群聊的 H5 案例。首先他用雷军请你聊天的标题把用户引入进来,然后他把微信加号下面功能,替换为产品的卖点,用户可以自己选择点击来了解产品各种性能。以非常直观的 方式来展示数据。然后这整个 H5 你可以看到所有小米的高管也参与游戏,所以其实玩的是一个概念。让用户参与感非常强。

科技企业是如何制造那些“病毒式传播”事件的?

在他们发布会之后,如何把产品卖点来打透,让喜欢小米的人,或者不喜欢小米的人,都能玩在一起。小米借助他的小米 MAX,把电池耐用的一个概念做成直播,直播待机时间。这个无聊直播的概念反而引起了大家关注,效果特别好。

小 米 MAX 在上市之后,他会做很多让用户创造 UGC 的一个传播方式。在很多你已经玩过的地方,他能够创新很多东西。一方面让你全程来参与他的互动,另外一方面让你娱乐化的跟他玩在一起。科技品牌 bigger 可以高,但是你在做营销的时候,并不是要高高在上的,就不管不顾消费者的感受,其实还是要跟他玩在一起。

华三:科技美学

华 三开始做家用路由器,就是如何打开 2C 这一块的市场。首先大家可以看到 B 系列的这张图,B 系列主打的一个卖点就是颜值高好看。颜值高好看对于一个用户来讲,不是痛点,却是痒点。就是说对于一个用路由器的用户来讲,我追求网速快、信号好,这肯定 是我的第一诉求,那长的好看的路由器对我来讲,对于追求品质生活的人来讲,这个是加分的一个点。所以当时我们跟客户提,我们在打法上,可以做一种传播前置 产品的一个打法。具体来讲两个策略,一个就是说如何打造一个定制版的,我们可以做可口可乐的路由器。

科技企业是如何制造那些“病毒式传播”事件的?

第二点就是如何做科技美学,把科技美学来打透。我们当时是跟时下的 IP 产品一块绑定来做定制版的一个路由器。

科技企业是如何制造那些“病毒式传播”事件的?

其 实对于年轻化营销来讲,很重要的一点,就是你要知道年轻人他们喜欢的媒介是什么,然后他们在哪。对于小崽子可能大家更熟悉一点,就是很多年轻人,90 后的人,他们发微信,表情包都是用小宰子他们的漫画做成的微信表情包。当时我们跟他们合作,做这个定制版,上线的当天基本上就卖断货。还有我们跟各大美院 的一些设计师一块合作,做个性的一个手绘版。 第二个点,就是我们讲美这件事,华森家讲的美跟其他人讲的美区隔在哪里?我们讲科技美学这个概念,如何来打破这个概念。在受话媒体这一起,我们是运用了各 种各样的海报的样式去讲科技美学这个概念。就是提到华三魔术家的时候,你想到的概念是科技美学,他的美是颜值高的路由器。

QQ 浏览器:内容自造,内容为王

第 二个跟大家分享的是浏览器这一块,我现在就要的品牌传播。在第一年的时候,我们公司负责所有的受话媒体的整合转播。对于我要的这样的品牌, 从他的产品层面来讲,他是跟浏览器里面所讲的跨物理特性是相符合的。我要的现在就要,因为讲浏览器的人,对于浏览器的用户来讲,第一诉求肯定是快。在产品 力大家都差不多,没有差异化的地方的情况下,我们就需要在品牌力上,如何把我们凸显出去。让用户提到,我现在就要具化的时候,第一印象就是提到 QQ 浏览器。所以第一年我们讲我要的现在就要,然后主打的是 80 后这一票人群,产品层面来讲,是浏览器追求快的这种特性,在品牌层面来讲,是凸显 80 后这一票人,我们拥有梦想,立即行动,这样生的态度和价值观。

科技企业是如何制造那些“病毒式传播”事件的?

如 何通过媒体去讲,我要的现在就要这个品牌主张呢?首先我们是跟像林志颖、苏醒、吴莫愁,让他们代言我们的,去讲我要现在就要,这样的品牌主张,然后以海报 的形式去讲。再有就是捆绑在受话媒体上活跃的一线品牌的官微来讲,我要的现在就要。包括我们跟碧浪、京东,还有一号店这些一线的品牌官微一起来讲,我要现 在就要这样的品牌理念。再有就是制作了一些其他类型的病毒视频,去引发这些口碑传播。还有就是在达人圈子里,我们去找美食界也好,科技圈也好,这样达人去 讲我要这句话。这里面还有意思的一个点,就是马化腾他也穿了我们当时做的我要 T,然后拍照。

从第二年开始,我们把这个品牌的理念更落地一 点,就是说如何把我要我现在就要,纯品牌的主张,跟我们 QQ 浏览器的产品,相互有一个连接。所以第二年我们讲的品牌主张叫选择我要的现在就要,选择的意思就是说,你在 QQ 浏览器里,可以迅速选择你想要的东西,并且你能够迅速得到。

三个策略,我具体来讲,一个是粉丝效应这一块,我们的粉丝效应引发了一个爆炸性 的风潮,很重要的一点是我们从制造内容开始到引导内容。在这个过程中,我们是跟李易峰的粉丝群这边进行了大量的沟通,发起了各式各样李易峰的活动,这个活 动不能完全脱离开我们自己的产品。所以在这个过程中,我们讲跟风做选择,所以跟风是跟李易峰,我们做了各种良性的一些互动活动,产生近三万条这样 UGC 的内容。

科技企业是如何制造那些“病毒式传播”事件的?

第 二就是营销这一块,我们在受话媒体上做这些玩法,他不能是单纯的是一种到达,一个硬性广告。如何把用户参与玩在一起,这是我们需要攻克的一个难题。所以在 营销这个部分,一个是我们联合当时 9 家一线的品牌,围绕可口可乐一号店这样的品牌,来给他们做弹幕体这样的海报 。第二个就是我们联合 22 位的业界领袖,来讲我要我现在就要品牌主张。还有就是我们结合时令热点去讲这个品牌。在这个品牌传播的这样一个过程中,我们是一直输出这个信息。包括这个 是弹幕封神榜,在微信圈,可以看到这个也是当时一个很好玩的互动。就是用户把自己的照片输入进去之后,很多的微信它的微信好友可以吐槽他,自黑他,大家点 开之后,就可以看到各种各样的弹幕形式对他的评价表达。

科技企业是如何制造那些“病毒式传播”事件的?

第 三个点就是我们讲 90 后秒选族。从届时热点到制造热点。当我们自己炒作的话题足够引起社会性讨论的时候,那就避开了届时热点这个圈子,当时我们是联合三联生活周刊和中国新闻周 刊,去找的 9 个 90 后这样一个例子,去让他们现身说法,讲他们 90 后秒选族的故事。然后我们联合像陈默,刘同还有 90 后群体的这些一线领袖讨论 90 后秒选族他们到底是对还是不对?接下来我们发现很多的品牌官微,一些记者包括一些大学的品牌官微,都开始自发的去讨论这些话题,到最后我们有一场落地的活 动,就是我们请到了 6 位 90 后的创业者,到线下,我们一起来围绕这个选择我要我要的现在就要,这样品牌态度进行一个讨论。

科技企业是如何制造那些“病毒式传播”事件的?

科技品牌的营销思路:

首 先我觉得科技品牌营销思路第一个是要做年轻人喜欢的潮流内容。相信很多品牌自己都有自己的官方微信或者微博,但其实他们的内容都不是年轻人喜欢的。 最近我们也在做一些汽车的客户,我们也会对一些汽车做一些诊断,比如说可以看一下像宝马中国,还有像甲壳虫这些客户,他的内容都做的都是年轻人喜欢的。但 是大部分的车企做内容,他不敢往前走一步,大家可以看一下自己的品牌是不是这样。第二部分人在年轻人阵地发声。我觉得这件事情不一定是要赶新鲜,但是你哪 怕尝试一次,会让你的消费者觉得你是跟他们在一块的。然后第三个部分是可以跟一些年轻的潮流品牌一起来玩。第四个就是说可以找一些代言人,也可以找一些其 他的业界领袖。

科技企业是如何制造那些“病毒式传播”事件的?

然 后第二个部分,我要讲的是让传播前置于产品。对于一些初创企业来说,你的产品和你的运营和市场部门会比较灵活一些还好,但是对于一些比较大的公司,产品部 跟 Marketing 部门是分的很开的。所以他们会在于对于传播做的没有那么迅速。但这个其实很容易出一些亮点的。运营人员跟产品人员一起来做一些有趣的事情,传播前这个产 品。产生 UGC,让消费者为你说话。因为如果当你投一些广告购买的时候,投完就没有了。你的产品是可以铺渠道的,但是你如果在 7-11 铺了很多渠道,你在电商铺了渠道,这个产品我拿到手的时候,我自然就会晒.比如你有 20 份销量,如果是产品做的足够好,这 20 份销量本身就可以带 20 份的一个创意内容出来,那本身就是海报或者是一套广告。我们觉得这是一个四两拨千斤的方式,所以我们一般来说对于所有的初创企业,我们都会尽力来做这个。

科技企业是如何制造那些“病毒式传播”事件的?

第 三个部分,我想说亚文化,现在其实亚文化都不算是非主流问题,它其实都快变成主流文化了。亚文化当时我们觉得很重要的一件事情就是一个看脸的年代。飞利浦 这款牙刷我觉得它做的非常好,首先我觉得喜欢美的事物大家都是没有问题的,这件事情我觉得女生就不可能不买。所以他同时也开创了一个送礼的年代。他产品设 计还有一个非常棒的事情,就是大家可以看它有一个杯子,他的杯子是充电器,只要放到杯子里它的就要充电了。这件事情是我觉得这个是大家可以来做的。我希望 大家把 Marketing 的费用挪一部分到产品的设计费用上,和去做一些颜值开发的事情,其实是很有用的。

科技企业是如何制造那些“病毒式传播”事件的?

然 后这个我想说一下,这个叫心理化营销,这是我自己创的一个词,我不知道大家知道 TOM FORD,他有 50 种颜色,每个颜色代表一个名字,比如这个叫大为,那个叫托尼,他有两个寓意,一个就算你没有男朋友你可以亲他,就是你可以亲 50 个男朋友,是这样一个思路。另外就是说他可以纪念我五十个男朋友,所以我觉得这件事情他可以让所有的年轻人,我买到的时候,我不是默默的买,我想到我每次 买的时候,我觉得他懂我,或者是我买了以后我愿意晒朋友圈,我觉得所有的产品,如果你赢得他的朋友圈,就比你去投电梯,投地铁要来的值得。 而且这个品牌在你的心里的价值和资产是在升值的。

科技企业是如何制造那些“病毒式传播”事件的?

然 后第五个事情,我想说如果产品不够差异化,那就玩情怀。80 后是比较想梦想的,90 后其实挺务实的。所以我觉得我们要玩一些情怀和走心的东西,但那个情怀不是我们 30 多岁人和 40 多岁人的情怀,是他们心里在想的一些事情。我觉得就是营销其实占领人的心智,所以你需要在讲一些故事方面,包括其实你们做投资,或者是拿风险投资的时候, 也是在讲故事,对吧?

科技企业是如何制造那些“病毒式传播”事件的?

【本文来自微信公众号“GGV 纪源资本】

聊天机器人公司NextIT 计划融资2000万美元,在美国军队部署人工智能助手
可能很多人不知道,在苹果 Siri、微软小娜、以及亚马逊 Alexa 推出之前,Next IT 就已经开发了多款聊天机器人应用了。这家总部设在华盛顿州斯波坎谷的初创公司为阿拉斯加航空公司开发了“Ask Jenn”,为美国铁路公司开发了“Ask Julie”,这一次,他们为美国军方开发了“Sgt. Star”

NextIT 正在募集 2000 万美元融资,希望能在这一波对话人工智能助手的行业浪潮中获得竞争优势。该公司总裁 Tracy Malingo 表示,本次融资将分为两部分,其中 1200 万美元将采用股权投资模式,而剩下的 800 万美元则会选择债务重组完成,她说道:

我们当然不应该错过这次人工智能行业发展大潮,对于这次融资,我们感到非常高兴。

截至目前,该公司一共获得 1450 万美元投资,Malingo 希望本次融资能在三个月内完成。不过,作为一家私人公司,她拒绝透露本次融资中 Next IT 的公司估值,也没有告知参投投资方的具体信息,目前只知道共有 11 家投资公司参与了本轮融资。

NextIT 成立于 2002年,创始人是自诩为 “竞技牛仔” 的软件工程师兼连续创业家 Fred Brown,他们也是业内首批在自动电话助手里提供自然语言识别服务的公司。举个例子,下面是阿拉斯加航空公司官网上自动助手服务的一段对话:

Jenn:你好,我是 Jenn,阿拉斯加航空公司的自动旅行助手,如果需要在我们网站上寻求帮助,可以输入你的问题。

用户(你):你是由 Next IT 公司开发的吗?

Jenn:我们是科技前沿公司 NextIT 开发的,也是美国航空业内最早出现的自动助手服务。

如 今,几乎所有科技巨头都在研发聊天机器人技术:微软的人工智能战略是以 “小娜” 聊天机器人为中心的(尽管微软也尝试了另外一款 Twitter 聊天机器人 Tay,但似乎效果不佳);Facebook 也将聊天机器人整合到了旗下 Messenger 平台;当然还有我们熟知的亚马逊 Alexa 和苹果的 Siri。

人工智能助手看上去正在掀起一股全新的科技浪潮,不过 Malingo 却认为,目前整个行业依然处于基础阶段。

NextIT 采取了 “迂回策略”,没有和行业巨头进行正面竞争,相反,他们利用所谓的 “触点和端点” 技术,用专属虚拟助手连接多用途机器人,提供各种服务。比如,用户可以轻松修改自己的航班预留信息、挂失更换丢失的借记卡、或是确认是否按时吃药。

去年,Next IT 发布了 Alme 软件平台的应用程序接口集合,帮助企业更便捷地开发虚拟助手功能,提供个性化的用户交互服务。此外,Next IT 还将旗下医疗健康部门转型成了一个独立运营的实体机构。

根据 Malingo 透露,目前 Next IT 的员工数量大约是 150 人,利用这笔最新投资,公司计划扩大员工队伍,招募更多人工智能专家,希望此举能帮助该公司在人工智能领域里占据更好的竞争位置。

她说道:

我们认为对于 Next IT 来说,现在才算是刚起步。我们希望帮助其他行业里的企业,成为他们的自助语音助手专家。如今,每家公司都在寻求人工智能解决方案,我们希望这些公司能够利用 Next IT 平台获得帮助。

【本文转自36氪】

智能灯具开关制造商Deako获得350万美元风险投资,预计明年西雅图市场占有率将达到10%

该公司表示,他们刚刚做了产品 beta 版测试,不仅完善了服务接口,还新增了控制功能,允许用户使用 Deako 智能开关轻松控制家中所有灯具。

Deako 是一家智能灯具开关制造商,公司总部设在西雅图。本周四,该公司获得了一笔 350 万美元风险投资,预计到明年,该公司的技术将会应用到西雅图地区 10%的新房中。根 据该公司向美国证券交易委员会提交的文件显示,本次最新融资之后,Deako 近八个月的融资总金额达到了 680 万美元。公司联合创始人兼 CEO Derek Richardson 透露,截止目前,共有来自硅谷、纽约和芝加哥的六家风投公司投资了 Deako,但他没有透露这些投资方的名字。

Deako 的客户并不是房屋户主,而是房屋开发商或是家庭装潢电路设计服务公司,后者需要负责在新房内安装硬件和家用电器设备。Richardson 没有透露他们的合作伙伴信息,但是表示目前 Deako 的合作公司数量已经达到了两位数。

该公司表示,他们刚刚做了产品 beta 版测试,不仅完善了服务接口,还新增了控制功能,允许用户使用 Deako 智能开关轻松控制家中所有灯具。此外,用户还能在配套的智能手机 App 应用上控制室内灯具。

智能灯具开关制造商Deako获得350万美元风险投资,预计明年西雅图市场占有率将达到10%

今年秋季,Deako 公司计划在西雅图地区的 50-100 户家庭中进行产品试运行,然后根据用户的使用反馈进一步优化技术,之后再发布最终产品。Richardson 没有透露产品发布的具体时间。

Deako 开关非常安全,即便在不断电的情况下也可以随意更换,这也意味着产品升级会非常轻松,消费者也不用担心自己房屋里的开关会过时。

Richardson 说道:

技术发展如此之快,人们需要在家里部署一些能够长时间使用的技术,如果现在使用了我们 Deako 的灯具开关技术,至少在未来 5、10、甚至 15年 内都不会被淘汰。

作为公司创始人,Richardson 并没有任何家庭装修行业背景,相反,他是技术出身,之前曾在黑莓和半导体制造公司Cypress Semiconductor工作过。之所以会产生创立 Deako 智能灯具开关公司的想法,是源于他本人的一次购房体验,在拿到新房之后,Richardson 不得不将室内所有的灯具开关更换掉,非常不方便。而且他发现当时的市场上还没有相关解决方案,因此决定自己创业来解决这个市场痛点。

值得一提的是,在拿到这笔投资之后,Deako 公司也获得了一定行业关注度。Richardson 也受邀出席今年八月Sunbelt Builders Show大会,分享智能家居技术经验。

【本文转自36氪】

谷歌研究总监 Peter Norvig:AI-first 意味着什么
Peter Norvig是誉满全球的人工智能专家,Google研究总监(Director of Research),他同时也是经典书籍《人工智能编程范式:Common Lisp案例研究》(Paradigms of AI Programming: Case Studies in Common Lisp)和《人工智能:一种现代方法》(Artificial Intelligence: A Modern Approach)的作者/合著者。在本文中,我们将看到Peter Norvig对人工智能目前进展和未来发展的思考,对人工智能技术在Google应用的解读,以及对最新软件工程师在人工智能时代的成长的观点。 Peter Norvig眼中的人工智能 问:人工智能领域在哪些方面发生了您未曾预料的演变? Peter Norvig:在1980年我开始从事人工智能研究时人工智能意味着:一位研究生用说明性语言写下事实,然后拨弄这些事实和推理机制,直到从精心挑选的样本上得到不错的结果,然后写一篇关于它的论文。 虽然我接受并遵循这种工作模式,在我获得博士学位的过程中,我发现了这种方法的三个问题: 写下事实太慢了。 我们没有处理异常情况或模糊状态的良好方法。 这个过程不科学——即使在选定的样本上它能工作,但是在其他样本上工作效果会如何呢? 整个领域的演变回答了这三个问题: 我们依靠机器学习,而不是研究生付出的辛苦努力。 我们使用概率推理,而不是布尔逻辑。 我们希望使用科学严格的方式;我们有训练数据和测试数据的概念,而且我们也有比较不同系统处理标准问题所得到的结果。 1950年,阿兰图灵写道:“我们只能看到未来很短的一段距离,但是我们很清楚还有什么需要完成。”自从1950年,我们已经得到许多发展并实现了许多目标,但图灵的话仍然成立。 问:对于机器学习研究,工业界与学术界有何不同呢? Peter Norvig:我认为,在教育机构、商业机构还是政府机构并不是很重要——我曾经在这三种机构都学到很多东西。 我建议你在有着一群出色同事和有趣问题的环境下工作。可以是工业界、学术界、政府或者非营利企业,甚至开源社区。在这些领域里,工业界往往有更多的资源(人、计算能力和数据),但如今有很多公开可用的数据供你使用,一个小团队,一台笔记本电脑,或者一个小而廉价的GPU集群,或者在云计算服务上租赁或捐献时间。 问:您对深度学习有什么看法? Peter Norvig:我清楚地记得80年代初的那一天,Geoff Hinton来到伯克利进行了关于玻尔兹曼机的讲座。对我来说,这是个了不起的视角——他不赞同符号主义人工智能很强大很有用,而我了解到了一种机制,有三件令人兴奋的新(对我而言)事情:根据大脑模型得出的认知合理性;从经验而不是手工编码中学习的模型;还有表示是连续的,而不是布尔值,因此可以避免传统符号专家系统的一些脆弱问题。 事实证明,玻尔兹曼机在那个时代并没有广泛普及,相反,Hinton、LeCun、Bengio、Olshausen、Osindero、Sutskever、Courville、Ng以及其他人设计的架构得到很好的普及。是什么造成了这种不同呢?是一次一层的训练技术吗?是ReLU激活函数?是需要更多的数据?还是使用GPU集群可以更快地训练?我不敢肯定,我希望持续的分析可以给我们带来更好的了解。但我可以说,在语音识别、计算机视觉识别物体、围棋和其他领域,这一差距是巨大的:使用深度学习可以降低错误率,这两个领域在过去几年都发生了彻底变化:基本上所有的团队都选择了深度学习,因为它管用。 许多问题依然存在。在计算机视觉里,我们好奇深度网络实际上在做什么:我们可以在一个级别上确定线条识别器,在更高层次确定眼睛和鼻子识别器,然后就是脸部识别器,最终就是整个人的识别器。但在其他领域,一直很难了解网络在做什么。是因为我们没有正确的分析和可视化工具吗?还是因为实际上表示不一致? 在有许多数据的时候,深度学习在各种应用中表现不错,但对于一次性或零次学习,需要将一个领域的知识转移并适应到当前领域又如何呢?深度网络形成了什么样的抽象,我们可以如何解释这些抽象并结合它们?网络会被对抗性输入愚弄;我们如何预防这些,它们代表了根本缺陷还是不相干的把戏? 我们如何处理一个领域中的结构?我们有循环网络(Recurrent Networks)来处理时间,递归网络(Recrsive Networks)来处理嵌套结构,但这些是否已经足够,现在讨论还为时过早。 我对深度学习感到兴奋,因为很多长期存在的领域也是如此。而且我有兴趣了解更多,因为还有许多剩余问题,而且这些问题的答案不仅会告诉我们更多关于深度学习的东西,还可以帮助我们大体理解学习、推理和表示。 问:在深度学习最近取得的成就之后,符号主义人工智能是否还有意义? Peter Norvig:是的。我们围绕着符号主义人工智能开发了许多强大的原理:逻辑预测、约束满足问题、规划问题、自然语言处理,乃至概率预测。因为这些算法的出色表现,我们处理问题的能力比原来提升了几个数量级。放弃这一切是件可耻的事。我认为其中一个有意识的研究方向是回过头看每一种方法,探索非原子式符号被原子式符号取代的这个过程究竟发生了什么,诸如Word2Vec产生的Word Embedding之类的原理。 下面是一些例子。假设你有这些逻辑“事实”: 人会说话; 除人以外的动物不会说话; 卡通人物角色会说话; 鱼会游泳; 鱼是除人以外的动物; Nemo是一个卡通人物; Nemo是一条鱼; 那么我们要问了: Nemo会说话吗? Nemo会游泳吗? 用逻辑来表述和解释这个场景的时候遇到了两个大问题。首先,这些事实都有例外,但是用逻辑很难穷举这些例外情况,而且当你逻辑出错的时候预测就会出问题了。其次,在相互矛盾的情况下则逻辑无能为力,就像这里的Nemo既会说话又不会说话。也许我们可以用Word Embedding技术来解决这些问题。我们还需要Modus Ponens Embedding(分离规则,一种数学演绎推理规则)吗?不学习“如果A且A暗示B,则B”这样一种抽象的规则,我们是否可以学习何时应用这种规则是恰当的?我觉得这是一个重要的研究领域。 再说一点:许多所谓的符号主意人工智能技术实际上还是优秀的计算机科学算法。举个例子,搜索算法,无论A*或是蚁群优化,或是其它任何东西,都是一种关键的算法,永远都会非常有用。即使是基于深度学习的AlphaGo,也包含了搜索模块。 问:我们哪儿做错了?为什么Common Lisp不能治愈世界? Peter Norvig:我认为Common Lisp的思想确实能治愈这个世界。如果你回到1981年,Lisp被视作是另类,因为它所具有的下面这些特性还不被C语言程序员所知: 垃圾回收机制; 丰富的容器类型及相应的操作; 强大的对象系统,伴随着各种继承和原生函数; 定义测试例子的亚语言(sublanguage)(并不属于官方版本的一部分,但我自己配置了一套); 有交互式的读入-运算-打印循环; 敏捷的、增量式的开发模式,而不是一步到位的模式; 运行时对象和函数的自省; 能自定义领域特定语言的宏。 如今,除了宏之外的所有这些特性都在主流编程语言里非常常见。所以说它的思想取胜了,而Common Lisp的实现却没有 —— 也许是因为CL还遗留了不少1958年编程语言的陋习;也许只是因为一些人不喜欢用大括号。 至于说宏,我也希望它能流行起来,但当用到宏的时候,你成为了一名语言设计者,而许多开发团队喜欢保持底层语言的稳定性,尤其是那些大团队。我想最好有一套使用宏的实用指南,而不是把它们全部抛弃(或是在C语言里严格限制的宏)。 问:在未来10年里,有没有哪些情况下软件工程师不需要学习人工智能或机器学习的,还是每个人都需要学习? Peter Norvig:机器学习将会是(或许已经是)软件工程的一个重要部分,每个人都必须知道它的运用场景。但就像数据库管理员或用户界面设计一样,并不意味着每个工程师都必须成为机器学习专家——和这个领域的专家共事也是可以的。但是你知道的机器学习知识越多,在构建解决方案方面的能力就越好。 我也认为机器学习专家和软件工程师聚在一起进行机器学习系统软件开发最佳实践将会很重要。目前我们有一套软件测试体制,你可以定义单元测试并在其中调用方法,比如assertTrue或者assertEquals。我们还需要新的测试过程,包括运行试验、分析结果、对比今天和历史结果来查看偏移、决定这种偏移是随机变化还是数据不平稳等。这是一个伟大的领域,软件工程师和机器学习人员一同协作,创建新的、更好的东西。 问:我想从软件工程师转行成为人工智能研究员,应该如何训练自己呢? Peter Norvig:我认为这不是转行,而是一种技能上的提升。人工智能的关键点在于搭建系统,这正是你手头上的工作。所以你在处理系统复杂性和选择合适的抽象关系方面都有经验,参与过完整的设计、开发和测试流程;这些对于AI研究员和软件工程师来说都是基本要求。有句老话这样说,当一项人工智能技术成功之后,它就不再属于人工智能,而是成为了软件工程的一部分。人工智能工作者抱怨上述观点的意思就是他们的工作永远离成功有一步之遥,但你可以认为这表明你只是需要在已知的基础上再添加一些新概念和新技术。 人工智能在Google 问:Google“没有更好的算法,只是多了点数据而已”这种说法是真的吗? Peter Norvig:我曾引用微软研究院Michele Banko和Eric Brill发表的一篇关于分析词性辨析算法的论文,他们发现增加训练数据得到的效果提升比更换算法更明显。我说过有些问题确实如此,而另一些问题则不见得。你可以认为这篇论文是“大数据”的功劳,但要注意,在这个领域十亿个单词规模的训练数据集就能看出效果 —— 在笔记本电脑的处理范围内 —— 还不到数据中心的量级。所以,如果你用不了数据中心,不必担心 —— 你拥有的计算资源和数据量几乎完胜任何一个上一代的人,你可以有更多的新发现。 所以没错,大量与任务相契合的高质量数据必然会有帮助。然而真正有挑战的工作在于发明新学习系统的研究和让其真正落实到产品中的工程实现。这个工作正是大多数机器学习成功案例的驱动力。正如Pat Winston所说:“人工智能就像葡萄干面包里的葡萄干,葡萄干面包的主要成分还是面包,人工智能软件主体也是常规的软件工程和产品开发。” 问:成为一家“AI-first”公司对Google意味着什么? Peter Norvig:“传统”的Google是一个信息检索公司:你提供一个查询,我们快速返回10个相关网页结果,然后你负责找到与查询词相关的返回结果。“现代”的Google,CEO Sundar Pichai设定了愿景,它不仅基于相关信息建议,还基于通知和助理。通知,意味着当你需要时,我们提供你需要的信息。例如,Google Now告诉你该去赴约了,或者你目前在一家杂货店,之前你设定了提醒要买牛奶。助理意味着帮助你实施行动——如规划行程、预定房间。你在互联网上可以做的任何事情,Google都应该可以帮你实现。 对于信息检索,80%以上的召回率和准确率是非常不错的——不需要所有建议都完美,因为用户可以忽略坏的建议。对于助理,门槛就高了许多,你不会使用20%甚至2%的情形下都预定错房间的服务。所以助理必须更加精准,从而要求更智能、更了解情况。这就是我们所说的“AI-first”。 Peter Norvig 在 Google 问:你的职业生涯如何起步? Peter Norvig:我很幸运地进入了一所既有计算机编程又有语言课程的高中(在马萨诸塞州牛顿县)。这激发了我将两者结合起来学习的兴趣。在高中阶段无法实现这个想法,但是到了大学我主修应用数学专业,得以研究这方面(当时,我们学校并没有真正的计算机专业。我开始是主修数学,但很快发现自己并不擅长数学证明,反而在编程方面如鱼得水)。 大学毕业后,我当了两年的程序员,不过仍旧一直在思考这些想法,最后还是申请了研究生回来继续从事科研(我过了四年才厌倦大学生活,而两年就厌倦了工作状态,所以我觉得我对学校的热爱是对工作的两倍)。研究生阶段为我学术生涯打下了基础,而我却迷上了今天所谓的“大数据”(当时还没有这种叫法),我意识到在工业界更容易获得所需要的资源,因此放弃了高校里的职位。我感到幸运的是每个阶段都有优秀的合作伙伴和新的挑战。 问:你在Google具体做什么? Peter Norvig:在Google最棒的事情之一就是总有新鲜事;你不会陷入例行公事之中。在快节奏的世界中每周都是如此,当我角色改变之后,每年更是如此。我管理的人员从两人变成了两百人,这意味着我有时候能深入到所参与项目的技术细节中,有时候因为管理的团队太大,只能提一些高层次的笼统看法,并且我相信我的团队正在做的事情是正确的。在那些项目里,我扮演的角色更多的是沟通者和媒介——试图解释公司的发展方向,一个项目具体如何展开,将项目团队介绍给合适的合作伙伴、制造商和消费者,让团队制定出如何实现目标的细节。我在Google不写代码,但是如果我有一个想法,我可以使用内部工具写代码进行实验,看看这个想法是否值得尝试。我同样会进行代码审查,这样我就可以了解团队生产的代码,而且这也必须有人去做。 还有很多的会议、邮件、文档要处理。与其他我工作过的公司相比,Google的官僚主义更少,但有时候是不可避免的。我也会花一些时间参加会议、去大学演讲、与客户交流,以及参与Quora问答。 问:在加入Google之前,你曾担任美国宇航局(NASA)计算科学部门的主要负责人,在美国宇航局的工作与Google的工作有何不同?有哪些文化的差异? Peter Norvig:美国宇航局与Google有很多共同之处:它们都有一群优秀敬业并且充满激情的员工,这些人相信它们的工作使命。而且两者都在推动各自技术的上限。因此,他们在特定项目中的文化往往是相似的。 同时也存在一些差异。美国宇航局的Gene Kranz曾说过一句名言:“失败不是种选择(Failure is not an option)。”美国宇航局经常会有几亿美元的使命任务,任何一个错误都有可能毁灭一切。因此,需要极其小心。Google的项目范围往往更接近Adam Savage的想法(与Jeff Dean相互呼应)“失败自古至今就是一种选择(Failure is always an option)”。Google相信,单台计算机可能会发生故障,而设计网络系统可以从故障中恢复。在Google,有时我们可以在用户看到错误之前进行恢复纠正,而有时当一个错误曝光后,我们可以在简短的时间内纠正它,同时向受到影响的用户致歉,而这在美国宇航局是很少见的。 一方面是因为失败的预期成本存在差异,另一方面是由于空间硬件的成本巨大(参见我在那做的东西),再者就是政府与私人机构的差异,基于这一优势,Google更容易启动新项目,并在已有的项目中迅速推动新项目的进展。 问:你是如何权衡新功能的开发与旧功能的维护呢? Peter Norvig:尽你所能将任务做得最好,并且不断改进,这样就会得到提高。 我曾一次次地发现:团队的新员工说“我们为什么不使用X?”,一位老员工回答说:“我们三年前就试过了X,结果证明它并不管用”。此时的难题是:你是否接受那位老前辈的回答?或者说,现在的情况已经改变了,是时候重新审视X了?也许我们有新的数据,或者新的技术,又或者新员工将采取不同的方法,或者说世界改变了,X将会比以往工作得更好。我无法告诉你该问题的答案,你必须权衡所有证据,并与其他类似问题进行比较。 程序员提升之道 问:《人工智能:一种现代方法》还会有新的版本吗? Peter Norvig:是的,我正在为此努力。但至少还需要一年的时间。 问:我是一名研究生,我的人工智能课程使用《人工智能:一种现代方法》作为参考教材,我如何才能为人工智能编程项目做贡献? Peter Norvig:现在正是时候:我正在为《人工智能:一种现代方法》这本书的下一个版本的配套代码工作,在https://github.com/aimacode上,你可以找到Java、Python和JavaScript子项目,我们一直在寻找好的贡献者。除了提供书中所有算法的代码实现,我们还希望提供tutorial材料和练习。此外,GitHub上也还有其他好的人工智能项目,都希望有铁杆贡献者。 问:有没有像可汗学院(Khan Academy)和Udacity一样的在线资源,可以让人们在不到“十年”就精通一门学科呢? Peter Norvig:精通可能需要十年,或者是10000个小时,这种时间会因任务、个体以及训练方法的不同而有所差异。但真正的精通并非易事。可汗学院和Udacity主要是提供了技术培训,让你不断努力地学习直到你真正地掌握它。在传统的学校教学当中,如果你在考试中获得的成绩是“C”,你就不会再去花更多的时间去学习并掌握它,你会继而专注于下一个学科,因为班集里每个人都是这样做的。在线资源不是万能的,精通它需要加倍努力地学习,而学习需要动力,动力则可以通过人与人之间的联系逐步提升,这在网上是很难学到的。因此,在一个领域,走上正轨,我们需要在社交、动机方面做更多的工作,我们需要对个人需求有针对性地做更多的定制培训,同时我们还需要做更多使实践审慎和有效的工作。我认为,在线资源主要的最终结果不是缩短精通的时长,而是增加更多学生实现精通的机会。 问:如果请你再次教授《计算机程序设计》(Udacity)这门课程,会做哪些改变呢? Peter Norvig:我认为这门课程很好,反馈(不管是数量还是质量)大多都是好的。就个人而言,我希望有更多的实例程序和技术。我想修正之前我们犯下的一些错误(主要是因为课程进展太快,没有太多的时间去测试所有的东西)。我希望系统能够更加互动:让学生获得更多的反馈信息,不仅仅是“你的程序不正确”,同时可以让学生看到下一件要做的事情,让他们知道到目前为止已经做了什么。我认为对于学生而言,正则表达式和语言这部分进展速度过快了;另外,我还想添加更多的材料,让学生加快学习速度,同时给他们更多的机会去实践新想法。 本文基于Peter Norvig最近一次在线访谈,Norvig授权《程序员》翻译整理为中文

【原文转自新智元】

语音如何变成文字?这是一篇你能读懂的技术原理

简要给大家介绍一下语音怎么变文字的吧。希望这个介绍能让所有同学看懂。

首先,我们知道声音实际上是一种波。常见的 mp3、wmv 等格式都是压缩格式,必须转成非压缩的纯波形文件来处理,比如 Windows PCM 文件,也就是俗称的 wav 文件。wav 文件里存储的除了一个文件头以外,就是声音波形的一个个点了。下图是一个波形的示例。

图1.png

在开始语音识别之前,有时需要把首尾端的静音切除,降低对后续步骤造成的干扰。这个静音切除的操作一般称为 VAD,需要用到信号处理的一些技术。

要对声音进行分析,需要对声音分帧,也就是把声音切开成一小段一小段,每小段称为一帧。分帧操作一般不是简单的切开,而是使用移动窗函数来实现,这里不详述。帧与帧之间一般是有交叠的,就像下图这样:

图2.png

图中,每帧的长度为 25 毫秒,每两帧之间有 25-10=15 毫秒的交叠。我们称为以帧长 25 ms、帧移 10 ms 分帧。图中,每帧的长度为 25 毫秒,每两帧之间有 25-10=15 毫秒的交叠。我们称为以帧长 25 ms、帧移 10 ms 分帧。

分 帧后,语音就变成了很多小段。但波形在时域上几乎没有描述能力,因此必须将波形作变换。常见的一种变换方法是提取 MFCC 特征,根据人耳的生理特性,把每一帧波形变成一个多维向量,可以简单地理解为这个向量包含了这帧语音的内容信息。这个过程叫做声学特征提取。实际应用中, 这一步有很多细节,声学特征也不止有 MFCC 这一种,具体这里不讲。

至此,声音就成了一个 12 行(假设声学特征是 12 维)、N 列的一个矩阵,称之为观察序列,这里 N 为总帧数。观察序列如下图所示,图中,每一帧都用一个 12 维的向量表示,色块的颜色深浅表示向量值的大小。

图3.png

接下来就要介绍怎样把这个矩阵变成文本了。首先要介绍两个概念:

1.音素:单词的发音由音素构成。对英语,一种常用的音素集是卡内基梅隆大学的一套由 39 个音素构成的音素集,参见 The CMU Pronouncing Dictionary。汉语一般直接用全部声母和韵母作为音素集,另外汉语识别还分有调无调,不详述。

2.状态:这里理解成比音素更细致的语音单位就行啦。通常把一个音素划分成 3 个状态。

语音识别是怎么工作的呢?实际上一点都不神秘,无非是:

  • 第一步,把帧识别成状态(难点);
  • 第二步,把状态组合成音素;
  • 第三步,把音素组合成单词。

如下图所示:

图4.png

图 中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道每帧语音对应哪个状态了,语 音识别的结果也就出来了。图中,每个小竖条代表一帧,若干帧语音对应一个状态,每三个状态组合成一个音素,若干个音素组合成一个单词。也就是说,只要知道 每帧语音对应哪个状态了,语音识别的结果也就出来了。

那每帧音素对应哪个状态呢?有个容易想到的办法,看某帧对应哪个状态的概率最大,那这帧就属于哪个状态。比如下面的示意图,这帧对应 S3 状态的概率最大,因此就让这帧属于 S3 状态。

图5.png

那这些用到的概率从哪里读取呢?有个叫「声学模型」的东西,里面存了一大堆参数,通过这些参数,就可以知道帧和状态对应的概率。获取这一大堆参数的方法叫做「训练」,需要使用巨大数量的语音数据,训练的方法比较繁琐,这里不讲。

但 这样做有一个问题:每一帧都会得到一个状态号,最后整个语音就会得到一堆乱七八糟的状态号,相邻两帧间的状态号基本都不相同。假设语音有 1000 帧,每帧对应 1 个状态,每 3 个状态组合成一个音素,那么大概会组合成300个音素,但这段语音其实根本没有这么多音素。如果真这么做,得到的状态号可能根本无法组合成音素。实际上, 相邻帧的状态应该大多数都是相同的才合理,因为每帧很短。

解决这个问题的常用方法就是使用隐马尔可夫模型(Hidden Markov Model,HMM)。这东西听起来好像很高深的样子,实际上用起来很简单:

  • 第一步,构建一个状态网络。
  • 第二步,从状态网络中寻找与声音最匹配的路径。

这样就把结果限制在预先设定的网络中,避免了刚才说到的问题,当然也带来一个局限,比如你设定的网络里只包含了「今天晴天」和「今天下雨」两个句子的状态路径,那么不管说些什么,识别出的结果必然是这两个句子中的一句。

那如果想识别任意文本呢?把这个网络搭得足够大,包含任意文本的路径就可以了。但这个网络越大,想要达到比较好的识别准确率就越难。所以要根据实际任务的需求,合理选择网络大小和结构。

搭建状态网络,是由单词级网络展开成音素网络,再展开成状态网络。语音识别过程其实就是在状态网络中搜索一条最佳路径,语音对应这条路径的概率最大,这称之为「解码」。路径搜索的算法是一种动态规划剪枝的算法,称之为 Viterbi 算法,用于寻找全局最优路径。

图6.jpg

这里所说的累积概率,由三部分构成,分别是:

  • 观察概率:每帧和每个状态对应的概率
  • 转移概率:每个状态转移到自身或转移到下个状态的概率
  • 语言概率:根据语言统计规律得到的概率

其中,前两种概率从声学模型中获取,最后一种概率从语言模型中获取。语言模型是使用大量的文本训练出来的,可以利用某门语言本身的统计规律来帮助提升识别正确率。语言模型很重要,如果不使用语言模型,当状态网络较大时,识别出的结果基本是一团乱麻。

这样基本上语音识别过程就完成了。

以上介绍的是传统的基于 HMM 的语音识别。事实上,HMM 的内涵绝不是上面所说的「无非是个状态网络」那么简单。以上的文字只是想让大家容易理解,并不追求严谨。

【本文为知乎用户张俊博原创】

微软 CEO 纳德拉亲自撰文:人类与机器未来的关系究竟会如何?

编者注:人工智能(AI)技术在今年成为了一个热词,无论你是否了解它,每个人似乎都能发表两句自己的观点,但由此产生的人类与机器 的关系、失业问题、机器人统治世界等各式担忧也都浮出了水面。然而,人类和机器之间到底应该是什么关系?人工智能的未来究竟该是什么样的?微软公 司 CEO Satya Nadella 亲自撰文表达了自己的观点。

本文刊载于 Slate,原文标题为「The Partnership of the Future」http://www.slate.com/articles/technology/future_tense/2016/06/microsoft_ceo_satya_nadella_humans_and_a_i_can_work_together_to_solve_society.html)。


增 强机器学习(Advanced machine learning)也被称为人工智能(Artificial Intelligence),它在未来的前景远不止于靠在一些像象棋或围棋这样的比赛中击败人类而登上新闻头条这么简单。最终,人类和机器能够共同工作 ——而不是相互对抗。计算机也许能够赢得游戏的胜利,但想象一下人类与机器一起工作的画面吧,双方携手并进也许就能够解决像疾病、知识的匮乏以及贫穷这样 重大的社会问题。

然而,想要到达到这种程度,我们需要一个大胆而雄心勃勃的计划才行,这个计划要能够超越现有的事物。通过对现有技术渐进式的改良,我们能够实现它。现在到了与 AI 技术展开更广泛合作与协同的时间了。

在 今年年初同 Saqib Shaikh——这位开发了能在一定程度上帮助视力障碍人士技术的微软工程师——待在一起的时候,我对这个领域有了一些灵感。利用一些包括视觉识别、增强 机器学习等前沿技术,Saqib 和他的同事们开发了一些能在小型计算机上运行的应用,彼时,他总喜欢戴着一副墨镜工作。这项技术能够实时处理并解释数据。从本质上说,这项技术是用他的听 觉而非视觉描绘了一幅他心中的世界的样子。他感受世界的方式更加多样,比如能将走廊里的噪音联系到一副滑板,又比如将开会时突然的沉默联系到同事们正在思 考;他能用「听」的方式「阅读」菜单;但对他来说最重要的也许是,他能发现自己正在和亲人们一起在一个热闹的公园里野餐。

160628_FT_Nadella-Shaikh.jpg.CROP.promo-xlarge2.jpg

(左边的就是微软工程师 Saqib Shaikh,而他是一位盲人)

机 器与人类共同协作的美好画面在 AI 究竟是好的还是坏的这类争论中被忽视了,我们对 AI 的看法似乎陷入到了《2001:太空漫游》的场景与现在的个人虚拟助手(Cortana、Siri 以及 Alexa)之间去。当机器能够帮我们开车、帮我们做家务、帮我们更好地做决策时,我们可以更好地利用我们的闲暇时间去完成我们的梦想。当然,我们也可以 为机器人可能引起的巨大的经济混乱而感到担心。基于你所听取的意见,那个所谓的计算机的智能超越人类的「奇点」时刻既有可能在 2100 年左右出现,也可能只是科幻小说中的一个情节而已。

在我看来,最有成效的辩论不是 AI 是好还是坏,而是:这场辩论应该向人们及组织机构传递这项技术的价值。在《与机器人共舞》这本书中,约翰•马尔科夫写道:「回答一个充满了智能机器的世界 的控制权问题,最好的方式是去理解创造了这些系统的那些人们的价值观。」这是一个有趣的问题,也是一个我们这个行业必须讨论、回答的问题。

在 今年年初的开发者大会上,我分享了一套我们做 AI 的方法。第一,我们想要去开发一个能增强人类能力与体验的人工智能,最终,它不会出现人类 vs. 机器的画面。我们人类拥有创造力、同情心、情感、以及智慧,这些都让我们可以与强大的 AI 计算能力相结合,让我们的社会更快向前发展。第二,我们也需要对我们的技术建立信任。我们必须在技术中注入对隐私的保护、透明度以及安全性。AI 设备必须能检测到新的威胁,也要能设计出合适的方法去解决问题。第三,我们所有的技术都必须要包容、尊重每一个人。

这套方法是一个开始,但我们能走得更远。

科 幻小说作家阿西莫夫也提供了一套非常好、但最终不够完美的方法。在 1940 年代,他为自己小说中的道德准则提出了「机器人三定律」,阿西莫夫的定律是分层级的,第一定律优先于第二定律,第二定律同样优先于第三定律。第一定律是: 机器人不得伤害人类,或因不作为使人类受到伤害;第二定律:除非违背第一法则,机器人必须服从人类的命令;第三定律:在不违背第一及第二法则下,机器人必 须保护自己。每一条定律都不能相互违背。虽然阿西莫夫的定律很有启发性,但它没有为科技公司和研究人员提供清晰的价值观和设计准则;也没有告知社会人类应 该在新的时代所必须具备哪些能力。

i-robot.jpg

计 算机领域的先驱 Alan Kay 讽刺道:「预测未来的最好的方式就是自己去发明一个。」在 AI 的话语中,他的基本观点认为,我们要停止去预测未来会是怎样,而是应该用符合规律的方式去创造未来。我同意这个看法。就像软件设计中遇到的挑战一样,符合 规律的方法开始于你所立足的平台。在软件开发领域,AI 正在变成第三代的「run time」——下一代的运行平台。在计算机领域,「run time」就是程序员开发和执行应用程序的顶部系统。换句话说,我们开发 Office,里面是为了 PC 而生的 Word、PowerPoint 这样的应用;而今天的 Office 365 则是为了网页而生的。在一个 AI 和机器人的世界里,这样的生产力和沟通工具将会在一个全新的平台中开发,它将不会只是管理信息,它还能从信息中学习,并且和真实的世界展开交互。

这 个新的平台看起来正在被创造。我还记得比尔•盖茨在 1995 年发给所有微软员工的「互联网浪潮」备忘录,他在里面预测,互联网将会在连通性、硬件、软件开发及商业上都带来巨大的影响。20 年之后,我们正在面临一场新的浪潮——AI 浪潮。所以,指导我们的思维、设计及开发的通用设计原则和价值观应该是什么?

有些人正在成为解 决这个问题的领先者。来自 MIT 传媒实验室的 Cynthia Breazeal 将她的生活投入到了探究一个更加人性化的 AI 与机器人当中去。她认为,技术往往会忽略社会及人类行为方面的考虑。在最近的一次对话中,Cynthia 认为,我们人类是所有物种里最社会化、也是最富情感的一个,但我们很少花时间去思考设计和技术中的情感元素。她说道:「毕竟,我们感知世界的方式是通过通 信和协同的方式进行的,如果我们对帮助我们工作的机器感兴趣,那我们就不能忽略其中的人文因素。」

为此,我已经意识到了哪些原则和目标是我们这个行业和社会应该去讨论和辩论的。

  • AI 必须以帮助人类的形式而设计:作为我们开发的更加自动化的机器,我们需要尊重人类的自主权。协作式机器人应该去做那些更加危险的工作,比如采矿,这样,我们能够为人类工人创造一个更加安全的保障。
  • AI 必须是透明的:我们应该了解这种技术的运行原理和他们的运行规则。我们需要的不仅仅是智能的机器(intelligent machines),而是可理解的机器(intelligible machines);不是人工智能(artificial intelligence),而是共生智能(symbiotic intelligence)。技术要能理解人类,而人类也必须要了解机器。人类应该明白技术是怎样「看」这个世界、「分析」这个世界的,这样能让道德和设 计携手并进。
  • AI 必须在不伤害人类尊严的条件下将效率最大化:它应该要有文化上的承诺,让多样性得到增强,我们需要在设计这些系统时对不同的族群有更宽广、更深远和更多样化的考虑。科技产业不应该规定人类未来的价值观和道德观。
  • AI 必须为智能化的隐私而设计:用值得信任的精细化保护手段保证个人及群体的信息安全。
  • AI 必须有算法上的问责制,这样人类就能处理意外出现的伤害。我们必须在设计这些技术时考虑到意料之中及意料之外的双重情况。
  • AI 必须对偏见有所防范,它要能保护正确和有代表性的研究。这样,错误的诱导不会让它变得带有歧视性。

但这些所有的「必须」也是为人类设计的,特别是当它涉及到我们后代的未来所应该具备的技能时。为了保证一致,我们的下一代以及之后的小朋友们应该具备:

  • 同情心:同情心是如此难以复制到机器上,它将会在一个 AI 的世界中对人类来说格外有价值。理解他人的想法和感受,与他人合作并建立良好的关系,这些在未来都将至关重要。
  • 教 育:有些人觉得,因为人的寿命会增加、出生率会下降,这会导致我们在教育上的支出也会下降。但我坚信,如果想要创造和管理我们今天还无法实现的创新,我们 需要增加教育投资去获得更高层级的思维以及更公平的教育成果。开发新的知识和技巧让新技术能够大规模实现,这需要很长的时间来解决。在创新、技术、薪资和 财富这不同元素之间有着直接的联系。动力织布机在 1810 年就发明了,但花了 35 年的时间才改变了织布行业,这是因为没有足够的技术工人。
  • 创 造力:在人类所有的技能中,最令人垂涎的就是创造力了,而这也不会改变。机器将会继续丰富并增强我们的创造力。在最近的采访中,小说家 Jhumpa Lahiri 被问及为什么一位具有如此特殊的英文能力的作者会选择用意大利语——她的第三语言——去创造一种全新的文学语言,她的回答是:这不就是来自创造力的观点 吗?我们需要持续去探索。
  • 判断力和问责制:我们也许会愿意接受计算机给出的诊断或法律裁决,但我们仍然期待会有一个人出来为最终结果承担责任。

那 么如何才能平等呢?自动化将会导致更平等还是更不平等呢?一方面,我们被告知不必为此担心。在历史中,人类劳动力被替代之后,工人们总是变得更加富裕而不 是更穷。另一方面,我们也被告知,经济领域的替代现象如此剧烈,企业家、工程师和经济学家们都应该面对这个「新的挑战」——去补充而不是替代人类劳动力的 设计承诺。换句话说,我们的商业领袖们必须用制造者和创造者的思维去代替之前那种节省劳动力的自动化思维。

AI 的轨迹和他们对社会的影响才刚刚开始。想要真正抓住这个未来时代的意义,我们需要深入的、多样化的分析。我在微软研究员的同事 Eric Horvitz 是 AI 领域的先驱,他寻求这方面问题的答案已经很多年了。Eric 和他的家人已经在以私人名义支持斯坦福大学的「百年研究计划」,为了将要到来的新世纪,他们每年会推出一个有关社会经济、法律和道德方面可能与智能计算有 关的长期及短期报告,同时它也会提供机器智能方面的观点变化和人机关系方面的变化。

虽然前面没有什么已经设计好的路线,但通过之前的工业革 命,我们已经看到了社会的变革不会是一帆风顺的。第一,我们要发明和设计的革新性技术是我们赖以存在的东西。第二,我们要改造我们的未来。举个例子,无人 机驾驶员可能需要训练;老式的方向盘可能不会存在了,它将会变成自动驾驶汽车。第三,我们要解决扭曲、不和谐和错位的现象。当机器能够更好地解读 X 光图时,放射科医生的职责会是什么?当计算机能够检测数百万份不同形式的文件时,律师的功能是什么?然而,如果我们已经整合了正确的价值观和正确的设计原 则,如果我们已经准备好了我们人类所需要的技术,那么我们人类和我们的社会将会迎来蓬勃的发展。

为《纽约时报》撰文的认知科学家与哲学家 Colin Allen 总结道:「就像我们能够设想机器可以在人类的监督下获得更高的自主权,我们也可以设想机器的控制权会涉及到更加敏感的、道德方面的内容。但可以确定的是,没有完美的机器,只有更好的机器。」

在追寻 AI 的过程中,下一个最关键的步伐是去在其设计中允许加入道德和同情心的框架。

【原文转自极客公园】

微软CEO:人类是AI最好的老师

昨天,微软CEO Satya Nadella在Slate上表示:计算机行业必须开始思考如何让智能软件尊重人类。这表明:他非常担心AI对人类生活的影响。

他写道:“科技行业不应该扭曲未来的价值观,我们应该教会AI树立正确的价值观。”

Nadella呼吁:“算法有责任拥有一个正确的三观,这样人类才不会受到伤害。”他表示智能软件必须这样设计:我们必须检阅算法的工作方式,让它不歧视某类人群,或者用暗黑的方式使用私人数据。

其实,Nadella的建议是明智而中肯的。一直以来,AI总是被指控腹黑,存在着性别或者种族歧视。我们现在正在努力摆正AI的三观,让人们不会为AI的此问题困扰。

联邦贸易委员会的研究发现:在互联网时代早期出现的网络种族和经济歧视现在又卷土而来了,出现在广告或者其他的网上服务之中。

毋庸置疑,Nadella说的一些问题确实存在。近日,微软研究员Kate Crawford在《纽约时报》总结了现在AI的歧视现象:现在,工作场所、家庭、法律系统中使用的微软都不公平。

关于未来AI的发展方向,Nadella是这样说的:AI的下一步发展,便是尊重种族和性别平等。

正如没有哪个孩子天生就是一个性别歧视者或种族歧视者,那些都是被教出来的。AI也是这样,而人类就是最好的老师。

谷歌远征教育的路上说不上成功,但你不得不服

这两天,谷歌推出积木式编程教育平台Project Bloks,以及宣布要把VR带入课堂的消息,让不少人兴奋了一把。毕竟,在大家盯着VR游戏和羞羞事的时候,大佬出来带头做教育。有盼头啊!

谷歌远征教育的路上说不上成功,但你不得不服

然而,搜索巨头谷歌搞教育也不是一天两天的事了。而且,地域也早已超越美国,远征非洲。但是,高潮似乎还没到。

谷歌远征教育的路上说不上成功,但你不得不服

再但是,管它呢~ 醉翁之意不在酒

第一战:工具先行,硬件跟上

先是一款让在线教育能够动起来的Oppia

2013年7月份,谷歌推出一个名为Helpouts的在线教学网站。2013年底,谷歌推出互联教室(Connected Classroom)。先热身。

而在2013年在线教育开始热起来后,谷歌继续在2014年2月也推出一款在线教育工具Oppia。这可以说是谷歌为在线教育生态放出的第一个大招,让软件先high起来,云端管理硬件支持什么的都是后话。

谷歌远征教育的路上说不上成功,但你不得不服

之所以说Oppia是第一个大招,是因为这件工具给视频和学生这样的单向在线教育一个大大的耳光——Oppia让在线教育可以互动起来。

怎么说呢,其实就是有了这个工具,学生换个地方被“老师”虐。

谷歌远征教育的路上说不上成功,但你不得不服

Oppia是一个开源项目,它的工作过程是这样的:通过模拟一位导师向学员提问,基于学员的回答,导师决定下一问题的内容,信息反馈,是否进行进一步考察,或是否开始学习新内容。

这些活动可以由多名用户通过Web界面创建,不需要编程经验,也不受地理位置限制。所有用户在这里都可以方便地创建在线互动活动,然后让其他人参与学习。

看视频在线学习,你就是在学习;用Oppia学习,你还能虐完自己后虐别人。这叫“授人以鱼不如授人以渔”。

谷歌远征教育的路上说不上成功,但你不得不服

不过,Oppia一直以来出于无人监管的放养状态,谷歌也曾特别发出免责声明。现在也是不温不火。

谷歌远征教育的路上说不上成功,但你不得不服

然而,不管说这是西方实用主义也好,还是我们老夫子说的“授人以鱼不如授人以渔”,用技术培养技能就是谷歌搞教育的风格。

硬件到位,谷歌推出教育应用套装

谷歌教育系统中底层的硬件设备其实在2011年就推向市场了,首先是覆盖率的问题,它跑龙套好多年后才成为重要角色。

2015年,Chromebook在教育市场的份额已经占到一半以上,超过iPad、MacBook等苹果产品以及微软的Windows产品。

谷歌远征教育的路上说不上成功,但你不得不服

到了这个时候,可以说是谷歌教育开始大规模展开的时代。

谷歌远征教育的路上说不上成功,但你不得不服

而随着硬件Chromebook的推广,2014年8月13日谷歌推出了“课堂”(Classroom)服务,这是谷歌免费提供的教育应用套装(Apps for Education)的一部分。

说起这个套装,那是比全家桶要厉害多的。

谷歌远征教育的路上说不上成功,但你不得不服

当时,谷歌整合了旗下的效率工具应用到教学中,包括Gmail、Google Classroom、Google Docs、Google Drive、Gtalk、Google Calendar、Google Tasks、Google Maps等,让教师可以随时布置、检查作业、回答问题,学生也可以随时交作业、管理日程、提问等等。就是尽力消除一切阻碍学习效率的因素。就是说,你还有 什么理由忘记做作业以及拖延作业?

不知道美帝的学生哥们会不会得一种叫笔记本恐惧症的病?——打开笔记本,“喂,交作业啊~”(一脸冷淡)

谷歌远征教育的路上说不上成功,但你不得不服

“占据美国教育市场一半以上”,对此你想到的可能是赚得红红火火。然并,在基于ChromeOS的Chromebook笔记本项目上,谷歌扮演的是“科技慈善家”。谷歌没有在Chromebook上获得真金白银的收入。

因为,Chromebook用的ChromeOS操作系统,是由谷歌免费提供给电脑厂的。在这里面,获利的是电脑厂商。

那么,谷歌想不想赚钱呢?

大约两年前,谷歌发布了一个教育版的Play Store,即Play for Education项目。

谷歌远征教育的路上说不上成功,但你不得不服

谷歌推出该项目的目的,是在美国教育界推广Android平板电脑。但是,这没有让Android平板电脑在市场中的地位有多大提升,而是给了Chromebook笔记本电脑一个助攻,后者在教育市场占有重要份额,这还引起了苹果和微软的担忧。

当 时,由于Chromebook的出色表现,微软还曾被迫下调Windows授权费。一直以来,OEM厂商需要向微软缴纳每台50美元(约合305元人民 币)的Windows授权费用,而谷歌则是免费向OEM厂商提供和Android和Chrome OS系统,二者在推广系统的做法上天壤之别。为了能够与谷歌竞争,微软将下调Windows系统授权费用,并推出更多廉价Windows设备来与 Chromebook对抗。

而那个Play for Education项目项目,也在2016年2月被关停了,因为谷歌不需要它了。从根本上说,谷歌目前在教育市场的重点是Chrome——而不是安卓平板。

谷歌远征教育的路上说不上成功,但你不得不服

然而,你以为谷歌这就完了吗?在教育市场这一块,谷歌继续主动出击!

Chromebook提供了一个可通过云端访问Windows应用的功能。

2014年4月,WindowsXP开始退出历史舞台,那么,大批的Windows XP用户会在那时放弃Windows XP而升级Win7、或者Win8.1。

而在谷歌推出这项服务之后,这部分用户多了一个选择,那就是Chrome OS。。。。。。求微软高管此时心理阴影面积。

谷歌远征教育的路上说不上成功,但你不得不服

理论上说,未来随着Chrome OS用户数量的提升,其应用商店的价值会像Applestore一样,随之而来的是付费应用的收入、免费应用网站的收入。占领了教育和低端笔记本市场后,这几乎是稳赚不赔的事儿!

不过,这到现在还没发生,目前这些应用仍是免费的,谷歌似乎也没有特别投入去运营。反正,你们先用着吧……

第二战:零基础教育

培养程序员计划

谷歌为IT界人才可谓操碎了心。他觉得人们不会编程实在太可怜了,很多问题都没办法自己解决。于是,决心用技术武装人类。

谷歌远征教育的路上说不上成功,但你不得不服

过去,除了教育全家桶,谷歌还有很多好好玩的教育产品。比如“谷歌涂鸦”、“安卓训练营”、“计算机领袖”等,在此不做赘述。在这里,我们要重点介绍的是谷歌的小伙伴——Udacity,因为谷歌推出了一个可以让你零基础变身代码猴的产品。

谷歌远征教育的路上说不上成功,但你不得不服

上周,谷歌宣布通过在线平台Udacity提供“Android基础微学位”课程,这是首个面向无经验人士的“微学位”课程。

谷歌远征教育的路上说不上成功,但你不得不服

这个酷毙了的平台Udacity,其实也是前谷歌一个酷毙了的员工创立的。

Udacity公司创始人、总裁兼CEO塞巴斯蒂安·斯伦(Sebastian Thrun)是Google X 实验室的联合创始人,斯坦福大学终身教授,参与了很多酷毙了的项目,也被誉为“谷歌无人驾驶汽车之父”。喏↓

谷歌远征教育的路上说不上成功,但你不得不服

2012年,斯伦创建了Udacity,将大学课程免费放到互联网上,让更多人受益。

在2015年I/O的演讲上,斯伦说,他觉得斯坦福的有很多用户权限制,在他不知道的地方,有很多人其实更需要他。

谷歌远征教育的路上说不上成功,但你不得不服

好吧,认真地来说说。

“我 开始意识到,我们的社会有一些做的不好的地方,教育资源的分配不平等,我们的教育模式不对,没有关照到每个人,所以,该是我wake up 并做点什么的时候了。所以我们建立了Udacity,唯一的目标就是:Democratize Education (让教育民主)”

“我 们相信:if you give a man a fish, or a women, the person has dinner for one night, but if you teach him or her how to catch fish, they have food for the rest of their lives.”(授人以鱼不如授人以渔)

再一次出现。

谷歌项目经理表示,谷歌希望让所有人都可以接触并理解Android开发。无论你是什么背景,都可以学习开发能改善周围人们生活的应用。“我们有让你达到与Goolge工程师相等的水平的能力!”

谷歌远征教育的路上说不上成功,但你不得不服

所以再不学你好意思吗?妹子问你安卓卡死了该怎么办你可如何是好?

具体来说,Udacity借鉴Uber的模式,把“打分评价”的事情众包给世界各地的专业人士,当然他们大部分是程序员。有些“打分专家”因此每月挣得钱可以11300美元——比当程序员挣得都多。

又是一个虐完自己虐别人的故事。

玩具模块学编程

编程要从娃娃抓起

谷歌近日发布全新的开放硬件平台Project Bloks,让儿童可以通过玩具方块学习编程。《连线》撰文指出,在谷歌看来,编程教育的未来是玩具方块。

牛人的世界我们是不理解的。

谷歌远征教育的路上说不上成功,但你不得不服

编程代码晦涩难懂,谷歌立志要将它变成一种游戏。

他们设计了一套能够组装形成程序的方块(包括物理方块和电器方块)。利用这些方块,你可以拼出乐器程序、自动化玩具或者可以用来给智能手机和平板电脑发送信息的设备。相当于“电子积木”。

说道这里,你感受到谷歌的真心了吗?

谷歌远征教育的路上说不上成功,但你不得不服

第三战:新硬件时代,VR也要用来玩教育

谷歌旗下的教育产品分为三类:免费的工具类软件、Google Classroom课堂解决方案,以及硬件。不管那个年代新兴、流行的什么技术,谷歌都要用他来搞教育。

去年9月,谷歌推出了探索计划(Expeditions Pioneer Program)。

这个设想很简单:VR技术兴起后,谷歌想要带孩子去到校车到不了的地方。

这个计划需要的装备也不多,就是谷歌已经正式发布教学应用Expeditions+cardboard

谷歌远征教育的路上说不上成功,但你不得不服

与普通的谷歌Cardboard不同,专为谷歌探索先锋项目设计的VR头显上有鱼、行星以及卡通地标的剪影,还有金色的星星和缤纷的彩色印记。然后老师就可以带学生们开启虚拟课堂之旅!

这种教学方式可能无法用于难度教学,但是体验性的课程,杠杠的。至于近视眼什么的问题,不知道谷歌要如何权衡呢?

故事讲得差不多,最后拔高一下:

谷 歌用技术推动教育的路子,无非是:工具先行,整合软硬件搭建底层平台。该公司没有在教育市场获得太多直接受益,9.9包邮的cardboard除了出货量 还能有什么?我们或许可以将其视为理想主义式的浪漫尝试。谷歌VR教育的做法,与想趁着VR热在教育市场大捞一把的企业相比,还真说不到一块,除了大家能 做的事情都还不太多。

业内人士认为,这样的做法,其实是想要跨越经济让科技与文化触及更多人。

【转自雷锋网】

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

今年8月,雷锋网将在深圳举办盛况空前的“全球人工智能与机器人峰会”,届时雷锋网将发布“人工智能&机器人Top25创新企业 榜”榜单。目前,我们正在逐一拜访人工智能、机器人领域的相关公司,从中筛选最终入选榜单的公司名单。如果你也想加入我们的榜单之中,请联 系:2020@leiphone.com。

前几天,雷锋网(搜索“雷锋网”公众号关注)小编为大家深八了好多学术大咖,一个个简直碾压……

But!如果说其它参加CCF-GAIR的大牛们是学霸,那你只能用“学神”来形容琳恩•帕克了。

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

因为,她本科和硕士都是以满绩从田纳西大学毕业的……

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

而博士嘛,有点可惜,没能拿5.0。

但是人家的绩点是4.9好吗!

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

琳恩•帕克的主要研究方向是异构多机器人合作,而且还顺手辅修了大脑认知科学的相关知识。

因为帕克在毕业之时有着几乎完美的履历,所以非常顺利地就到了美国能源部所属最大的科学和能源研究实验室——橡树岭国家实验室担任研究员,主要还是她的老本行:异构分布式机器人。

或许帕克对自己的母校还是怀有深厚的感情,所以在2002年之后,她又重回学校执教,与此同时,帕克还建立了分布式智能实验室,并从事协作机器人及人工智能的研究。目前,帕克的主要研究方向是分布式智能系统的计算化——特别是物理层面的,比如多机器人及传感器网络。

而说了这么久的异构多机器人、分布式智能系统的,这到底是个啥玩意儿?

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

简单而言,多机器人系统指的是通过组织多智能体系统,并协作完成某一共同任务的机器人群体。而其中,协作性是多机器人系统的重要特征和关键指标。

这和之前介绍的另一位CCF-GAIR嘉宾迈克尔·伍尔德里奇所研究的方向有些类似,但琳恩•帕克更关注实践领域,来看看她的得意之作吧:

这个由她经手的早期DAPRA项目,主要是针对现有的多机器人在搜索环境下的能力及局限性进行设计的。从路径规划到环境研究,甚至到搜索概率的预判,都结合了通信及算法的权衡。

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

而 下面的这个DARPA项目是为了解决室内搜索的问题,由科学应用国际公司(SAIC)牵头,田纳西大学、Te琳恩•帕克cordia及南加州大学一同完成 的。这一批机器人能够利用新型的协成控制算法探索一层未知的楼层。而更重要的是,这些萌萌哒机器人的自动化程度已经达到一定水准,研究者只需要在一个完善 的用户界面上进行简单的操作,它们就可以动起来了!快没电的时候,它们还会自己跑回“大本营”充电噢。

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

如果它不说自己是史上最复杂的多机器人系统,哪就没有系统敢说是第一了。别小看这几个小家伙,它们可是能够进行导航援助的自动异构机器人团队。涉及多个组件的配合,从标记检测、自主操控、颜色标记、激光定位、基于地图的路径规划,都可以让它们“一手包办”。

其实,机器人也是人(大雾),所以它们也是难免会犯错误的。于是,为了提高机器人的容错能力,琳恩•帕克开发了一个基于机器学习的故障诊断系统(Learning-based Fault diagnosis),简写为LeaF(这强行缩写我也是醉呢)。琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

目前,她已经发表了135篇学术论文,包括6本已经出版的专业书。

除了在学校搞搞科研,我们的琳恩•帕克大神当然不会闲着,她还是美国国家科学基金会(NSF)信息及智能系统(IIS)部门主任,(顺便)当当IEEE院士。同时,她也担任IEEE RAS的行政委员会成员以及多个顶级学术期刊的总编。

而除了笔耕不缀外,琳恩•帕克还经常在公开场合发表演讲,阐述她能人工智能的理解。

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

想必你对这位大神也充满了崇拜,心里也一定有很多问题想咨询她,好了,现在进入Q&A时间!

(友情提示,以下问答由琳恩•帕克在公开场合的演讲/采访整理而成)

Q:您对人工智能的理解是怎样的?

A:由于人工智能将人类从无意义的劳动中解放出来,它会让人类有更多时间和精力去创造。我认为,人类有机会抓住这个机遇,从无聊繁琐的事务中脱离,从事更多有意义、有创造性的事情。至于我们能否把握这个机会,需要我们去探索答案。

(画外音:从此过上只吃饭不干活的生活……)

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

Q:对于人类,您感到最惊讶的一点是什么?

A:那就是,我们不完全明白大脑是如何工作的。事实上,人类大脑所做的工作是如此惊人,它是如此有力和富有适应性。你花费很多精力投身于建立人工智能系统的事业,其实只算得上人类大脑的一部分。

(画外音:机器人想统治地球什么的?还是先歇歇吧)

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

Q:琳恩•帕克大大,您印象最深的一个和人工智能有关的设备是什么?

A:印象最深的是人们根据Roger Ebert以前的许多影评来提取他的声音,并以此创造了一个不错的语音合成器。这其中涉及了许多信号处理与理解人类语言的工作。我认为这很酷,而且效果也不错。人们可以听到他的声音,而不是来自于合成机器的。

(画外音:Roger Ebert是美国一个著名的影评人,于2013年因癌症离世。)

Q:您最喜欢的一部科幻电影是什么?

A:我最喜欢的科幻电影是那些人工智能在里面发挥积极作用的电影,而不是人工智能毁灭世界的故事。我喜欢的电影是《机器人总动员》,因为它的故事告诉我们,机器人可以有情绪。人工智能系统可以没有情绪,但情绪能让人和它有更多的互动。而且,这个小家伙在最后帮了人类的大忙。

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

我比较倾向对人工智能的这类描述,因为我觉得这些才是真的。人工智能可以为社会做一些真正有益的事,而现在太多的科幻电影把目光放在了消极的一面。

(画外音:看来琳恩•帕克大神和薛之谦的心愿是一样一样的啊!)

琳恩帕克:调教一个机器人不难,她要教一群机器人自动“聚沙成塔”

在琳恩•帕克的眼里,即使人工智能有情绪,也不存在所谓的威胁。对于现在非常流行的人工智能威胁论,你有什么想和琳恩•帕克探讨的吗?欢迎报名参加8月份的CCF-GAIR大会吧!

【原文转自雷锋网】

刷脸识“网红”机器人还嫩点

王昱珩在“寻找网红童年照”环节进行观察。

人脸识别机器人“蚂可”。

6月30日下午5时许,杭州西湖区凤凰创意园一会场,一场人机识别极限对抗大赛正在进行。决战双方是有着超强微观识物能力、人称“鬼才之眼”的 王昱珩和人脸识别机器人“蚂可”。双方挑战的“道具”———50名青春靓丽的网络红人身着统一的服装站在舞台一边,舞台另一侧大墙上密密麻麻地贴着数百张 姑娘们的自拍照。

在公证员的见证下,观众从现场网红中随机抽取数位。对战双方需要对被选中者进行观察后,再从照片墙中挑出对应的照片。比赛共分三场且难度依次递 进,前两个回合,双方打成平手。第三轮的“寻找网红童年照”却将人机双方置于极限挑战之中:十多年的成长脱变足以让人的容貌发生巨大改变,辨识难度巨大。 21分48秒,王昱珩率先按下按钮,提交答案。7分钟后,机器人“蚂可”也完成了识别。答案揭晓:王昱珩成功认出一位网红的童年照,并放弃辨认另一位,而 此轮“蚂可”辨识的两位网红照片都出现差错。

赛后,王昱珩笑称事先并不知道比赛内容也未经彩排,“她们(网红们)的变化真的太大了。”人脸识别机器人“蚂可”的研发团队负责人陈继东则说,人和机器各有所长,此次和人类最强大脑的P K,说明机器学习人类的大脑,“还有一段路要走。”

 历史

  利用人脸识别身份从“找规律”到“对号入座”

“利用人脸识别身份”,人类的这个想法其实早在百年以前就已经出现。早在1888年,达尔文的表弟、英国科学家弗朗西斯·高尔顿,在发表于《自 然》杂志上的文章《对于人的识别与描述》就提出,用一组数字代表不同的人脸侧面特征,并且还对人类自身的人脸识别能力进行了分析。有关“自动人脸识别”最 早的研究论文,至今也有五十年的历史。

直到上世纪九十年代,人脸识别一直都未能突破最初的瓶颈。这项技术在一开始被研究者们认为是一个一般性的模式识别问题,通俗地说就是“找规律”。不过,最初的这三十余年间,研究者们并没能取得多少非常重要的成果,更不要说“投入应用”了。

进入20世纪90年代,麻省理工学院人工智能实验室的一次实验,在对比了基于结构特征和基于模板匹配两种方法的识别性能之后,得出模板匹配的方法。其识别性能,要优于此前“基于特征”的方法。这次试验,基本终止了此前研究者们“找规律”的研究思路。

从1991年到1997年,基于“模板匹配”方法,诞生了若干具有代表性的人脸识别算法。最负盛名的当属麻省理工学院特克(T urk)和潘特(Pentland)提出的“特征脸”。这一方法的思路,是将许多张人脸图像变换到另一个子空间,将图像“降维”,用向量的形式表现出来, 并在平均后得到平均向量,也就是一张“平均脸”。进而再通过计算得到“特征向量”即“特征脸”,并通过对每张人脸与“特征脸”相似性的计算,来实现最终的 “识别”。和之前“找规律”的思路相比,这种思维更酷似于“对号入座”。

 学习

  “训练”机器人让人脸识别真正“落地”

与此同时,人工智能的发展也进入了新的阶段。人们不再满足于将计算机仅仅当成一种工具,而是在思考能否建立、模拟出人脑进行分析学习的神经网 络,让机器能够模仿人脑的机制来解释数据。通俗地说,人们想让机器具备思维的能力,如同Google资深院士Jeff Dean所言,“我们现在最需要从机器学习中取得的是‘理解力’”。

2006年,基于这种想法,英国科学家H inton以自己此前对“人工神经网络”的研究为基础,提出了“深度学习”的概念。此后的几年里,H inton和他的N CA P团队逐渐建立了有效的深度学习算法,并且在2012年的Im ageN et比赛中完胜其他参赛团队。利用深度模型在竞赛中学习得到的特征,可以被广泛应用到其它数据集和各种计算机视觉的问题。而由Im ageN et训练得到的深度学习模型,更是推动计算机视觉领域发展的强大引擎。

2013年,Im ageN et大规模物体检测任务挑战中最高的检测率只有22.6%。目前,香港中文大学由欧阳万里、王晓刚和汤晓鸥教授带领的D eepID团队,将此项成绩大幅提高至50 。3%,达到全球最高。而在此之前,D eepID团队还在LFW人脸识别挑战上战胜了Facebook,并在全世界范围内首次实现了机器人脸识别算法超越人眼,获得了高达99.15%的识别率。

一旦具备“深度学习”这种能力,机器的人脸识别功能就可以变得无比强大。机器不再需要人为输入算法来指示它进行对图像的判别,而是在一种更高阶 的体系下,让机器更加自主地完成这项工作。学界广泛认为,深度学习是过去十年中人工智能领域的最大突破,在计算机视觉、语音识别、自然语音处理等领域有许 多应用。《麻省理工科技评论》还将其列入2013年10项最具突破性技术。

应用

  从实验室进入商用刷脸需降低错误率

近两年,深度学习和大数据两项技术的相互作用,大大提高了人脸识别的准确率。生物识别智能开始进入商用,尤其是金融领域,成为数家互联网公司竞相追捧的香饽饽。在不久的将来,人脸识别技术或将逐步可以取代密码和手机短信校验码,用于互联网金融的身份验证基础平台。

资深专家陈继东表示,人脸识别的互联网级应用和金融级应用存在很大区别。“身份被盗用,直接导致财产的损失。”他指出,在金融行业,对人脸识别 技术的误识率要求非常高。“人脸识别的现实应用,不仅要做到在一堆照片中将同一个人识别出来,也需要将不同的人也能区分出来,这才是最难的一点。”陈继东 强调,识别率和误识率应该综合起来看,尤其是在金融行业,必须把错误率设低。

这一点,绝非危言耸听。人脸识别从实验室进入商用,尤其是金融领域,一个大的技术难点,就是如何防伪造,比如用照片或者视频来代替真人。不过, 大量图片数据被抓取,也让人担心用户的隐私信息是否会遭到泄露。对此,与陈继东团队合作研发人工智能机器人的旷视F ace+ +市场负责人谢忆楠解释称,人脸数据的存储是经过加密处理的。即使泄露,被人拿走的图片也是焦的,黑乎乎的一片,只有算法才能还原,普通人根本看不懂。同 时,数据源也在国家的有效控制之下,一般只有具备经营资质的企业才能开通此项业务。他认为,生物识别智能进入商用,尤其是金融领域,很有必要运用多种生物 特征交叉比对验证。也就是说,除了人脸识别,还要综合运用指纹识别、声纹识别、眼纹识别等多因子生物特征,更好、更安全地服务用户。

  揭秘

  如何训练人工智能机器人

谢忆楠介绍,所谓深度学习,打个形象的比喻就像是在“教小孩儿”。在深度学习的程序中,第一个步骤是人脸检测,即在一张照片中把人脸结构勾画出来。随后 就要在人脸上进行关键点标注,这一步相当于“训练”程序学习观察人脸部特征。“这相当于一个监督式学习,我们会告诉机器人这个人到底是不是一个人。”久而 久之,机器人会得出一些关键点参数。

谢忆楠向南都记者举例,人的两个瞳孔就是两个关键点,瞳距在判断人脸是否为同一人的过程中所占权重较高。众多关键点之间相互联系,形成一个统一 的函数,该函数再对应不同人脸形成一个独有的数值。“每个人脸都有属于自己的数值”,谢忆楠说。以蚂可为例,它识别用户人脸是从二维图片中提取600多个 关键点,进行交叉验证和动态识别。

原文转自新浪科技,链接:http://tech.sina.com.cn/it/2016-07-01/doc-ifxtsatm1103982.shtml?cre=techpc&mod=inf&loc=1&r=0&doct=0&rfunc=71

超过80%语音开发者的共同选择