初学者不可错过的分布式机器学习4大知识点 | AI知识科普

分布式机器学习成功解决了大量具有挑战性的关键问题,今天晚上班主任就来和同学们聊一聊分布式机器学习起源、流程、算法以及目前流行的分布式机器学习平台。

随着“大数据”概念而兴起的分布式机器学习,在人工智能的新时代里解决了大量最具挑战性的问题。

近几年,机器学习在很多领域取得了空前的成功,也因此彻底改变了人工智能的发展方向。大数据时代的到来一方面促进了机器学习的长足发展,另一方面也给机器学习带来了前所未有的新挑战。

在这些发展与挑战中,分布式机器学习应运而生并成功解决了大量具有挑战性的关键问题,今天晚上班主任就来和同学们聊一聊分布式机器学习起源、流程、算法以及目前流行的分布式机器学习平台。

1、起源:大数据和大模型带来的挑战

在开始聊起源之前,我们先来看张图:
1

 

这张图是展示了ImageNet近几年的错误率,2011年的时候错误率还将近有25%,这样的错误率很难运用到实际应用中。到2015年,ImageNet错误率已经降低到3%左右,比人类的错误率(5%)还要低, 短短的4-5年时间,机器在ImageNet上的识别率便超过了人类。

导致这一结果的原因有2个:一是数据,另一个是模型。

大规模训练数据的出现为训练大模型提供了物质基础,大规模机器学习模型具有超强的表达能力,可以解决很多复杂和高难度的问题。

在解决这些问题的同时,大规模机器学习模型也有着非常明显的弊端:包含参数众多,训练耗时;模型巨大,传统的计算机和工作站难以处理;容易过拟合,在训练数据集上表现良好,在未知测试数据上表现不尽人意。

比较典型的例子是电商网站上的用户行为数据,比如在淘宝上很多用户每天都能看到系统推荐的产品,这些产品是根据用户日常浏览和点击习惯进行推荐的,淘宝的服务器将用户点击的产品行为记录下来,作为分布式机器学习系统的输入。输出是一个数学模型,可以预测一个用户喜欢看到哪些商品,从而在下一次展示推荐商品的时候,多展示那些用户喜欢的商品。

类似的,还有互联网广告系统,根据几亿用户的广告点击行为,为其推荐更容易被点击的广告。
2

 

淘宝推荐系统大致如图所示

由上述案例可以知,现在我们很难用一台计算机去处理工业规模的机器学习模型了,所以说分布式训练已经成为了一个先决条件。

2、流程:了解-探索-设计

分布式机器学习说白了,其实就是把任务发放给许多机器,然后让它们协同去帮忙训练数据和模型。
3

 

如图所示,我们会把任务下发给许多的worker,然后这些worker协同的去训练模型。

通过对分布式机器学习起源的讲解,我们可以将分布式机器学习的使用场景粗分为三类:计算量太大、训练数据太多、训练模型太大太过复杂。

这三种场景都有相对应的解决办法,对于计算量太大可采用共享内存的多机并行运算;对于训练数据太多,可以将数据进行划分,分配到多个工作节点上进行训练;而对于训练模型太大,也可以将模型进行划分,分配到不同的工作节点上进行训练。
4

 

不管是以上场景中的哪一种,还是几种场景混合在一起的情况,分布式机器学习都可以分为三步流程:

第一步是了解机器学习的模型以及优化方法;第二步是要去探索分布式机器学习的范式;第三步是设计系统,无论系统的设计者还是系统的使用者,都要知道系统为什么要这样设计,这样设计对我们选择什么样的机器学习有怎样的帮助。

3、算法:数据并行、模型并行、梯度下降

数据并行

数据并行是指由于训练样本非常多模型非常大,我们需要把训练数据划分到不同的机器上,比如说我们用100台机器同时存储这些数据,如果这些模型有10万个数据样,用100台机器来存储,每台机器存储1000条数据即可。

对于每一台worker来说,训练算法、分布式和在单机上没有什么区别,只是需要在节点之间同步模型参数。

其中参数平均是最简单的一种数据并行化。若采用参数平均法,训练的过程如下所示:

1、基于模型的配置随机初始化网络模型参数

2、将当前这组参数分发到各个工作节点

3、在每个工作节点,用数据集的一部分数据进行训练

4、将各个工作节点的参数的均值作为全局参数值

5、若还有训练数据没有参与训练,则继续从第二步开始

5

模型并行

模型并行将模型拆分成几个分片,由几个训练单元分别持有,共同协作完成训练。

深度学习的计算其实主要是矩阵运算,而在计算时这些矩阵都是保存在内存里的,如果是用GPU卡计算的话就是放在显存里,可是有的时候矩阵会非常大。面对这种超大矩阵便需要将其拆分,分到不同处理器上去计算。6

 

梯度下降

1847年梯度下降被提出来之后,这些年业内提出了各种各样的优化算法,优化算法是一个非常漫长的演变过程。
7

 

大家可以看到图中有一条分界线, 在2010之前的算法主要是Deterministic algorithms,这种算法具有很强确定性。换句话说,就是可以在数学上保证此算法进行的每一步都是精确的,能够指导我们的优化目标。

2010年之后的这些模型被称做stochastic algorithms,不再要求每一步都是精确的梯度下降,或者每一步要做最精确的优化。stochastic algorithms让每一步只进行随机的优化,最终把所有数据优化完以后,还是能够优化到最低点。

随着数据越来越大,Deterministic algorithms规则已经越来变得越来越不适用了。对于大量的计算数据,我们不可能每一次都做梯度下降,随机梯度下降变得越来越有优势,资源利用率也会更高。

4、分布式机器学习三大平台:Spark、PMLS、TensorFlow

在纽约州立大学布法罗分校计算机科学与工程教授、Petuum Inc. 顾问 Murat Demirbas 和他的两位学生一起发表的那篇对比现有分布式机器学习平台的论文中,将分布式机器学习平台归类为了三大基本设计方法:

1.基本数据流(basic dataflow)

2.参数服务器模型(parameter-server model)

3.先进数据流(advanced dataflow)

并根据这三大基本设计方法,使用了业内著名的三大分布式机器学习平台,其中基本数据流方法使用了 Apache Spark、参数服务器模型使用了 PMLS(Petuum)、先进数据流模型使用了 TensorFlow 和 MXNet。

并在测试中得出相应的结论,班主任摘取关键部分出来,供大家参考(论文原文可访问:https://www.cse.buffalo.edu/~demirbas/publications/DistMLplat.pdf,译文参考网络翻译)

Spark

在基本的设置中,Spark 将模型参数存储在驱动器节点,工作器与驱动器通信从而在每次迭代后更新这些参数。对于大规模部署而言,这些模型参数可能并不适合驱动器,并且会作为一个 RDD 而进行维护更新。

这会带来大量额外开销,因为每次迭代都需要创造一个新的 RDD 来保存更新后的模型参数。更新模型涉及到在整个机器/磁盘上重排数据,这就限制了 Spark 的扩展性。

PMLS

PMLS节点会存储和更新模型参数以及响应来自工作器的请求。工作器会请求来自它们的局部 PS 副本的最新模型参数,并在分配给它们的数据集部分上执行计算。

PMLS还采用了 SSP(Stale Synchronous Parallelism)模型,这比 BSP(Bulk Synchronous Parellelism)模型更宽松——其中工作器在每次迭代结束时同步。SSP 为工作器的同步减少了麻烦,确保最快的工作器不能超过最慢的工作器 s 次迭代。

 TensorFlow

 TensorFlow使用节点和边的有向图来表示计算。节点表示计算,状态可变。而边则表示多维数据数组(张量),在节点之间传输。

TensorFlow 需要用户静态声明这种符号计算图,并对该图使用复写和分区(rewrite& partitioning)将其分配到机器上进行分布式执行。(MXNet,尤其是 DyNet 使用了图的动态声明,这改善了编程的难度和灵活性。)
8关注我们,收看更多精彩课程

640

万物智联,从这里开始| iFLYIoT物联网平台正式上线!

为了构建智能物联网的基础设施,实现便捷快速的网络连接,为开发者、消费者提供更强大的设备智能解决方案,科大讯飞iFLYIoT物联网平台现在正式上线!

NEWS
科大讯飞iFLYIoT物联网平台上线!通过建立设备、云端双向通信通道,使设备可以稳定、便捷、高效地连接到物联网云平台。此外,更是与最新推出的iFLYOS结合,真正实现让A.I.轻松触达每个设备。了解详情:iFLYIoT物联网平台

IoT平台(Internet of Things)即物联网平台。从产业分工的角度来看,IoT平台负责连接海量设备并对设备数据进行汇聚、管理与分发,具有影响产业价值分配的能力,是物联网生态中有力的赋能者。
6401

 

物联网平台的重要性毋庸置疑。而在如火如荼的发展过程中,一些问题和痛点也逐渐显露出来:架构僵化、物与物协作效率低下、个人隐私和设备安全问题严峻等等。这些问题无疑是对平台的智能性、高效性提出了更高的要求。

为了构建智能物联网的基础设施,实现便捷快速的网络连接,为开发者、消费者提供更强大的设备智能解决方案,科大讯飞iFLYIoT物联网平台现在正式上线!

 

功能概述

能力强大·可视化控制

iFLYIoT平台通过建立设备、云端双向通信通道,使设备可以稳定高效地连接到物联网云平台。除此之外,更是与讯飞丰富的A.I.能力结合,凭借自身语音识别、语义理解技术优势,快速构建行业智能解决方案。下面将从平台功能、A.I.接入和构建IoT解决方案几个方面进行介绍。

 设备接入 

平台针对不同操作系统、终端类型、联网方式的设备提供设备端SDK,使其可以快速连接至iFLYIoT平台。开发者可基于SDK和XLink协议开发设备端功能,并让设备与云端进行消息通信。同时还可集成多种A.I.能力,实现设备智能化。
6402

 

 平台能力 

iFLYIoT平台提供完善的产品开发、设备管理等基础能力,可快速在云端构建产品及功能,并且提供事件管理、规则引擎等拓展服务,方便开发者拓展产品能力。具备亿级设备的连接能力,安全可靠地实现消息收发及路由,帮助开发者构建自己的IoT应用。

6403

 

 协议互通 

提供第三方设备厂商的通讯协议与Xlink协议的互通,开发者可编写协议转换脚本,将第三方设备的通讯协议与Xlink协议进行适配,iFLYIoT平台通过协议转换脚本解析第三方设备上传的数据信息,下发设备指令。
6404

 

 数据统计 

实时统计基于产品的设备、消息、行为数据,并基于数据进行定时、定性分析,分析结果通过可视化报表进行展示。

 语音交互 

为了让开发者更简单接入和享受到讯飞强大的A.I.能力,我们在云端实现了一键接入IFLYOS控制。

 

平台特点

灵活快速·高效安全

高效易用

简单易用的平台操作,完善的产品、设备管理,强大的数据统计分析功能助力开发者快速、高效的创建自己的IoT方案。
灵活开放

支持Android、RTOS等多种方式接入IoT平台,提供丰富的服务和数据API和规则服务,支持多源数据开发。
安全可靠

支持亿级海量连接,提供多重防护保障设备信息安全,安全、完善的访问权限控制。业务可靠性达到99.9%,为开发者保驾护航。
快速落地提供第三方设备厂商的通讯协议与Xlink协议的互通。面向工业物联网、智慧城市等领域提供行业开发组件,帮助开发者快速孵化行业应用及解决方案。 

突出优势

3小时·万物互联触手可得

 —快速构建解决方案— 

iFLYIoT针对开发者所在的不同行业提供了高效、强大的功能解决方案。

针对智能硬件,iFLYIoT提供语音交互系统+设备管理平台,为厂商提供一站式的设备智能方案,提升设备的用户体验;针对城市物联网,iFLYIoT提供边缘解决方案+云平台的混合组网方案,满足城市物联网私有数据存储、高安全性、低网络依赖的需求。
6405

 

同时iFLYIoT为开发者提供了高效、易用的开发平台,只需3个小时即可完成demo开发,极大地提升了开发效率。

 —结合A.I. 实现万物智联— 

智能硬件是IoT的重要应用领域,但目前面临设备多、交互方式繁琐等问题。为此,讯飞依托在语音交互领域的布局,将iFLYIoT与最新推出的iFLYOS结合,推出语音操作系统+设备连接的解决方案。利用语音识别、语义理解技术优势,实现统一高效的交互方式。

6406

 

 —赋能开发者,共建IoT生态— 

借助讯飞在生态产品上的优势,iFLYIoT物联网平台还为开发者提供了服务市场。企业可将自己生产的产品通过服务市场与需求方进行沟通,达成商业合作。同时还提供功能强大的数据运营功能,助力开发者挖掘数据价值,创建更好的IoT生态。

 

解决方案

典型场景·轻松落地

聚焦家居、生产、办公等典型场景,iFLYIoT提供包括数据、安全、管理等一系列面向IoT场景的云服务,实现在各类场景下的顺利落地。

智能家居

智能家居设备通过使用IoT开发者平台完成与云端连接,使消费者可以随时随地掌握家中智能设备的状态,并实现远程操控。
6407

 

生产监控

通过iFLYIoT平台可将工业设备连接至云端,使企业相关人员可以实时监控工业设备的生产状态,制定更加科学的生产计划。

智慧楼宇

通过跨产品、跨厂商的设备打通,使消费者拥有的智能设备组成一个设备网络,实现设备互通。再借由规则引擎实现设备间的联动,为消费者打造更为便捷舒适的家居、办公环境。
6408

 

优秀案例

MORFEI智能麦克风

目前,IoT的一个重要应用就是智能家居。智能家居作为一个已经发展了几十年的产业,在最近几年终于迎来了大爆发,智能语音也成为继路由器之后的又一智能家居控制中心。

MORFEI智能家居生态则是IoT落地家居领域的优秀案例。

2017年6月,科大讯飞发布了面向智能家居场景的MORFEI智能麦克风1.0。这款麦克风能让开发者经过短暂的调试对接,实现智能交互能力。进一步提高智能家居的集成度,降低了合作伙伴的开发难度。
6409

 

MORFEI麦克风通过分布式拾音,可以实现在整个空间内任何一个角落随意说,MORFEI的云连接能力可以实现和所有的周边的合作伙伴的产品的连接,形成解决方案。

以这款 MORFEI 智能硬件平台为核心,讯飞想要打造一个「标杆性」的语音 IoT 生态。

正如在今年的全球1024开发者节上,胡郁总说的那样:”在不同的用户和场景组合中,你设计的智能产品是多样化的,有感情的。它应该有自己的名字,连接了不同的内容。而通过iFLYOS和iFLYIoT,我们可以将它们连接在一起。“
64010

 

快来体验吧!

登陆讯飞开放平台官网,点击“产品服务”栏目,找到“iFLYIoT物联网平台”入口即可体验
64011

扫描二维码,关注我们——
64012

国务院版人工智能发展规划出炉,明确AI三步走战略

50字读懂文件

7月20日,国务院发布《新一代人工智能发展规划》(以下简称《规划》),对于人工智能行业下一步的发展规划提出了方向性的意见,包括我国面向2030年的新一代人工智能“三步走”战略、AI的数十个落地产业、八大关键技术、AI人才的培养与引进、以及成立人工智能规划推进办公室等。

《规划》说了啥?
50个字总结:《规划》对人工智能产业发展做了详细的规划,细化了推动产业发展的工作方向,并对政府给予的资金与政策支持给出了指导意见。
毫无疑问,《规划》的出台将从人才培养、研究支持与资金等方面推动人工智能产业快速发展,加快技术迭代速度与应用落地进程。
中国人工智能,世界最高水平

近年来,在中国人工智能领域取得显著进展的明星企业,正是此前被美国媒体评为““世界第六、中国第一聪明”的科大讯飞。作为中国智能语音和人工智能产业的领军企业,科大讯飞的语音合成、语音识别、口语评测、机器翻译等核心技术代表了世界最高水平。

在语音合成和中英文翻译等多项技术的国际大赛上,科大讯飞已获得连续多年冠军。在人工智能听觉领域,科大讯飞已占有中文语音技术市场70%以上市场份额,明星企业名号当之无愧。科大讯飞以其高达98%的语音识别准确率在非常多的领域实现智能化应用。语音输入和翻译已经为公众所熟知及认可。此外,在家居、交通和教育领域也发展出了应用产品。例如智能车载系统飞鱼助理、讯飞翻译机、MORFEI麦克风等。

魔飞

BAT在AI领域都干了什么?
百度:全面开花

通过前后启动的“凡尔纳计划”和Apollo(阿波罗)计划可以看出,百度在战略和思路上把人工智能放在了公司的首要地位。目前,百度的人工智能一方面继续研究基础功能,另一方面新技术和商业相互也在交叉前行,正如媒体评价的“全面开花,四处发力”。

百度AI开发者大会

(百度AI开发者大会)

百度人工智能涉及智能政务、智慧城市、智慧交通等公共事业领域,尤其在无人车、地图等高新技术和未来城市上的运用。并且刚在百度AI开发者大会上公布了阿波罗自动驾驶生态系统,随即就在7月18日与微软宣布合作,双方将携手推进全球自动驾驶技术的发展与应用。看来无人驾驶终将被国内市场认可,只是时间问题。

腾讯:自带应用

腾讯AI Lab研究体系包括深圳AI Lab和美国西雅图AI实验室。 AI Lab聚焦机器学习、计算机视觉、语音识别、和自然语言处理四大领域的基础研究,同时结合腾讯特色的四大业务场景,发展内容 AI、社交AI、游戏AI和平台工具AI;美国西雅图AI实验室主要承担语音识别和NLP的基础和前沿研究工作。腾讯AI Lab宣称自己的使命就是用先进的科技,帮助腾讯拥抱未来。

20160119022632944

(腾讯优图团队)

腾讯优图是腾讯人工智能技术的支柱之一,创立于2012年,今年4月,还在国际最权威、难度最高的海量人脸识别数据库 MegaFace 中,以 83.290% 的最新成绩在100万级别人脸识别测试中拔得头筹。目前正在投入研发一些可以应用到腾讯产品中的新技术。

阿里:偏向消费者产品

用马云的话说,阿里不仅是电商企业,还是一家科技公司。阿里的人工智能注重的是赋能商业,配合云计算、大数据对阿里的电商物流乃至物联网体系对具体的企业进行赋能,尤其是制造业企业。在阿里的人工智能战略体系之中,云计算一直都是电商、物联网的核心驱动力。

阿里在人工智能领域的布局

(阿里在人工智能领域的布局)

而对于人工智能硬件方面,阿里巴巴的人工智能实验室在有一个重要的特征——偏向消费级产品。2017 年 7 月 5 日,阿里巴巴举办智能音箱“天猫精灵”发布会,并发布AliGenie开发者平台。开发者和硬件厂商无需从头搭建AI语音系统,就能够更好的为用户提供服务,而这,也是阿里的人工智能业务一步步走向零售服务的重要步骤。

总的来说,BAT各自 AI Lab 所关注的方向和定位有着明显的差异,这也显示了三家公司对 AI 的不同看法以及AI在三家公司内战略地位的差异。

得AI,得天下

22543G914_0

(吴霁虹《未来地图》)

吴霁虹教授在《未来地图》书中提到,对于任何一个新创公司来说,都意味着,要发展就要么得让自己变得更强大,要么就必须借力AI生态,与引领者们共创共赢。李彦宏也说,互联网是开胃菜,人工智能才是主菜。甚至在互联网圈子里,有一句话流传更广:得人工智能者得天下。

未来,数据流量的入口不再局限于电脑和智能手机,智能音箱、智能穿戴设备、智能电视、智能家居、智能车载设备、乃至共享单车都将成为新的用户数据入口,从而实现从“互联网+”到“AI+”的飞跃。到那时,传统的互联网大佬BAT会不会被颠覆掉?谁将是BAT的颠覆者?

当然,人工智能最重要的还是要和具体产业尤其是传统产业相结合,因为智能化的运用和拓展会带来社会生产方式的剧烈改变,届时会出现诸如智能制造、智能农业、智能国防、智能服务、智能电网、智慧城市、智能家居等新兴产业,这才是真正影响生活和社会未来的方向。

开源,让人工智能更美好

针对AI产业的如火如荼,《规划》特别提到要各大人工智能企业开源开放。倡导开源共享理念,促进产学研用各创新主体共创共享。积极参与人工智能全球研发和治理,在全球范围内优化配置创新资源。这方面科大讯飞同样走在先行者的行列。事实上,人工智能需要从大量数据中进行学习,数据开源对于行业的发展非常重要。

讯飞开放平台

目前科大讯飞推出了以语音交互技术为核心的讯飞开放平台,致力于为开发者打造一站式人工智能交互解决方案。讯飞开放平台整合语音交互、云计算、大数据挖掘等主流人工智能技术,基于多元化的生活服务场景,全面开放业界领先的核心技术能力,为软硬件开发者降低集成门槛,为企业提供行业解决方案。

人工智能+,共创新世界

2016年11月23日,刘庆峰董事长在科大讯飞的年度发布会上提出“人工智能+,共创新世界”的愿景,并承诺构建人工智能开放平台AIUI,将核心技术开放给第三方合作伙伴。AIUI是科大讯飞提供的一套人机智能交互解决方案,旨在实现人机交互无障碍,使人与机器之间可以通过语音、图像、手势等自然交互方式,进行持续,双向,自然地沟通。可以广泛应用多种智能硬件领域,如智能家居、机器人、智能穿戴、智能音箱、智能手表等。

幻灯片35

AIUI贯穿了科大讯飞对整个人机交互流程的理解。方案包括前端声学处理、语音识别、语音合成、云端连续识别远场引擎、语义理解平台、内容平台、用户个性化系统等。在具备语音交互能力的同时,AIUI也具备了第三方在平台上进行灵活能力配置、业务扩展的能力。

截止2017年6月,基于AIUI的第三方开发者数量已经超35万家, 在线日服务量超40亿人次, 用户数超10亿,已成为中国最大的人工智能生态平台。

7月27日,第六期主题为AIUI的公开课即将拉开帷幕。届时,将由AIUI开放平台项目负责人丁瑞为你带来更多AIUI概念及原理、AIUI开放平台的介绍,欢迎扫描下方二维码或点击阅读原文免费报名参加!

qrcode_for_gh_1985e8ed98e0_430

超过80%语音开发者的共同选择