AI公开课 | 我猜你对数据标注还不了解吧?

毋庸置疑的是,人工智能领域每天都在上演着日新月异的发展和进步。

当我们打开手机,启用美颜APP里各种各样的AI滤镜时,我们看到的是搞笑的头像和可爱的表情,而APP“看到”的是我们脸上数百个点。

我们早已对各类的AI滤镜习以为常,但却甚少思考这些APP究竟是怎样识别出哪里是眼睛,哪里是鼻子。

其实这一切都归功于AI时代最可爱却最容易被忽视的一群人,他们就是被称为人工智能“老师”的数据标注员

人工智能背后的人工

早上8点30分,小新打开了名为“数据标注分配任务群”的QQ群,开始了一上午的工作。

群主早已将今天需要标注的视频和图片发到群里,小新被分配到的是一段长达3个小时的视频录像。

这是一段某口腔医学院老师讲课时录制的视频,视频的内容主要是针对口腔龋齿的介绍分类,小新的主要任务就是在视频中找到黑色的龋齿,然后用鼠标将龋齿周围画一个数字“边界线”,从而将它标注出来。

同样的动作小新一上午要重复几百次,直到视频播放结束,最后小新会将标注好的新视频重新反馈到群里,结束一上午的工作。

小新并不是医学专业出身,他也不太清楚这些被标注的龋齿部分到底有何作用。但在无形之中小新却成了人工智能医疗系统的“老师”,通过大量的数据迭代让AI可以准确识别出哪些是龋齿,龋齿腐烂的程度等。

小新或许从没听说过“数据标注”这个职业,但他却用实际行动日复一日履行着一个数据标注员的责任,让机器通过大量的资料学习,直到它们顺利“毕业”。

大浪潮之下的普通人

近2年数据标注公司开始在国内大规模兴起,这与中国人工智能发展初期所需要的大量的数据密不可分。

由于科技公司所需要的数据量巨大,数据标注公司会把很大一部分标注工作分包出去,数据浪潮让AI更智能的同时也带来了大量的就业机会。

在距离贵阳市中心50公里的百鸟河数字小镇,就有一个规模500人的“数据工场”,500名标注员中,近一半是附近一家扶贫高职的学生。

据了解,他们一个月能挣到1500元,经济上足以自立,还能补贴家用,相比餐厅辛苦端盘子或者送外卖这类兼职工作,数据标注相对轻松且体面。
微信图片_20191212144150

扶贫高职学生进行数据标注工作

数据浪潮的滚滚洪流席卷着资金和技术,裹挟着无数梦想与野心向前奔腾,在资本和野心之下无数普通人虽然暂时不理解这些变化,但却能从变化中获得便捷和利益。

关于我们不知道的故事

对于绝大部分同学来说“数据标注”是一个陌生又专业的名词,班主任也是第一次和大家提起这方面的知识。其实围绕数据标注还有很多有意思的话题,比如数据标注的分类,数据标注产业的发展和影响,数据标注到底是不是完全依赖人类…..

为了让大家更深入更全面的了解数据标注,AI大学第26期科技晚自习特意邀请到了科大讯飞AI资源部语音数据主管刘丹,在12月12日晚19点来到AI大学直播间和同学们一起聊聊关于数据标注背后的故事。

【课程主题】

一个未被讲出的故事——数据标注

【课程讲师】

科大讯飞AI资源部语音数据主管   刘丹

【课程时间】

2019年12月12日19点(本周四)

【课程链接】

1、点击阅读原文进入课程直播间

微信图片_20191212143935

2、关注公众号“AI研究所”点击“晚自习”进入课程

扫码进入【课程官方群】

微信图片_20191212143943

或加课程小助手微信:aigongkaike

便可加入课程官方群,

和更多同学在群里讨论相关问题

一文读懂语言识别技术原理 | 新课速递

科大讯飞研究院潘嘉老师带来本周的新课程 《语音识别技术》

语音识别是十年来发展最快的技术之一,随着AI的不断发展,深度学习让语音识别技术得到了质的飞跃,开始从实验室走向市场,并逐步走到人们的生活中。

我们现在所用的语音输入法,以及以语音为智能交互入口的智能家居,背后都涉及到语音识别技术。

今天,我们就来学习下本周的新课程 《语音识别技术》,有请今天的主讲嘉宾:科大讯飞研究院潘嘉老师,掌声欢迎~

11

 

语音识别技术的发展历程

语音识别技术是指机器自动将人的语音的内容转成文字,又称 Automatic Speech Recognition,即ASR技术。

语音识别是一门交叉的、非常复杂的学科,需要具备生理学、声学、信号处理、计算机科学、模式识别、语言学、心理学等相关学科的知识。

语音识别的研究是个漫长而且艰难的过程,它的发展可以追溯到20世纪50年代,1952年贝尔实验室首次实现Audrey英文数字识别系统,这个系统当时可以识别单个数字0~9的发音,并且对熟人的准确度高达90%以上。

在同时期,MIT、普林斯顿相继推出少量词的独立词识别系统。

12

1971年美国国防部研究所(DARPA)赞助了五年期限的语音理解研究项目,推动了语音识别的一次大发展。DARPA在整个科技的发展过程中扮演了非常重要的角色,它专门给高科技研究项目提供资金支持,包括无人机、卫星等等。

在DARPA的支持下,IBM、卡内基梅隆大学(CMU)、斯坦福等学术界和工业界非常顶级的研究机构也都加入到语音识别的研究中去。

其中,卡耐基梅隆大学研发出harpy语音识别系统,该系统能够识别1011个单词,在这个时期大词汇量的孤立词识别取得实质性进展。

13

到了1980年,语音识别技术已经从从孤立词识别发展到连续词识别,当时出现了两项非常重要的技术:隐马尔科夫模型( HMM )、N-gram语言模型。

1990年,大词汇量连续词识别持续进步,提出了区分性的模型训练方法MCE和MMI,使得语音识别的精确度日益提高,尤其适用于长句子的情况下,与此同时,还提出了模型自适应方法MAP和MLLR。

在工业方面,剑桥推出首个开源的语音识别训练工具HTK,在商业方面,Nuance发布了首个消费级产品Dragon Dictate。

到了21世纪,随着深度学习的不断发展,神经网络之父Hinton提出深度置信网络( DBN ),2009年, Hinton和学生Mohamed将深度神经网络应用于语音识别,在小词汇量连续语音识别任务TIMIT上获得成功。

14

语音识别的技术原理

从20世纪80年代开始,现在语音识别采用模式识别的基本框架,分为数据准备、特征提取、模型训练、测试应用这4个步骤,在这里我们主要来讲解下模型训练和测试应用。

模型经过训练之后,一段待测的语音需要经过信号处理和特征提取,然后利用训练好的声学模型和语言模型,分别求得声学模型和语言模型得分,然后综合这2个得分,进行候选的搜索,最后得出语言识别的结果。

15

接下来我们来看下语言模型,语言模型的物理意义反映字词出现的先验概率,比如“郝”和“好”,这两个字发音相同,但“郝”相对于“好”来说,出现的概率较低,一般都会出现在姓氏里。

除此之外,语言模型的物理意义还在于反映词顺序是否符合语言习惯和反映词的语义信息。

了解了语言模型的物理意义,我们来看下语言模型的建模,传统语言模型采用N-gram的做法,语言模型是对文本序列的先验概率进行建模,用以下公式表示:

𝑝(𝑊)=𝑝(𝑤1 𝑤2 …w𝑛 )=𝑝(𝑤1 )𝑝(𝑤2│𝑤1 )…𝑝(𝑤𝑛 |𝑤(1:𝑛−1))

我们按照全概率空间展开,可以表示为第一个词出现的概率𝑝(𝑤1)乘以第一个词出现之后,第二个词的概率𝑝(𝑤2│𝑤1 ),以此类推一直到第n个词。

16

对于这样一个全概率空间,我们对它进行N-阶马尔科夫假设,即每个词出现的概率只和最近的N个历史词有关,根据这样一个假设,上面表示先验概率中的每一项都可以做这样一个近似:

17

比如我们需要求1-阶马尔科夫假设,用以下公式即可很方便的算出结果:

18

这样一种看似很简单的非参数的计算方法,却从20世纪的80年代一直沿用到今天。

在深度学习出现之后,逐渐出现了另一种语言模型——RNNLM

RNNLM语言模型的流程,之前我们提到过先验概率可以按照全概率空间进行展开,我们对公式中间的每一项都采用同一种深度学习模型来建模,就可以表达成如下结构:

19

说完了语言模型建模,接下来我们来说下声学模型建模,给定了相应的文本序列之后,生成相应的语音,这是语音识别技术中最核心的也是最复杂的部分。

为了减少同音词的数据共享问题,首先我们会将文本序列转化成它的发音序列,做这一步的目的就是加强建模单元的共享性。

在我们对每一个发音单元,比如“xue”里面的韵母做建模的时候,我们的语音具有不定长的特性,我们说的快和说的慢的时候,语音帧的时长是不一样的,对于这种不定长的语音建模,这个时候就需要引入HMM模型。

20

HMM模型每一个语音帧让我们的每一个语音帧都对应到HMM模型中的每一个状态,不论多长的语音都能够表达为HMM模型的一个状态序列。

最后只要将HMM模型中的序列和我们语音中的每一帧进行一一对应。再将这个对应关系,用一个概率来表达就可以了。

我们知道语音其实是非常复杂多变的,不同的人在说同样的句子的时候,会表现出非常大的差异性。

1980年代的时候,由于计算条件的限制,业内一般采用GMM声学模型,到了2010年深度学习技术兴起,DNN声学建模开始取代GMM声学建模。

 

语音识别技术的典型应用

语音识别技术早期的应用主要是语音听写,用户说一句,机器识别一句。后来发展成语音转写,随着AI的发展,语音识别开始作为智能交互应用中的一环。

下面我们就来一一介绍这些应用:

首先我们来看下语音听写,语音听写中最为典型的案例就是讯飞输入法,除此之外,语音听写的应用还有语音病例系统。

医生佩戴上讯飞定制的麦克风,在给病人诊断时,会将病情、用药、需要注意事项等信息说出来,机器将医生说的话自动识别出来,生成病例。

21

关于语音转写的应用,我们也举两个产品的例子,一是讯飞语记,另一个是讯飞听见

讯飞语记是一款APP,它能够将我们所说的语音记录成文字,讯飞听见会议系统能够实时的根据演讲者所说的内容准确识别出来,并且实时投影在我们的大屏幕上。

关于语音交互的产品有很多,比如讯飞推出的讯飞翻译机、能够和小朋友进行互动的阿法蛋、以及可以进行聊天交流的叮咚音箱等。

未来课栈@成都栈:不断降低开发门槛,用AI能力星云构建完整产业生态

6月14日,AI大学·未来课栈@成都栈在成都成功举办

6月14日,AI大学·未来课栈@成都栈在成都成功举办,一千多位热情的成都AI学员来到现场参与学习和互动,一起共话AI,幻变未来。

2

活动现场,由科大讯飞开放平台总经理赵艳军宣布,在2018年讯飞开放平台开放100项AI能力基础上,重磅推出AI能力星云,将人工智能技术应用到多行业领域。连接十亿用户,构建AI产业生态。

3

100项AI能力+AI能力星云计划

5月17日科大讯飞「AI·飞无界」新品发布会上,重磅推出的AIUI3.0受到人们的广泛关注。本次成都栈,赵艳军在题为《让世界享受AI的乐趣》的专题课程中,为大家详细解读了讯飞开放平台的技术及应用案例、AIUI、麦克风阵列及魔飞等相关知识。同时也对AIUI3.0的半监督优化、开放式交互、全链路打通、动态词汇等技能进行了详细解读。

4

当然,面对迅速增长的业务和需求,讯飞开放平台也在不断提升技能。除了自研能力,讯飞也与业内优秀的技术厂商进行战略互补形式的合作。由讯飞开放平台主导,讯飞研究院共同打造的能力星云计划,邀请更多的AI能力服务商通过讯飞开放平台的桥梁,为AI开发者和爱好者提供一站式接入服务。

赵艳军表示:“我们去年推出来讯飞能力计划,除了会把自己的核心技术开放出来之外,还会联合更多的提供者,像商汤科技的人脸静态检测,小牛翻译的多语种翻译,以及云孚科技提供的智能语义理解技术,我们会联合这些合作伙伴,一起把效果最好用的、以及真正能够解决用户需求的一些技术开放出来,让大家在讯飞开放平台上一站式地开发,降低大家开发的门槛和成本。”并现场列举了一些基于讯飞开放平台AI能力开发出的优秀产品。

优秀合作案例

1、咪鼠鼠标

5

依托科大讯飞先进的语音技术研发基础,咪鼠鼠标拥有相当高的语音识别率。融入了新科技的鼠标,只要语音输入即可打字,而且还有语音翻译功能和语音上网功能,不仅缓解了双手敲击键盘的劳累,还真正的实现了智能人机交互新模式。比如控制电脑上的一些快捷的功能,打开某一个应用、查询天气等等能力。也得到了市场和用户的充分认可。

2、美团骑手耳机

6

针对外卖骑手的配送安全问题,美团外卖和科大讯飞开启跨界合作,推出智能语音耳机,通过技术革新外卖配送人员在送餐过程中的信息交互方式。利用人工智能及大数据技术,让骑手在送餐过程中能用最自然的语音交互完成接单、上报等操作,而不再需要手动操作,从而减少安全隐患、保障骑手人身安全。

3、美的智能风扇

7

美的智能风扇集成了讯飞开放平台的麦克风阵列和远场语音交互,可以通过语音来操控整个风扇的风速调节,极大便捷了日常生活。而且不只是风扇,现在很多的家电已经把我们的人机交互能力提升到我们的家庭中,未来还会有更多的家电都会具备这种人机交互和对话的能力。

4、红星美凯龙商场导购机器人

8

红星美凯龙导购机器人可以通过室内的定位导航,人机交互能力,能够给用户解决咨询的一些问题。可以尽把线上和线下的数据打通,给未来商家去做一些智能化的营销,带来很大的一个数据上的一个帮助。

双向赋能,实现开放平台一站式开发

AIUI是以讯飞开放平台以语音交互为核心,面向未来的一个人机交互界面。它支持机器通过声音、图像、手势,和人进行全自然双向和全双工的沟通和交流,可以用在我们的手机助手、机器人、智能客服、智能家电、智能家居等领域。而我们的愿望,就是希望可以帮助每一位有想法的开发者在上面快速地开发自己需要的人机交互产品。

截止目前,讯飞开放平台已开放近百项AI技术产品,赋能85万开发者合作伙伴,覆盖19亿终端设备,日均服务46亿次。已上线AI能力77个,含语音听写、声纹检索、离线语音合成、MORFEI麦克风、智能硬件解决方案、微信解决方案、AIUI智能硬件、二次元解决方案等;即将上线实时语音转写、方言识别、名片识别、身份证识别、银行卡识别、营业执照识别、名片识别等36项能力。

基于科大讯飞全球领先的语音识别技术,安静环境下实时转写准确率可达到95%以上,并带有文字流时间戳、上下文纠错、标点智能预测等功能。此外,由AI大学众多金牌讲师和技术专家开讲的语音合成、语音识别、语音唤醒技术等系列课程也已经在AI大学上线,欢迎前往学习体验。

9

“从1.0到3.0,AIUI不断的打磨产品,升级功能,未来,我们将继续我们探索的脚步,不断给大家带来更接近自然的人机交互体验。”赵艳军表示。目前AIUI还新推出了微信解决方案,在微信小程序上可以体验AIUI的各种技能。在世界杯即将开踢之际,开放平台还利用平台的AIUI自动问答技能,和用户来了一次有趣互动,回复“算下我的命中球星”即可开启,欢迎体验。

10

关注二维码,回复“我的命中球星”体验

AI仿生眼,让机器也能看世界

中科院上海微系统研究院张晓林带来了题为《AI仿生眼,助力机器观察三维缤纷世界》的分享。作为国内一流的仿生眼开发团队的一员,张晓林老师对仿生眼技术有着非常深刻的了解和认知。为大家详解仿生视觉系统的研发经过、仿生眼的理论基础以及仿生双眼视觉控制系统等知识。

11

“目前的人工智能只实现了部分大脑的功能,而小脑、中脑、脑干的“智能”的可实用性成果接近于空白。”张晓林老师提出,小脑、中脑以及脑干的研究与突破是类脑智能研究的关键,而视觉系统作为完整的脑功能系统,小脑、中脑以及脑干在其中扮演着重要角色。视觉系统的研究对仿生机器人的研发具有重要意义。

自然语言理解,让AI变身最强大脑

作为目前人工智能领域的很火的子领域,NLP(自然语言理解)一直吸引许多AI爱好者与开发者去学习,但很多初学者在进入这个很火的AI子领域时,很容易因内容繁多坠入云里雾里。云孚科技CEO张文斌在《谁是最强大脑》的分享中,就为广大学员们对NLP领域进行了系统的梳理。

12

“NLP(自然语言理解)被誉为人工智能皇冠上的珍珠,作为实现认知智能的关键一环,NLP毫无疑问是AI最强大脑的核心。”张文斌老师介绍了NLP的词法分析、句法分析、语义分析等各个子任务的定义及其应用,帮助大家建立起NLP全景图,为日后深入学习建立基础。

打造民族人工智能生态

科大讯飞人工智能双创发展研究中心主任方明在题为《AI助力创新创业》的分享中,从投资孵化、强基工程、产业赋能三块内容为大家介绍了科大讯飞的双创扶持行动与计划。

13

未来国家之间的竞争首先是产业生态的竞争。2017年AI上升为国家战略,掌握人工智能产业生态话语权是中国国家核心竞争力的重要组成部分。“讯飞的使命是让人工智能支持千万创业者以极低的成本和较高的起点开始自己的事业,打造民族人工智能生态。”方明老师说。

AI创意集市,让AI创意遍地开花

作为「AI大学•未来课栈」的经典环节,每期“AI创意集市”都会邀请5位AI创意人向大家展示他们的创意理念和产品故事。本次@成都栈“创意集市”的五位嘉宾更是将AI创意落地到了医疗、识别、助残、偶像、房产这些不同的领域,用各种酷炫的创意挑战大家想象力的极限!

1、傅兆吉:从小山变大海

心之声医疗科技有限公司CEO傅兆吉向大家展示了AI在医疗领域的创新应用——利用AI进行心电图分析,基于CNN和RNN技术的心电诊断算法对心律失常事件检测的灵敏度和特异度都更高,还能生成可供临床医生直接采纳的心电图诊断报告。14

2、马军:一拍即“合”

万图拍CEO马军为大家介绍了万图拍APP,通过APP拍照,可以对动植物、果蔬、人脸、图书等事物进行快速精准识别并且匹配出相关信息与科普知识,同时在电商平台索引出该商品的购买入口,衍生以拍图为兴趣的社交圈和图片大数据。

15

 

3、张昊阳:我是你的私人偶像

触梦文化CEO张昊阳与大家分享了虚拟偶像助理。虚拟偶像+智能助理,让智能助理更有个性,交互方式更丰富,功能更实用,也让虚拟偶像在通常的“偶像歌手”设定上拥有了新的创新。

16

4、朱清毅:你的眼睛

科技的进步,也让广大残障人士的生活更加便捷。朱葛科技CEO朱清毅在创意集市上介绍了为全国盲人按摩店提供服务的无障碍“互联网+”平台——手服宝,满足广大视力障碍创业者在线创业的需求。

17

5、王哲:撩动地产

猎居科技CEO王哲将大数据与房地产营销相结合,向大家展示如何基于大数据助力房地产营销,通过以AI为核心的产品,完成收集客户相关数据,对客户画像等工作。推动房产营销的精准投放。

18

作为关于AI创意项目的专项扶持平台,“AI创意集市”致力于展示优秀感人的创意理念和产品故事。欢迎大家踊跃进行创意投稿。也许下一次亲临课栈现场做分享的就是你!

AI大学·未来课栈」

AI大学·未来客栈旨在为AI开发者和兴趣者提供面对面的交流平台,满足各地开发者和兴趣者的学习和交流需求,让AI成为时代的声音,为未来赋能。未来课栈作为AI大学的重点品牌活动,将在今年走进多个城市,和各地的AI爱好者零距离沟通AI知识、学习AI动态。

你希望AI大学·未来客栈下一站将会在哪呢?留言说出你的答案,说不定下次我们就能一起约起来啦!

2018-06-14 ~ 2018-06-14成都
「AI大学·未来课栈@成都栈」报名开启,AI 带你大开眼界!

2018年「AI大学·未来课栈@成都栈」将于6月14日在成都拉开序幕。

2018年「AI大学·未来课栈@成都栈」将于6月14日在成都拉开序幕。

这一次我们携手中科院上海微系统研究员张晓林、云孚科技CEO张文斌等知名AI大咖,从计算机视觉、人机交互、AI医疗等热门技术方向说起,看AI如何将过去的不可能变成现在的可能。

我们诚挚邀请您

与我们一起

幻变未来

微信图片_20180609100053

一、AI仿生眼:让失明者重见光明

美国著名女作家海伦·凯勒在《假如给我三天光明》中记录了她对光明的渴望,这让科学家们意识到有一群人在黑暗里畅想着这个世界的模样。

为盲人恢复视力的第一次尝试是在1968年,当时G. S. Brindley和W. S. Lewin两位医生给一位失明的病人手术植入了一个设备。

2

这就是最初的机器仿生眼,经过了半个世纪的发展,仿生眼的技术日益精进,近几年仿生眼植入者可以恢复部分视力。

除了让失明者重见光明,仿生眼技术也被用于开发更强大的人工智能系统,通过用机器模拟人眼及其相关的人脑结构,让机器拥有“看见”的功能。

1

在此次「未来课栈@成都栈」上,我们邀请到了中科院上海微系统研究员张晓林老师。作为国内一流的仿生眼开发团队的一员,张老师对仿生眼技术有着非常深刻的了解和认知。

这一次他将就这项伟大的AI技术, 详细地阐述仿生眼基本的技术原理,分享他对这项改变世界技术的独特看法和见解。

二、人机交互:AIoT是浪潮,语音交互是基础

5月17日,科大讯飞「AI·飞无界」 新品发布会在深圳成功举办,重磅推出的AIUI3.0带来人机交互全新革命,引起广大AI爱好者和开发者的密切关注。

随着5G和物联网时代的到来,追求更自然更舒适的人机交互,成为了许多工程师和科学家的首要研究问题。

4

听到主人一句“我回来了”,门禁系统经过人脸和声纹识别,确定主人身份并为他打开门禁;智能机器人将干净的拖鞋送至主人面前,并通过主人递包的手势,接过公文包……

虽然上面的一切在现阶段还只是人们幻想中的完美人机交互,但在一定程度上代表的是大家希望的未来人机交互的发展方向:无处不在的语音交互和多场景的手势识别。

5

这一次「未来课栈@成都栈」,科大讯飞开放平台总经理赵艳军将立足讯飞开放平台,从语音识别、合成、以及自然语言理解等技术角度出发,和大家一起探讨人机交互的发展趋势和重要发展节点。

三、AI +X:技术让创意落地

作为今年未来课栈增设的全新环节「创意集市」,通过邀请不同行业的AI创意者,用他们天马行空的创意让技术不再是一行行有颜色的代码,而是变成生活中让人惊叹的存在。

「未来课栈@成都栈」我们邀请了5位不同领域的AI创意分享者~

他们有的从AI+医疗角度出发,分享如何利用AI进行心电图分析;有的深耕大数据挖掘技术,将实时B1数据利用到房地产营销中来;有的以虚拟偶像IP为创意点,希望能够带来可媲美小冰的虚拟爱豆等等。

6

每期未来课栈的创意集市环节都是小云最最喜欢的环节,技术从不是想象的束缚者,而是将想象变成现实的加速器。

我们期待每一个大大小小的创意点让AI +教育、AI+车载、AI+医疗、AI+体育、AI+娱乐,以及未来的AI+X领域,充满“大跌眼镜”的情景。

好啦,今天的预告就到这里了,为AI前行,幻变未来。

AI大学愿意提供专业的AI导师、最新的AI知识、面对面的AI交流机会,帮助同学们在AI+时代,抓住机遇,抓住未来。

四、报名指南

7

长按二维码或点击阅读原文即可进入报名通道

还可以加「未来课栈@成都栈」官方群管理员微信:aigongkaike ,加入官方微信群,了解活动最新动态。

五、媒体联系

寻求本次活动媒体报道权,请邮件联系:yycao@iflytek.com

2018-06-14 ~ 2018-06-15成都
机器学习入门精讲,这40个知识点不可错过(二)

决策树——机器学习中的“倚天宝剑”

今天,带大家来学习机器学习中另外一个很重要的算法——决策树。

在开讲之前,咱们先来看个例子。

201玩过狼人杀的同学都知道,不管游戏过程多么激烈,该游戏的最终结局只有4种。

为了让同学们更直观地看到这4种结局,我们画了个非常生动形象(简单粗暴)的图:

202

这幅图完整表达了狼人杀结局的各种情况,箭头指向一个判断条件在不同情况下的游戏结果,最后通过场上剩余的人来判断是谁获胜。

我们可以看出,在每一个关键节点(比如村人杀死所有的狼人?),依据判断条件,可以将答案划分为Yes or No,最后输出获胜一方。

通过树形结构,根据条件判断输出相应的结局,这种简单的算法,便是决策树的原型。

【决策树】——机器学习中的“倚天宝剑”

决策树是机器学习中很经典的一种算法。它既是分类算法,也是回归算法,还可以用在随机森林中。

关于随机森林的知识点,可以回顾上期课程机器学习入门精讲,这40个知识点不可错过(一)

咱们学计算机的同学经常敲if 、else if、else其实就已经在用到决策树的思想了。

决策树是一种简单常用的分类器,通过训练好的决策树可以实现对未知的数据进行高效分类。

从开头狼人杀的例子中也可以看出,决策树模型具有较好的可读性和描述性,能够帮助我们更高效率地去分析问题。

举个例子,普通人去银行贷款的时候,银行会根据相应条件,来判断贷款人是否具有还贷能力。

贷款用户主要具备三个属性:房产、婚姻、平均月收入。

拥有房产或结过婚或月收入大于4000的贷款用户具备偿还能力。

203判断偿还能力过程如图所示

例如:用户甲没有房产,没有结婚,月收入5K,通过上图的判断条件可以判断出用户甲具备偿还贷款能力。

这整个判断还贷能力的过程,就用到了决策树的思想。

【决策树算法】——基尼不纯度、熵

基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率,可以用来度量任何不均匀分布。

下图是组合1和组合2的基尼不纯度:

204

从图中我们可以看出,组合1的基尼不纯度大于组合2。

打个比方,基尼不纯度就像男生挑钻石向女生求婚,所有的钻石看着都很闪,但仔细比较价格却差很多,因为每颗钻石的的纯度不一样,纯度越高,价格也就越贵。

由此可总结出这样2种情况:

A、基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好

B、基尼不纯度为 0 时,表示集合类别一致

熵度量的是事物的不确定性,越不确定的事物,它的熵就越大。

熵是信息论中的概念,用来表示集合的无序程度,熵越大表示集合越混乱,反之则表示集合越有序。

【决策树算法】——信息增益

信息增益越大,说明整个集合从无序到有序的速度越快,本次拆分越有效,则越适合用来分类。

通俗来讲,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。

我们以《非诚勿扰》为例,在男嘉宾出场之前,如果女嘉宾对男嘉宾一无所知,成为他女朋友的不确定性就比较高,如果知道其中的几个特征(如身高、性格等),不确定性就会减少很多。

由上面的例子可见,一个属性的信息增益越大,表明这个属性使得数据由不确定性变成确定性的能力越强。

【决策树算法的补充要点】

*关于剪枝

利用决策树算法构建一个初始的树之后,为了有效的分类,还要对其进行剪枝,剪枝是为了减少过拟合现象。

剪枝思路主要是两种:

一种是预剪枝,即在生成决策树的时候就决定是否剪枝。

另一个是后剪枝,即先生成决策树,再通过交叉验证来剪枝。

*关于过拟合

为了得到一致假设而使假设变得过度复杂称为过拟合。

比如,考试的时候,有的人采用题海战术,把每个题目都背下来。
但是题目稍微变化一下,他就不会做了,因为他没有总结出通用的规则。

过拟合的原因一般有两种:

A.模型太过复杂而样本量不足

B.训练集和测试机特征分布不一致

机器学习中关于决策树的部分就讲到这里了,下期再会。

大学二维码

关注我们,收看更多精彩课程~

机器学习入门精讲,这40个知识点不可错过(一)

集成学习——机器学习中的“屠龙宝刀”

为了让大家更好地了解和学习AI基础知识,我们就人工智能核心领域中的“机器学习”系统地总结了其40个入门必备知识点,现在我们就先来学习第一部分。

【集成学习】——机器学习中的“屠龙宝刀”

·集成学习方法是使用一系列学习器进行学习,再将学习结果整合,它像是某种优化手段和策略。在机器学习的监督学习算法中,我们想得到的是一个稳定且在各方面表现都很好的模型。

·但往往我们只能得到一些弱监督模型(在某些方面表现比较好),集成学习通常就是结合多个简单的弱机器学习算法,去做更准确的决策。

·用俗语来讲,就是集众人智慧去做相应的决策,个人的决策可能在某些方面有些不准确,但其他人可以修正他的决策,从而达到结果最优化。

·一般来讲集成学习的关键有两点,一是如何构建不同的分类器,另一个是如何将不同分类器的结果进行融合。

·围绕着这两个核心问题,产生了很多算法,其中最具代表性、最被大家所熟知的就是Boosting、Bagging和Stacking

101
集成学习分类器

【集成学习的算法】——Boosting

·Boosting是一种提高任意给定学习算法准确度的方法。它的思想起源于 Valiant提出的 PAC ( Probably Approximately Correct)学习模型。

·Boosting是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。

·Adaboost是boosting中较有代表性的算法,Adaboost是一种迭代算法,通过集合弱分类器,进行训练构成强分类器。

·Adaboost算法的基本流程如下:

A.用平均分配的方式初始化训练数据
B.选择基本分类器
C.计算分类器的系数
D.更新训练数据的权重分配
E.组合分类器,优化结果

·通俗来讲就是由误差率求得分类器系数,由分类器系数得到组合方式。

102

【集成学习的算法】——Bagging

·根据个体学习器的生成方式不同,集成学习的算法分为串行化方法和并行化方法,串行化方法的主要代表就是上面所讲的Boosting——因为个体学习器之间存在强依赖关系,所以只能依次进行。

·串行化方法的主要代表就是我们现在要讲的Bagging(bootstrap aggregating简写),因为个体学习器之间的关系依赖没有那么强烈,所以同时进行运算。

·打个比方,Boosting更像是我们小时候吃糖葫芦那样,只能先吃掉上面的一颗,才能吃到下面的一颗,而Bagging就像是我们吃面条,可以同时吃很多根,不存在只能先吃哪根,再吃另外一根。

·Bagging的采样方法是自助采样法,用的是有放回的采样。

·一般步骤都是先抽取一定量的样本,再计算想得到的统计量T,重复多次N,得到N个统计量,最后根据统计量,计算统计量的置信区间。

·举例说明:比如数据集里有10000个数据,我们随意从中抽取100个,得出统计量T1,然后将这100个数据放回到数据集里,再从中抽取100个数据,得出统计量T2,如此循环反复N次,得出统计量TN,计算出最后的置信区间。

·名词解释:置信区间是指由样本统计量所构造的总体参数的估计区间。

103

随机森林

·随机森林(Random Forest)是Bagging的扩展变体。随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。

·简单来说,随机森林相当于Bagging的升级版,原来的Bagging会在决策树的所有属性中,选择最优的那一个,而随机森林是从相应节点的随机属性中,选择一个最优属性。

·比如森林中有10万棵树,要从中选择高于10米的树,Bagging的做法就是重复统计多次,从而找到高于十米的树的数量区间。

·而随机森林的做法是随机将10万棵树分成10份,每份1万棵。对于这10份,每份都有一个输出结果,高出10米或者低于10米。如果高出10米的类别多,则整体是高于10米的,反之亦然。

·在概率学中,样本容量越大,结果就越接近,所以随机森林能够在训练效果更高效,计算开销更小的情况下,得出最后结果。

·值得注意的是在随机森林中,有两个采样过程是随机的,第一个是输入数据是随机的,它是从整体性训练数据中,选取一部分作为决策树的构建,是有放回的选取。(这就保证每棵树都不是全部的样本,不容易出现问题)。

·第二个是每个决策树构建所需特征是从整体特征集中随机选取的,采样的特征远远小于整体特征。

104

【集成学习的算法】——Stacking

·相比较于Bagging和Boosting,Stacking提到的较少,Stacking算法是训练出多个小分类器,把这些小分类器的输出重新组合成为一个新的训练集,训练出来一个更高层次的分类器,以得到最终的结果。

·Stacking算法在实际应用中,通常使用logistic回归作为组合策略。

·Stacking 是一种集成学习技术,通过元分类器或元回归聚合多个分类或回归模型。

·基础层次模型(level model)基于完整的训练集进行训练,然后元模型基于基础层次模型的输出进行训练。

105
好啦,机器学习中关于集成学习的部分就先讲到这里,下期再见~

大学二维码

关注我们,收看更多精彩课程~

科大讯飞「未来课栈」上海栈成功举办!iFLYTEK AI开发者大赛正式启动!

AI大咖、创业扶持、更有2018首届iFLYTEK AI开发者大赛正式启动!

大家久等了!

在经过精心的准备后,预热了许久的AI大学「未来课栈」上海栈,今天终于和小伙伴们见面啦!3月22日,由科大讯飞AI大学发起主办的「未来课栈」,在上海中星铂尔曼大酒店拉开序幕!此次「未来课栈」正式启动了重磅的2018首届“顶天立地”iFLYTEK AI开发者大赛!同时AI大学与大街网、启迪之星签约达成战略合作,为AI大学学员建设上海栈点,打造一站式创业扶持生态。

001

作为AI大学的品牌课程之一,「未来课栈」是AI大学走进全球各地,走近AI爱好者的重要品牌活动,本次「未来课栈」上海栈也是得到了大家的热烈支持,现场座无虚席。

与「未来课栈」上海栈同时到来的还有一个好消息:AI大学迎来了4W学员!愿更多优秀的人加入到AI学习的行列!点此即可回看「未来课栈」上海栈直播视频哦!

科大讯飞研究院院长胡国平开场分享,宣布AI开发者大赛启动

AI大学副校长,科大讯飞研究院院长胡国平为本次「未来课栈」做题为《学习AI,走近未来》的开场分享。胡国平院长提到在第三次人工智能浪潮中,各种AI技术和产品不断出现,“人工智能的无成本复制能力和持续向前进化能力,是人类自身所无法比拟的。”胡国平院长说。

003

胡国平院长

胡国平院长同时展示了科大讯飞在这次AI浪潮中取得的非常不错的成绩:讯飞晓医助理在2017年国家临床执业医师考试中的表现超过了大多数考生;讯飞开放平台的累计终端数已经达18亿,开发者团队数达60万,日均服务次数达45亿。胡国平院长说,2018年会在核心技术的支撑基础上再开放100项AI能力,为各位学员和开发者提供更好的支持。

在分享中,胡国平院长还对AI大学做了详细的介绍,他提到AI大学的学员已经破4万,拥有特聘教授、技术专家,创业导师共50位,为学员提供AI前沿殿、AI工程院、AI实战堂三大课程体系以及学员遴选、学习教引、结业认证、生态扶持四阶段培养方式。AI大学将从师资力量、课程体系、学员培养这三方面让广大AI开发者和兴趣者习得AI知识,共建AI生态,真正做到赋能开发者,成就科学家。

分享的最后,胡国平院长带来了一个重磅消息:正式启动2018首届“顶天立地”iFLYTEK AI开发者大赛!

004

胡国平院长宣布开发者大赛报名通道将正式开启,并为大赛寄语:“技术顶天,应用落地,希望全社会的开发者可以和我们一起开放创新、共建AI生态。”

iFLYTEK AI开发者大赛简介
2018首届“顶天立地”iFLYTEK AI开发者大赛面向全球人工智能开发者发起挑战,汇聚产学研各界力量,致力建设全球领先的AI竞赛平台。为推动人工智能前沿科学研究和创新成果转化,讯飞研究院、讯飞开放平台、AI大学汇聚最优质资源,面向全球首次开放中文方言语音数据集,践行“方言保护计划”,用人工智能算法推动非物质文化遗产保护;开放AIUI人机对话交互,语音听写、合成、评测、翻译,人脸识别,声纹识别等十余项人工智能核心技术,促进人工智能应用场景的落地;基于AI大学人才培养体系,大赛为所有开发者提供全链路培训和辅导,致力于培养AI专业人才,构建AI产业人才生态。

大赛提供

百万奖金  两大比赛,多种奖项,100万奖金池。

生态扶持  大赛聚合讯飞生态平台、AI大学优质资源,获奖团队可获得价值500万元的创业扶持,包括技术支持、资本对接、创业指导、品牌曝光等优质生态资源。

科技晚宴  方言种类识别AI挑战赛和应用开发AI挑战赛TOP3获奖团队将受邀参加全球1024开发者节科技晚宴,和科大讯飞创始人刘庆峰等行业大咖畅聊科技,改变世界。

就业通道  优秀参赛选手将获得人工智能领导者科大讯飞企业直聘机会,用人工智能建设美好世界。优秀参赛选手将获得由AI大学联合工信部共同颁发的专业人才认证证书,获得大街网等招聘平台定向就业推荐,开启AI行业绿色通道。

用人工智能建设美好世界,我们,在路上。

AI大咖齐聚上海,研讨技术、分享理念

除了胡国平院长,众多AI大咖也齐聚本次「未来课栈」上海栈,与大家一起研讨最新AI技术,分享最新AI理念。科大讯飞AI大学导师、人工智能商业化专家吴霁虹教授在题为《AI让人类更有尊严地活》的分享中从芬奇零售驿站的案例入手,生动地诠释了什么是人工智能,以及人工智能如何成就人类,让人类获得满足等。“人工智能在每一个步骤上都已经开始超越或延展人的能力”吴霁虹教授说。

005

吴霁虹教授

吴霁虹教授还提到AI开放平台是一个能量库,让大众拥有超级能力,开发者应该从“不要为钱而做事、远离成功故事、发展一个独特竞争优势”这三个方面来创造自己的美好人生。

“深度学习使得自然语言处理众多任务取得了重大进展。”NLP一直是AI领域很火的子领域,复旦大学博士生导师张奇教授从他数年研究NLP的经验和心得,给参会者上了一堂干货满满的机器读心术。

006

张奇教授

创新工场AI工程院副院长王咏刚分享的课程主题是《人工智能的发展趋势与创投实践》。“今天的创业已经进入到AI赋能的时代。”王咏刚教授提到今天的人工智能虽然还不能做主观性较强的工作,但人工智能的商业化已经走到了比较成熟的第四阶段——Robotic  AI,AI正在被嵌入每一件硬件产品和每一个应用场景。

007

王咏刚教授

大街网CEO王秀娟女士在本次的未来课栈上海栈中就AI人才就业问题展开题为《当人才发展碰上AI浪潮》的课程分享,就科大讯飞AI大学和大街网的AI人才就业战略展开详细讲解,未来双方将进行平台联合,加强良性互动,共建AI人才,共享人才资源;通过双方资源联动,赋能并扶持泛AI人才,建设AI人才培养赛道。

008

大街网CEO王秀娟女士

启迪之星(上海)总经理韩威女士站在AI创业者的角度上,带来《AI创业卡位战》的分享,讲述了一站式创业生态链路,以及如何在崭新的时代浪潮里突出重围。韩威女士还提到科大讯飞AI大学和启迪之星的AI人才战略合作,双方将共建 AI大学上海课栈,集合AI大学和启迪之星线上线下资源,共同在上海打造AI创新人才培育中心,开放共享AI创新资源。

009启迪之星(上海)总经理韩威女士

同时,在本次「未来课栈」上海栈,AI大学与大街网、启迪之星签约达成战略合作,为AI大学学员建设上海栈点,打造一站式创业扶持生态。

创意集市,5分钟勾勒未来

“AI创意集市”是2018年「未来课栈」新增设的板块,它是所有关于AI创意项目的专项扶持平台。科大讯飞AI大学致力于为所有AI创意人提供免费能力、创业直通车、服务商推荐与创意落地解决方案。通过邀请不同行业的嘉宾用5分钟的时间,根据每期不同的分享主题,来和大家交流他们的独特观点和看法。

上海栈AI创意集市的主题是“探索AI风向标”,科大讯飞研究院科学家李鑫、深圳和盈互联科技合伙人易本祥、音书科技CEO石城川、维睛视空合伙人俞燚旻、狗尾草智能科技有限公司CEO邱楠5位创意分享者,从生活、运动、等方面,带来了非常多新鲜有趣的脑洞。

010

科大讯飞研究院科学家李鑫

011

深圳和盈互联科技合伙人易本祥

012

音书科技CEO石城川

013

维睛视空合伙人俞燚旻

014

狗尾草智能科技有限公司CEO邱楠

AI创意集市会在今年「未来课栈」每一栈中和大家见面,欢迎大家踊跃进行创意投稿。

「未来课栈」旨在为AI开发者和兴趣者提供面对面的交流平台,满足各地开发者和兴趣者的学习和交流需求,让AI成为时代的声音,让AI为未来赋能!我们的脚步不会停歇,未来课栈作为AI大学的重点品牌活动,将在今年走进多个城市,和各地的AI爱好者零距离沟通AI知识、学习AI动态。

关注【讯飞开放平台】官微,GET平台最新动态

开放平台二维码

2018-03-22 ~ 2018-03-22上海
重磅 | AI大学正式上线!燥起来吧!

万众期待的AI大学宣布正式上线!

2017年,人工智能迎来第三次发展浪潮,深度学习算法、语音识别、计算机视觉、自动驾驶等技术在行业应用落地上的循序渐进,无时不在提醒着我们必须抓住人工智能发展的重大历史机遇,加快健全人工智能产业生态。

《新一代人工智能发展规划》
同时,政府也在加大对人工智能产业的支持。早在今年7月份,国务院就发布了首个针对人工智能的“国”字号文件——《新一代人工智能发展规划》,为人工智能行业下一步的发展规划提出了方向性的意见,包括“三步走”战略、市场规模的预期等。

讯飞开放平台AI大学正是在这种行业背景和历史机遇下横空出世,正式宣布上线!我们将为讯飞开放平台开发者提供更多增值服务,引导用户加深对产品的理解,推动其使用效率,携手打造一个AI领域知识和经济共享、共赢的健康生态群。

技术小白也能闯阵过关!

讯飞开放平台整合语音交互、云计算、大数据挖掘等主流人工智能技术,为开发者提供知识、资源、支持等增值服务的在线社区集群,可以很好的服务多元化的生活场景,降低软硬件开发者集成门槛,为企业提供行业解决方案。目前拥有众多开发者,每天服务次数超过 40 亿次。AI大学上线的一个重要意义在于,可以通过讯飞技术大咖的在线课程,带来一站式在线学习体验,让技术小白也能够获得开发能力,轻松在AI阵营闯阵过关。

AI大学,不止于学。

在这里,你将收获:

AI专业课程——

最in的人工智能核心技术,最全的人工智能解决方案!AI大学提供覆盖语音合成、语音识别、AIUI、麦克风阵列等多个核心业务领域的课程,包含技术能力、解决方案、行业剖析等多个维度。

无论你是技术大咖、还是学生小白,AI大学都可以给你带来一站式的AI学习体验。所有课程还将对应相应的学分,学员学习后可完成不同等级的认证,助力你从0到1!

0 (1)

线下AI沙龙活动——

每月一期的线下交流活动,技术沙龙、产品发布、创客交流……讯飞技术大咖与你面对面交流,分享多年从业经验。

今年,我们已走过深圳、上海、北京、杭州、常州等多个城市,与各地开发者、合作伙伴深入对接交流。未来,讯飞AI的脚步将点亮中国和世界。

AI开发者互动论坛——

所有AI爱好者的在线交流基地。在这里,我们高谈阔论AI,我们互相解答疑难。最常见的问题和最精华的回复汇聚在此,帮助开发者快速排雷。

悄悄告诉你:每月都会有线上福利活动,参与互动、领取语点还能兑换精美礼品哦~

前沿的AI行业资讯——

整合行业内AI相关的资讯信息,为用户提供有价值的内容和服务。

每周定期更新AI领域最新黑科技、开发者关注话题资讯,更有话唠息智能陪聊机器人陪你聊不停!

0

还有什么?

此外,AI大学还与各地政府及高校建立联系,共同合作。AI大学联合多方资源,给学员提供技术、场地、高校培训等各类支持与帮扶,致力于给学员提供一站式教学内容,并助力孵化。

现在开始,和众多开发者一起,用人工智能建设美好世界吧!

送礼物啦!

本期话题

留言分享你最期待AI大学的功能

或你对AI大学还有哪些建议
截至9月22日24:00
留言点赞数前十名小伙伴将获得
科大讯飞独家定制纪念款旅游背包一个

价值399元!

微信图片_20170915174334

qrcode_for_gh_f646fabf6c65_860 (1)
点击阅读原文,体验AI大学!
超过80%语音开发者的共同选择