AI知识科普 | 从无人相信到万人追捧的神经网络

计算机能够像人一样做出判断,用直觉而非规则

天才就是当世上所有人都觉得他疯了的时候,他依然清晰地知道自己不是真的疯了,而是比旁人看的更长远。
——致敬为科学一直坚持的先辈

神经网络的发展可以追溯到二战时期,那时候先辈们正想着如何用人类的方式去存储和处理信息,于是他们开始构建计算系统。

由于当时计算机机器和技术的发展限制,这一技术并没有得到广泛的关注和应用。

几十年来,神经网络之父Hinton始终坚持计算机能够像人类一样思考,用直觉而非规则。

尽管这一观点被无数人质疑过无数次,但随着数据的不断增长和数据挖掘技术的不断进步,神经网络开始在语音和图像等方面超越基于逻辑的人工智能。

几乎是一夜间,神经网络技术从无人相信变成了万人追捧。

微信图片_20180604150453

神经网络之父Hinton

1.人工神经网络是什么?

人工神经网络:是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。

这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的,并具有自学习和自适应的能力。

简单来说,就是通过大量的样本训练神经网络,得到结论。接着就可以输入新的信息,看最后得出怎样的回应。

例如,周杰伦周末在北京开演唱会,班主任会考虑时间、地点、价格、天气、是否有同伴,这些因素然后根据这些判断因素,做出是否去看演唱会的决定。

从班主任接收到演唱会信息,到做出相应判断,这整个过程就是神经网络运行的过程。

2.人工神经网络组成

一个典型的神经网络,由成百上千万的人工神经元构成,他们排列在一系列的层中,每个层之间彼此相连。

基本上由三个相互连接的层组成:输入层、隐藏层和输出层。 

班主任画了一个简单的图来帮助同学们理解:

微信图片_20180604191625

由上图,可以看出,输入层向隐藏层输入信息,隐藏层会向输出层输送数据。下面班主任来介绍人工神经单元的这三个组成部分:

A、输入层

输入层是接收每个观测值的解释属性的值作为输入。一般情况下,输入层从外界接收各种各样的信息,神经网络会用这些信息进行学习、识别或进行其它的处理。

B、隐藏层

隐藏层将给定的转换应用于网络内的输入值。隐藏层的节点数目不定,但隐藏层越多,神经网络越强健。

C、输出层

输出层接收来自隐藏层的连接,它返回一个对应于响应变量预测的输出值,再通过输出层的活动节点结合并改变数据以产生输出值。

人工神经网络,就是通过这三个层面模拟着人类的思考过程。

3.常见的神经网络类型 

A、BP神经网络

BP神经网络,是按误差反向传播算法的学习过程,由信息的正向传播和误差的反向传播两个过程组成,是一种应用最为广泛的神经网络。

先来看一下BP神经网络的流程图:

微信图片_20180604191815

由BP神经网络流程图可以看出,正向传播处理过程和人工神经网络的流程相同。其本质的区别是,增加了误差的反向传播阶段。

当实际输出与期望输出不符时,误差通过输出层,按误差梯度下降的方式修正各层权值,向隐层、输入层逐层反传。

简单来说,即通过信息正向传播和误差反向传播,不断地进行学习训练,一直到网络输出的误差减少到可以接受的程度。

B、卷积神经网络

卷积神经网络是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元。

换个角度思考,卷积神经网络就是多层的神经网络,前面的层训练出的特征作为下一层的输入,所以越到后面的层,特征越具体。

微信图片_20180604191924

卷积神经网络在大型图像处理方面展示出了非凡的效果。

例如,我们需要在众多图像中鉴别出一只猫,人类可以通过已有的常识判断出特征,比如猫头、猫身、猫尾巴等从而鉴别出一只猫。

而卷积神经网络完全不知道什么是猫头、猫身、猫尾巴,卷积神经网络通过学习物体的抽象特征,这种特征在现实世界有可能都没有特定的名词,但是通过这些自学的的特征组合在一起,计算机就会判定这是一只猫!

微信图片_20180604192014

 

C、递归神经网络

递归神经网络是一种深度神经网络,它将相同的权重递归地应用在神经网络架构上,以拓扑排序的方式遍历给定结构,从而在大小可变的输入结构上可以做出结构化的预测。

递归神经网络可以把一个树/图结构信息编码为一个向量,也就是把信息映射到一个语义向量空间中。

班主任画了一个简单生动的图来帮助同学们理解:

微信图片_20180604192143

由上面的图可以看出,神经网络A,可以查看输入层的X,输出h。一个递归的神经网络可以被认为是同一个神经网络的多个副本,每一个副本都传递一个消息给输出层。

 

D、长短期记忆网络

长短期记忆网络,是一种时间递归神经网络,适合于处理和预测时间序列中间隔和延迟相对较长的重要事件。它能够解决传统的神经网络中的后面的时间节点感知力下降的问题。

值得一提的是,长短期记忆网络在算法中加入了一个处理器,放置了三扇门:输入门、遗忘门、输出门,以此来判断信息是否有用。

只有符合规则的信息才会被留下,不符合的会通过遗忘门被遗忘。

科大讯飞「AI·飞无界」新品发布会精彩看点

见证人机交互新变革

科大讯飞「AI·飞无界」新品发布会报名信息公布之后,就不断有朋友留言说,要专门请假来参加活动,大家报名的热情更是惊到了我们,80位“追光者”的名额很快就满了,现场的余票也不多喽,还没报名的小伙伴要抓紧了。【点此报名】
微信图片_20180511105112
一小时现场开发产品

发布会当天,当你走进会场,准会看到四个玻璃房。四位开发者将在里面进行一场别开生面的 AI Battle (挑战赛)。

挑战赛怎么玩?很简单,四位开发者将在一个小时内,利用 AIUI 开放平台的技能和魔飞麦克风,现场编程,进行产品开发,并做demo展示。

一小时就完成一个产品基本功能的开发?是的,你没有看错!快速高效、自然流畅,有AIUI平台,就是可以这么任性~

而且,demo展示环节还将进行非常有趣的互动以及现场抽奖哦!!再次友情提示,余票不多,还没报名的,赶紧【点击报名】

智能家居体验室

“魔飞魔飞,打开窗帘。”
“魔飞魔飞,我要看电视。”
“魔飞魔飞,把灯打开……”

一个真正智能的家到底能给你带来什么样的体验?这一次,不用再想象了,我们在会场外专门布置了智能家居体验室,让你一次玩个够。

效果图

就这些吗?当然不止!不过,再多说,可就破坏氛围喽,惊喜一定要留到最后~接下来,再跟大家明确一下参加发布会需要注意的地方。亲,请记好:

– 不可错过的参会指南 –

1、如何报名
点击链接:http://aiuios.xfyun.cn/aiui?ch=opencloud,进入报名通道,按照提示填写相关信息,即可报名。

2、官方社群
为了让大家第一时间了解新品发布会的相关信息,我们建立了发布会官方群,添加小助手微信:aigongkaike ,由小助手统一将大家拉入官方群!

3、媒体报道
寻求本次活动媒体报道权,请邮件联系:yycao@iflytek.com

发布会详情

时间:5月17日,19:00-21:00
地址:深圳市南山区赤湾1路4号Reborn755泛娱乐馆

参会路线推荐

深圳宝安国际机场至会场:
出租车: 约40分钟
公交车: 地铁11号线转地铁2号线至赤湾站(C口)出站步行1500米到达

深圳站至会场:
出租车: 约1小时
公交车: 地铁1号线转地铁2号线至赤湾站(C口)出站步行1500米到达

深圳北站至会场:
出租车: 约45分钟
公交车: 地铁4号线转地铁2号线至赤湾站(C口)出站步行1500米到达

深圳西站至会场:
出租车: 约20分钟
公交车: 地铁1号线转地铁11号线转地铁2号线至赤湾站(C口)出站步行1500米到达

深圳东站至会场:
出租车: 约1小时
公交车: 地铁5号线转地铁2号线至赤湾站(C口)出站步行1500米到达

来不了现场? 没事,有直播!扫下方直播二维码,到时即可在线观看发布会:

发布会直播
你还可以通过以下平台观看本次发布会直播:

直播

2018-05-17 ~ 2018-05-17深圳市南山区赤湾1路4号Reborn755泛娱乐馆
参赛必看|想拿百万奖金吗?赛前锦囊火热来袭

AI开发者大赛报名倒计时

2018首届“顶天立地”iFLYTEK AI 开发者大赛正在火 !热 !报 ! 名 ! 中 !

【点击这里】直接进入报名通道~

大赛-1
2018首届“顶天立地”iFLYTEK AI 开发者大赛报名启动以来,大家通过各种途经向组委会提出了很多问题。别着急!小编会尽快把大家普遍关心的问题整合分类,一一为大家答疑解惑哦~

今天我们先从“应用开发AI挑战赛”开始~

【参赛要求】

1.参赛作品必须使用包括AIUI人机对话交互在内的至少一项讯飞开放平台能力。

2.参赛作品使用语音和图像相关人工智能能力需优先调用讯飞开放平台技术接口。其他厂商AI技术接口调用不得超过一种。

3.合法性:参赛作品主题内容必须健康、合法、没有任何不良信息及商业宣传行为,不违反任何中华人民共和国的有关法律。

4.原创性:参赛作品必须保证原创性,不侵犯任何第三方知识产权或其他权利;一经发现或经权利人指出,主办方将取消其参赛资格。

【评审标准】

1.产品创新性:参赛作品是否具有充分的创新性,与行业成熟方案相比较有差异化,有更好的产品表现。

2.产品实用性:参赛作品是否能够解决所在领域的实际问题,解决用户痛点。

3.AI能力结合度:参赛作品是否结合AI技术,使得产品的体验及功能有了突破性进展。

4.产品商业前景:参赛作品能否创造较好的社会和市场效益,具有较为广阔的商业前景。

看到这些要求和标准,你是否感到茫然失措?别着急!今天小编就给大家分享几个借助讯飞开放平台技术应用开发的优秀案例,希望可以给你们激发一些灵感!

继续往下看↓↓↓

1-1案例1.叮咚音箱

叮咚配有8个麦克风阵列,确保它可以听清你说的每一句话,无论你身在房间哪个位置。独特的远场识别技术,支持5米超远距离语音交互。AIUI硬件特有的回声消除技术,使这款智能音箱能过滤掉各种背景噪音,包括正在播放的音乐等,以便更为准确地领会用户指令。可以帮助用户听歌,听新闻,定闹钟,闲聊等。

1-2案例2.阿尔法蛋

阿尔法蛋机器人是淘云科技有限公司倾力打造的一款教育陪伴智能机器人。集成教育内容、超级电视、视频通话、智能音箱和自然语言交互机器人的阿尔法蛋是一款功能聚合的机器人,功能与服务面向家庭所有成员。搭载讯飞AIUI智能系统,拥有“类人脑”,其理解能力、表达能力,智商都会随着深度自我学习,不断成长,是一款“真”机器人。

1-3案例3.合肥轨道

合肥轨道交通首开全国先河,创新推出“语音购票”服务功能,通过搭载AIUI评估板,市民乘客将在轨道交通车站自动售票机上通过语音选择目的地站点、购票张数,再通过现金或者手机扫码完成购票交付。

1-4案例4.咪咕莫比斯耳机

莫比斯通过搭载AIUI交互系统,聚合语音操控、中英翻译、心率监测、健身指导、日程管理、出行导航、路线规划、音乐听书等的完整体系。这是咪咕在智能时代对全新人机交互的探索,通过全语音交互,它的应用场景会更加多元化,智能化,它的核心价值也远超主流耳机产品,因此莫比斯才能被定义为全球首款全语音人工智能耳机。

1-5案例5.荣泰

荣泰智能语音按摩椅搭载AIUI , 配合多麦克风阵列,灵敏交互、精准识别之灵,操控准确便捷,解放双手,让休憩更彻底。

1-6案例6.优友机器人

优友机器人是康力优蓝机器人科技有限公司推出的高端大型服务机器人产品,优友以完美的造型亮相,一经发布即引起业内强烈关注,优友的语音系统采用科大讯飞的AIUI解决方案,机器人进而具备各种功能,成为银行引导员、公司前台、商场导购、展馆导览员、餐厅服务员等等,在存在劳动力缺口的各个领域中都有望得到广泛应用。

【大赛概况】

2018首届“顶天立地”iFLYTEKAI开发者大赛面向全球开发者首次开放中文方言语音数据集,践行“方言保护计划”,用人工智能算法推动非物质文化遗产保护。

除了方言语音数据集之外,还将开放AIUI人机对话交互,语音听写、合成、评测、翻译等十余项人工智能核心技术,促进人工智能应用场景的落地。

大赛共分为方言种类识别AI挑战赛和应用开发AI挑战赛两大赛题进行比拼,百万奖金,等你来战!

1-7

除丰厚奖金外,大赛聚合讯飞生态平台、AI大学优质资源,获奖团队可获得价值500万元的创业扶持,包括技术支持、资本对接、创业指导、品牌曝光等优质生态资源。
以上就是本期给大家准备的赛前干货啦,希望可以给大家带来一些启发~下期我们为大家带来方言种类识别AI挑战赛的干货哦~敬请期待!

【赶快点此报名】

我们一起,让AI更有情怀,让技术更实在!

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信,此为小助手的微信号二维码:

1-8

 

关注“讯飞开放平台”公众号,获取更多资讯

开放平台

参赛必看|权威专家带你解密方言种类识别AI挑战赛

AI开发者大赛报名倒计时

距2018首届“顶天立地”iFLYTEK AI开发者大赛报名截止时间越来越近了。你的参赛作品准备好了吗?【点击这里】即可直接进入报名通道!

上期为大家介绍的是“应用开发AI挑战赛”的相关内容。有不少小伙伴留言,强烈要求小编再出一版关于“方言种类识别AI挑战赛”的一些具体赛况。今天小编就来满足你们~

方言赛

针对大家对“方言种类识别AI挑战赛”的一些提问,我们邀请到了科大讯飞研究院科学家、语言识别技术总负责人潘嘉为大家进行赛事解读。小编把潘嘉老师的解读整理了下,分享给大家,满满的干货,小板凳快搬好,准备记笔记啦~

方言种类识别AI挑战赛
【赛题详情】

方言种类识别 AI 挑战赛任务为汉语方言语言种类识别,即根据给定语音,判断该语音属于哪个方言。

科大讯飞全球首次开放覆盖中国六大方言区、总时长约 60 小时的 10 种汉语方言语音数据集,供参加竞赛的科研单位以及开发者免费使用。

根据测试语音长度,方言识别 AI 挑战赛分为两个不同难度的子任务,即任务一(有效语音长度≤3s )和任务二(有效语音长度>3s)。

结果评价指标为分类正确率 acc:即分类正确的语音条数/所有语音条数。

训练集合与开发集合供参加竞赛的科研单位以及开发者调试系统使用,测试集合不开放,最终排名以参赛者提交的系统在线上测试集合上的结果为准,分类正确率越高排名越靠前。

【开放数据】

初赛共有六种方言,分别来源于六大方言区,具体为:长沙话、河北话、南昌话、上海话、闽南语、客家话。

为了进一步提高数据的覆盖性,测试集在性别等方面都做过精心的挑选。每种方言平均包含6小时的朗读风格语音数据,覆盖40个说话人。数据由各个型号的智能手机采集,录制环境包含安静环境和噪声环境。数据以采样率16000Hz、16比特量化的PCM格式存储。

数据集包含训练集、开发集和测试集三个部分。

训练集每种方言有6000句语音,包含30个说话人,其中15位男性和15位女性,每个说话人200句语音;开发集和测试集分别每种方言包含5个说话人,其中开发集为2名女性和3名男性,测试集为3名女性和2名男性。这样的数据具有非常高的使用价值。

开发集和测试集的数据根据语音段的时长分为两类,一类是小于等于3秒的短时数据(任务一),另一类是大于3秒的为长时数据(任务二),分别对应于两个比赛任务,其中每个说话人两类数据各50句,共100句。训练集、开发集、测试集的说话人均没有重复。

为了增加本次比赛技术方案的多样性,每条语音对应文本内容的音素序列标注也将同样提供。

【参赛系统】

参赛系统的搭建方法不限,所有机器学习的方法均可以使用,并且参赛系统可以是多种方法以任意形式的结合,比如投票法等等。

两个不同的比赛任务可以采用两套完全独立的系统。比赛采用离线测试的方式进行,因此本次比赛对参赛系统的响应时间不做要求。

同时,考虑到复赛和初赛的难度差异,复赛和初赛也可以采用不同的系统。

【评测方式】

本次比赛的测试集是不公开的,因此需要参赛者提交自己的系统,具体操作方式如下:

a)初赛提交系统时,请提交参赛者名称、第一作者、该系统对应的任务、参赛系统、训练集和开发集上的分类正确率

b)复赛提交系统时,需要额外提交一份参赛系统的论文或者说明书(最好能够附带提供源代码),详细介绍系统的构成、训练方法和对应的参数

c)如无特殊情况,每天上午11点在官方网页上公布各个参赛者在测试集上的分类正确率并对结果进行排序(每个参赛单位的结果以最新提交的为准)

【评测系统】

为了能够正确进行测试,所有测试均在相同配置的Linux 64位服务器上统一采用CPU进行测试。因此提交的系统不能是windows等其他操作系统下的程序,并且不能和GPU、FPGA等其他硬件相关联。同时为了方便参赛者更好的参加比赛,本次比赛制定了详细的参赛系统提交和评估系统,介绍如下:

1.评测系统目录结构

/dataset…………开发集目录,用于系统提交后的正确性验证
/inference………评测代码及资源目录,系统运行的当前路径
/result …………请将评测结果以result.txt命名,存放在此目录

result.txt请按照result.txt中的格式。格式如下:

posterior: changsha, hebei, nanchang, shanghai, kejia, minnan
sent1: 0.01, 0.02, 0.03, 0.04, 0.1, 0.8
sent2: 0.7, 0.02, 0.04, 0.1, 0.06, 0.08
sent250: 0.01, 0.02, 0.03, 0.04, 0.6, 0.3
ACC: 0.8854

2.本地开发调试

a)使用开源深度学习训练框架(推荐)

请从公开镜像仓库下载对应版本的深度学习镜像CPU版本,编写本地程序进行评测。

以tensor flow工具为例:

I.下载镜像,docker pull tensorflow/tensorflow: 1.7.0

II.下载开发集到 /dataset目录,将评测代码inference.py及评测所需资源复制到 /inference目录

III.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result tensorflow/tensorflow:1.7.0 /inference/inference.py

IV.查看输出结果,并检查该输出结果的正确性其他框架与此类似。
b)使用非开源深度学习训练框架

首先,要将使用的深度学习训练框架制作成docker镜像,上传至公开镜像仓库(推荐使用国内稳定镜像仓库服务,如UCloud),制作详情可参考docker官方文档,具体操作如下:

I.在hub.docker.com注册账号,并创建仓库

II.本地执行docker tag your_demo your_account/your_demo:latest

III.本地执行docker push account/your_demo:latest,等待命令执行成功后,即可在hub.docker.com网页上,看到新提交的镜像信息
镜像提交完成后,参考使用开源深度学习训练框架中的步骤,进行本地开发和调试
具体的为:
IV. 下载上传的镜像,docker pull yourtoolname

V.下载开发集到 /dataset目录,将评测代码inference.py及评测所需资源复制到 /inference目录

VI.运行镜像,docker run –it –v /dataset:/dataset –v /inference:/inference –v /result:/result yourtoolname /inference/inference.py

VII.查看输出结果,并检查该输出结果的正确性

3.提交评测系统

a)将/inference目录打包成tar文件,tar –cvf inference.tar inference/
b)在比赛官网中评测系统提交页面进行上传

4.线上验证及评测

a)配置系统所需的镜像仓库地址,镜像入口及验证参数(/dataset目录由系统自动将开发集挂载到镜像内)
b)点击”运行”,等待评测结果
c)如评测报错或效果异常,请排查/inference目录结构、镜像等配置信息
d)确定评测结果无误后,点击”提交”。此时/dataset内将替换成为非公开的测试集,并记录系统效果

【限制条件】

为了保证比赛的公平性,本次比赛仅允许使用官方发布的数据和标注,否则比赛成绩将被视为无效。

不符合规定的情况包括以下几种:
a)参赛系统搭建过程中有任何一个环节(包括数据加噪、模型初始化等)用到了官方发布的训练数据集之外的其他数据
b)人工对发布数据集的音素序列标注进行矫正或改动
c)其他对发布数据集的人工处理,比如人工对数据集进行语音端点检测等

以下情况是允许的:
a)仅利用官方发布的训练数据集进行数据的机器仿真和加噪
b)利用官方发布数据集中已公布的所有信息,包括性别、说话人等
注:
完整的初赛数据集请在报名成功后前往个人中心-我的比赛,进入方言识别比赛专题页面进行下载

最后,潘嘉老师还为大家提出了一些新的研究方向。

科大讯飞首次提出基于BN i-vector的方法来解决语种识别的问题,相比传统的SDC特征的i-vector方法有着较大的提升。近几年来,类似于DNN等新的深度学习技术,也是可以尝试的方向。

具体的方法多种多样,比如可以直接利用文本信息来训练一个文本的分类器,跟传统的基于i-vector的方法进行融合,或者也可以把它作为一种外部的信息源,加入到端对端系统的输入中,直接训练端对端的系统。
今天的赛前分享就到这里了,感谢潘嘉老师的倾力相助。相信优秀的你们,一定会创造出出类拔萃的作品,小编再一次提醒大家,报名时间不多啦,大家千万别忘记报名了哦。

【点此报名参赛】

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信:

1-8

2018-03-22 ~ 2018-10-24合肥
听得懂,才智能!语音唤醒技术入门课程来啦

超多干货在里面

AI大学的同学们,大家好,新课程又来啦,本周,我们要学习的是“语音唤醒”的相关内容。

对于智能产品的用户来说,唤醒就是语音交互的第一入口,唤醒效果的好坏直接影响到用户的第一体验。所以,今天的内容还是很重要滴,同学们要认真听讲哦~

话不多说,有请今天的主讲嘉宾:科大讯飞研究院吴国兵老师,掌声欢迎~

唤醒01

1、什么是语音唤醒

语音唤醒在学术上被称为keyword spotting(简称KWS),吴老师给它做了一个定义:在连续语流中实时检测出说话人特定片段。

这里要注意,检测的“实时性”是一个关键点,语音唤醒的目的就是将设备从休眠状态激活至运行状态,所以唤醒词说出之后,能立刻被检测出来,用户的体验才会更好。

那么,该怎样评价语音唤醒的效果呢?通行的指标有四个方面,即唤醒率、误唤醒、响应时间和功耗水平:

➤唤醒率,指用户交互的成功率,专业术语为召回率,即recall。

➤误唤醒,用户未进行交互而设备被唤醒的概率,一般按天计算,如最多一天一次。

➤响应时间,指从用户说完唤醒词后,到设备给出反馈的时间差。

➤功耗水平,即唤醒系统的耗电情况。很多智能设备是通过电池供电,需要满足长时续航,对功耗水平就比较在意。

2、语音唤醒的技术路线

经过长时间的发展,语音唤醒的技术路线大致可归纳为三代,特点如下:

第一代:基于模板匹配的KWS

唤醒02

训练和测试的步骤比较简单,训练就是依据注册语音或者说模板语音进行特征提取,构建模板。测试时,通过特征提取生成特征序列,计算测试的特征序列和模板序列的距离,基于此判断是否唤醒。

第二代:基于HMM-GMM的KWS

唤醒03
将唤醒任务转换为两类的识别任务,识别结果为keyword和non-keyword。

第三代:基于神经网络的方案

唤醒04

神经网络方案又可细分为几类,第一类是基于HMM的KWS,同第二代唤醒方案不同之处在于,声学模型建模从GMM转换为神经网络模型。 第二类融入神经网络的模板匹配,采用神经网络作为特征提取器。第三类是基于端到端的方案,输入语音,输出为各唤醒的概率,一个模型解决。

3、语音唤醒的难点

语音唤醒的难点,主要是低功耗要求和高效果需求之间的矛盾。

一方面,目前很多智能设备采用的都是低端芯片,同时采用电池供电,这就要求唤醒所消耗的能源要尽可能的少。

另一方面,用户对体验效果的追求越来越高。目前语音唤醒主要应用于C端,用户群体广泛,且要进行大量远场交互,对唤醒能力提出了很高要求。

要解决两者之间的矛盾,对于低功耗需求,我们采用模型深度压缩策略,减少模型大小并保证效果下降幅度可控;而对于高效果需求,一般是通过模型闭环优化来实现。先提供一个效果可用的启动模型,随着用户的使用,进行闭环迭代更新,整个过程完成自动化,无需人工参与。

4、语音唤醒的典型应用

语音唤醒的应用领域十分广泛,主要是C端产品,比如机器人、音箱、汽车等。比较有代表性的应用模式有如下几种:

➤传统语音交互:先唤醒设备,等设备反馈后(提示音或亮灯),用户认为设备被唤醒了,再发出语音控制命令,缺点在于交互时间长。

➤One-shot:直接将唤醒词和工作命令一同说出,如“叮咚叮咚,我想听周杰伦的歌”,客户端会在唤醒后直接启动识别以及语义理解等服务,缩短交互时间。

➤Zero-shot:将常用用户指定设置为唤醒词,达到用户无感知唤醒,例如直接对车机说“导航到科大讯飞”,这里将一些高频前缀的说法设置成唤醒词。

➤多唤醒:主要满足用户个性化的需求,给设备起多个名字。

➤所见即所说:新型的AIUI交互方式,例如用户对车机发出“导航到海底捞”指令后,车机上会显示“之心城海底捞”“银泰城海底捞”等选项,用户只需说“之心城”或“银泰城”即可发出指令。

唤醒05
好啦,关于“语音唤醒”今天就先介绍这么多,想要仔细学习课程的同学,【点击这里】可以查看吴老师的教学视频哦,下期课程再见。

关注“讯飞AI大学”公众号,及时了解更多信息

AI大学

想获得讯飞创业扶持?机会就在这里

开发者大赛详解

划重点:

2018首届“顶天立地”iFLYTEK AI 开发者大赛火热进行中,【点此报名】直接进入报名通道~ 100万奖金池等你来挑战,优胜团队还可获得讯飞创业扶持优质资源!

自从2018首届“顶天立地”iFLYTEK AI 开发者大赛启动的消息公布后,小编就不断收到提问,其中的大部分问题都跟大赛奖励中的“生态扶持”有关。也难怪,毕竟是价值500万元的创业扶持资源,换成谁都会心动呢~

今天,小编就满足大家的好奇心,给小伙伴们好好讲一讲讯飞生态扶持的内容。

2017年10月24日,科大讯飞举办首届“全球1024开发者节”,在这次盛会上,讯飞正式推出了“AI生态计划”,启动10.24亿生态扶持基金,并在全国各地设立AI众创空间,为创业团队提供包括技术、资金、产业资源、办公场地在内的全方位服务。这就是“生态扶持”的起源。

生态计划

(首届“全球1024开发者节”)

目前,讯飞生态平台为开发者和创业团队提供的投资孵化、优秀星计划、联合空间等扶持通道均已全面开通,无论是刚刚起步,羽翼尚不丰满的初创团队,还是已经获得多轮融资,拥有数百万营收的钻石团队,都可以通过讯飞生态平台获得对应的创业扶持。

加入讯飞生态平台创业扶持计划之后,创业团队可以享受技术支持、资本对接、品牌背书等一系列优质资源,讯飞将提供优惠折扣的能力服务,并有专项经理对接创业团队,优先邀请创业团队创始人参加CEO参访活动,交流创业经验,资源共享,一同快速成长。

创业

当然,大家这会儿估计已经有很多疑问了,先别急,小编知道你们想问什么,早就替你们考虑到了,继续往下看:

Q:我是否必须集成讯飞开放平台的各项服务?

A:不必。我们为创业团队全面开放讯飞开放平台的各项服务,但这并不意味着您现在就必须使用我们的服务。我们非常乐意帮助您在讯飞开放平台直接体验世界领先的人工智能技术,并简单快速集成到产品中,让产品具备“能听会说会思考会预测”的功能。

Q:在项目期间开发的知识产权会为讯飞所有吗?

A:不,讯飞并不持有在此项目期间开发的知识产权,此项权利归开发公司所有。

Q:讯飞生态平台在寻找什么样的创业公司?

A:我们正在寻找在智能语音技术上有独特突破的创新想法和优秀团队,依托或需要智能语音的技术驱动型创业公司。我们很乐意帮助您开始免费接入讯飞开放平台,我们希望通过接入讯飞的人工智能技术,能够帮助创业团队在用户体验和品牌价值上得到快速提升。

Q:讯飞生态平台是否会投资入选公司?

A:会。对于足够优秀的创业团队和项目我们将直接进行投资。

怎么样?看到这里,你是不是对讯飞生态扶持已经有了一个基本的概念了?简单来说,我们就是要汇聚讯飞内外部各种优质资源,为创业团队提供更好的AI技术和服务,帮助创业团队快速成长。

所以,你还在等什么?报名参加本届开发者大赛,就有机会赢得价值500万元的创业扶持,收获讯飞为你准备的优质生态资源。

大赛-1

【点此报名】

想了解大赛更多详细信息和最新消息,可以添加开发者大赛小助手的微信。

小助手微信号二维码

大赛-4
讯飞生态平台,是科大讯飞倾力打造的“AI创业孵化平台”,旨在汇聚人工智能精英团队,创造一个AI领域资源共享、开放共赢的产业生态。讯飞生态平台依托讯飞开放平台的人工智能技术和庞大的开发者体系,运用自身产业优势及资源,为创业团队提供更好的AI技术和资源服务,帮助创业团队快速成长。

关注“讯飞生态平台”公众号,创业更有料

生态平台

机器学习入门精讲,这40个知识点不可错过(二)

决策树——机器学习中的“倚天宝剑”

今天,带大家来学习机器学习中另外一个很重要的算法——决策树。

在开讲之前,咱们先来看个例子。

201玩过狼人杀的同学都知道,不管游戏过程多么激烈,该游戏的最终结局只有4种。

为了让同学们更直观地看到这4种结局,我们画了个非常生动形象(简单粗暴)的图:

202

这幅图完整表达了狼人杀结局的各种情况,箭头指向一个判断条件在不同情况下的游戏结果,最后通过场上剩余的人来判断是谁获胜。

我们可以看出,在每一个关键节点(比如村人杀死所有的狼人?),依据判断条件,可以将答案划分为Yes or No,最后输出获胜一方。

通过树形结构,根据条件判断输出相应的结局,这种简单的算法,便是决策树的原型。

【决策树】——机器学习中的“倚天宝剑”

决策树是机器学习中很经典的一种算法。它既是分类算法,也是回归算法,还可以用在随机森林中。

关于随机森林的知识点,可以回顾上期课程机器学习入门精讲,这40个知识点不可错过(一)

咱们学计算机的同学经常敲if 、else if、else其实就已经在用到决策树的思想了。

决策树是一种简单常用的分类器,通过训练好的决策树可以实现对未知的数据进行高效分类。

从开头狼人杀的例子中也可以看出,决策树模型具有较好的可读性和描述性,能够帮助我们更高效率地去分析问题。

举个例子,普通人去银行贷款的时候,银行会根据相应条件,来判断贷款人是否具有还贷能力。

贷款用户主要具备三个属性:房产、婚姻、平均月收入。

拥有房产或结过婚或月收入大于4000的贷款用户具备偿还能力。

203判断偿还能力过程如图所示

例如:用户甲没有房产,没有结婚,月收入5K,通过上图的判断条件可以判断出用户甲具备偿还贷款能力。

这整个判断还贷能力的过程,就用到了决策树的思想。

【决策树算法】——基尼不纯度、熵

基尼不纯度,是指将来自集合中的某种结果随机应用在集合中,某一数据项的预期误差率,可以用来度量任何不均匀分布。

下图是组合1和组合2的基尼不纯度:

204

从图中我们可以看出,组合1的基尼不纯度大于组合2。

打个比方,基尼不纯度就像男生挑钻石向女生求婚,所有的钻石看着都很闪,但仔细比较价格却差很多,因为每颗钻石的的纯度不一样,纯度越高,价格也就越贵。

由此可总结出这样2种情况:

A、基尼不纯度越小,纯度越高,集合的有序程度越高,分类的效果越好

B、基尼不纯度为 0 时,表示集合类别一致

熵度量的是事物的不确定性,越不确定的事物,它的熵就越大。

熵是信息论中的概念,用来表示集合的无序程度,熵越大表示集合越混乱,反之则表示集合越有序。

【决策树算法】——信息增益

信息增益越大,说明整个集合从无序到有序的速度越快,本次拆分越有效,则越适合用来分类。

通俗来讲,信息增益代表了在一个条件下,信息复杂度(不确定性)减少的程度。

我们以《非诚勿扰》为例,在男嘉宾出场之前,如果女嘉宾对男嘉宾一无所知,成为他女朋友的不确定性就比较高,如果知道其中的几个特征(如身高、性格等),不确定性就会减少很多。

由上面的例子可见,一个属性的信息增益越大,表明这个属性使得数据由不确定性变成确定性的能力越强。

【决策树算法的补充要点】

*关于剪枝

利用决策树算法构建一个初始的树之后,为了有效的分类,还要对其进行剪枝,剪枝是为了减少过拟合现象。

剪枝思路主要是两种:

一种是预剪枝,即在生成决策树的时候就决定是否剪枝。

另一个是后剪枝,即先生成决策树,再通过交叉验证来剪枝。

*关于过拟合

为了得到一致假设而使假设变得过度复杂称为过拟合。

比如,考试的时候,有的人采用题海战术,把每个题目都背下来。
但是题目稍微变化一下,他就不会做了,因为他没有总结出通用的规则。

过拟合的原因一般有两种:

A.模型太过复杂而样本量不足

B.训练集和测试机特征分布不一致

机器学习中关于决策树的部分就讲到这里了,下期再会。

大学二维码

关注我们,收看更多精彩课程~

机器学习入门精讲,这40个知识点不可错过(一)

集成学习——机器学习中的“屠龙宝刀”

为了让大家更好地了解和学习AI基础知识,我们就人工智能核心领域中的“机器学习”系统地总结了其40个入门必备知识点,现在我们就先来学习第一部分。

【集成学习】——机器学习中的“屠龙宝刀”

·集成学习方法是使用一系列学习器进行学习,再将学习结果整合,它像是某种优化手段和策略。在机器学习的监督学习算法中,我们想得到的是一个稳定且在各方面表现都很好的模型。

·但往往我们只能得到一些弱监督模型(在某些方面表现比较好),集成学习通常就是结合多个简单的弱机器学习算法,去做更准确的决策。

·用俗语来讲,就是集众人智慧去做相应的决策,个人的决策可能在某些方面有些不准确,但其他人可以修正他的决策,从而达到结果最优化。

·一般来讲集成学习的关键有两点,一是如何构建不同的分类器,另一个是如何将不同分类器的结果进行融合。

·围绕着这两个核心问题,产生了很多算法,其中最具代表性、最被大家所熟知的就是Boosting、Bagging和Stacking

101
集成学习分类器

【集成学习的算法】——Boosting

·Boosting是一种提高任意给定学习算法准确度的方法。它的思想起源于 Valiant提出的 PAC ( Probably Approximately Correct)学习模型。

·Boosting是一种框架算法,主要是通过对样本集的操作获得样本子集,然后用弱分类算法在样本子集上训练生成一系列的基分类器。

·Adaboost是boosting中较有代表性的算法,Adaboost是一种迭代算法,通过集合弱分类器,进行训练构成强分类器。

·Adaboost算法的基本流程如下:

A.用平均分配的方式初始化训练数据
B.选择基本分类器
C.计算分类器的系数
D.更新训练数据的权重分配
E.组合分类器,优化结果

·通俗来讲就是由误差率求得分类器系数,由分类器系数得到组合方式。

102

【集成学习的算法】——Bagging

·根据个体学习器的生成方式不同,集成学习的算法分为串行化方法和并行化方法,串行化方法的主要代表就是上面所讲的Boosting——因为个体学习器之间存在强依赖关系,所以只能依次进行。

·串行化方法的主要代表就是我们现在要讲的Bagging(bootstrap aggregating简写),因为个体学习器之间的关系依赖没有那么强烈,所以同时进行运算。

·打个比方,Boosting更像是我们小时候吃糖葫芦那样,只能先吃掉上面的一颗,才能吃到下面的一颗,而Bagging就像是我们吃面条,可以同时吃很多根,不存在只能先吃哪根,再吃另外一根。

·Bagging的采样方法是自助采样法,用的是有放回的采样。

·一般步骤都是先抽取一定量的样本,再计算想得到的统计量T,重复多次N,得到N个统计量,最后根据统计量,计算统计量的置信区间。

·举例说明:比如数据集里有10000个数据,我们随意从中抽取100个,得出统计量T1,然后将这100个数据放回到数据集里,再从中抽取100个数据,得出统计量T2,如此循环反复N次,得出统计量TN,计算出最后的置信区间。

·名词解释:置信区间是指由样本统计量所构造的总体参数的估计区间。

103

随机森林

·随机森林(Random Forest)是Bagging的扩展变体。随机森林在以决策树为基学习器构建Bagging集成的基础上,进一步在决策树的训练过程中引入了随机属性选择。

·简单来说,随机森林相当于Bagging的升级版,原来的Bagging会在决策树的所有属性中,选择最优的那一个,而随机森林是从相应节点的随机属性中,选择一个最优属性。

·比如森林中有10万棵树,要从中选择高于10米的树,Bagging的做法就是重复统计多次,从而找到高于十米的树的数量区间。

·而随机森林的做法是随机将10万棵树分成10份,每份1万棵。对于这10份,每份都有一个输出结果,高出10米或者低于10米。如果高出10米的类别多,则整体是高于10米的,反之亦然。

·在概率学中,样本容量越大,结果就越接近,所以随机森林能够在训练效果更高效,计算开销更小的情况下,得出最后结果。

·值得注意的是在随机森林中,有两个采样过程是随机的,第一个是输入数据是随机的,它是从整体性训练数据中,选取一部分作为决策树的构建,是有放回的选取。(这就保证每棵树都不是全部的样本,不容易出现问题)。

·第二个是每个决策树构建所需特征是从整体特征集中随机选取的,采样的特征远远小于整体特征。

104

【集成学习的算法】——Stacking

·相比较于Bagging和Boosting,Stacking提到的较少,Stacking算法是训练出多个小分类器,把这些小分类器的输出重新组合成为一个新的训练集,训练出来一个更高层次的分类器,以得到最终的结果。

·Stacking算法在实际应用中,通常使用logistic回归作为组合策略。

·Stacking 是一种集成学习技术,通过元分类器或元回归聚合多个分类或回归模型。

·基础层次模型(level model)基于完整的训练集进行训练,然后元模型基于基础层次模型的输出进行训练。

105
好啦,机器学习中关于集成学习的部分就先讲到这里,下期再见~

大学二维码

关注我们,收看更多精彩课程~

关于NLP,这4个知识点不了解怎么行?

理解人类语言远比破译密码复杂得多

前几次AI大学的课程科普了一些机器学习中基本的原理和算法,这一次我们将难度稍微扩大,聚焦目前人工智能领域最难的研究方向之——自然语言处理(NLP)。

1.自然语言处理——AI领域“第一团宠”

NLP作为AI领域的认知智能,其动态一直都是业内专家学者关注的重点,尤其是随着深度学习的不断进步,通过深度学习技术让NLP得到长足发展,让机器早日理解人类丰富多变的语言,成为了众多AI爱好者和开发者的期待。

接下来童鞋们就跟着班主任一起来认识下被称为AI领域“第一团宠”的NLP,它能在日常中解决哪些问题,以及实操中会遇到的困难等。

图01
上图表明,计算机理解用户输入的各种语言的“谢谢”的过程。

由用户输入不同语言中“谢谢”的不同文本,计算机根据不同文本处理出不同语言的“谢谢”,最后再将这些结果反馈给用户。

其中这个过程包含了句法分析、自然语言处理和自然语言生成等相关技术。

2.NLP解决的日常问题

自然语言处理实际应用有如下几点:

A、检验和提取不同类别的反馈
通俗来讲,就是重点文本分析。例如通过一条微博、一篇新闻、一条朋友圈,研究不同的人对某件事的看法,通过研究对象正面或者负面的评论,采取进一步的决策。

B、精准识别指代内容
不同的目标群体在交流过程中会有不同的表达以及指代的方式,适当使用指代会使文本更加简练而且并不影响本意的阐述。

例如,遇到生僻字“燚”不知道拼音的时候,大多会求助一些搜索引擎:“四个火是什么?”,搜索引擎一定会告诉你“燚”念什么,而不是告诉我们这几个词表面的匹配结果。由此可见,计算机能够“理解”这些指代内容。

C、对给定文本进行分类
对给定的文本,给出预定义的一个或多个分类标签,再进行高效、准确的分类。其实这就是一个简单的特征提取过程,通过不同的特征进行不同的分类。

3.自然语言处理引起的歧义

A、自然语言的二义性引起的歧义

自然语言的二义性,其实说的就是自然语言中广泛存在的歧义现象。

比如:“兵乓球拍卖完了”可切分为“乒乓球/拍卖/完了”又可以切分为“乒乓球拍/卖/完了”。对于这两种切分都是正确的。也就是说,就算是人工分词也会产生歧义。

通过这两个例子我们可以看出,由于自然语言的二义性,句子存在着多种可能的组合方式或者句意,计算机在处理这些句子的时候就会费很大的劲。

图2

B、上下文理解引起的歧义

所谓上下文,就是当前这句话所处的语言环境,这句话指代的主语、省略的部分、前后联系等等,都非常重要以及影响着这句话,因此上下文的理解是自然语言处理复杂性的一大体现。

即使是同一概念,不同的人也有不同的解读,所以人们在日常对话中也会有语句理解歧义。例如看下面一段对话:

A:今天一起吃饭吗?
B:我妈今天从老家回来。

如果仅仅按照字面理解,B的语句是无法回答A的。实际上,B是告诉A,今天我妈来了,不能和A一起吃饭了,这是人际交往中的一种间接拒绝。

这就表明,相互之间的语言理解要借助语境推理,上下文理解不正确就会产生歧义。那么在计算机的自然语言处理中,要让计算机尽可能多的模拟人的智能,让机器具备人的上下文理解的功能。

4.消除歧义

由以上自然语言处理的歧义可以看出,NLP的关键在于消除歧义问题。而正确的消除歧义需要大量的知识,包括训练集的标注与添加、词典资源的建立。

下面介绍三种消除歧义的方法:

A、基于词典的消歧
拿词典中的定义和歧义词出现的上下文环境进行对比,选择覆盖度最大的作为该词的词义。

这种消歧方法思想很简单,但是消歧的准确率不是很高。

图03
B、有监督消歧
让机器学习使用人工标记的数据,并与字典中的词语所代表的典型含义匹配。

例如,在「I often play with my friends near the bank」一句中,「bank」一词需要机器判断是银行还是河边。我们希望机器能够匹配句中单词最有可能表达的含义,让机器更深刻地理解自然语言。

C、无监督消歧
不管是基于词典的消歧还是有监督消歧,都需要训练集,而无监督消歧不需要这些预先知道的资源。

最简单的理解方式,就是把它比作考试。一般情况,每道题都有一个固定答案,对错代表分数的高低。那像作文只有题目没有固定答案,打分情况就要酌情而定。

关注我们,收看更多精彩课程~

关注我们,收看更多精彩课程

讯飞AI星火营杭州开营,汇聚丰厚资源鼎力支持创业者

视氪科技盲人视觉辅助项目夺冠

[1][0]
4月26日,讯飞生态平台走进杭州信息港小镇,联合中国人工智能谷举办“讯飞AI星火营”项目路演活动,中科深波、大坝科技等八支入围团队,向到场的投资人、产业方详细展示了各自项目。四十多家投资机构参会,和创业团队进行深入对接。

[0][0]

同时,科大讯飞股份有限公司浙江总部办公场地正式启用,浙大-讯飞人工智能研究中心揭牌成立!浙江讯飞智能今后将在人工智能核心算法研究,人工智能技术与产品创新,人工智能+教育、医疗、智慧城市等行业应用,人工智能开放平台发展等四大领域重点发力。

启用△科大讯飞股份有限公司浙江总部办公场地正式启用

揭牌△浙大-讯飞人工智能研究中心揭牌

科大讯飞联合创始人、投资集团总裁徐景明莅临,带来“AI产业说”主题分享,他谈到,互联网解决的是连接的问题,人工智能解决的则是生产本质的问题。“未来,我们将进入万物互联的时代。所有的设备都是智能的,都是互联的,屏幕会变得越来越小,甚至没有,以语音为主、键盘触摸为辅的交互时代将会到来。语音将是切入人工智能技术的重要入口。”

[0][0]
△科大讯飞联合创始人、投资集团总裁徐景明
在演讲中,徐景明还就中美两国在人工智能方面的发展做了对比。他指出,美国的优势在于科学研究、工程能力,中国的优势则在于客户中心型、效率提升型的产业上。

“而在人工智能领域,中国和美国已经同时进入无人区。在人工智能时代,中国有非常大的机会。”徐景明说,“我们期待着和在座的创业者一起,迎接人工智能蓬勃发展的伟大时代。”

[0][0]
△浙大友创投资合伙人谢瑀
浙大友创投资合伙人谢瑀带来了“AI资本说”主题分享。她谈到,人工智能起到了一个提纯的作用,能从纷繁复杂的世界中提炼出非常有用的、非常有特征的方法。我们依靠观察和实验提取一些知识,然后总结出规律,制定工具去改造世界。

那么人工智能领域的创业者应该做些什么?谢瑀从投资人角度对此进行了深入解读。她认为首先要以敬畏的心态去保持学习状态,其次就是要发掘自身的优势基因。每个人都会有自己的特点,企业也是如此,即便是巨头企业,也不可能在所有的领域里都有优势。对创业者来说,就是要发掘出自己的优势基因,进行差异化发展,找到并绑定枢纽节点,获得更大价值。

[24][9]
△入围团队进行项目路演

路演环节,八支团队各展所长,进行了精彩的展示。智能医疗、智慧教育、人工智能外呼SAAS平台等项目逐个亮相。经过激烈角逐,视氪科技团队的盲人视觉辅助项目获得评委高度认可,夺得第一名!见道科技、大坝科技分获二、三名。

【点击此处回看活动精彩视频】

 

[1][0]
△浙江讯飞智能科技有限公司总经理徐甲甲为获奖团队颁奖
[24][9]
△入围团队与评委嘉宾合影
[5][0]
△入围团队与投资机构代表深入交流对接
本次入围的八支团队都将获邀参访讯飞,进行产业对接合作,并加入讯飞创业扶持计划,获得“技术+产业+品牌”的全方位创业扶持。此外还可享受鲸准路演礼包、信息港小镇中国人工智能谷“一事一议”落地扶持政策等奖励。

而路演前三名的团队还将获得“1024全球开发者节”线下参展机会,第一名团队更将获得科大讯飞年度发布会参展机会,直面行业大咖,获得更多扶持!

怎么样,是不是心动啦?也想来试一试?告诉你一个好消息,2018年,讯飞生态平台还将陆续走进深圳、北京等城市,举办讯飞AI星火营,并面向全球征集优质创业项目,帮助创业团队与产业及资本方进行快速有效对接,结合讯飞开放平台的人工智能技术与服务,赋能各行各业。

[关注讯飞生态平台公众号,创业更有料]

生态平台公众号二维码

告别手动录入,开放平台OCR上线印刷文字识别

支持中英混合,准确率90%,限时免费试用!

讯飞开放平台印刷文字识别,支持中文、英文、中英文混合文字识别!准确率高达90%。【戳这里限时免费试用】

会议材料要录入,看着一摞摞大部头心很累?

书上的金句想分享票圈,还得一个一个字敲?

想Ctrl+C的一堆干货资料都印在书上?

外文标识急需在线翻译,输入耗时/输入法不符?

每当遇到以上情景,你是不是都希望有一个神奇的装置,哪儿需要扫哪里,迅速将文字转成计算机可编辑的数据?

说曹操曹操就到,讯飞开放平台印刷文字识别技术闪亮登场!作为OCR系列服务的新成员,带来处理大量非数据文本的神器。

OCR
1、数字时代的刚需技术

大数据时代下,虽然我们每天在计算机上获取,编辑大量的文本,但计算机以外的各种文本一直在我们的工作和学习中占据重要位置。而将这些文本录入也一直耗费着大量的时间和人力。

如何高效处理海量非结构化数据,使它们能快速转化为计算机可处理的数据,方便进一步数据库采集、管理、分析和决策,已成为下阶段的行业大方向。作为处理图片文字数据的AI技术——OCR(optical character recognition 光学字符识别),正是一种有效的解决方案,在越来越多用户需求的真实场景中实践。

讯飞开放平台重磅推出的OCR系列产品,基于讯飞AI研究院独创的基于深度神经网络模型端到端文字识别系统,识别文字符号的数字影像,并将其转换为对应的电脑等设备可编辑的数字文本,最终达到识别的文字结果可编辑、可处理的目的,其中印刷文字识别技术面向的就是印刷字体的转化。

2、印刷文字识别应用广泛

正如文章开头我们提到的,生活中有很多需要将印刷字体转换为设备可编辑的文本场景。而作为OCR家族的重要成员,印刷文字识别在这时候就大有作为,下面小编就带大家看一看——

(1)资料/文档处理
工作或者科研学习中,要应对大量的会议材料、书刊杂志、电子资料(如PDF),印刷识别技术可以方便将这些资料的文字转化为可编辑和整理格式

(2)卡证信息录入
在需要录入身份证、驾驶证、银行卡、营业执照等信息的场景下,印刷识别技术可以减轻手动录入的压力,更高效。

(3)视频/图片内容审核
计算机可以处理电子字符,但对图片上和视频中的字体无法识别,通过印刷文本识别技术,可以将图片中的印刷字体以及视频中的字幕、弹幕、画面文字转换为计算机可处理的文本,增强审核能力。(图片、视频中的印刷字体可使用印刷文字识别技术)

(4)书摘笔记
读书时,看到不错的金句和段落想要摘录或分享,印刷文字识别技术只需要随手一拍就能生成文本。

(5)随手记录
在微信、微博等内容平台看到有价值的图片内容会随手保存Mark,或是用截屏把手机页面内容保存到相册,但这些图片信息散乱在手机各处,很难进行归纳、整理和检索

(6)医疗、金融、图书档案管理行业电子化
医疗单据、票据、病例等资料电子化入库;金融企业证照、年报、财报、票据等纸质资料的结构化录入;图书档案的电子数据库的搭建,更新。都能通过印刷文字识别技术达到减少人力录入成本,提高效率的目的。

3、讯飞印刷文字识别技术优势

我们为什么用OCR?因为可以快速将文字转为可在设备上编辑的数字文本。因此能够得到用户青睐的OCR小编认为应能够准确生成文本,所见即所得,同时对不同字体,不同环境,不同颜色形状的文本准确识别。

现在小编再给大家说明讯飞开放平台的印刷文字识别技术的特长:

准确率业界领先:印刷文字识别的识别率高达90%。

复杂场景支持:支持扫描体以及复杂自然场景下的文字识别,对方向有旋转的文字,支持文字与水平轴小于±15°夹角偏转。

识别不同语言:目前支持识别中文、英文、中英文混合的文字内容的识别。

咪咕灵犀

在中文人工智能助手咪咕灵犀的翻译功能模块,接入讯飞开放平台的OCR与翻译能力,提供图片中文字的识别与翻译能力。

接入简单便捷:提供Restful API接口,可供开发者进行跨平台使用。

以上,大家可以看到讯飞开放平台的印刷文字识别技术在准确率,识别能力方面表现出色,同时支持不同语言以及混合语言的识别。

目前印刷文字识别已在官网上线。当然,精彩不停,体验升级,OCR家族的更多功能也将在后续推出,敬请期待!

【关注讯飞开放平台公众号,获取更多资讯】

开放平台二维码

八支团队入围,讯飞AI星火营杭州站开营在即!

4-26,杭州信息港小镇见证精彩~

4月26日,“讯飞AI星火营”项目路演将于杭州萧山信息港小镇拉开帷幕,经过征集评选,共有微鸟、见道科技等八支团队入围,项目涵盖教育、健康、物联网、餐饮等多个领域,个个都是实力非凡!

入围的团队个顶个的牛,活动奖励也超丰盛!现场八个路演团队都将获得:

(1)产业直通车:入选项目将获邀参访讯飞企业,直面产业大咖,助力产业项目合作;

(2)讯飞创孵计划:入选项目将获得讯飞“技术+产业+品牌”的全方位创业扶持;

(3)鲸准路演礼包:入选项目将获得鲸准特选项目集推荐,面向20000+投资人曝光(价值15万)。

得分前三名的团队还将获得科大讯飞年度发布会线下参展名额、“1024全球开发者节”优质创业团队线下参展及演讲名额等特别奖励!

而且,科大讯飞联合创始人、投资集团总裁徐景明,浙大友创投资合伙人谢瑀也将莅临,带来“AI产业说“和”AI资本说”精彩分享;众多投资人参会,优质项目现场对接,敢说不心动?

杭州站海报
友情提示:想要到现场一睹精彩的朋友,现在还可以【点击此处】报名哦~

好了,话不多说,入围名单即刻奉上:

1. 中科深波:超牛实力团队,玩转 AI 物联网

中科深波致力于研发、生产、销售基于云架构、人工智慧算法为基础的新一代互联网智慧语音识别系统产品。创始人兼CEO 章放军,浙江省建筑装饰行业优秀企业家、高级工程师,连续创业15年以上,拥有丰富的市场营销和产品定位经验。

1-中科深波

中科深波团队更是实力非凡,在较短的时间内取得了创立两个研发中心、四项软著、申报三项国际国内发明专利、注册产品商标、企业成功挂牌创新板等业绩,在远场语音识别、 DSP区域回声消噪技术等方面拥有领先优势。

2. 大坝科技:团队核心十年通信核心网经验,让更多企业拥抱智能实现转型

大坝科技专注于通信能力、大数据、人工智能领域,拥有多项自主研发的核心算法,与国内三大通信运营商有着多年的深度合作基础。自主研发悟空话务机器人,提升企业与客户的沟通效率;同时打造企业AI管理平台,帮助企业建立全渠道CRM智能系统,实现企业全面智能化转型。

2-大坝
3. 祐全科技:“食安大脑”智能平台,把控食品安全,让你吃得放心

祐全科技由行业专家与互联网人携手创办,专注于食品安全领域智慧服务。在全国首创人工智能+食品安全智能平台,现入驻企业两千家。采用最新科技严格把控餐饮各环节关键风险,实现新时代下餐饮食品安全的智慧监管。

3-祐全
4. 栗伙健康:利用深度学习与增强智能,让每个中国人都用上私人营养师

国内营养消费市场日益壮大, 注册/临床营养师人数却远远不足,供需之间存在巨大差距。栗伙健康瞄准营养消费市场,利用深度学习与增强智能,致力于成为下一代个人精准营养师,成为临床营养师工作的重要辅助,个性化地解决80%的常规营养咨询问题,为你提供个性化的精准营养服务。

4-栗伙
5. 微鸟:优质欧美教师资源服务全球用户,弹指一挥间,学好一门外语

“Freebao-微鸟”App移动教育平台融合创新口语教育理念和尖端语音评测系统,并获得多项专利。随时随地打开App,点击-发起课程,即可与来自欧美的资深外教开始1对1课程。

5-微鸟

根据你的视频,发音和答题能力,微鸟AI系统深度学习,定位你的弱项视频片段+发音片段,纠正口型,定期自动全方位地为你生成一套适合你的英语学习报告和方案。

6.见道科技:全欧美名校博士核心团队,打造饮食健康领域的AlphaGo

见道科技团队实力爆表,核心团队全欧美名校博士。创始人何泽仪,世界100强公司高级商业顾问,伦敦DaVision首席咨询师,大数据科学家,英国约克大学博士。

6-见道

见道科技致力于人工智能与医疗健康相结合的领先科技,专注于慢性代谢性疾病患者,通过人工智能算法开发,大数据分析挖掘,营养学,慢性病理学的联合应用,提供个性化饮食建议的智能营养师,打造饮食健康领域的AlphaGo!

7.TelRobot:智能云端销售客服专家,助力企业减少80%重复劳动

南京梦立方教育科技有限公司(TelRobot),专注提供营销云服务,其推出的“智能AI机器人呼叫系统“可为企业提供自动语音外呼、客户信息管理、客户满意度调研等多场景多环节语音呼叫任务,助力企业减少80%的重复劳动。

7-telrobot

创始人魏佳星为中国B2B百名创业新锐,福布斯中国30位杰出青年,2016年作为创业代表接受阿里巴巴集团CEO张勇先生授予的“阿里巴巴全球梦想家”称号。

8. 视氪科技:全球首款智能视觉辅助眼镜,为视障人士的美好生活解决挑战

视氪科技是全球领先的视障人士辅助技术解决方案提供商,目前团队有26人。核心成员中有3名博士和7名硕士,分别来自清华大学、浙江大学和上海交通大学,团队涵盖了光学、算法、软件、硬件等多领域的人才。

8-视氪

其推出的“视氪眼镜”是全球首款基于机器视觉、人工智能和立体声编码的智能视觉辅助眼镜,具有障碍物检测、楼梯检测、人脸识别等功能,极大地改善了视障人群的生活。

4月26日,这八支团队就将齐聚杭州,同台竞技!

没有入围此次路演的小伙伴也不要灰心,接下来讯飞AI星火营还将走进深圳、北京等地,在全国核心创业城市陆续开营!只要你有创意、有想法,坚定了创业的打算,想要在智能领域开辟自己的天地,我们都竭诚欢迎你的加入。

创业之路,并不轻松,但全心全意为创业者搭建资源对接平台,提供优质的支持和服务,就是我们始终不变的初心。

讯飞生态平台将汇聚讯飞内外部优质创业资源,为你提供技术支持、资本对接、创业指导、产业扶持、品牌背书等优质创业生态资源,帮助你的团队快速成长!

【关注讯飞生态平台公众号,创业更有料】

生态平台公众号二维码

讯飞推出双麦阵列开发套件!功耗低,易集成

让机器听得更远更清晰

我们在无数有高科技元素的文学作品中经常能看到这样的桥段:
“电脑,解除安全协议,执行弹射balabala……”
“对不起——无法识别——无法识别——”

不过,这些放虚构的作品中是戏剧化桥段,真发生在现实中?算了吧。为了让机器听得更远更清晰,人类为机器带来了“助听器”——麦克风阵列

麦克风阵列方案日趋多样化

随着技术的不断进步,市场上的麦克风阵列方案不断增加。在组合结构上以线形、环形为主。在麦克风数量上,一般消费级别的有2、4、5、6、8等几种形式。讯飞也推出二麦线性阵列、四麦线性阵列和六麦环形阵列,以及Morfei麦克风的双环八麦阵列。

那么问题来了:很多开发者都希望尝试使用麦克风阵列开发智能化设备,但面对市场上繁多的麦克风阵列方案一时无所适从。同时在智能硬件设备中,受到体积和功耗等因素的制约,麦克风阵列一直未能广泛的普及。

如果你希望在节约成本的基础上让设备性能最优,不妨尝试一下讯飞的双麦克风阵列开发套件

双麦阵列开发套件优势

讯飞的双麦克风阵列开发套件,是针对目前科大讯飞最新的双麦DSP降噪模块(XFM10213)方案设计的集体验评估和开发调试功能为一体的产品。

该套件的优势,可以总结为:小巧、简便、节能、省钱、给力。

体积小
开发套件是针对双麦DSP降噪模块方案设计的,而该DSP模块的尺寸仅为16*16mm。无论开发者要开发的设备是庞然大物还是小巧玲珑,讯飞的双麦克风阵列都可以适应自如。

DSP核心

DSP核心

易集成
套件支持20~80 mm的麦克间距,大大便于前期的方案评估和开发调试。

评估板

评估板

低能耗
能耗和散热问题是开发者在评估设备时必须经过的一环,讯飞的双麦克风阵列开发套件运行功耗<45mW,芯片功耗<15mW,远低于业界双麦运行功耗,极大减轻了散热压力。

结合以上优势,讯飞的双麦克风阵列开发套件大大降低了开发者的开发成本。但如果你以为这会让麦克风阵列的性能缩水,那就大错特错了~~

双麦DSP模块方案搭载了科大讯飞最新的双麦阵列降噪算法,提升降噪效果,表现毫不逊色。

远场拾音:可将噪声抑制10~15DB,拾音距离最高可达到 3米,安静环境下拾音距离可达5米。

噪音抑制:利用双麦克阵列的空域滤波特性,在目标说话人方向形成拾音波束,抑制波束之外的噪声和反射声,实现噪声抑制。去除混响、干扰声、环境噪音。

语音唤醒:支持中英文,在安静的家居环境下唤醒成功率>98%。开发者购买产品时,可以设置最多2组4~6个汉字或2~6个英文单词作为唤醒词,用户通过说出关键词,使模块响应唤醒指令。

回声消除:模块可支持2路模拟回声参考信号的接入,通过算法处理实现回声消除,可处理的最低信噪比为-15 dB。

双麦阵列开发套件应用场景

双麦克风阵列的结构简单,成本低、容易实施。而讯飞的双麦克风阵列开发套件更因其体积小,功耗低,易集成的优势让开发者可以广泛应用在各种智能硬件领域,为用户提供便捷的麦克风阵列拾音方案。

小型机器人:在扫地机器人中加入讯飞双麦阵列,让扫地机器人可以直接根据语音指令行动。

智能穿戴设备:双麦阵列体积小巧,对智能手环,智能吊坠的适应性强。

小型家居:台灯,电饭锅,窗帘,晾衣杆……

如何,是否已经心痒痒想用这灵巧的小东西做一些有趣的事了?如果你想体验最新的双麦DSP方案模块,可以先在开放平台产品页面下载文档资料了解产品功能、特性和技术参数,对开发方案进行初步评估。然后你可以接着购买开发套件进行体验。

我们提供:

【技术文档】包含产品介绍、使用说明、开发手册和设计参考等资料,内容详尽;
【专业指导】由行业资深的技术专家和强大的技术支持团队提供专业的方案集成指导;
【疑问解答】通过QQ群(“讯飞二麦阵列交流”QQ群:607173698)和论坛与开发者实时互动,解答疑问;
【开放平台】无缝对接讯飞云开放平台的各种服务。

关注“讯飞开放平台”公众号,了解最新资讯

开放平台

讯飞AI星火营走进杭州,全方位支持人工智能创业

4月26日,我们在杭州等你,不见不散。

说起杭州,绝对是文艺青年的最爱,正所谓“欲把西湖比西子,淡妆浓抹总相宜”,有老市长苏东坡先生这一句驰名古今的“广告词”,哪个不向往?杭州也是吃货们的天堂,西湖醋鱼、东坡肉、定胜糕、藕粉、片儿川、小笼包……一说起来口水可就止不住了~

但你知道吗?杭州不仅有美景、美食,在如今最火的创业创新、高新科技方面,同样出类拔萃,表现不凡。

钱江新城

据统计,2017年杭州创业项目增长率4.09%,连续四年位居全国第一。2017年,杭州人才流入率和海归人才净流入率同样居全国城市首位,引进外籍人才和海归人才超过1万名。今年3月23日,科技部火炬中心发布的《2017年中国独角兽企业榜单及趋势研究报告》显示,截至2017年12月31日,中国独角兽企业共164家,总估值6284亿美元。其中杭州占了17家,数量位列第三,总估值位列第二。

现在,这个创业人才辈出、互联网经济极为活跃的城市,又将汇入一股新的能量:4月26日,讯飞生态平台将联合中国人工智能谷,在杭州市萧山经济技术开发区信息港小镇举办“讯飞AI星火营”项目路演活动,结合自身产业优势及资源,为人工智能创业者提供全方位支持,助推人工智能项目更好落地。

此次活动的举办地杭州萧山信息港小镇,是国家小型微型企业创业创新示范基地,不仅有丰厚的政策支持、完善的配套设施,而且汇聚了一大批高新企业,在语音识别和处理、图像及语义识别、医学人工智能共性关键技术等方面取得了国内领先地位。

如果你是一个正在寻找机遇的创业者,如果你渴望在人工智能行业里闯出自己的一片天地,即刻报名,参与“讯飞AI星火营”吧!4月26日,我们在杭州等你,不见不散。

【点此报名】

入选项目将受邀参访科大讯飞,进行产业对接,加入讯飞创业扶持计划,获得“技术+产业+品牌”全方位创业扶持!

杭州站海报

寻找最优秀创业者!讯飞AI星火营帮你实现产业资本对接

4-26杭州站启幕,为创业团队搭建产业和资本资源对接平台。

邀请函

尊敬的创业者、投资者朋友:

2018,人工智能发展势头不减,两会期间再次被写进政府工作报告,前景令人期待。在人工智能产业化、应用化的关键阶段,讯飞生态平台依托科大讯飞开放的人工智能技术和庞大的开发者体系,运用自身产业优势及资源,积极为创业团队提供更好的AI技术和资源服务。

为帮助创业团队与产业和资本方进行快速有效对接,推动AI项目落地,讯飞生态平台定于4月26日,在杭州市萧山经济技术开发区信息港小镇(启迪路198号)举办“讯飞AI星火营”项目路演活动。诚邀各创业团队、产业方、投资机构莅临,共建AI创业生态。

讯飞生态平台
2018年4月8日

【点此即可报名】

活动时间:2018年4月26日,14:00- 18:00
活动地点:浙江杭州市萧山经济技术开发区信息港小镇(启迪路198号)A座1楼国际报告厅

杭州站海报

“讯飞AI星火营”是科大讯飞生态平台主办的产业赋能、AI项目路演活动,邀请全球优质创业项目加入。线下活动将贯穿全国核心创业城市,每期将会有AI产业+资本说大咖演讲,和“Tech Pitching”创业路演,我们将为创业团队搭建产业资源和资本资源对接平台,帮助创业团队与产业和资本方进行快速有效的对接。

创业团队报名时,须同时将项目BP以电子邮件形式发至邮箱:startup@iflytek.com,邮件标题为“星火营项目申请”,内容包含创始人及其联系方式。
项目招募领域

奖励超丰厚!!

入选项目团队将获得:

生态价值奖

1. 产业直通车:入选项目将获邀参访讯飞企业,直面产业大咖,助力产业项目合作
2. 讯飞创孵计划:入选项目将获得讯飞“技术+产业+品牌”的全方位创业扶持
3. 科大讯飞年度发布会线下参展名额,直面行业大咖
4.“1024全球开发者节”优质创业团队线下参展及演讲名额,全球顶级开发者盛会,2千万+曝光量
5.“讯飞AI星火营-杭州站 Tech Pitching ”奖杯

鲸准路演礼包

1.鲸准APP首页“精选投资机会推荐”
2.鲸准特选项目集推荐,面向20000+投资人曝光
3.鲸准定向推送400+专业领域投资人
4.鲸准线下500+投资人峰会参会权

杭州站入选项目将于2018年4月20日在“讯飞生态平台”官方微信公众号公布,敬请关注!

关注讯飞生态平台公众号,创业更有料

生态平台公众号二维码

2018-04-26 ~ 2018-04-26杭州市萧山经济技术开发区信息港小镇(启迪路198号)A座1楼国际报告厅
超过80%语音开发者的共同选择