AI公开课 | 我猜你对数据标注还不了解吧?

毋庸置疑的是,人工智能领域每天都在上演着日新月异的发展和进步。

当我们打开手机,启用美颜APP里各种各样的AI滤镜时,我们看到的是搞笑的头像和可爱的表情,而APP“看到”的是我们脸上数百个点。

我们早已对各类的AI滤镜习以为常,但却甚少思考这些APP究竟是怎样识别出哪里是眼睛,哪里是鼻子。

其实这一切都归功于AI时代最可爱却最容易被忽视的一群人,他们就是被称为人工智能“老师”的数据标注员

人工智能背后的人工

早上8点30分,小新打开了名为“数据标注分配任务群”的QQ群,开始了一上午的工作。

群主早已将今天需要标注的视频和图片发到群里,小新被分配到的是一段长达3个小时的视频录像。

这是一段某口腔医学院老师讲课时录制的视频,视频的内容主要是针对口腔龋齿的介绍分类,小新的主要任务就是在视频中找到黑色的龋齿,然后用鼠标将龋齿周围画一个数字“边界线”,从而将它标注出来。

同样的动作小新一上午要重复几百次,直到视频播放结束,最后小新会将标注好的新视频重新反馈到群里,结束一上午的工作。

小新并不是医学专业出身,他也不太清楚这些被标注的龋齿部分到底有何作用。但在无形之中小新却成了人工智能医疗系统的“老师”,通过大量的数据迭代让AI可以准确识别出哪些是龋齿,龋齿腐烂的程度等。

小新或许从没听说过“数据标注”这个职业,但他却用实际行动日复一日履行着一个数据标注员的责任,让机器通过大量的资料学习,直到它们顺利“毕业”。

大浪潮之下的普通人

近2年数据标注公司开始在国内大规模兴起,这与中国人工智能发展初期所需要的大量的数据密不可分。

由于科技公司所需要的数据量巨大,数据标注公司会把很大一部分标注工作分包出去,数据浪潮让AI更智能的同时也带来了大量的就业机会。

在距离贵阳市中心50公里的百鸟河数字小镇,就有一个规模500人的“数据工场”,500名标注员中,近一半是附近一家扶贫高职的学生。

据了解,他们一个月能挣到1500元,经济上足以自立,还能补贴家用,相比餐厅辛苦端盘子或者送外卖这类兼职工作,数据标注相对轻松且体面。
微信图片_20191212144150

扶贫高职学生进行数据标注工作

数据浪潮的滚滚洪流席卷着资金和技术,裹挟着无数梦想与野心向前奔腾,在资本和野心之下无数普通人虽然暂时不理解这些变化,但却能从变化中获得便捷和利益。

关于我们不知道的故事

对于绝大部分同学来说“数据标注”是一个陌生又专业的名词,班主任也是第一次和大家提起这方面的知识。其实围绕数据标注还有很多有意思的话题,比如数据标注的分类,数据标注产业的发展和影响,数据标注到底是不是完全依赖人类…..

为了让大家更深入更全面的了解数据标注,AI大学第26期科技晚自习特意邀请到了科大讯飞AI资源部语音数据主管刘丹,在12月12日晚19点来到AI大学直播间和同学们一起聊聊关于数据标注背后的故事。

【课程主题】

一个未被讲出的故事——数据标注

【课程讲师】

科大讯飞AI资源部语音数据主管   刘丹

【课程时间】

2019年12月12日19点(本周四)

【课程链接】

1、点击阅读原文进入课程直播间

微信图片_20191212143935

2、关注公众号“AI研究所”点击“晚自习”进入课程

扫码进入【课程官方群】

微信图片_20191212143943

或加课程小助手微信:aigongkaike

便可加入课程官方群,

和更多同学在群里讨论相关问题

A.I.数据资源解决方案:5大服务能力让数据标注更高效!

如果以一列高速行驶的火车来比喻人工智能,算法是火车的设计理念,算力像火车的发动机,那么数据则是驱动火车前行的燃料。三位一体的协同进步,才能使得人工智能这趟火车昂扬疾驰于时代先列。

虽然算力、算法和数据作为人工智能的三大要素早已广为人知,但是技术、资本与媒体大众的聚光灯总是集中在前两要素上,作为A.I.“血液”养分供给的数据却略显边缘化。事实上,数据在A.I.真正商业化落地中发挥着无可替代的作用。

 人工智能背后的数据力量 

谷歌首席架构师、谷歌人工智能团队谷歌大脑的负责人,Jeff Dean曾在公开场合这样强调数据对于A.I.算法的重要性:

微信图片_201911220859441

以上横轴为数据量,纵轴为准确率,蓝色以及绿色线条分别代表深度学习以及传统算法。根据Jeff Dean的预判,随着数据规模的不断扩大,未来深度学习算法的精度也将不断提升。

人工智能的发展目标是让机器像人类一样学会学习。算法模型训练、提升性能、机器学习等都需要大量数据的迭代与支持,数据的采集、标注与价值挖掘是A.I.得以在实际应用场景中大展拳脚的重要工作前提。

数据服务虽然被外界认为是人工智能金字塔最底层的工作,粗粝且拙朴。但其实,大量数据的迭代更新、夯实坚守,才是筑成A.I.金字塔岿然不朽的坚实根基。

 

当A.I.落地遇到数据瓶颈

大到机场枢纽的人脸识别、小到手机应用的语音翻译……A.I.正在逐渐从抽象概念变成现实生活中的各种应用,但阶段性地来看,A.I.数据数量和质量的瓶颈还将持续制约A.I.应用落地与行业发展。当前的现实情况大多是——

A.I.产业落地过程中存在数据孤岛和数据碎片化难题,许多A.I.企业或许已经初步具备了先进的算法与优质的硬件,但产品的真正落地与的升级迭代却受制于数据燃料的瓶颈。

美国Databricks一项调查显示,96%的企业在执行A.I.项目时面临着数据相关的问题;90%的受访者表示在整个机器学习生命周期中统一数据科学和数据工程的方法将克服A.I.难题……总结下来,当前A.I.企业面对的数据瓶颈主要有以下几类:

数据瓶颈:
1. 数据采集环节,就开始缺乏数据或可用数据实在太少;
2. 好不容易采集到了大量数据,却无法将数据标注精准,也找不到可靠的、拥有相关经验的人来标注;
3. 总要面临数据如何筛选、如何加工与使用的难题。
那么,有什么解决办法能真正帮助这些企业克服A.I.发展的困境呢?
A.I.数据资源解决方案上线

全新升级的讯飞A.I.服务市场,由科大讯飞集团副总裁于继栋在今年的1024开发者节上重磅发布,其中“数据标注”作为重点类目之一,正是应市场呼唤而生!

讯飞开放平台最新推出的A.I.数据资源解决方案,提供音频、视频、文本、图片等方向的资源标注及预加工处理服务,为人工智能行业提供一站式数据服务解决方案,并可根据客户特定需求,进行各方向数据深度加工,帮助提升训练算法模型,开展机器学习,提高A.I.领域的竞争力。

A.I.数据服务包括资源方案设计、数据定制、效果实施及资源运营等,持续提升资源效能和质量,进一步挖掘数据价值,支撑技术落地和业务发展。

服务内容

1 多语种识别
提供全球语种音频转文字、文本信息加工处理等数据采集、数据标注服务,覆盖消费者、客服、公共安全、医疗、车载等领域的人机及人人交谈数据,为产品或识别技术提供全面的数据保障服务。
2 多语种翻译
提供多语种数据翻译服务,包含人工翻译、数据抓取、语料库数据等数据采集与标注服务,满足客户对海量数据、不同场景不同类型的多种需求,为产品、机器翻译技术提供全面的数据保障服务。
3 图文识别
提供票据、手写轨迹、证照、档案、银行卡、火车票及教育类图文等图片内容的识别提取、数据采集与数据标注服务。提升各领域智能产品对多场景文字识别准确率。
4 个性化音库
提供音库方案设计、发音人甄选、声音资源标注、效果评测等资源服务,满足客户多语种的个性化合成数据需求。
5 体验分析
提供技术测试、用户调研、主观评测、数据分析等多模式的主客观体验服务,为客户定制个性化方案,交付标准化的产物报告,旨在以体验助推产品更迭。
服务优势
高效的数据标注
300+核心专职数据处理专家、500+坐班兼职标注人员、万名专职外场数据标注员、百万级数据标注处理能力、8个数据标注中心
高质量的保障体系
20年数据行业积累、精细化标准化管理、严格的人员培训考核准入机制、多重数据质检机制、专业的质量把控体系
更优惠的价格
根据供需动态定价、报价低于行业市场、成熟的任务分发模式、易用的标注平台与工具、智能A.I.技术辅助
全面的安全管理体系
数据全流程加密处理以保证用户信息安全、专业的私有数据标注环境、私有数据结果交付即销毁
多样化的平台工具
任务管理一体化的爱标客平台、涉密数据私有化部署、多样化基础工具、定制化功能需求开发

服务流程

从对接客户需求,到制定资源产品方案,再到数据源获取、数据评估、数据预处理,再进行数据标注完成,最后交付验收,整个服务流程高效畅通——
微信图片_20191122085944
讯飞开发平台A.I.数据资源解决方案,凭借深厚的行业数据积累与专业的保障体系,将持续为A.I.行业进化提供着高质的数据燃料,助力A.I.场景加速落地,打破企业数据瓶颈,引领人工智能的蓝海征途!
untitled
超过80%语音开发者的共同选择