谷歌 I/O:语音助手成精了!承包你的衣食住行

比你妈还懂你的助手。

a

一年一度的Google I/O开发者大会如期而至。

今年也是Google旗帜鲜明推行“AI First”战略的第四个年头。一直强调的“Bringing the benefits of AI to everyone”,也在2小时的演讲中不断得到证实。

Google CEO 桑达尔·皮猜淡定登场
Google CEO 桑达尔·皮猜淡定登场

 

Google Assistant升级:这才是智能语音该有的顺畅

观看了升级版语音助手的完整演示之后,我只有一个感受:舒坦!

此话怎讲?

 

1.有话直说,刻意唤醒不需要

我们熟知的语音助手在使用之前都必须先唤醒,例如“Hey Siri”,未经唤醒的语音助手就处于无法响应的睡眠状态。这导致每次用语音助手的时候不仅麻烦,而且还显得使用者有点······蠢。

而这次的Google Assistant则不需要刻意唤醒。在演示中我们可以看到,原本在看 John Legend推特的使用者临时起意,对Assistant 说“我想去看他的演唱会诶。”

反应时间不到 1 秒,手机就立刻规划出了去John Legend演唱会的路线,甚至连最实惠的打车方案都帮你想好了。

3

2.要打开哪些APP我自己知道

-“我想发一张在美国黄石公园拍的照片给朋友。”

-“有动物的。”

-“发送。”

4

在这一连串的语音命令下,Google Assistant首先进入了手机相册,筛选出地点是在黄石公园的照片,再挑选出其中内容包含动物的,最后跳转到邮件发送页面,光标自动衔接到邮件文字的输入中。全程的指令识别和应用跳转都十分顺畅,不需要多次唤醒也不用人为切换应用。

3.执行速度,这次是真的快

Google Assistant整合了众多机器学习的功能。理论上,当它收到一则语音请求时,需要通过三个独立的模型进行处理,从而理解语音命令。原来在这一过程中,Google Assistant需要多达100GB的数据来进行分析;而现在,数据大小被成功地压缩到了0.5GB,大大缩小了从用户语音发出到命令执行的延迟。

通过现场的演示我们也可以看到,在用户连续不停地发出语音指令的情况下,Google Assistant也能迅速流畅地执行,几乎可以说是“实时”。

5

通过Google Assistant的这些操作展示可以看出,语音操控已经极大地摆脱了之前唤醒烦、反应慢、工作笨的情况,用起来越来越舒坦。这都有赖于AI技术的加入,从“Mobile first”到“AI first”,人工智能技术成为了Google战略布局中越来越重要的一环。

 

Live Caption :掌上的即时“字幕组”

与你更亲近的语音助手只是开胃菜,此次I/O 2019上Google将几百G的机器学习成果浓缩到手机应用中,就是要让AI带给你的生活更多便利,更多人情味!

没有字幕组,啃生肉视频很吃力?在Google的Live Caption诞生后这些即将成为历史。通过Live Caption,设备上播放的任何视频、音频的语音都可以被实时转录,生成字幕。

20936771b7b8d117c359e5f22e55cfe1

但仅仅是语音转文字还不够带劲,Google还玩出了如下爆点:

1.网速根本不是个事

Live Caption的突破,在于把整个功能完整地安装在了手机端中。

这意味着什么呢?你的手机即使没有联网,也可以使用Live Caption对任何视频和音频进行加字幕处理,而无需担心准确率和效果会受到没有与网络数据库相连的影响。

过去YouTube曾推出自动给视频加字幕的功能,但Live Caption则进一步突破网络限制,拓宽了发挥空间。

2.啃生肉无需连蒙带猜

Live Caption除了能实时转字幕,还能同时进行翻译,将外语视频的字幕以你的母语形式呈现出来。

7

在现场演示中,画面上的母亲正在喂自己女儿吃饭,但是母亲说的是韩语,而下面的字幕正在实时转成英语,不得不说如果这种功能以后得到普及,字幕组真的可以光荣退休了~~~

3.让残障人士听得到,说得出

Google基于音视频字幕功能的突破,也与大家分享了自己在公益上的新想法——

通过生成字幕,可以让听障人群也能和正常人一样接收电话与视频聊天中的信息。而输入文字实时转语音,也将代替手语,让通话如普通人一样自然流畅。

8

同样受益的还有渐冻症患者。Google的新技术让他们可以通过嘴唇的细微运动来准确输入文本,表达自己的意思。相比于过去通过眼睛运动来输入,正确率更高,对身体负担更小。

9

10

正如Google在本次大会上所传达的:“成为惠及每个人的 Google,无论你是谁,住在哪里,想要实现什么。 ”


严格来说,本次I/O大会上登台的应用或多或少都是从前两年发布的新产品延伸而来。但随着各项技术的不断完善,例如现场演示的Google assistant与真人对话、相册自动推荐修改等功能,的确让人感觉到Google的诚意。

除了效果更佳之外,这些全新功能与系统的结合程度也颇高,反而降低了用户在这些新功能上的学习成本和使用成本。

智能音箱跨界《外科风云》,这样的语音助手你喜欢吗?

这么多语音助手,哪一款是你的菜?

语音助手5.11

最近大火的《外科风云》昨晚已经大结局了!靳东饰演的外科专家庄恕和陆晨曦的幸福收尾让追剧的小伙伴可以安心追下一步剧了。除了男女主人公的主线故事,剧中的子轩和楚珺这对cp,给大家带来更大的惊喜。两人不仅牵手撒狗粮,“治愈时间”的花絮片段中两人使用智能音箱购物的生活场景,也是赚足了眼球。

A4EE5ED43863DC2E84BFD17F57F98A21

“我要新款包包!我要电吹风!我要高跟鞋!”在家中只要发出具体的语音指令,就可以在智能音箱上完成购物、下单等操作。想要实现这样的便捷生活并不难。伴随人工智能发展和智能语音交互技术的不断成熟,这样的场景在寻常生活中也可以实现。除了视频里出现的叮咚音箱外,目前市场上有很多语音助手在不断走入日常生活。亚马逊的Echo音箱、微软小娜、Google的assistant、苹果的Siri、科大讯飞的灵犀、百度的度秘、阿里的iDST等等。

今天,所长就和大家一起梳理这些语音助手们,欢迎大家一起聊聊对这些语音助手的看法~

国内篇

叮咚音箱:不满足于“智能家居中控”的角色

微信截图_20170511164026

京东与科大讯飞联合成立了灵隆科技。搭载科大讯飞的语音技术,叮咚音箱的人机交互体验得到了广大用户的认可。报告数据显示,截止2017年2月,叮咚智能音箱的整体销售同比去年增长137%。以2016年双11当日为例,叮咚智能音箱在京东平台上智能音箱品类里销量排名第一,并且大于第二名和第十名的销量之和。

在上面《外科风云》的视频中,大家已经可以大致了解叮咚音箱的语音功能。这种连动动手指都不需要的语音交互技术,让初次体验的人惊艳许久。叮咚音箱的技术层面搭载了讯飞的麦克风阵列技术,有关这方面的技术原理,感兴趣的小伙伴可以关注AI研究所本月25日直播的公开课,详情请戳:预告:万物静默为一听,麦克风阵列让机器的“耳朵”更灵敏!|AI公开课

为了丰富叮咚音箱的功能,去年10月叮咚平台浮出水面。任何机构还是个人开发者,都可以通过这个平台赋予智能音箱更多能力。目前叮咚平台已经涵盖智能家居、办公商务、生活助理、家政、购物、教育、游戏等七大领域,数十款应用已经可以在线上进行实际体验。

灵犀语音助手:最懂你的智能语音助手

灵犀语音助手从一开始就定位自己是“最懂你的智能语音助手”。这款产品是中国移动咪咕公司与科大讯飞联合打造的智能语音产品。用户在与手机交谈中即可完成打电话、发短信、设提醒、查地图、找美食等日常操作,还能预定酒店、航班,查询移动话费、流量,享受咪咕海量数字内容。

微信图片_20170511171613

所长体验过灵犀,最大的感受就是其语音识别的准确度很高,尤其是中文识别上基本不需要重复讲话。目前灵犀支持普通话和粤语的输入。升级5.0版本后,灵犀还具备了4个新功能:

1、语音翻译:支持英、日、韩、法、西5种语言

2、语音速记:即说即录,语音实时转文字

3、个性声音包:用喜欢的声音管理你的时间

4、有声读物:精品相声、正版小说随时听

BAT三巨头在语音助手领域再相遇

就在近日,腾讯推出语音助手“腾讯叮当”。腾讯表示,其最新人工智能助手腾讯叮当在功能上与亚马逊Alexa相似。而到此,加上百度的度秘和阿里iDST的语音助手,BAT三巨头都进入了智能语音助手领域,可见他们对于语音交互这一大“入口”的认同。

度秘是李彦宏在2015年百度世界大会上推出的机器人助理。依托百度的搜索和智能交互技术,度秘可以通过对话,进而在索引现实的服务和信息的基础上,为用户提供服务。度秘主要的能力集中在美食推荐、电影推荐和生活服务推荐。度秘服务更多的集中在消费上,它连接的是广泛的现实行业,涵盖吃、住、行、玩等方面,这更多的是依托百度搜索能力、百度地图、百度糯米等O2O类的服务。

timg (8)

但目前的度秘需要下载手机百度客户端才能使用,也没有语音服务和日常生活提醒等功能。度秘的交互性和趣味性并不强,打开方式也略显麻烦。

阿里的语音助手是由iDST部门开发,提供实时智能语音识别技术,可实现语音操控、语音搜索、淘宝购物等功能。iDST部门的语音识别技术主要致力于两个方面,一是建立自然语音交互平台,连接更多的终端,获取互联网上的各种服务;二是通过阿里云输出语音能力,帮助合作伙伴去做具体业务。依托YunOS系统,加上阿里在新闻、饮食、地图、娱乐等领域的布局,阿里语音助手可获得强大的数据资源、数据处理能力,以及多元的服务。而未来其将成为阿里商业的交互中心,连接人与商品和服务,提升购物交易的便捷化。

至于刚刚推出的腾讯叮当,目前涵盖的服务很广泛,已经覆盖新闻、体育赛事、票务、快递、音乐、股票、文学、基于LBS的附近资源等领域。如用户对着腾讯叮当说“查询天气”它就会提供当天和以后三天的预报。问及足球比赛结果时,它也会在1秒内给出针对性的答复。

201742614322380175560710_600_0

可以看出三家的语音助手服务有重合,也有自己的特色。如度秘在搜索和生活消费上更有优势,阿里语音助手在购物、商务服务上更有优势,而腾讯将在泛娱乐上更有优势。

国外篇

亚马逊Alexa与Google Assistant的相爱相杀

     

亚马逊的Echo和谷歌的Google Home是在智能家居中相对比较成熟的两款产品。目前两款产品都已具备超过5000项的技能。

但目前看来,亚马逊Echo劲头更加强势。根据外媒最新数据显示,71%的人使用亚马逊Echo,而Google Home的用户仅有24%。

亚马逊于2014年推出智能音箱Echo,搭载Alexa语音助手,随着不断升级,Echo已成为家庭的交互入口。除了日常生活化的服务外,Echo的主要功能集中在语音购物和对智能家居的控制上。而这也正是亚马逊的野心,建立下一代计算平台,并成为家庭交互的入口。

t010ae3932f39785e94

通过亚马逊Alexa与智能家居设备的连接,你就可以轻松的控制家庭环境,如开关灯、开关窗帘、开关电视等。其独特的麦克风,可以实现较远距离的声音接收。据网友反馈,相比Siri需要掏出手机,按钮触发,并且距离较远就无法听到;Echo的麦克风设计很赞,可以实现远距离的声音接收,且不需要按钮触发。叮咚音箱也是如此。

而Google Home出现的较晚,它于2016年5月份才推出,之后便一直追赶亚马逊的Echo的步伐。此外,Google Home的功能和Echo相差不大,主要用于个人生活和智能家居的控制。Google Home的优势在于其搜索优势和功能更加齐全,而Echo的优势在于购物和更多的第三方接入,以及先发入场优势。

google home

有趣的是,两款智能家居设备,两个语音助手,从出生时仿佛就是宿敌。亚马逊于2015年6月向第三方开放其Alexa语音技术,而不必通过智能音箱Echo;而谷歌在2016年12月才向第三方开放,为的是与亚马逊展开竞争。而在今年,双方在技术和连接上的竞争更加白热化。一方面,双方不断通过各自语音助手整合和连接更多的设备与服务,亚马逊甚至向第三方开放了Alexa核心的麦克风语音技术;另一方面,谷歌也在技术上有所突破,实现一台设备的多人使用,目前可支持6人。

而这背后正是家庭入口的争夺,谁抢占了这个入口,就可以掌控所有信息的输入,以及数据流和消费流,其市场规模和潜力难以想象。

微软小娜:准备挑战亚马逊和Google

此前有网友调侃,形容微软小娜像个傲娇的大小姐。小娜时不时讽刺一下主人的语言特点是很多用户津津乐道的。Cortana会根据用户的喜好和习惯帮助用户整理日程、进行问答等。但是通过机器学习和人工智能的处理,Cortana可以和用户实现智能的交互,因此有时候你觉得你是在陪Cortana聊天而不是它在陪你。

timg (7)

Cortana的快速推广和win10的成功是分不开的,二者相互促进才让这款智能软件后来居上,在全球语音助手推行的风暴中占据了一席之地。Cortana可以通过云计算、搜索引擎、非结构化数据处理(主要是语音文字等)实现人机交互。

值得一提的是,就在昨晚开始的微软开发者大会上,微软小娜有了新动作。将要与惠普和Intel合作推出智能音箱。小娜从PC端走到移动端,现在也开始进击物联网领域了。并且,小娜将延续其语言特点,会根据场景不同变换语言对话的方式。

不得不提的苹果Siri

timg (6)

早在2011年,苹果就在其iPhone4S上推出了智能语音助手——Siri,随后语音助手也逐渐进入大家视野。随着Siri的不断升级,俨然成为一个生活管家。Siri可以为你查阅信息,充当时间助手、邮件助手,进行歌曲识别,还是算数高手,还可以为你提供生活消费娱乐等服务。此外,随着苹果Homekit智能家居平台的搭建,Siri作为语音助手将在智能家居中发挥更大作用。

据国外媒体预测,苹果目前正在秘密开发一款智能扬声器,发布时间有可能会是今年夏天。如果消息属实,那它可以说是苹果在这些年里最重要的一次硬件发布。虽然所长偶尔诟病Siri的不准确性,但对于这款内置Siri的智能扬声器还是抱有期待。


不难看出,国内外各家科技公司都在不断升级完善自己的语音助手。尤其是在智能音箱领域,也都在尽快场景化落地。的确,随着人工智能和智能家居的发展,以音箱或手机等为硬件的语音助手将成为家庭的交互入口,而这背后是整个智能家居产业链和广阔的市场。谁掌握这个控制中心,谁就赢得了未来。毕竟,未来面前,所有人都拥有无限可能!

QQ图片20170428175726

超过80%语音开发者的共同选择