NEWS
关于我们
您当前的位置:主页 > 关于我们 >

智能语音互动会成为下一代技术产品最核心的用

发表时间:2018-05-18 10:26 阅读:
  技术公司们意识到智能语音互动会成为下一代技术产品最核心的用户入口,但这些语音识别助手及搭载他们的硬件产品似乎并没有戳中用户痛点,直到亚马逊Echo出现。紧跟其后,国内智能语音市场迅速复苏,仅仅一周内,就有包括云知声、小鱼在家、三角兽在内的明星创业公司发布共计超过1.8亿美元的融资。作为AI领域第一个现象级硬件产品,智能音箱在过去一年火到发烫,BAT也在一个月内先后入局。而一年过去,爱尝鲜的极客市场已经饱和,市场增长逐渐放缓。
 
  直到5月9日凌晨,谷歌I/O开发者大会上,Google Assistant的流畅的人机对话像一阵春风吹过,不少媒体惊呼“谷歌‘造人’了”,关于智能语音的讨论再次占据大众焦点。
 
  1966年,麻省理工学院的计算机科学家发布了最早也是最著名的聊天机器人程序 Eliza,通过分析用户输入计算机的话语,然后将它们匹配以生成可能的脚本的响应列表。随后,聊天机器人制造商不断在Eliza的基础上,打造更多人性化的聊天机器人。
 
  半个世纪过去,语音识别技术经历了由小词汇量、孤立词的识别到大词汇量、非特定人连续语音识别的飞跃。终于,2010年,苹果收购了Siri,并与全球最大的语音识别厂商nuance合作,在2011年推出了搭载人工智能语音交互软件的iPhone 4S手机,语音助手从此被公众所关注。
 
  发布之初,Siri支持语言种类少、反应缓慢、语义理解能力差,被公认为智商低、常常答非所问。但随着技术的发展和市场的培育,Siri与电话、地图、提醒、音乐等功能实现连接,不久前Siri还通过拨打电话帮助南京警方成功找到手机失主。
 
  Siri之后,微软Cortana(小娜)、Google Assistant、亚马逊的Alexa、国内的百度度秘、科大讯飞的灵犀等一批语音助手涌现。“目前国内的语音助手平台至少有50家。”智能语音交互公司思必驰CMO龙梦竹告诉新京报记者。
 
  资本再次涌入,巨头夹击下,智能语音创业者该往哪儿走?
 
  不断进化的语音助手
 
  2014年,亚马逊CEO杰夫·贝索斯玩票似的做出智能音箱产品Echo,甚至都没开产品发布会。但就是这样一款当时在亚马逊内部也不被看好的产品,由于首次搭载了语音助手,可以通过语音交互实现开关电器、定闹钟等功能,背后还有亚马逊庞大的内容资源,面市两周内销量即达100万。达到同样的订单数,iPhone用了70天。
 
  从初代聊天机器人Eliza开始,通过图灵测试就是这些智能语音类产品的共同目标。近年来,尽管深度学习、神经网络等技术有了显著进步,但依然没有一个机器人能够真正通过图灵测试。
 
  就在谷歌I/O大会首日,谷歌CEO皮查伊展示了Google Assistant的新功能——可以打预约电话的“Duplex”,它能够模仿真人的语气,帮助用户完成电话预定理发、用餐等操作。
 
  不久后,谷歌方面随即宣称,Duplex达成了一项里程碑式的成就——通过了图灵测试。
 
  但是,在一些智能语音公司看来,Google Assistant只是“部分通过图灵测试”。
 
  “图灵测试最复杂的地方,就在于没有边界。”智能机器人公司Rokid副总裁向文杰解释,在对话意图可以穷举的垂直领域,比如谷歌在此次I/O大会上展示的预定餐位、预约理发等场景,经过积累数据、打磨、优化,做到谷歌展示的准确理解对话意图、做出相应反应并不难。
 
  “在电话预约等命令类语音助手使用场景,即便有上万种说法,但对话的意图是可以穷举的。语义理解在单一领域可以打磨得非常好。”向文杰说,语音助手通过语义理解,识别每句话的意图,即可通过对话管理功能做出得体应答。
 
  但向文杰同时表示,每个行业都有不同特点,把每个领域的各种对话情况都穷举出来,是非常耗费人力的。根据现有的科研进度,没有一个公司可以在短期内做到深入理解所有场景。
 
  在他看来,谷歌这次的展示,最让他惊艳的技术在于语音合成(即TTS,文本到语音),也就是引起舆论狂欢的“像真人一样的语音语调”。
 
  TTS自然度的一个主要测试标准是MOS(Mean Opinion Scores),其评分在1-5分,其中5分最好。
 
  “像我这种水平的普通话,得分在4.5左右。国内大部分厂家的TTS可以做到4.0分,也就是人们常说的有‘机械感’的发音,而谷歌这次做到了4.6。”向文杰说。也就是说,Google Assistant的发音,已经做到了比正常人更为流畅自然。
 
  这得益于谷歌两年前推出的WaveNet深度神经网络,采用自然生成的方法,以少量的语料辅以强大的计算,生成原始语音,不仅更贴近真人,而且制作时长也从几个月降低到几百小时。
 
  除了语义理解、语音合成外,智能语音交互还包括“语音识别”。向文杰表示,在语音识别方面,国内前几名的互联网巨头、创业公司水平差距都不大,而只有在极端场景下,极高的识别准确率才能创造价值。

Copyright © 2015-2016 色彩网 版权所有 Power by 【网站地图