你想有个萨曼莎？先看看智能语音的发展再说,新闻灌水

minggao 发表于 2015-3-31 10:35:17

你想有个萨曼莎？先看看智能语音的发展再说

春节期间有个视频特别火，一度爬上各大热搜榜，讲的是山东大汉和车载导航吵架，竟然无语落败。为什么智能语音就不能像《Her》里的萨曼莎一样，跟我们肆无忌惮的聊天呢?
　　事实上，智能语音识别设想的提出还早在计算机的发明之前。此后，随着技术不断突破，智能语音也不断发展，直到苹果将Siri应用到手机上，才再次掀起了一场以智能语音识别为特色的人机交互体验热潮。
　　如今，智能语音功能虽已被许多消费者熟知，但使用率一直不高：72%的用户认为语音识别度不够，56%的用户表示语音交互能力不足，实际使用中频频出现各种尴尬状况。
　　这就要从智能语音有多“智能”说起了——
　　语音识别率是关键
　　视频里，车载导航一直“误解”山东大汉，最主要的就是识别率不高的问题。一方面可能车载导航本身识别率不够;另一方面涉及到降噪;再一个，就是方言识别。
　　目前各语音公司的识别准确率，基本都在90%以上。前几日IT领袖峰会上，百度表示目前其识别率已经达到95%，虽然实际使用效果并不理想，但我们可以设想，识别率高的语音技术应用范围不可小视。就如之前挺火的语音商OKVoice声称其在垂直领域识别率能高于95%，有了这识别率，他们可以放肆地衍伸出类似于口语测评、音视频字幕生成等产品，只要企业拿到这些产品API接口，无论是培训行业还是影视行业都可以毫无顾忌地走上智能化之路了。
　　我们再来看这个车载导航的视频，很明显视频里的这个车载导航并没有方言识别能力。方言种类繁多，口音各异，如果要识别某一种方言，就要去建立针对该方言的语料库，这是一件非常费时费力的事情。所以早期的智能语音公司都是以单一的普通话识别来打天下：相对来说覆盖率广，回报率高。但是随着智能语音的发展，单纯普通话识别已经不能满足广大用户的需求，一些比较出色的语音公司，也陆续推出了自己的方言识别功能，比如科大讯飞号称支持多种方言，OKVoice也在其官网上主打精准的粤语、上海话识别。
　　关于降噪，大家都知道车里的环境非常嘈杂，人声背景里夹杂发动机等各种杂音。语音识别的工作原理正是将人声提取出来进行发音匹配，如果背景过于嘈杂，无疑对提取结果产生很大影响。这也是目前各大智能语音公司头疼的问题。不过三菱电机号称已开发车载设备语音提取技术，据说能去除96%的环境噪音，预计2018年可推广上市。如真有此效果，相信语音降噪不再是问题，语音识别率也将向前大跨一步。
　　语音交互还不够智能
　　我们都觉得智能语音不够“聪明”，它不能像普通人类交流一样自然的停顿，提取信息，甚至揣测信息。原因是现在的智能语音交互基本上采取关键词命令的形式，即读取到限定的关键词，从而执行该关键词下的命令。比如山东大汉一直重复的“拨号”、“纠正”，就是一种关键词。如果它接收不到数据库中的关键词，你说的再多，也只是对牛弹琴。要期待它的突破，就要依赖目前大热的大数据和机器学习了。
　　语言歧义甚多，不同场景不同含义
　　有这么一个笑话，讲“模拟汉语四级考试题绕晕外国学生”，很能表达这种情况：
　　1、“小明，今晚上有思修课呢!你去不去?”
　　“我去!!你有病啊!!”
　　——问：小明去不去思修课?
　　2、“小明，昨天下午你抱着的是谁呀?你女朋友吧?”
　　“你妹!!我妹!!”
　　——问：小明抱着的是谁?
　　中文语言含义丰富，歧义甚多，语义和语言环境及表达习惯关系密切。同样一句话，因场合不同或者说话人不同，可能表达出完全不同的意思。到底是“你妹”还是“我妹”，这对机器来说其实是一个很深奥的问题。
　　同时我们注意到视频里的一个细节：山东大汉念1(幺)3581(幺)887557，智能语音重复为1(一)35……再比如门牌号，我们念一号楼520(五二零)室，有些智能语音会念五百二十室，听起来总是怪怪的，这就是常用字符的合成问题。这个问题其实是可以避免的，我曾经试过国内几个成熟的智能语音体验平台，只有科大讯飞和OKVoice的语音合成在读“13581887557”、“135”和“1、3、5”的时候，会根据场景读出不同的结果，有兴趣的可以去试试。
　　总之，智能语音作为人工智能的一部分，虽在上世纪五六十年代提出，但一直到近二十年才迎来发展高潮。它是人机交互的最理想方式——自然，零成本，无门槛，但也对机器学习提出了非常艰巨的要求。如何能让机器像人类一样思考，想必是未来几十年最需要突破的问题。一旦打通任督二脉，智能时代就真的到来了。到那时，拥有一个萨曼莎，将不再是梦想。

页: [1]

智能家居's Archiver

你想有个萨曼莎？先看看智能语音的发展再说