声控应用无数有待开发的机会

发布时间：2020-03-11 11:22:40 阅读：次来源：家用盆厂家

导语：声音控制已经被不少移动APP采用，对软件开发者也蕴含着无限可能。与之前出现的非声音途径的应用(如短信息)开发的热潮相比，声控应用无疑代表了无数有待开发的机会。

作者介绍：Rajat Harlalka在过去八年中一直担任移动科技产品的产品经理职位，负责产品管理和市场营销。

科幻电影里常能看到人机直接对话的场景，随着设备越来越先进，以智能手机为首，人机交流离日常生活已经不再遥远。

声音控制已经被不少移动APP采用，对软件开发者也蕴含着无限可能。与之前出现的非声音途径的应用(如短信息)开发的热潮相比，声控应用无疑代表了无数有待开发的机会。

为什么选择声控?

用声音交流有什么优势呢?虽然已经有不计其数的应用选择键盘作为交互界面，让用户实现搜索、邮件、记录等功能，但对许多人来说，智能手机的触屏键的方寸之地还是太受约束。

手机天然适合声控，用户在走动时也能读取信息并发出指令。此外，声控还能大大方便行动不便的人群。虽然声控技术还有待发展，即便是苹果的Siri也存在很多缺陷，但却代表了声控实现人机交互的进步方向。随着智能学习、统计数据挖掘等技术，机器理解人类话语的能力也不断进步。

语言应用的成功植入

向应用中引入语音识别已有成功先例。一家问答网站Ask.com，在其iOS和安卓版本的APP中引入了Nuance的语言识别技术。这项技术对应的连接可以让用户以说话的方式进行提问或评论回复。

亚马逊也往最新版的Kindle iOS应用中加入了支持苹果VoiceOver阅读/导航的插件，方便阅读不便的人在iPhone和iPad上使用Kindle。

亚马逊表示超过180万本电子书将支持这一阅读功能。亚马逊此前还并购了一家名家IVONA的软件公司，该公司的技术提供Kindletext to speech和其他语音阅读相关功能。

关注这一块技术的创业公司也不在少数。如2013年初，Joyride在APP中引入声控，并募集了100万美元的融资。Joyride希望实现100%声控，让用户即便在开车时也能享受社交游戏等娱乐活动。

另一家创业公司，Nuiku实现了一项技术：用户说出指令，应用能自动分析，调用用户已经上传材料中相对应的内容。Niuku在9月份宣布获得160万美元的融资。

Forrestor最近发布的调查指出，移动应用中附带声控功能的比例不断增加，大部分用户使用该功能发短信，46%用来搜索，40%用来导航，38%用声控做记录。

集成语音

语音交互技术由两部分组成。一部分叫语音合成，指文本到语音(Text to speech，简称TTS)的过程。设备或应用能利用TTS实现与用户的交流，读取文本信息、指令，或向用户呈现程序运行的进度。

另一部分叫语音识别技术，识别用户向APP的说话以发出指令，或用信息/邮件的形式做出反应，后者通常要键盘辅助实现。理想的语音应用兼具两者，但初学者可以先从编写单一功能的程序开始熟悉这项技术。

乍看之下，语音合成/识别库并不复杂识别输入的发音并输出语音对应的序号即可，但实际上通常情况下获得清晰自然的效果并不容易。

阅读文本时不同人发音存在微妙的差异，这些差异不会影响到人类交流，但要让机器同时完成自然语言和数字信号的处理，对识别和编译都提出了相当的要求。

要从零开始建立一套完整的语音交换算法需要成千上万小时的编程，好在有一些现成的商品化的APP工具提供帮助。编程者在为项目选择SDK前需确定开发模式。开发模式主要有两种：

云系统: 自动语音识别(Automatic Speech Recognition，简称ASR)和TTS通过云系统完成，速度快，准确性高，使用也比较广泛。虽然限制了运行APP的设备需要时刻联网，但也缩小了设备自身体积。

内置式: 内置移动语音识别或TTS让声音识别编译过程在本地完成，可离线工作，但设备也相应更笨重。至于其工作原理，是将每个可能的音节录音后存在预置的音频数据库中。IVONA语音识别系统则提供美式英语(Kendra，女性发音)和英式英语(Amy，女性)的发音下载，每份数据约150MB。此外云系统收网络影响可能出现翻译延迟，本地处理则避免了这一中间过程的影响。

热门话语库

Nuance提供目前移动应用开发使用最热门的语音库。Nuance的应用Dragon Dictation可完成从语言到文本的转化，iOS版本免费。该应用录制语音后上传到网络处理器供识别，因此要求无线网络连接。但总体来说延迟并不明显，应用能迅速将所说内容的对应文字显示在主窗口中。

苹果、谷歌和微软都为各自的手机系统提供直接语言到文本识别工具，为用户提供手动输入以外的选择。从iOS7开始，苹果又新增了AVSpeechAynthesizer这一API实现语音集成功能。过去如果应用开发人员想让设备说话，需要在程序中加入自己的代码解决发音方案，既费时又增加了程序体积。而有了iOS7这一语音整合API，开发者仅用几行代码就能给应用加入发音功能。此外，这一API也适用网页应用开发。

OpenEars是一款离线语音识别和文字-语音转换开源开发包，支持西语和英语。和其他离线语料库一样，往应用中加入OpenEars能大大增加软件提及(仅OpenEars就超过200M)。但开发人员后期可以去除未使用的语言版本，最终程序的大小通常可以控制在6~20M(除非兼容多语言，那样程序体积会更大)。

其他常见SDK开发包还有：Ivona，iSpeech，Vocalkit和Acapela，这些都是在线并需付费的SDK。

程序开发人员根据不同需求来选择为设计的APP配备哪种语料库，评价是否合适需要权衡解决效率和总成本。随着语音识别一些关键问题的解决(如鸡尾酒会问题，即在众多声音中辨识目的语音，联系上下文，口音识别，识别有口吃的人说话等)，APP中的语音识别的用户体验也会不断改善。

但对开发者来说，现在还不是一拥而上为每个应用都按上语音选项的时候，也许可以从错误率小的地方入手，如填写表格，来逐步过渡到语音应用。首先往最常用的功能中引入语音选项，然后通过逐步迭代，扩展到其他应用。此外，如果程序本身不涉及太多可读出的内容，也许不用TTS系统，简单的语音芯片就足够了。

另一种情况，如果程序不用识别整段对话，而只用识别其中某个关键字时，引入语音识别API或相关服务并不合适，而应该相应采用Keyword Spotting(关键字抓取)技术，两种算法也不一样。语音识别针对的是全部语段，远远多于关键字抓取的形式，后者只瞄准给定的关键字或词组，更加简单快捷。

结论

语音技术在应用中的发展潜能是无限的，行动不便的用户将成为首批获益对象。未来可穿戴设备的完善进一步促进语音对话在移动设备中的应用。虽然这一过程不能一蹴而就，但程序开发人员应当有先觉意识，往应用中加入语音选项以提高产品竞争力。

最后说个笑话。以前母亲看到我总是用电脑打字，就会抱怨以后孩子只会打字，都不会写字了。这下好了，有了语音技术，连打字都要成为历史了吧^ ^。

BANGCAMP创业邦成长营，创业邦旗下孵化计划。第四期全新升级，60个名额正式开启招募！现在报名，将有机会获得资机构对接、创业导师面对面指导、2016创新中国春季峰会展示、创业邦媒体矩阵深度传播！创新原力，伴你前行！

即刻报名第四期！

kpi是什么意思

购汇

基本养老保险缴费基数