语音识别 HOWTO
上一页		下一页

3. 简介

3.1. 语音识别基础

孤立词: 孤立词识别器通常要求每个话语在采样窗口的两侧都有静音（缺少音频信号）。这并不意味着它只接受单个词，而是确实需要一次一个话语。通常，这些系统具有“监听/非监听”状态，其中它们要求说话人在话语之间等待（通常在暂停期间进行处理）。孤立话语可能是这个类更好的名称。
连接词: 连接词系统（或更准确地说是“连接话语”）与孤立词类似，但允许将单独的话语“连接在一起”，它们之间只有极少的停顿。
连续语音: 连续识别是下一步。具有连续语音功能的识别器是最难创建的，因为它们必须利用特殊方法来确定话语边界。连续语音识别器允许用户几乎自然地说话，而计算机确定内容。基本上，它是计算机听写。
自然语音: 对于什么是自然语音，似乎有多种定义。从根本上讲，它可以被认为是听起来自然且未经排练的语音。具有自然语音能力的 ASR 系统应该能够处理各种自然语音特征，例如单词连读、“嗯”和“啊”，甚至轻微的口吃。
语音验证/身份识别: 一些 ASR 系统具有识别特定用户的能力。本文档不涵盖验证或安全系统。

听写: 听写是当今 ASR 系统最常见的用途。这包括医疗转录、法律和商业听写，以及一般的文字处理。在某些情况下，使用特殊的词汇表来提高系统的准确率。
命令与控制: 旨在执行系统功能和操作的 ASR 系统被定义为命令与控制系统。诸如“打开 Netscape”和“启动新的 xterm”之类的话语将做到这一点。
电话系统: 一些 PBX/语音邮件系统允许呼叫者说出命令而不是按按钮来发送特定的音调。
可穿戴设备: 由于可穿戴设备的输入有限，因此说话是一种自然的可能性。
医疗/残疾: 许多人由于身体限制（如重复性劳损 (RSI)、肌肉萎缩症等）而难以打字。例如，听力有困难的人可以使用连接到电话的系统将呼叫者的语音转换为文本。
嵌入式应用: 一些较新的蜂窝电话包括 C&C 语音识别，允许诸如“呼叫家”之类的话语。这可能是 ASR 和 Linux 未来发展的一个主要因素。为什么我还不能和我的电视说话？

上一页	首页	下一页
前进		硬件