3. 简介

3.1. 语音识别基础

语音识别是指计算机(或其他类型的机器)识别口语单词的过程。 基本上,它意味着与您的计算机交谈,并让它正确识别您所说的内容。

以下定义是理解语音识别技术所需的基础知识。

话语

话语是指单词或词语的发声(说话),这些单词或词语对计算机代表一个单一的含义。 话语可以是单个词、几个词、一个句子,甚至多个句子。

说话人依赖性

说话人依赖型系统是围绕特定说话人设计的。 对于正确的说话人,它们通常更准确,但对于其他说话人则不太准确。 它们假设说话人将以一致的声音和节奏说话。 说话人独立型系统是为各种说话人设计的。 自适应系统通常从说话人独立型系统开始,并利用训练技术来适应说话人,从而提高其识别准确率。

词汇表

词汇表(或字典)是可以被 SR 系统识别的单词或话语列表。 通常,较小的词汇表更容易被计算机识别,而较大的词汇表则更困难。 与普通字典不同,每个条目不必是单个单词。 它们可以长达一两个句子。 较小的词汇表可以只有 1 或 2 个已识别的话语(例如“Wake Up”),而非常大的词汇表可以有十万个或更多!

准确率

识别器的能力可以通过测量其准确率来检验 - 即它识别话语的程度。 这不仅包括正确识别话语,还包括识别口语话语是否在其词汇表中。 好的 ASR 系统的准确率达到 98% 或更高! 系统的可接受准确率实际上取决于应用。

训练

一些语音识别器具有适应说话人的能力。 当系统具有此能力时,它可能允许进行训练。 ASR 系统的训练方式是让说话人重复标准或常用短语,并调整其比较算法以匹配该特定说话人。 训练识别器通常会提高其准确率。

训练也可以供那些说话困难或发音某些单词有困难的说话人使用。 只要说话人能够一致地重复一个话语,具有训练功能的 ASR 系统就应该能够适应。

3.2. 语音识别的类型

语音识别系统可以通过描述它们具有识别哪些类型的话语的能力来分为几个不同的类别。 这些类别的划分基于一个事实,即 ASR 的难点之一是确定说话人何时开始和结束一个话语的能力。 大多数软件包可以归入多个类别,具体取决于它们使用的模式。

3.3. 用途和应用

虽然任何涉及与计算机交互的任务都可能使用 ASR,但以下应用是目前最常见的。