语音识别 HOWTO
上一页		下一页

5. 语音识别软件

5.1. 自由软件

此处列出的大部分自由软件都可以在以下网址下载：http://sunsite.uio.no/pub/Linux/sound/apps/speech/

5.1.1. XVoice

XVoice 是一款听写/连续语音识别器，可以与各种 XWindow 应用程序一起使用。它允许用户自定义宏。这是一个很棒的程序，拥有光明的未来。一旦设置完成，它就能以足够的精度执行。

XVoice 需要您下载并安装 IBM 的（免费）ViaVoice for Linux（请参阅商业软件部分）。它还需要配置 ViaVoice 才能正确工作。此外，还需要 Lesstif/Motif (libXm)。同样重要的是要注意，由于此程序与 X windows 交互，您必须在您的机器上保持 X 资源开放，因此如果您在联网或多用户机器上使用它，则应谨慎使用。

此软件主要面向用户。RPM 可用。

主页：http://www.compapp.dcu.ie/~tdoris/Xvoice/ http://www.zachary.com/creemer/xvoice.html

项目：http://xvoice.sourceforge.net

社区：http://www.onelist.com/community/xvoice

5.1.2. CVoiceControl/kVoiceControl

CVoiceControl（代表 Console Voice Control 控制台语音控制）最初是作为 KVoiceControl（KDE 语音控制）开始的。它是一个基本的语音识别系统，允许用户通过口语命令执行 Linux 命令。CVoiceControl 取代了 KVoiceControl。

该软件包括一个麦克风音量配置实用程序、一个用于添加新命令和发声的词汇“模型编辑器”以及语音识别系统。

CVoiceControl 对于希望开始 ASR 的经验丰富的用户来说是一个极好的起点。它不是最用户友好的，但一旦正确训练，它会非常有帮助。设置时请务必阅读文档。

此软件主要面向用户。

主页：http://www.kiecza.de/daniel/linux/index.html

文档：http://www.kiecza.de/daniel/linux/cvoicecontrol/index.html

5.1.3. Open Mind Speech

Open Mind Speech 于 1999 年末启动，已多次更名（曾用名 VoiceControl、SpeechInput，然后是 FreeSpeech），现在是“Open Mind Initiative”的一部分。这是一个开源项目。目前它尚未完全运行，主要面向开发人员。

此软件主要面向开发人员。

主页：http://freespeech.sourceforge.net

5.1.4. GVoice

GVoice 是一个语音 ASR 库，它使用 IBM 的 ViaVoice（免费）SDK 来控制 Gtk/GNOME 应用程序。它包括用于初始化、识别引擎、词汇操作和面板控制的库。此项目的开发已闲置一年多。

此软件主要面向开发人员。

主页：http://www.cse.ogi.edu/~omega/gnome/gvoice/

5.1.5. ISIP

密西西比州立大学信号与信息处理研究所已将其语音识别引擎公开。该工具包包括前端、解码器和训练模块。这是一个功能齐全的工具包。

此软件主要面向开发人员。

该工具包（以及有关 ISIP 的更多信息）可在以下网址获取：http://www.isip.msstate.edu/project/speech/

5.1.6. CMU Sphinx

Sphinx 最初在 CMU 启动，最近已作为开源发布。这是一个相当大的程序，包含许多工具和信息。它仍然“在开发中”，但包括训练器、识别器、声学模型、语言模型和一些有限的文档。

此软件主要面向开发人员。

主页：http://www.speech.cs.cmu.edu/sphinx/Sphinx.html

来源：http://download.sourceforge.net/cmusphinx/sphinx2-0.1a.tar.gz

5.1.7. Ears

虽然 Ears 尚未完全开发，但对于希望开始 ASR 编程的程序员来说，这是一个很好的起点。

此软件主要面向开发人员。

FTP 站点：ftp://svr-ftp.eng.cam.ac.uk/comp.speech/recognition/

5.1.8. NICO ANN Toolkit

NICO 人工神经网络工具包是一个灵活的反向传播神经网络工具包，针对语音识别应用进行了优化。

此软件主要面向开发人员。

其主页：http://www.speech.kth.se/NICO/index.html

5.1.9. Myers' Hidden Markov Model Software

Richard Myers 的这款软件是用 C++ 代码编写的 HMM 算法。它为 L. Rabiner 的著作《语音识别基础》中描述的 HMM 模型提供了一个示例和学习工具。

此软件主要面向开发人员。

信息可在以下网址获取：http://www.itl.atr.co.jp/comp.speech/Section6/Recognition/myers.hmm.html

5.1.10. Jialong He's Speech Recognition Research Tool

尽管最初不是为 Linux 编写的，但此研究工具可以在 Linux 上编译。它包含三种不同类型的识别器：DTW、动态隐马尔可夫模型和连续密度隐马尔可夫模型。这用于研究和开发用途，因为它不是一个功能齐全的 ASR 系统。该工具包包含一些非常有用的工具。

此软件主要面向开发人员。

更多信息可在以下网址获取：http://www.itl.atr.co.jp/comp.speech/Section6/Recognition/jialong.html

5.1.11. 更多自由软件？

如果您知道上面列表中未包含的自由软件，请发送邮件至：scook@gear21.com。如果您有兴趣，也可以告诉我从哪里可以获得该软件的副本，以及您对它的任何印象。谢谢！

5.2. 商业软件

5.2.1. IBM ViaVoice

IBM 兑现了他们支持 Linux 的承诺，推出了一系列适用于 Linux 的 ViaVoice 产品，尽管他们的 SDK 的未来尚未确定（截至今日，他们的开发人员许可协议尚未正式发布 - 更多信息即将到来）。

他们的商业（非免费）产品 IBM ViaVoice Dictation for Linux（可在 http://www-4.ibm.com/software/speech/linux/dictation.html 获取）性能非常好，但与更基本的 ASR 系统相比，系统要求较高（64M 内存和 233MHz 奔腾）。对于 59.95 美元的价格，您还可以获得 Andrea NC-8 麦克风。它还允许多个用户（但我还没有尝试过多个用户，所以如果有人有任何经验，请告诉我一声）。该软件包包括：文档 (PDF)、训练器、听写系统和安装脚本。最新的版本还支持基于 2.2 内核的其他 Linux 发行版。

ASR SDK 可免费获得，包括 IBM 的 SMAPI、语法 API、文档和各种示例程序。ViaVoice 运行时工具包为听写功能和用户实用程序提供 ASR 引擎和数据文件。ViaVoice 命令和控制运行时工具包包括用于命令和控制功能的 ASR 引擎和数据文件，以及用户实用程序。SDK 和工具包需要 128M 内存和 Linux 2.2 或更高版本的内核）

SDK 和工具包可在以下网址免费获得：http://www-4.ibm.com/software/speech/dev/sdk_linux.html

5.2.2. Vocalis Speechware

有关 Vocalis 和 Vocalis Speechware 的更多信息，请访问：http://www.vocalisspeechware.com 和 http://www.vocalis.com。

5.2.3. Babel Technologies

Babel Technologies 有一个名为 Babear 的 Linux SDK。它是一个基于混合马尔可夫模型和人工神经网络技术的与说话人无关的系统。他们还有各种用于文本转语音、说话人验证和音素分析的产品。更多信息可在以下网址获取：http://www.babeltech.com。

5.2.4. SpeechWorks

我在他们的网站上没有看到任何明确提及 Linux 的内容，但他们的“OpenSpeech Recognizer”使用了 VoiceXML，这是一个开放标准。更多信息可在以下网址获取：http://www.speechworks.com。

5.2.5. Nuance

Nuance 为各种 *nix 平台提供语音识别/自然语言产品（目前为 Nuance 8.0）。它可以处理非常大的词汇量，并使用独特的分布式架构来实现可扩展性和容错能力。更多信息可在以下网址获取：http://www.nuance.com。

5.2.6. Abbot/AbbotDemo

Abbot 是一个非常大的词汇量、与说话人无关的 ASR 系统。它最初由剑桥大学的 Connectionist Speech Group 开发。它已转让（商业化）给 SoftSound。更多信息可在以下网址获取：http://www.softsound.com。

AbbotDemo 是 Abbot 的演示包。此演示系统拥有约 5000 个单词的词汇量，并使用连接主义/HMM 连续语音算法。这是一个演示程序，没有源代码。

5.2.7. Entropic

Entropic 的优秀人员已被 Micro$oft 收购……他们的产品和支持服务几乎全部消失。他们对 HTK 和 ESPS/waves+ 的支持已不复存在，他们的未来掌握在 M$ 手中。他们的旧网站 http://www.entropic.com 提供了更多信息。

K.K. Chin 告知我，HTK 的原始开发人员（剑桥大学的 Speech Vision and Robotic Group）仍在为其提供支持。还有一个“免费”版本可在以下网址获取：http://htk.eng.cam.ac.uk。另请注意，Microsoft 仍然拥有当前 HTK 代码的版权……

5.2.8. 更多商业产品

有传言称，在不久的将来会有更多商业 ASR 产品上市（包括 L&H）。我在 2000 年 Comdex（拉斯维加斯）与几位 L&H 代表进行了交谈，但他们都无法向我提供有关 Linux 版本的任何信息，甚至不确定他们是否计划发布任何适用于 Linux 的产品。如果您有任何进一步的信息，请将详细信息发送至 scook@gear21.com。

上一页	主页	下一页
硬件		语音识别内幕