由于语音对带宽的要求相对较低,几乎任何中高等质量的 16 位声卡都可以胜任这项工作。您必须在内核中启用声音,并且必须安装正确的驱动程序。有关声卡的更多信息,请参阅“Linux 声卡 HOWTO”,网址为:http://www.LinuxDoc.org/。声卡质量通常会引发关于其对准确性和噪声影响的激烈讨论。
推荐使用“最干净”的 A/D(模数)转换的声卡,但通常数字采样的清晰度更多地取决于麦克风质量,甚至更多地取决于环境噪声。来自显示器、PCI 插槽、硬盘驱动器等的电气“噪声”通常与来自计算机风扇、吱吱作响的椅子或沉重呼吸的可听噪声相比,微不足道。
一些 ASR 软件包可能需要特定的声卡。通常最好避免特定的硬件要求,因为它会限制您未来可能的选择和决定。如果您正在考虑需要特定硬件才能正常运行的软件包,则需要权衡利弊。
当使用 ASR 时,高质量的麦克风是关键。在大多数情况下,桌面麦克风无法胜任这项工作。它们往往会拾取更多的环境噪声,这会给 ASR 程序带来麻烦。
手持麦克风也不是最佳选择,因为它们可能一直拿在手上很麻烦。虽然它们确实限制了环境噪声的量,但它们最适用于需要经常更换说话者,或者不经常对识别器说话的应用场景(当佩戴耳机不是一种选择时)。
最佳选择,也是迄今为止最常见的选择是头戴式耳机。它可以最大限度地减少环境噪声,同时让您始终将麦克风放在嘴边。头戴式耳机有带耳机的和不带耳机的(单声道或立体声)。我推荐立体声耳机,但这只是个人品味的问题。
您可以以 25 美元到 100 美元的价格购买到高质量的麦克风耳机。一个不错的起点是 http://www.headphones.com 或 http://www.speechcontrol.com。
关于音量的一个快速提示:不要忘记调高麦克风音量。这可以使用诸如 XMixer 或 OSS Mixer 等程序来完成,并且应注意避免反馈噪声。如果 ASR 软件包含自动调整程序,请改用它们,因为它们针对其特定的识别系统进行了优化。
ASR 应用程序可能在很大程度上依赖于处理速度。这是因为大量的数字滤波和信号处理可能发生在 ASR 中。
与几乎任何 CPU 密集型软件一样,速度越快越好。而且,内存越大越好。使用 100MHz 和 16M 内存进行一些 SR 是可能的,但为了快速处理(大型词典、复杂的识别方案或高采样率),您应该争取至少 400MHz 和 128M 内存。由于所需的处理能力,大多数软件包都会列出其最低要求。
尚未开展使用集群(Beowulf 或其他)执行大规模识别工作的尝试。如果您知道任何正在进行或正在开发的项目,请给我发个消息!scook@gear21.com