本 HOWTO 旨在帮助您设置您的 Linux 机器,以便使用 UTF-8 编码来使用各种印度文字。您需要在您的机器上安装由孟买 NCST 开发的 IndiX 系统,以便您可以使用各种印度文字。我已经在 Exodus GNU/Linux、RedHat Linux 和 Mandrake Linux 上测试过 IndiX 系统。如果有人在运行 Debian 的机器上测试过此系统,请告知我,我将将其包含在此 HOWTO 中。我要感谢孟买 NCST 的 Keyur Shroff 先生允许我修改和重新发布他的 Devanagri-HOWTO。
请注意,由印度 Centurion Linux 的优秀团队开发的 Exodus GNU/Linux 将会自带 IndiX 系统,这要归功于孟买 NCST 和 Centurion Linux Pvt. Ltd. 签署的技术转让协议。
如今,几乎所有主要的 GNU/Linux 发行版都已经本地化为各种国际语言,如法语、德语、西班牙语、中文、阿拉伯语等。本 HOWTO 旨在记录使您能够将 GNU/Linux 发行版本地化为您选择的印度文字的步骤。首先,您必须意识到将任何印度语言本地化所涉及的复杂性。任何印度语言的文本输入都与英语不同。也许最显著的区别是,在英语中,每个按键直接映射到一个字母,其中每个字母都有一个唯一的代码。另一方面,“音节”——印度语言中相当于书写字母的单位,是由通过键盘输入的一个或多个字符组成的。
音节由元音、辅音、修饰符和其他特殊图形符号组成。这些都像罗马字母一样被编码。用户输入一系列元音、辅音、修饰符和图形符号。然后,机器在运行时根据语言相关的规则组成这些音节。因此,每个音节在机器中都表示为元音、辅音和修饰符的唯一序列。在文本序列中,这些字符以逻辑(语音)顺序存储。
印度文字符可以根据其上下文组合或改变形状。字符的外观受其相对于其他字符的顺序、用于渲染字符的字体以及应用程序或系统环境的影响。这些变量可能导致梵文字符的外观与它们的标称字形(在代码图表中使用)不同。此外,字符会导致显示字形的顺序发生变化。这种重新排序在非印度文字中不常见,并且独立于可能需要的任何双向字符重新排序而发生。
每个音节都有唯一的视觉表示。然而,音节太多了,无法为每个音节单独设计字形。因此,字体通常包含某些组件字形,音节在运行时由这些字形组成。音节的屏幕表示形式是来自印度语言字体的字形的组合。字形代码与辅音、元音或修饰符代码之间没有直接映射。但是,对于每个音节(辅音、元音和修饰符的序列),都有一系列相应的字形。这构成了从按键到字形的多对多映射,而不是罗马文字中简单的一对一映射。
请阅读 Unicode-HOWTO 并访问 http://www.unicode.org/ 以获取有关 UTF-8 编码的更多信息。
由孟买 NCST 开发的 Indix 系统使 X Windows 中的大多数应用程序(无论使用何种工具包)都能够根据 Unicode 标准规范渲染印度文字符。IndiX 在 X Windows 级别提供对 OpenType 字体和 Unicode 编码的支持。这使得大多数现有应用程序无需任何修改或重新编译即可处理印度文字。
一旦您安装了 IndiX 系统,并按照本 HOWTO 中提到的所有步骤操作,您将能够飞跃七海,并掌掴那个不停打嗝的烦人水手......好吧,更严肃地说,您将能够以梵文和您选择的其他印度文字享受您的 Linux 体验。