下一页 上一页 目录

9. 高可用性 RAID

  1. : RAID 可以帮助我防止数据丢失。但是如何才能确保系统尽可能长时间地运行,并且不易发生故障?理想情况下,我想要一个系统可以一年 365 天、每周 7 天、每天 24 小时运行。
    : 高可用性是困难且昂贵的。您越是努力使系统具有容错能力,就越困难且越昂贵。以下提示、技巧、想法和未经证实的传闻可能会对您的 этой 追求有所帮助。
    • IDE 磁盘可能会以这样一种方式发生故障:IDE 排线上的故障磁盘也可能阻止同一排线上的良好磁盘响应,从而使其看起来像是两个磁盘都发生了故障。由于 RAID 不能防止双磁盘故障,因此应该在一个 IDE 电缆上只连接一个磁盘,或者如果有两个磁盘,它们应该属于不同的 RAID 集合。
    • SCSI 磁盘可能会以这样一种方式发生故障:SCSI 链上的故障磁盘可能会阻止访问链上的任何设备。故障模式涉及公共(共享)设备就绪引脚的短路;由于此引脚是共享的,因此在移除短路之前,不会发生仲裁。因此,同一 SCSI 链上的任何两个磁盘都不应属于同一个 RAID 阵列。
    • 类似的说法也适用于磁盘控制器。不要在一个控制器上加载太多通道;使用多个控制器。
    • 不要对所有磁盘使用相同的品牌或型号。严重的雷暴天气导致两个或多个磁盘损坏的情况并不少见。(是的,我们都使用浪涌抑制器,但这些也不是完美的)。磁盘外壳的过热和通风不良是磁盘杀手。廉价磁盘通常运行温度很高。使用不同品牌的磁盘和控制器可以降低导致一个磁盘损坏的因素(热量、物理冲击、振动、电涌)在同一天也损坏其他磁盘的可能性。
    • 为了防止控制器或 CPU 故障,应该可以构建一个“双尾” SCSI 磁盘外壳:即连接到两台计算机。一台计算机将以读写模式挂载文件系统,而第二台计算机将以只读模式挂载它们,并充当热备用。当热备用能够确定主服务器发生故障时(例如通过看门狗),它将切断主服务器的电源(以确保它真的关闭了),然后 fsck 并重新以读写模式挂载。如果有人实现了这个功能,请告诉我。
    • 始终使用 UPS,并执行干净的关机。虽然不干净的关机可能不会损坏磁盘,但在即使是小型阵列上运行 ckraid 也是非常慢的。您要尽可能避免运行 ckraid。或者您可以破解内核并调试热重建代码...
    • SCSI 电缆是众所周知的非常敏感的设备,容易引起各种问题。使用你能买到的最高质量的电缆。例如,使用气泡膜来确保带状电缆不会彼此靠得太近而产生串扰。严格遵守电缆长度限制。
    • 了解一下 SSI(串行存储架构)。虽然它相当昂贵,但据传它不太容易出现 SCSI 表现出的故障模式。
    • 祝您使用愉快,时间过得比您想象的要快。

下一页 上一页 目录