Linux 基准测试 HOWTO：Linux 基准测试工具包 (LBT)

3. Linux 基准测试工具包 (LBT)

我将提出一个 Linux 的基本基准测试工具包。这是综合 Linux 基准测试工具包的初步版本，有待扩展和改进。接受它的价值，即作为一个提案。如果您认为它不是一个有效的测试套件，请随时给我发电子邮件提出您的批评，如果可以，我将很乐意进行更改和改进。但是，在争论之前，请阅读本 HOWTO 和提及的参考文献：欢迎知情的批评，不欢迎空洞的批评。

3.1 理由

这只是常识

运行它不应该花费一整天的时间。当涉及到比较基准测试（各种运行）时，没有人愿意花费数天时间来弄清楚给定系统的最快设置。理想情况下，整个基准测试集应该在普通机器上大约需要 15 分钟才能完成。
所用软件的所有源代码都必须在网上免费提供，原因显而易见。
基准测试应提供反映测量性能的简单数字。
应该混合使用综合基准测试和应用程序基准测试（当然，结果要分开）。
每个综合基准测试都应使其特定子系统发挥最大性能。
综合基准测试的结果不应平均到一个单一的性能指标中（这违背了综合基准测试的整个理念，并会造成大量信息丢失）。
应用程序基准测试应包括 Linux 系统上常用的任务。

3.2 基准测试选择

我选择了五个不同的基准测试套件，尽可能避免测试中的重叠

使用 gcc 编译 Kernel 2.0.0（默认配置）。
Whetstone 版本 1997 年 10 月 3 日（Roy Longbottom 的最新版本）。
xbench-0.2（使用快速执行参数）。
UnixBench 基准测试版本 4.01（部分结果）。
BYTE 杂志的 BYTEmark 基准测试 beta 发布版 2（部分结果）。

对于测试 4 和 5，“（部分结果）”意味着并非考虑这些基准测试产生的所有结果。

3.3 测试时长

Kernel 2.0.0 编译：5 - 30 分钟，取决于您系统的实际性能。
Whetstone：100 秒。
Xbench-0.2：< 1 小时。
UnixBench 基准测试版本 4.01：大约 15 分钟。
BYTE 杂志的 BYTEmark 基准测试：大约 10 分钟。

3.4 注释

Kernel 2.0.0 编译

内容：它是 LBT 中唯一的应用程序基准测试。
代码广泛可用（即，我终于找到了一些旧 Linux CD-ROM 的用途）。
大多数 Linux 用户经常重新编译内核，因此它是衡量整体性能的重要指标。
内核很大，gcc 使用了大量的内存：减弱了小测试中 L2 缓存大小的偏差。
它频繁地对磁盘进行 I/O 操作。
测试步骤：获取一个原始的 2.0.0 源代码，使用默认选项进行编译（make config，重复按 Enter 键）。报告的时间应该是编译所花费的时间，即在您键入 make zImage 之后，不包括 make dep、make clean。请注意，内核的默认目标架构是 i386，因此如果在另一个架构上编译，gcc 也应设置为交叉编译，并将 i386 作为目标架构。
结果：编译时间，单位为分钟和秒（请不要报告秒的分数）。

Whetstone

内容：使用一个简短而紧凑的循环来衡量纯浮点性能。源代码（用 C 语言编写）非常易读，并且很容易看出涉及哪些浮点运算。
LBT 中最短的测试 :-)。
这是一个“经典”测试：可以获得可比较的数据，它的缺陷和缺点是众所周知的。
测试步骤：应从 Aburto 的站点获取最新的 C 源代码。以双精度模式编译和运行。指定 gcc 和 -O2 作为预编译器和预编译器选项，并定义 POSIX 1 以指定机器类型。
结果：浮点性能指标，单位为 MWIPS。

Xbench-0.2

内容：衡量 X 服务器性能。
xbench 提供的 xStones 指标是对多个测试的加权平均值，并索引到一个带有单比特深度显示器的旧 Sun 工作站。嗯... 作为现代 X 服务器的测试，它是有问题的，但它仍然是我找到的最好的工具。
测试步骤：使用 -O2 编译。我们指定一些选项以缩短运行时间： ./xbench -timegoal 3 > results/name_of_your_linux_box.out。要获得 xStones 评级，我们必须运行一个 awk 脚本；最简单的方法是键入 make summary.ms。检查 summary.ms 文件：系统的 xStone 评级位于测试期间指定的机器名称所在行的最后一列。
结果：X 性能指标，单位为 xStones。
注意：此测试就目前而言已过时。应该重新编码。

UnixBench 版本 4.01

内容：衡量整体 Unix 性能。此测试将锻炼文件 I/O 和内核多任务性能。
我已经丢弃了所有算术测试结果，只保留与系统相关的测试结果。
测试步骤：使用 -O2 进行 make。使用 ./Run -1 执行（每个测试运行一次）。您将在 ./results/report 文件中找到结果。计算 EXECL THROUGHPUT、FILECOPY 1、2、3、PIPE THROUGHPUT、基于 PIPE 的上下文切换、进程创建、SHELL SCRIPTS 和 SYSTEM CALL OVERHEAD 指标的几何平均值。
结果：系统指标。

BYTE 杂志的 BYTEmark 基准测试

内容：提供了衡量 CPU 性能的良好指标。以下是文档中的摘录：“这些基准测试旨在揭示系统 CPU、FPU 和内存架构的理论上限。它们无法衡量视频、磁盘或网络吞吐量（这些是另一组基准测试的领域）。因此，您应该将这些测试的结果作为系统评估的一部分，而不是全部。”
我已经丢弃了 FPU 测试结果，因为 Whetstone 测试同样可以代表 FPU 性能。
我已将整数测试分为两组：更具代表性的内存-缓存-CPU 性能测试和 CPU 整数测试。
测试步骤：使用 -O2 进行 make。使用 ./nbench > myresults.dat 或类似命令运行测试。然后，从 myresults.dat 中，计算 STRING SORT、ASSIGNMENT 和 BITFIELD 测试指标的几何平均值；这是内存指标；计算 NUMERIC SORT、IDEA、HUFFMAN 和 FP EMULATION 测试指标的几何平均值；这是整数指标。
结果：如上所述计算的内存指标和整数指标。

3.5 可能的改进

理想的基准测试套件将在几分钟内运行完毕，其中综合基准测试分别测试每个子系统，而应用程序基准测试则为不同的应用程序提供结果。它还将自动生成完整的报告，并最终将报告通过电子邮件发送到 Web 上的中央数据库。

我们在这里实际上对可移植性不感兴趣，但它至少应该在所有最新的（> 2.0.0）Linux 版本和风格（i386、Alpha、Sparc...）上运行。

如果有人对以简单、容易和可靠的方式，通过一个简短的（设置和运行少于 30 分钟）测试来基准测试网络性能有任何想法，请与我联系。

3.6 LBT 报告表格

除了测试之外，如果没有描述设置的表格，基准测试程序将是不完整的，所以这里是表格（遵循 comp.benchmarks.faq 的指南）

LINUX BENCHMARKING TOOLKIT REPORT FORM

CPU 
== 
Vendor: 
Model: 
Core clock: 
Motherboard vendor: 
Mbd. model: 
Mbd. chipset: 
Bus type: 
Bus clock: 
Cache total: 
Cache type/speed: 
SMP (number of processors):

RAM 
==== 
Total: 
Type: 
Speed:

Disk 
==== 
Vendor: 
Model: 
Size: 
Interface: 
Driver/Settings:

Video board 
=========== 
Vendor: 
Model: 
Bus:
Video RAM type: 
Video RAM total: 
X server vendor: 
X server version: 
X server chipset choice: 
Resolution/vert. refresh rate: 
Color depth:

Kernel 
===== 
Version: 
Swap size:

gcc 
=== 
Version: 
Options: 
libc version:

Test notes 
==========

RESULTS 
======== 
Linux kernel 2.0.0 Compilation Time: (minutes and seconds) 
Whetstones: results are in MWIPS. 
Xbench: results are in xstones. 
Unixbench Benchmarks 4.01 system INDEX:  
BYTEmark integer INDEX:
BYTEmark memory INDEX:

Comments* 
========= 
* This field is included for possible interpretations of the results, and as 
such, it is optional. It could be the most significant part of your report, 
though, specially if you are doing comparative benchmarking.

3.7 网络性能测试

测试网络性能是一项具有挑战性的任务，因为它至少涉及两台机器，一台服务器和一台客户端机器，因此设置时间是两倍，并且有更多变量需要控制等等... 在以太网网络上，我猜你最好的选择是 ttcp 包。（待扩展）

3.8 SMP 测试

SMP 测试是另一项挑战，任何专门为 SMP 测试设计的基准测试都很难证明其在实际环境中的有效性，因为可以利用 SMP 的算法很难找到。 Linux 内核的更高版本（> 2.1.30 或左右）似乎将进行“细粒度”多处理，但目前我没有更多信息。

根据 David Niemi 的说法，“ ... shell8 [Unixbench 4.01 基准测试的一部分]在比较 SMP 和 UP 模式下的类似硬件/操作系统方面做得很好。”