使用 GNU Parallel 提高 Linux 命令行执行效率 | Linux 中国将您的计算机变成一个多任务的动力室。

将您的计算机变成一个多任务的动力室。-- Seth Kenlon

有用的原文链接请访问文末的“

原文链接

”获得可点击的文内链接、全尺寸原图和相关文章。致谢

编译自　|　http://opensource.com/article/18/5/gnu-parallel

　作者　|　Seth Kenlon

　译者　|　Andy Song (pinewall) ?? ?? ?? 共计翻译：

篇贡献时间：73 天

将您的计算机变成一个多任务的动力室。

你是否有过这种感觉，你的主机运行速度没有预期的那么快？我也曾经有过这种感觉，直到我发现了 GNU Parallel。

GNU Parallel 是一个 shell 工具，可以并行执行任务。它可以解析多种输入，让你可以同时在多份数据上运行脚本或命令。你终于可以使用全部的 CPU 了！

如果你用过 xargs，上手 Parallel 几乎没有难度。如果没有用过，这篇教程会告诉你如何使用，同时给出一些其它的用例。

安装 GNU Parallel

GNU Parallel 很可能没有预装在你的 Linux 或 BSD 主机上，你可以从软件源中安装。以 Fedora 为例：

sudo

dnf install parallel

对于 NetBSD：

pkg_add parallel

如果各种方式都不成功，请参考

项目主页

[1]

。

从串行到并行

正如其名称所示，Parallel 的强大之处是以并行方式执行任务；而我们中不少人平时仍然以串行方式运行任务。

当你对多个对象执行某个命令时，你实际上创建了一个任务队列。一部分对象可以被命令处理，剩余的对象需要等待，直到命令处理它们。这种方式是低效的。只要数据够多，总会形成任务队列；但与其只使用一个任务队列，为何不使用多个更小规模的任务队列呢？

假设你有一个图片目录，你希望将目录中的图片从 JEEG 格式转换为 PNG 格式。有多种方法可以完成这个任务。可以手动用 GIMP 打开每个图片，输出成新格式，但这基本是最差的选择，费时费力。

上述方法有一个漂亮且简洁的变种，即基于 shell 的方案：

$ convert

001.jpeg

001.png

$ convert

002.jpeg

002.png

$ convert

003.jpeg

003.png

...

略

...

对于初学者而言，这是一个不小的转变，而且看起来是个不小的改进。不再需要图像界面和不断的鼠标点击，但仍然是费力的。

进一步改进：

for

jpeg

;

convert $i $i

png

;

done

至少，这一步设置好任务执行，让你节省时间去做更有价值的事情。但问题来了，这仍然是串行操作；一张图片转换完成后，队列中的下一张进行转换，依此类推直到全部完成。

使用 Parallel:

find

name

"*jpeg"

parallel

max

args

convert

png

这是两条命令的组合：find 命令，用于收集需要操作的对象；parallel 命令，用于对象排序并确保每个对象按需处理。

? find . -name "*jpeg" 查找当前目录下以 jpeg 结尾的所有文件。? parallel 调用 GNU Parallel。? -I% 创建了一个占位符 %，代表 find 传递给 Parallel 的内容。如果不使用占位符，你需要对 find 命令的每一个结果手动编写一个命令，而这恰恰是你想要避免的。? --max-args 1 给出 Parallel 从队列获取新对象的速率限制。考虑到 Parallel 运行的命令只需要一个文件输入，这里将速率限制设置为 1。假如你需要执行更复杂的命令，需要两个文件输入（例如 cat 001.txt 002.txt > new.txt），你需要将速率限制设置为 2。? convert % %.png 是你希望 Parallel 执行的命令。

组合命令的执行效果如下：find 命令收集所有相关的文件信息并传递给 parallel，后者（使用当前参数）启动一个任务，（无需等待任务完成）立即获取参数行中的下一个参数（LCTT 译注：管道输出的每一行对应 parallel 的一个参数，所有参数构成参数行）；只要你的主机没有瘫痪，Parallel 会不断做这样的操作。旧任务完成后，Parallel 会为分配新任务，直到所有数据都处理完成。不使用 Parallel 完成任务大约需要 10 分钟，使用后仅需 3 至 5 分钟。

多个输入

只要你熟悉 find 和 xargs （整体被称为 GNU 查找工具，或 findutils），find 命令是一个完美的 Parallel 数据提供者。它提供了灵活的接口，大多数 Linux 用户已经很习惯使用，即使对于初学者也很容易学习。

find 命令十分直截了当：你向 find 提供搜索路径和待查找文件的一部分信息。可以使用通配符完成模糊搜索；在下面的例子中，星号匹配任何字符，故 find 定位（文件名）以字符 searchterm 结尾的全部文件：

find

path