NUMA计算机上的共享库瓶颈

一尘不染

NUMA计算机上的共享库瓶颈

linux

我正在使用NUMA机器（SGI UV
1000）同时运行大量的数值模拟，每个模拟都是使用4个核的OpenMP作业。但是，运行大约100多个这些作业会严重影响性能。关于这种情况发生的原因，我们的理论是，软件所需的共享库仅一次加载到计算机的全局内存中，然后系统将遇到通信瓶颈，因为所有进程都在访问单个节点上的内存。

这是一个旧软件，没有修改范围，并且静态make选项不会静态链接其所需的所有库。从我所见，最方便的解决方案是以某种方式强制系统在每个进程或节点（我在每个进程或节点上运行3个进程）上加载所需共享库的新副本，但是我没有能够找到如何做到这一点。谁能告诉我该怎么做，或者对解决这个问题有其他建议？

阅读 354

2020-06-07

共1个答案

一尘不染

该软件所需的共享库仅一次加载到计算机的全局内存中，

据我所知，这是Linux的当前行为。共享库仅加载到一组物理内存，并且仅加载到单个节点上。

然后，由于所有进程都在访问单个节点上的内存，因此系统遇到了通信瓶颈。

如评论中所述，库中的指令应该缓存在每个处理器中，因此只有从缓存中擦除了库中的活动代码（例如，有许多不同的代码在工作）时，才会出现瓶颈。

您应该使用硬件性能计数器（高速缓存未命中，节点间NUMA内存访问计数）来验证您的理论。

在NUMA上具有多个副本的一些数据存储机制，在Linux上称为“复制”。内核，可执行文件或其共享库的代码称为文本。因此，您想要的是“共享库的文本复制”。我认为对于内核代码而言，文本复制更容易。

我能找到2003一些实验补丁做这样的文本复制，如
 http://lwn.net/Articles/63512/（ [RFC]
[PATCH] NUMA用户页面复制戴维·汉森，IBM）。该补丁似乎被拒绝了。

此技术的更现代的版本（2007年）是页面缓存的复制：SUSE尼克·皮金（Nick Piggin），http
： //lwn.net/Articles/223056/ （
mm：复制的页面缓存
）。也有关于他的方法的介绍：http :
//ondioline.org/~paul/pagecachereplication.pdf。这将起作用，因为所有文件（可执行文件和共享库）都存储在页面缓存中。但是即使对于此补丁，我也无法在当前内核中找到它。

在SGI上，有更多的复制需求（它们比典型的内核开发人员拥有更多的NUMA计算机），因此可能会有一些附加补丁。有NUMA的SGI应用程序调整手册：[http](http://techpubs.sgi.com/library/tpl/cgi-
bin/getdoc.cgi/linux/bks/SGI_Developer/books/LX_86_AppTune/sgi_html/ch05.html): //techpubs.sgi.com/library/tpl/cgi-
bin/getdoc.cgi/linux/bks/SGI_Developer/books/LX_86_AppTune/sgi_html/ch05.html提到了dplace实用程序在“
使用dplace命令 ”一节中。它具有文本复制选项：

-r
：指定应在运行应用程序的一个或多个节点上复制文本。在某些情况下，复制将通过减少对代码进行节点外内存引用的需求来提高性能。复制选项适用于dplace命令放置的所有程序。有关文本复制的更多信息，请参见dplace（5）手册页。复制选项是一个字符串，包含以下一个或多个字符：

l 复制库文本

b 复制二进制（a.out）文本

t 线程循环选项

手动替换（1）：http
://techpubs.sgi.com/library/tpl/cgi-
bin/getdoc.cgi?coll=linux&db=man&fname=/usr/share/catman/man1/dplace.1.html

手动放置（5）：http
://techpubs.sgi.com/library/tpl/cgi-
bin/getdoc.cgi?coll=linux&db=man&fname=/usr/share/catman/man5/dplace.5.html

2020-06-07