我正在使用NUMA机器(SGI UV 1000)同时运行大量的数值模拟,每个模拟都是使用4个核的OpenMP作业。但是,运行大约100多个这些作业会严重影响性能。关于这种情况发生的原因,我们的理论是,软件所需的共享库仅一次加载到计算机的全局内存中,然后系统将遇到通信瓶颈,因为所有进程都在访问单个节点上的内存。
这是一个旧软件,没有修改范围,并且静态make选项不会静态链接其所需的所有库。从我所见,最方便的解决方案是以某种方式强制系统在每个进程或节点(我在每个进程或节点上运行3个进程)上加载所需共享库的新副本,但是我没有能够找到如何做到这一点。谁能告诉我该怎么做,或者对解决这个问题有其他建议?
该软件所需的共享库仅一次加载到计算机的全局内存中,
据我所知,这是Linux的当前行为。共享库仅加载到一组物理内存,并且仅加载到单个节点上。
然后,由于所有进程都在访问单个节点上的内存,因此系统遇到了通信瓶颈。
如评论中所述,库中的指令应该缓存在每个处理器中,因此只有从缓存中擦除了库中的活动代码(例如,有许多不同的代码在工作)时,才会出现瓶颈。
您应该使用硬件性能计数器(高速缓存未命中,节点间NUMA内存访问计数)来验证您的理论。
在NUMA上具有多个副本的一些数据存储机制,在Linux上称为“复制”。内核,可执行文件或其共享库的代码称为文本。因此,您想要的是“共享库的文本复制”。我认为对于内核代码而言,文本复制更容易。
我能找到2003一些实验补丁做这样的文本复制,如 http://lwn.net/Articles/63512/( [RFC] [PATCH] NUMA用户页面复制 戴维·汉森,IBM)。该补丁似乎被拒绝了。
此技术的更现代的版本(2007年)是页面缓存的复制:SUSE尼克·皮金(Nick Piggin),http : //lwn.net/Articles/223056/ ( mm:复制的页面缓存 )。也有关于他的方法的介绍:http : //ondioline.org/~paul/pagecachereplication.pdf。这将起作用,因为所有文件(可执行文件和共享库)都存储在页面缓存中。但是即使对于此补丁,我也无法在当前内核中找到它。
dplace
-r :指定应在运行应用程序的一个或多个节点上复制文本。在某些情况下,复制将通过减少对代码进行节点外内存引用的需求来提高性能。复制选项适用于dplace命令放置的所有程序。有关文本复制的更多信息,请参见dplace(5)手册页。复制选项是一个字符串,包含以下一个或多个字符: l 复制库文本 b 复制二进制(a.out)文本 t 线程循环选项
-r :指定应在运行应用程序的一个或多个节点上复制文本。在某些情况下,复制将通过减少对代码进行节点外内存引用的需求来提高性能。复制选项适用于dplace命令放置的所有程序。有关文本复制的更多信息,请参见dplace(5)手册页。复制选项是一个字符串,包含以下一个或多个字符:
l 复制库文本
b 复制二进制(a.out)文本
t 线程循环选项
手动替换(1):http ://techpubs.sgi.com/library/tpl/cgi- bin/getdoc.cgi?coll=linux&db=man&fname=/usr/share/catman/man1/dplace.1.html
手动放置(5):http ://techpubs.sgi.com/library/tpl/cgi- bin/getdoc.cgi?coll=linux&db=man&fname=/usr/share/catman/man5/dplace.5.html