相关动态
MPI系列: 并行IO性能优化究竟是怎么玩的呢?
2024-12-29 21:45

浓缩干货:MPI-IO对单个进程使用“数据筛选”技术优化,对聚合IO使用“两阶段IO”技术优化。并行存储系统的文件条块长度与严重影响性能。

 

1997年,MPI 2.0标准添加了并行IO功能,接口函数增加了一堆。但是MPICH、OpenMPI软件包的文档、MPI教科书里只讲各种函数的用法,不提这些并行IO函数是如何提高性能的,让人一边写代码一边怀疑它们的实际效果。想知道背后的优化原理,就要先了解一它的应用场景。

 

MPI程序读写文件的模式


只用1个进程读写:如图1,进程p0将文件中的所有数据读入自己的缓冲区(buffer),然后用MPI发送接收函数将大部分数据传给进程p1~p3。计算结束后,如图2,进程p1~p3将计算结果传给进程p0,p0负责将所有结果数据写到文件。


显然,这个模式下负责读写文件的进程是性能瓶颈,读写带宽受限于p0所在计算服务器的网络带宽、存储系统的单进程性能上限。即使采用并行存储系统,也无法改善IO性能。


图 1

 

图 2

 

多个进程分别读写:每个进程只操作自己的文件,彼此间不协调,相互独立,如图3。这种模式既能同时使用计算服务器的多个网络通道,又能发挥并行存储系统的多客户端接入能力。缺点是供读取的源数据文件可能没有进程数量多(大型程序会用成千上万、百万的进程,造成负载不均;输出的文件数据太多,后续处理困难。


图 3


多个进程读写同一个文件:多个进程相互配合,避免无用操作,如图4。这种模式下MPI并行IO性能有望达到最好。

 

图 4

 

优化技术:数据筛选(Data Sieving


多进程读写同一个文件模式下,假设4个进程分工处理一个大数组A,如图5。根据边界最小原则划分,每个进程负责一个角上的数据。


图 5

 

假设数组A及其子数组在文件中和内存中均按行存放(C语言模式),那么4个进程内存中的子数组摆放形式就如图6所示。


特别注意,操作系统普遍的支持的POSIX协议只允许读写连续的数据段,不能1次读写有“空洞”的数据段。仔细找找,C语言、Fortran语言的文件操作函数中没有读写不连接数据的函数吧。


图 6


那么问题来了,对进程p0而言,内存中连续的4个数a11、a12、a21、a22在文件中却是不连续的,MPI后台需要调用2次读函数才能完成任务。真实的程序中可能需要多调用成百上次读函数才能完成一个内存连接段的读取。


IO函数的调用延时开销很大,尽量每次多读写一些数据,减少调用次数。这就像送快递,无论是只拉1个包裹还是拉100包裹,每次都要花掉固定的路上时间,当然是批量送货快。


那怎么办呢?MPI在后台开辟一块缓冲区,如图7,将不连续的小数据片段合并,1次读取文件的一大段数据,放入缓冲区,然后筛选出有用的数据放入内存指定位置。虽然读取了一些无效的“空洞”数据,但减少了操作次数,整体上还是划算的。


图 7

 

对写操作来说,为防止覆盖掉最新的“空洞”数据,需要先将数据读入缓冲区,如图8,然后用内存中的数据新值修改缓冲区中的相应位置,最后将缓冲区中的全部数据1次写入文件。


8


优化技术:两阶段IO


在“多个进程读写同一个文件”模式下,“数据筛选”技术遇到了问题:写冲突,如图9。进程p0写文件的时候需要将数据段a11~a22加锁,而进程p1写数据要求对数据段a13~a24加锁,这两个数据段有重叠,因此只能一个进程先写另一个进程后写,被迫串行操作。


图 9

 

不能并行的根本原因是操作了没用的“空洞”数据,因此MPI设计了“两阶段IO”技术,如图10:每个进程都在本地开辟一块缓冲区,每块缓冲区对应一段连续的文件数据;然后进程之间交换缓冲区里的数据。


图 10


“两阶段IO”增加了缓冲区之间的数据交换开销,但是这样的数据交换走的是计算服务器之间高速网络,相对于获得的文件操作收益来说还是很划算的。

 

与并行存储系统配合


前面都假设文件是一个完整的数据流,而实际上文件会被分割成多个条块,按条块打散存放在并行存储服务器里面,查看《纠删码(Erasure Code)的数学原理竟然这么简单》复习打散方法。


如果并行存储服务器上的文件条块大小与进程本地的缓冲区大小相匹配,那么只需从1台存储服务器读取1次就能填满缓冲区,最高效,如图11。


MPI系列: 并行IO性能优化究竟是怎么玩的呢?

图 11

 

如果文件条块大小与缓冲区大小不匹配,那么填满缓冲区就需要从多台存储服务器读取多次,性能低下,“两段段IO”技术前功尽弃,如图12。



图 12

 

MPI-IO与特定文件系统的配合


如果文件系统本身有“数据筛选”功能,那么关闭MPI的“数据筛选”后性能更好。至于如何协调MPI缓冲区大小和文件条块大小,如何使MPI进程均匀连接并行存储设备,且听下回分解。


文章来源:HPC世界

 

推荐阅读


温馨提示

请识别二维码关注公众号,点击原文链接获取更多HPC技术资料总结

    以上就是本篇文章【MPI系列: 并行IO性能优化究竟是怎么玩的呢?】的全部内容了,欢迎阅览 ! 文章地址:http://ww.kub2b.com/news/15118.html
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站 http://ww.kub2b.com/mobile/ , 查看更多   
最新文章
惠聚美好 | 春茶抢“鲜”忙!博罗柏塘万亩茶园飘香
春分时节茶山醒,青山翠垄采撷忙。眼下正值春茶采摘期,走进博罗县柏塘镇万亩茶园,只见层层叠叠的茶树随山势起伏,茶农们挎着竹
俄战轰将驻扎美军面前,印尼勇猛助力普京?澳方否认俄方沉默
2025年4月,关于俄罗斯战略轰炸机可能驻扎印尼马努瓦空军基地的消息在国际社会引发高度关注。英国权威军事媒体《简氏防务周刊》
在场|尝尝博山“春”的味道:博山区饮食行业协会发布六款春季菜品
春日的博山,空气中浮动着香椿与花椒芽的淡淡香气。4月8日,一场名为“乘时为贵”的春季品鉴会上,40余位名厨围绕时令食材,把“
如何选择流量卡手机流量卡「如何选择流量卡」
▲现在的三大电信运营商的老用户可选的流量套餐都是贵出天际,以广东这里的移动公司来说,最便宜的含流量是39元5个G,不含宽带的
清明节不能说快乐,只能祝“安康”?答案令人意外……
在今天的互联网传说里,有两个传统佳节是禁止“快乐”的,一个是端午,另一个就是清明。我们曾发文讲解过,所谓“端午不能‘快乐
手机QQ怎么发邮件到别人邮箱 QQ邮箱手机怎么注册手机qq邮箱登录入口「手机QQ怎么发邮件到别人邮箱 QQ邮箱手机怎么注册」
该手游近期很受玩家的欢迎,在游戏的过程中我们经常会遇到许多的问题,就有玩家问小编有关手机QQ怎么发邮件到别人邮箱 QQ邮箱手
*ST工智股票连续三个交易日涨幅偏离值超12%
雷达财经 文|杨洋 编|李亦辉4月16日,(证券代码:000584)发布股票交易异常波动公告。公司股票在2025年4月14日至16日连续三个交
搞机无悔,挚爱数码诺基亚n73手机qq「搞机无悔,挚爱数码」
第一部手机是2007年购入,至今已有10年,这十年从数码白痴到狂热的数码爱好者,一路走来,体验过众多手机和数码产品,那种最原始
苹果手机耗电太快怎么办手机电量消耗快怎么办「苹果手机耗电太快怎么办」
苹果手机以其卓越的性能和流畅的用户体验赢得了全球用户的喜爱,但不少用户在使用过程中都会遇到手机耗电过快的问题。这不仅影响
华为P30 Pro手机外观、参数、拍照、性能、续航及系统全面评测华为P30PRO手机参数「华为P30 Pro手机外观、参数、拍照、性能、续航及系统全面评测」
五、充电续航:40W超级闪充+4200毫安时电池成就续航怪兽在以往,华为P系列因主打极致轻薄设计,不得不缩减机身体积,进而其电池