麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

4
點贊
0
評論
0
轉載
我要入駐

PPoPP 2026 | Elastor:面向故障恢復的彈性模型切分與高效檢查點

 

 

PPoPP(Principles and Practice of Parallel Programming)是并行與高性能計算領域的CCF-A類國際會議,關注并行程序設計、系統(tǒng)與運行時等研究方向。第31屆“ACM SIGPLAN并行編程原理與實踐研討會”(ACM SIGPLAN Symposium on Principles and Practice of Parallel Programming, PPoPP '26)將于2026年1月31日至2月4日在澳大利亞悉尼召開,本次會議從280篇投稿論文中接收51篇,接收率為18.2%。PKU-DAIR實驗室論文《Elastic and Efficient Model Partitioning and Checkpointing for Fault-Tolerant Distributed Training》被接收。

 

Elastor: Elastic and Efficient Model Partitioning and Checkpointing for Fault-Tolerant Distributed Training

 

作者:Xuanyu Wang,F(xiàn)angcheng Fu,Haoyang Li,Hao Ge,Sheng Lin,Jiawen Niu,Bin Cui

代碼鏈接:https://github.com/PKU-DAIR/Hetu

 

一、 背景

大模型訓練離不開分布式:數(shù)據(jù)并行(DP)負責擴吞吐,張量并行(TP)/流水并行(PP)負責把超大模型拆到多張GPU上。但現(xiàn)實世界的集群并不“理想”:GPU宕機、節(jié)點掉線、網(wǎng)絡故障會讓可用GPU數(shù)量在訓練中波動。如果系統(tǒng)只能按“整節(jié)點失敗”去設計,一旦出現(xiàn)“部分GPU不可用”,要么浪費仍然健康的GPU,要么被迫長時間停機等待。

更麻煩的是,訓練策略一變(例如從32卡變成28卡、PP stage數(shù)和TP組大小都發(fā)生變化),檢查點也隨之變得難處理。很多框架按“當前并行策略切分參數(shù)”來存儲權重,恢復時如果切分方式不同,就會出現(xiàn)冗余讀取與重分片開銷,在共享文件系統(tǒng)(如NAS)上尤其致命——I/O調用次數(shù)多、單次I/O延遲高,恢復速度很容易被拖垮。

《Elastor: Elastic and Efficient Model Partitioning and Checkpointing for Fault-Tolerant Distributed Training》聚焦于以上兩個問題:”當GPU/節(jié)點在訓練過程中失效、可用GPU數(shù)量發(fā)生變化時,如何既能快速恢復訓練,又不把時間浪費在反復的檢查點保存/加載與重分片上”,并提供了創(chuàng)新的協(xié)同設計解決方案:一方面讓模型切分足夠彈性,能在任意數(shù)量GPU上恢復;另一方面讓檢查點足夠“策略無關”,盡量避免因為切分變化而產(chǎn)生重復I/O,并把周期性檢查點的額外開銷隱藏到訓練流水線里。

 

二、方法

Elastor的核心可以概括為四件事:彈性切分(HMP)、策略搜索、細粒度檢查點、以及訓練-保存的重疊優(yōu)化。

1. 異構模型并行(HMP, Heterogeneous Model Parallelism):當某些GPU失效時,系統(tǒng)仍能用剩余GPU繼續(xù)訓練。HMP允許不同DP rank內的TP組大小不一致,并在此基礎上組織PP階段與通信組,從而適配“非整除”的GPU數(shù)量。

圖1:異構模型并行切分方案

 

2. 恢復時的策略搜索(Strategy Searching):當GPU數(shù)量變化后,Elastor會在候選的{DP, TP_max}組合中搜索合適的并行策略。其流程包含:①把可用GPU劃分成若干TP組并分配給各DP rank;②在每個DP rank內部進一步?jīng)Q定層/數(shù)據(jù)如何分配,并通過微批(micro-batch)分配平衡不同rank的計算。在論文的模擬中,策略搜索在1024張GPU規(guī)模下也能在數(shù)秒內完成。

圖2:自適應策略搜索示意圖

 

3. 細粒度、分片驅動的檢查點(Fine-grained Checkpointing via Splits):將參數(shù)張量統(tǒng)一切成全局的global_split份(split),并保證任意HMP策略下每張GPU都持有整數(shù)個split。這樣恢復時每張GPU只需要加載“自己負責的split”,避免了因切分變化導致的冗余讀取。同時,Elastor用JSON元數(shù)據(jù)記錄split與文件位置的映射,做到策略變化下仍能精確定位所需數(shù)據(jù)。

圖3: 細粒度,自適應模型切分

 

4. 高效保存/加載與重疊(Overlapping Training & Checkpointing):保存過程被拆成GPU→CPU內存與CPU內存→文件系統(tǒng)兩段,通過共享內存與多進程/多線程把參數(shù)搬運、序列化(Safetensors)和寫盤解耦,并與訓練計算流并行執(zhí)行,盡量把檢查點成本“藏起來”。加載階段則通過重排與合并I/O,把大量小I/O盡可能合并為更少的順序讀取,降低共享文件系統(tǒng)上的開銷。

圖4: 高效的異步存儲方案和流水線

 

三、實驗

論文在32張A100-40G的集群上評估Elastor:4臺服務器每臺8卡,機內NVLink帶寬約600GB/s,機間InfiniBand帶寬約200GB/s。文件系統(tǒng)使用NAS,單文件寫入帶寬約800MB/s、讀取約1800MB/s,總帶寬超過5TB/s。

工作負載選擇了3個LLM:LLaMA2-7B、LLaMA2-13B與Qwen2.5-32B;默認上下文長度4096,全局batch size為256。為了貼近真實環(huán)境,作者根據(jù)集群故障統(tǒng)計構造了5種GPU可用性軌跡(Case A-E),包括單GPU故障、多個節(jié)點內GPU故障、整節(jié)點掉線/斷網(wǎng)、以及混合故障等。

對比基線主要包括:FSDP2+PyTorch Distributed Checkpoint(DCP),以及Megatron配合不同檢查點方案(如MCP與BCP)。實驗從三個維度評估:訓練效率、模型加載效率、以及模型保存效率。

  • 訓練效率:在無故障(Case A)下,Elastor與強基線訓練效率接近;當GPU數(shù)量動態(tài)變化(Case B-E)時,Elastor能更穩(wěn)定地維持MFU,并在端到端訓練時間上取得約1.12×–1.40×的加速。

圖5: 訓練效率

  • 加載效率:由于檢查點對并行策略更“無關”,且I/O合并更充分,Elastor在不同故障場景下的加載耗時顯著降低,整體可達約1.95×–4.98×的加速。
  • 保存效率:通過訓練-保存流水線化與線程解耦,模型保存階段也獲得約1.62×–3.94×的提升,降低了周期性檢查點對長期訓練的侵蝕。

 

四、總結

Elastor把“彈性訓練”往前推進了一步:不再只假設整節(jié)點失敗,而是正面面對更常見的部分GPU不可用。它通過HMP讓模型切分能適配任意GPU數(shù)量,又通過細粒度split把檢查點做成策略無關,避免了恢復時的冗余I/O與重分片;最后再用重疊與I/O合并把檢查點成本壓到更低。

對工程實踐而言,這篇工作有兩個啟示:一是故障恢復能力要與并行策略的動態(tài)變化綁定考慮;二是檢查點格式與加載路徑的設計,往往比“寫不寫檢查點”本身更決定系統(tǒng)能否在真實集群里跑得穩(wěn)、跑得快。

 

 

實驗室簡介

 

北京大學數(shù)據(jù)與智能實驗室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實驗室)由北京大學計算機學院崔斌教授領導,長期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領域的前沿研究,在理論和技術創(chuàng)新以及系統(tǒng)研發(fā)上取得多項成果,已在國際頂級學術會議和期刊發(fā)表學術論文200余篇,發(fā)布多個開源項目。課題組同學曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國優(yōu)博、北大優(yōu)博、微軟學者、蘋果獎學金、谷歌獎學金等榮譽。PKU-DAIR實驗室持續(xù)與工業(yè)界展開卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項目合作和前沿探索,解決實際問題,進行科研成果的轉化落地。

學者網(wǎng)機構號是學者網(wǎng)提供的學術"公眾號"平臺,為學者團隊、學術機構、企業(yè)等提供官方媒體賬號服務,支持發(fā)布動態(tài)、活動、通知與招生招聘信息等內容,支持多人協(xié)作維護,助力機構鏈接學界資源、擴大學術影響力。

北京大學數(shù)據(jù)與智能實驗室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負責人為北京大學計算機學院崔斌教授。
返回頂部
青浦区| 南宫市| 榆社县| 若羌县| 中卫市| 浦北县| 乐清市| 芒康县| 宾阳县| 齐齐哈尔市| 永春县| 嘉义市| 晋江市| 南江县| 翼城县| 卓尼县| 枣庄市| 仁寿县| 昔阳县| 习水县| 台安县| 合川市| 昆山市| 沙坪坝区| 江华| 来宾市| 左云县| 桓台县| 彭州市| 新源县| 邢台县| 西乌珠穆沁旗| 湟中县| 井陉县| 宝应县| 汨罗市| 临洮县| 富蕴县| 汕尾市| 安陆市| 靖边县|