HSPMD: Hierarchical and Heterogeneous SPMD for Distributed DL Training

作者：Haoyang Li, Fangcheng Fu, Hao Ge, Sheng Lin, Xuanyu Wang, Jiawen Niu, Yuming Zhou, Xupeng Miao, Bin Cui

OSDI（Operating Systems Design and Implementation）是系統(tǒng)領(lǐng)域最具影響力的會(huì)議之一，由 USENIX 主辦，關(guān)注操作系統(tǒng)、分布式系統(tǒng)及系統(tǒng)與機(jī)器學(xué)習(xí)交叉等方向。OSDI長(zhǎng)期被CCF評(píng)為A類會(huì)議，論文接收率通常在15%左右，與SOSP并稱為計(jì)算機(jī)系統(tǒng)領(lǐng)域的奧斯卡獎(jiǎng)。

PKU-DAIR實(shí)驗(yàn)室論文《HSPMD: Hierarchical and Heterogeneous SPMD for Distributed DL Training》被OSDI 2026接收。

一、背景

隨著GPT、Gemini等大模型規(guī)模不斷擴(kuò)大，分布式訓(xùn)練已成為基礎(chǔ)設(shè)施核心。其中，單程序多數(shù)據(jù)，即SPMD（Single-Program Multiple-Data）的范式為分布式深度學(xué)習(xí)訓(xùn)練中的多種并行維度提供了統(tǒng)一抽象。用戶只需寫一份程序，通過張量/算子標(biāo)注即可自動(dòng)映射到數(shù)據(jù)并行（DP）、張量并行（TP）、流水并行（PP）等多種策略。然而，SPMD依賴一個(gè)關(guān)鍵前提：訓(xùn)練負(fù)載是均勻劃分的，即設(shè)備同構(gòu)且數(shù)據(jù)負(fù)載一致。但在真實(shí)環(huán)境中，這一假設(shè)逐漸失效。一方面，GPU代際混用、性能差異、甚至頻繁故障，使設(shè)備側(cè)呈現(xiàn)顯著異構(gòu)性；另一方面，原始數(shù)據(jù)（如文本、圖像、視頻）具有天然不均勻性，導(dǎo)致計(jì)算負(fù)載動(dòng)態(tài)變化。這些因素共同打破了SPMD的對(duì)稱性假設(shè)。

表1. 不同異構(gòu)負(fù)載場(chǎng)景的空間/時(shí)間特征，以及代表工作

現(xiàn)有方法要么采用MPMD（多程序多數(shù)據(jù)）方案，但復(fù)雜且難擴(kuò)展；要么在SPMD基礎(chǔ)上引入定制調(diào)度器以支持特定場(chǎng)景下的非對(duì)稱執(zhí)行，然而，這類方法通常強(qiáng)綁定具體場(chǎng)景，缺乏通用性。為此，我們提出了HSPMD，其從更基礎(chǔ)的抽象出發(fā)，在原語層擴(kuò)展SPMD，使其原生支持異構(gòu)執(zhí)行，并提出面向“空間/時(shí)間異構(gòu)”的統(tǒng)一建模與機(jī)制設(shè)計(jì)。

圖1. 不同訓(xùn)練框架的范式對(duì)比

二、方法

HSPMD的核心思路是在SPMD的底層原語層面引入不對(duì)稱性，而非像現(xiàn)有工作那樣在調(diào)度器層面打補(bǔ)丁。其設(shè)計(jì)圍繞三個(gè)關(guān)鍵創(chuàng)新展開：

1. 層次化、異構(gòu)的切分注解：傳統(tǒng)SPMD注解只能對(duì)張量進(jìn)行均勻切分。HSPMD擴(kuò)展了注解體系，引入DG Union（設(shè)備組聯(lián)合）和DS Union（分布式狀態(tài)聯(lián)合），允許一個(gè)張量在不同設(shè)備子組內(nèi)采用不同的切分方式。同時(shí)引入HDim（異構(gòu)維度）和HSize（異構(gòu)大小），描述跨子組的切分關(guān)系，從而在單設(shè)備編程視角下原生支持不對(duì)稱并行。

圖2. 層次化、異構(gòu)的切分注解

2. 層次化通信解析：根據(jù)切分注解的層次結(jié)構(gòu)，HSPMD將通信分為底層通信（子組內(nèi)部）和頂層通信（跨子組）。底層通信盡可能復(fù)用標(biāo)準(zhǔn)SPMD的集體通信原語（如all-reduce、all-gather），利用同質(zhì)設(shè)備間的高帶寬鏈路；頂層通信則處理異構(gòu)鏈路，設(shè)計(jì)了SplitAR、SplitAG等算子，并在復(fù)雜場(chǎng)景下使用Batched-Send-Receive（BSR）機(jī)制。BSR通過識(shí)別最細(xì)粒度切片、構(gòu)建映射表、基于帶寬優(yōu)先和負(fù)載均衡的啟發(fā)式調(diào)度，實(shí)現(xiàn)高效的非對(duì)稱通信。

圖3. 層次化通信解析

3. 圖特化與圖切換：針對(duì)空間異構(gòu)性（負(fù)載靜態(tài)不平衡），HSPMD引入圖特化：從單一定義圖和注解計(jì)劃出發(fā)，為每個(gè)設(shè)備生成專屬的可執(zhí)行圖，設(shè)備間可執(zhí)行不同邏輯。針對(duì)時(shí)間異構(gòu)性（負(fù)載動(dòng)態(tài)變化），HSPMD引入圖切換：當(dāng)訓(xùn)練策略需重配時(shí)（如設(shè)備故障、數(shù)據(jù)分布變化），通過BSR在線重分片模型權(quán)重，無縫切換到新策略，無需重啟或重新加載檢查點(diǎn)。

圖4. HSPMD工作流：圖特化與圖切換作為模塊化構(gòu)件，靈活組合以適配異構(gòu)設(shè)備、不穩(wěn)定設(shè)備、變長(zhǎng)數(shù)據(jù)三類場(chǎng)景

三、實(shí)驗(yàn)

我們?cè)?6張H800和32張H20 GPU組成的異構(gòu)集群上評(píng)估HSPMD，采用Llama系列模型（7B至32B），從三個(gè)代表性場(chǎng)景展開。

1. 異構(gòu)設(shè)備：在混合GPU類型（H800與H20混用）的靜態(tài)異構(gòu)環(huán)境下，HSPMD相較于標(biāo)準(zhǔn)SPMD系統(tǒng)（DeepSpeed、Megatron）和異構(gòu)專用系統(tǒng)（HexiScale），訓(xùn)練吞吐提升顯著。標(biāo)準(zhǔn)SPMD因?qū)ΨQ切分導(dǎo)致設(shè)備間負(fù)載失衡，而HexiScale的調(diào)度器難以支持靈活流水線（如1F1B），且僅支持粗粒度廣播。HSPMD通過聲明式注解解耦策略與執(zhí)行，配合層次化通信，實(shí)現(xiàn)更優(yōu)的工作負(fù)載均衡與通信效率。

圖5. 異構(gòu)設(shè)備實(shí)驗(yàn)

2. 不穩(wěn)定設(shè)備：我們模擬GPU故障場(chǎng)景，對(duì)比彈性訓(xùn)練性能。標(biāo)準(zhǔn)SPMD只能丟棄整節(jié)點(diǎn)，且依賴檢查點(diǎn)重啟，恢復(fù)開銷大。專用系統(tǒng)Oobleck支持無重啟重配，但策略空間受限（只能使用固定的pipeline templates）且重配通信粒度粗（只能使用broadcast）。HSPMD可利用剩余所有GPU，通過張量級(jí)聲明注解探索更優(yōu)策略，且重配時(shí)通過Fused BSR合并通信、均衡負(fù)載，顯著降低切換開銷。

圖6. 不穩(wěn)定設(shè)備實(shí)驗(yàn)

3. 變長(zhǎng)數(shù)據(jù)：我們訓(xùn)練32B模型，處理序列長(zhǎng)度動(dòng)態(tài)變化的混合數(shù)據(jù)。標(biāo)準(zhǔn)SPMD固定策略在短序列為主時(shí)效率低下；HotSPA雖支持策略熱切換，但受限于SPMD對(duì)稱性，無法使用空間異構(gòu)策略。HSPMD預(yù)先生成多種異構(gòu)策略，根據(jù)序列長(zhǎng)度分布動(dòng)態(tài)切換，在性能和靈活性上均優(yōu)于基線。

圖7. 變長(zhǎng)數(shù)據(jù)實(shí)驗(yàn)

四．總結(jié)

HSPMD把“SPMD范式”往前推了一步：不再局限于對(duì)稱的、靜態(tài)的并行假設(shè)，而是正面面對(duì)設(shè)備異構(gòu)、設(shè)備故障、數(shù)據(jù)分布不均等真實(shí)世界挑戰(zhàn)。它通過在原語層面擴(kuò)展注解和通信，讓SPMD自身具備表達(dá)和執(zhí)行異構(gòu)并行策略的能力，而非依賴調(diào)度器層面打補(bǔ)丁。

對(duì)系統(tǒng)設(shè)計(jì)而言，這篇工作帶來兩個(gè)啟示：一是處理異構(gòu)性應(yīng)當(dāng)從底層原語入手，而非在高層堆砌特設(shè)機(jī)制；二是空間異構(gòu)性與時(shí)間異構(gòu)性可以抽象為圖特化與圖切換兩個(gè)正交的模塊化構(gòu)件，組合起來即可覆蓋多種場(chǎng)景。這種“底層擴(kuò)展+模塊化抽象”的思路，為構(gòu)建通用、高效的分布式訓(xùn)練系統(tǒng)提供了新的方向。

實(shí)驗(yàn)室簡(jiǎn)介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR實(shí)驗(yàn)室）由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo)，長(zhǎng)期從事數(shù)據(jù)庫系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究，在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果，已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇，發(fā)布多個(gè)開源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開卓有成效的合作，與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開展項(xiàng)目合作和前沿探索，解決實(shí)際問題，進(jìn)行科研成果的轉(zhuǎn)化落地。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

OSDI 2026 | HSPMD：面向異構(gòu)負(fù)載的統(tǒng)一分布式訓(xùn)練框架

實(shí)驗(yàn)室簡(jiǎn)介

評(píng)論 0

近期熱門新聞

下一篇