近日,實驗室博士生周健魁作為第一作者的論文"Disentangling Consensus and Value-Specific Representations for Controllable Pluralistic Value Alignment in LLMs" 被Forty-Third International Conference on Machine Learning (ICML 2026) 會議錄用。
大模型不同價值維度通常彼此相關(guān)、同時存在,導致各“價值專家”的表征高度相似、相互糾纏。結(jié)果是,調(diào)整某一種價值專家的作用時,可能會無意中影響其他價值,限制了精細化控制能力。為解決這一問題,提出了 DisAlign,一種模型合并框架。它從信息幾何的視角,將價值表征顯式拆分為共識部分和價值特定部分:先提取不同價值之間共享的共識錨點與子空間,再對剩余表征做譜分解,構(gòu)造彼此解耦的價值子空間。這樣可以更準確、獨立地調(diào)節(jié)多種價值。在涵蓋三種不同價值框架的數(shù)據(jù)集實驗中,DisAlign 相比現(xiàn)有基線方法,持續(xù)提升了價值解耦效果,并實現(xiàn)了更準確的多元價值控制。
會議簡介

ICML (International Conference on Machine Learning) 是機器學習頂級國際學術(shù)會議,是中國計算機學會推薦的A類國際學術(shù)會議。ICML匯集了來自學術(shù)界和工業(yè)界的研究人員,共同探討機器學習理論,優(yōu)化、統(tǒng)計算法等領(lǐng)域的前沿研究。今年,該會議計劃于2026年7月6日至10日在韓國首爾召開。本屆ICML會議共收到超過3萬篇投稿,其中6352篇論文被接受,錄用率26.6%
論文簡介
大語言模型中可控多元價值對齊的
共識表征與價值特定表征解耦

論文鏈接:https://icml.cc/virtual/2026/poster/66729
代碼倉庫:https://github.com/erzhoujk/DisAlign
隨著大語言模型被廣泛應(yīng)用到真實場景中,傳統(tǒng)只追求“平均偏好”或單一價值取向的對齊方法,已經(jīng)難以滿足現(xiàn)實需求,因為不同用戶、文化和任務(wù)場景往往對應(yīng)著不同且可組合的人類價值觀。因此,“多元價值對齊”變得越來越重要,模型應(yīng)當能夠根據(jù)不同價值維度及其權(quán)重,實現(xiàn)可控的行為調(diào)節(jié)。現(xiàn)有方法雖然已經(jīng)嘗試通過提示、單獨訓練價值專家模型,或通過參數(shù)合并來實現(xiàn)多價值對齊,但在真實數(shù)據(jù)中,不同價值通常不是孤立出現(xiàn)的,而是彼此相關(guān)、共同表達的,這使得模型內(nèi)部學到的價值表示往往高度相似并相互糾纏。
要想實現(xiàn)上述的這種精準對齊,面對的核心挑戰(zhàn)在于:如何把多種價值中“共享的共識部分”和“各價值獨有的特定部分”有效分離出來。由于不同價值專家在訓練時會受到混合價值信號的共同影響,調(diào)整某一個價值維度的強度時,往往會連帶影響其他價值維度,導致控制不夠精細、獨立性不足。此外,如果直接做參數(shù)干預,還可能破壞模型原有的通用能力,出現(xiàn)所謂的“對齊稅”。我們通過去除共識部分實現(xiàn)多價值觀表征的解耦,實現(xiàn)對多個價值維度更精準、低干擾、可獨立調(diào)節(jié)的控制。

方法概述
本文提出了 DisAlign,一種面向大語言模型可控多元價值對齊的模型合并框架。其核心思想是將不同價值專家中混雜在一起的表征,顯式拆分為兩部分:一部分是多個價值共享的“共識成分”,另一部分是各個價值獨有的“價值特定成分”。具體來說,DisAlign首先從信息幾何視角出發(fā),通過專家分布的乘積形式提取一個能夠刻畫多價值共同結(jié)構(gòu)的共識錨點與共識子空間。
其次,對去除共識后的剩余表示進行分解和正交化,構(gòu)造彼此解耦的價值特定子空間。最終,模型可以通過線性組合共識部分和用戶指定權(quán)重的價值特定部分,實現(xiàn)對多種價值維度更精確、獨立的調(diào)節(jié)。相比現(xiàn)有直接合并價值專家的方法,該方法減少了不同價值之間的相互干擾,同時盡可能保留了模型原有的通用能力。

實驗結(jié)果
我們在三個價值觀真實數(shù)據(jù)集(MIC, Daily Dilemmas, ValuePrism)上,使用兩種代表性LLM backbone(Llama3.2-3B和Qwen3.5-4b)進行了廣泛實驗,結(jié)果展示在表1中:

可以發(fā)現(xiàn): DisAlign的表現(xiàn)優(yōu)于其他方法,尤其是在隨機組合的多元價值觀對齊場景,實現(xiàn)了多元化對齊的精準調(diào)控。另外我們的方法相比多目標優(yōu)化和其他模型合并方法可以取到更大的帕累托邊界

并且我們首先通過POE理論,只通過一次數(shù)據(jù)遍歷計算費舍爾信息矩陣就可以識別共識表征部分,

在對去除共識部分后價值觀表征正交化處理,不僅實現(xiàn)了多元價值觀的解耦,還避免了對齊稅的產(chǎn)生,實現(xiàn)持續(xù)價值對齊:


討論
1. 實際應(yīng)用價值
這項研究的實用價值主要體現(xiàn)在,它讓大語言模型的價值對齊從“整體調(diào)一個大方向”提升到“按具體價值維度精細調(diào)節(jié)”。在真實應(yīng)用中,用戶、機構(gòu)和文化背景的價值偏好往往并不相同,而且這些偏好還需要動態(tài)組合,因此一個能夠獨立控制“關(guān)懷、公平、忠誠、真實”等不同價值權(quán)重的模型,比只適配單一價值標準的模型更有落地意義。DisAlign 提供了一種更可控的技術(shù)路徑,使系統(tǒng)能夠根據(jù)場景需求靈活調(diào)整輸出風格和決策傾向,適用于智能助手、教育、醫(yī)療、公共服務(wù)等對價值表達較敏感的場景。此外,這項工作還有很強的工程意義。它不是每次都重新訓練一個新模型,而是通過對多個價值專家進行結(jié)構(gòu)化合并來實現(xiàn)控制,因此更有擴展性和部署效率。更重要的是,它試圖減少價值調(diào)節(jié)過程中的“串擾”和“對齊稅”問題,也就是避免在加強某一價值時誤傷其他價值,或明顯損害模型原有的通用能力。這意味著該方法更有希望被用于構(gòu)建既安全、又靈活、還能保持性能穩(wěn)定的實際大模型系統(tǒng)。
2. 研究的局限性和未來方向
首先,DisAlign 依賴“局部二次近似”和“局部度量同質(zhì)性”等假設(shè),即默認各個價值專家都分布在基座模型附近,并且它們在局部具有相對一致的信息幾何結(jié)構(gòu)。 如果模型經(jīng)過非常強的優(yōu)化、與基座模型偏移過大,這種近似可能失效,影響共識錨點和價值子空間分解的準確性。其次,該方法主要適用于“預先定義好價值維度、且已有對應(yīng)偏好數(shù)據(jù)”的場景,因此對開放世界中更動態(tài)、更模糊、甚至不斷演化的價值需求,適應(yīng)性仍然有限。
未來的研究方向可以從幾個方面展開:一是放寬當前的局部幾何假設(shè),使方法能夠適應(yīng)更大幅度的模型偏移和更復雜的對齊訓練過程;二是將該框架推廣到更開放、動態(tài)的價值體系中,而不只依賴固定的價值標簽和靜態(tài)偏好數(shù)據(jù);三是進一步研究價值控制與模型通用能力保持之間的平衡,降低“對齊稅”在更復雜任務(wù)中的風險;四是加強在人類真實使用場景中的評測,例如多輪對話、群體差異、文化遷移和長期行為一致性等問題??傮w來說,這篇工作為“精細可控的多元價值對齊”提供了一個有力起點,但要真正走向大規(guī)模實際應(yīng)用,還需要在泛化性、魯棒性和開放環(huán)境適應(yīng)性上繼續(xù)推進。
總結(jié)
本研究的主要貢獻如下:
(1) 我們識別出多元價值對齊中“精確權(quán)重控制”的關(guān)鍵挑戰(zhàn),并提出了 DisAlign,這一新框架能夠顯式地將價值共享的共識成分與價值特定成分分解開來,從而實現(xiàn)解耦且精確的價值控制。
(2) 我們在信息幾何框架下對這種分解進行建模,以捕捉語義層面的價值共識,并保證不同價值調(diào)節(jié)過程中的低干擾性。
(3) 大量實驗結(jié)果表明,DisAlign 能夠?qū)W習到更加解耦的價值表征,并顯著提升多元價值對齊的可控性。
如果您對本文內(nèi)容感興趣,可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn
實驗室相關(guān)論文
[1] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Denevil: Towards Deciphering and Navigating the Ethical Values of Large Language Models via Instruction Learning (ICLR'24)
[2] Shitong Duan, Xiaoyuan Yi, Peng Zhang, Tun Lu, Xing Xie, Ning Gu Negating Negatives: Alignment with Human Negative Samples via Distributional Dispreference Optimization (EMNLP‘24)
如果您對我們實驗室的相關(guān)工作感興趣,歡迎訪問我們的網(wǎng)站:
協(xié)同信息與系統(tǒng)實驗室(CISL)
實驗室網(wǎng)站主頁:https://cscw.fudan.edu.cn/
實驗室Github主頁:https://github.com/FudanCISL

評論 0