近日,實(shí)驗室成員丁超越作為第一作者的論文“UniGCRec: Unified User-Item Quantization for Generative Cross-Domain Recommendation”被 The 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026) Research Track(Second Cycle)錄用。KDD 2026 Research Track 第二輪共收到 3252 篇有效投稿,總體接收率約為 18.5%。
在電商、內(nèi)容和生活服務(wù)等平臺中,一個用戶往往會在多個領(lǐng)域留下行為軌跡??缬蛐蛄型扑]希望借助其他領(lǐng)域的歷史行為,改善目標(biāo)領(lǐng)域中數(shù)據(jù)稀疏或偏好尚不充分時的下一項預(yù)測。然而,來源域的信息并非越多越好:不相關(guān)的行為會造成負(fù)遷移;而現(xiàn)有生成式跨域推薦通常只把物品量化為語義 ID,用戶偏好仍隱含在連續(xù)序列表示中,難以在同一語義層面判斷哪些跨域信號值得遷移。針對這一問題,本文提出 UniGCRec,將用戶和物品同時量化為融合語義與協(xié)同信息的 CSC-IDs,并以用戶 CSC-ID 作為生成模型的顯式偏好前綴。在五個真實(shí) Amazon 子域上的實(shí)驗表明,UniGCRec 在全部評價指標(biāo)上均優(yōu)于強(qiáng)基線,在重疊信息受限的場景中仍能保持穩(wěn)定優(yōu)勢。
會議簡介

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 是數(shù)據(jù)挖掘與知識發(fā)現(xiàn)領(lǐng)域的重要國際學(xué)術(shù)會議,由 ACM SIGKDD 主辦,也是中國計算機(jī)學(xué)會推薦的 A 類國際學(xué)術(shù)會議。會議涵蓋數(shù)據(jù)挖掘、機(jī)器學(xué)習(xí)、推薦系統(tǒng)及其真實(shí)應(yīng)用等研究方向。KDD 2026 計劃于 2026 年 8 月 9 日至 13 日在韓國濟(jì)州島召開。
論文簡介
統(tǒng)一用戶-物品量化的生成式跨域推薦

論文鏈接:https://doi.org/10.1145/3770855.3818132
問題背景
推薦系統(tǒng)面對的用戶興趣并不局限于一個領(lǐng)域。例如,用戶在樂器、辦公用品與食品等不同類目中的選擇,可能共同反映其生活方式、場景需求或穩(wěn)定偏好??缬蛐蛄型扑](Cross-Domain Sequential Recommendation, CDSR)的目標(biāo),正是利用這些跨領(lǐng)域軌跡來預(yù)測用戶在目標(biāo)領(lǐng)域中的下一次交互。對于行為稀疏的領(lǐng)域,這類額外證據(jù)尤其有價值。
早期跨域方法通常依賴共享用戶、共享物品或跨域共現(xiàn)關(guān)系來建立連接。但在真實(shí)平臺中,不同領(lǐng)域的物品集合往往天然不同,能夠穩(wěn)定跨域活躍的用戶也有限。近年來,生成式推薦為這一問題提供了新的方向:它不再直接預(yù)測原始物品 ID,而是把物品文本語義壓縮為可生成的離散語義 ID(Semantic IDs, SIDs),讓語義相近的物品即使不存在顯式重疊,也能獲得可比較的表示。
核心問題
不過,現(xiàn)有生成式跨域推薦仍存在一個不對稱之處:物品擁有離散語義 ID,用戶偏好卻仍埋在歷史序列的連續(xù)隱藏狀態(tài)中。換言之,模型知道“物品用什么離散語言表達(dá)”,卻沒有同樣清晰的“用戶偏好標(biāo)識”。當(dāng)多個來源域的信息同時出現(xiàn)時,模型很難用統(tǒng)一尺度判斷哪些信號與目標(biāo)興趣相關(guān),哪些只是噪聲。

圖1 生成式跨域推薦范式比較:現(xiàn)有方法僅量化物品,UniGCRec 將用戶與物品同時映射到統(tǒng)一的 CSC-ID 空間
UniGCRec 的出發(fā)點(diǎn)很直接:既然推薦最終發(fā)生在用戶與物品的匹配上,那么兩者應(yīng)當(dāng)擁有可對齊、可生成的離散表示。本文提出 Cross-Domain Semantic-Collaborative IDs(CSC-IDs),將文本語義和交互協(xié)同信號共同納入量化過程;用戶獲得顯式的 CSC-ID 前綴,物品也獲得 CSC-ID 序列。這樣,跨域信息不再只是被動混入歷史表示,而是可以圍繞明確的用戶偏好錨點(diǎn)進(jìn)行選擇性遷移。
方法概述
UniGCRec 由四個階段組成,從自然語言偏好畫像的提取,到統(tǒng)一離散表示的學(xué)習(xí),再到面向具體領(lǐng)域的生成與適配,形成完整的跨域推薦流程。

圖2 UniGCRec 整體框架:跨域用戶畫像構(gòu)建、用戶與物品 CSC-ID 量化、統(tǒng)一生成式預(yù)訓(xùn)練以及目標(biāo)域適配
-
階段0:構(gòu)建跨域用戶畫像
用戶興趣往往會隨時間變化,直接把整段交互歷史交給模型,容易掩蓋短期偏好的轉(zhuǎn)向。UniGCRec 在離線階段使用 Llama模型,通過滑動窗口逐段讀取用戶歷史:每讀入一段近期行為,就更新一次當(dāng)前偏好畫像,從而保留興趣演化過程。隨后,模型分別從各領(lǐng)域畫像及按時間合并的混合領(lǐng)域歷史中提取可遷移興趣,匯總為一份跨域用戶畫像。
這里的關(guān)鍵不是簡單拼接多域行為,而是盡量保留跨領(lǐng)域仍有意義的穩(wěn)定偏好,并壓低僅在單一領(lǐng)域出現(xiàn)的偶然信號。畫像生成只使用訓(xùn)練集交互,并在訓(xùn)練前離線完成和緩存;推薦訓(xùn)練與推理期間無需調(diào)用畫像生成模型。 -
階段1:統(tǒng)一量化用戶與物品
在用戶側(cè),跨域畫像提供語義表示,不同領(lǐng)域的行為序列提供協(xié)同表示;在物品側(cè),文本描述和交互信息同樣構(gòu)成語義與協(xié)同兩類證據(jù)。UniGCRec 使用雙塔結(jié)構(gòu)融合這兩種信號,再通過 RQ-VAE 將用戶和物品分別量化為離散 CSC-IDs。用戶與物品使用各自的碼本,但在所有領(lǐng)域間共享,并通過對齊目標(biāo)使兩側(cè)表示在量化前具有可比較的結(jié)構(gòu)。
來源域行為中可能既有幫助,也有干擾。為此,論文在用戶側(cè)設(shè)計了 Selective Transfer Gate(ST-Gate)。它根據(jù)目標(biāo)域與其他領(lǐng)域的相關(guān)程度及用戶活躍信息,為不同來源域分配權(quán)重,再通過門控機(jī)制平衡目標(biāo)域協(xié)同信號和跨域匯總信號。與直接混合所有歷史相比,這一步更適合處理興趣差異明顯的跨域場景。

圖3 User ST-Gate:依據(jù)領(lǐng)域相關(guān)性與用戶活動信息聚合來源域信號,并與目標(biāo)域信號進(jìn)行門控融合
-
階段2:生成式預(yù)訓(xùn)練
完成量化后,用戶 CSC-ID 被放在目標(biāo)域物品歷史之前,作為一段顯式的偏好前綴。生成模型接收“用戶偏好前綴 + 目標(biāo)域歷史物品 CSC-IDs”,自回歸生成下一物品的 CSC-ID。預(yù)訓(xùn)練階段使用五個領(lǐng)域的聯(lián)合數(shù)據(jù),使模型能夠?qū)W習(xí)不同領(lǐng)域之間可遷移的生成規(guī)律。 -
階段3:目標(biāo)域適配與約束解碼
針對不同目標(biāo)領(lǐng)域,UniGCRec 在 Qwen2.5-7B 生成骨干上采用 LoRA 進(jìn)行參數(shù)高效適配,保留預(yù)訓(xùn)練階段獲得的跨域知識。推理時,模型使用目標(biāo)域候選物品池構(gòu)建的前綴樹約束生成路徑,使輸出的 CSC-ID 對應(yīng)候選池中的有效物品。
實(shí)驗結(jié)果
論文在五個 Amazon 子領(lǐng)域上進(jìn)行實(shí)驗,包括 Instruments、Beauty、Arts、Office 和 Pantry。所有數(shù)據(jù)均采用 5-core 過濾,評價指標(biāo)為 Recall和 NDCG。對比方法覆蓋單域序列推薦、非生成式跨域推薦、生成式推薦以及生成式跨域推薦。
表1 UniGCRec 在五個目標(biāo)領(lǐng)域上的整體表現(xiàn)

表2 零重疊設(shè)置下的推薦表現(xiàn)

除整體評價與零重疊設(shè)置外,論文進(jìn)一步對量化前的用戶與物品表示進(jìn)行可視化,用于考察用戶-物品對齊目標(biāo)對跨域表示空間組織方式的影響。

圖4 量化前表示的 t-SNE 可視化:對齊目標(biāo)使不同領(lǐng)域的用戶與物品表示形成更統(tǒng)一的跨域空間
討論
1. 對跨域推薦系統(tǒng)的實(shí)際價值
現(xiàn)實(shí)中的推薦服務(wù)經(jīng)常同時覆蓋多個類目或內(nèi)容頻道,但不同頻道的交互量差異很大。UniGCRec 提供了一種更清晰的遷移方式:先把散落在各領(lǐng)域的偏好整理成用戶側(cè)的離散前綴,再讓模型在目標(biāo)領(lǐng)域中生成有效物品。對于新開設(shè)或數(shù)據(jù)較少的頻道,這種做法能夠利用其他領(lǐng)域的穩(wěn)定興趣,而不是粗略地把所有行為混在一起。由于畫像可以離線緩存,領(lǐng)域適配又使用輕量參數(shù)更新,該框架也具備進(jìn)一步面向?qū)嶋H系統(tǒng)優(yōu)化的空間。
2. 研究的局限性和未來方向
當(dāng)前方法仍需要離線調(diào)用大語言模型生成用戶畫像。當(dāng)興趣變化較快、商品和內(nèi)容持續(xù)更新時,畫像的更新頻率、成本與時效性之間仍需權(quán)衡。另一方面,CSC-ID 的語義能力依賴于可用的物品文本與交互質(zhì)量;對于描述缺失、噪聲較大或模態(tài)更豐富的內(nèi)容,僅依靠文本與行為可能還不夠。實(shí)驗?zāi)壳凹杏?Amazon 子領(lǐng)域的離線設(shè)置,未來可進(jìn)一步考察跨平臺、多模態(tài)及在線反饋場景,并探索更輕量的畫像更新機(jī)制。
總結(jié)
本研究的主要貢獻(xiàn)如下:
(1) 本文指出生成式跨域推薦中存在用戶與物品表示不對稱的問題,并提出 UniGCRec,將用戶和物品統(tǒng)一量化為融合語義與協(xié)同信號的 CSC-IDs。
(2) 本文通過跨域用戶畫像和 User ST-Gate 篩選可遷移偏好信號,并用用戶 CSC-ID 前綴顯式條件化生成過程,使跨域遷移更可控。
(3) 在五個真實(shí)領(lǐng)域及零重疊設(shè)置下,UniGCRec 均取得穩(wěn)定優(yōu)勢,驗證了統(tǒng)一用戶-物品離散表示對于生成式跨域推薦的有效性。
如果您對本文內(nèi)容感興趣,可與通訊作者聯(lián)系: zhangpeng_@fudan.edu.cn
實(shí)驗室相關(guān)論文
[1] Yuebo Feng, Jiahao Liu, Mingzhe Han, et al. Drift-Aware Incremental Token Adaptation with Collaborative Semantics for Generative Recommendation. SIGIR 2026.
[2] Jiahao Liu, Xueshuo Yan, Dongsheng Li, Guangping Zhang, Hansu Gu, Peng Zhang, Tun Lu, Li Shang and Ning Gu. Improving LLM-powered Recommendations with Personalized Information. SIGIR 2025.
[3] Mingzhe Han, Dongsheng Li, Jiafeng Xia, Jiahao Liu, Hansu Gu, Peng Zhang, Ning Gu and Tun Lu. FedCIA: Federated Collaborative Information Aggregation for Privacy-Preserving Recommendation. SIGIR 2025.
[4] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu and Ning Gu. Filtering Discomforting Recommendations with Large Language Models. WWW 2025.
如果您對我們實(shí)驗室的相關(guān)工作感興趣,歡迎訪問我們的網(wǎng)站:
協(xié)同信息與系統(tǒng)實(shí)驗室(CISL)
實(shí)驗室網(wǎng)站主頁:https://cscw.fudan.edu.cn/
實(shí)驗室Github主頁:https://github.com/FudanCISL

評論 0