麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

3
點贊
0
評論
1
轉載
我要入駐

論文聚焦|KDD’26|讓數值特征讀懂流式分布——DAES重塑點擊率預測中的Embedding表征

收錄于合集: # 快訊

近日,實驗室博士生劉家豪作為第一作者的論文 Distribution-Aware End-to-End Embedding for Streaming Numerical Features in Click-Through Rate Prediction 被 The 32nd ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD 2026) Research Track(Second Cycle)錄用。KDD 2026 Research Track 第二輪共收到 3252 篇有效投稿,總體接收率約為 18.5%。

該工作面向推薦與廣告系統(tǒng)中的點擊率預測任務,聚焦流式訓練場景下數值特征難以有效表征的問題。傳統(tǒng)數值特征處理方法往往依賴離線分桶或人工規(guī)則,容易在數據分布變化時產生語義漂移;而神經網絡式嵌入方法雖然支持端到端訓練,卻通常忽略了數值特征背后的分布信息。為解決這一問題,本文提出了面向流式數值特征的分布感知端到端嵌入框架 DAES。該方法通過高效的跳躍蓄水池采樣估計流式分布,并在分位空間中進行連續(xù)插值表示,同時引入字段感知的分布調制機制,使模型能夠捕捉不同上下文下數值特征的語義差異。大量離線實驗和線上 A/B 測試表明,DAES 在多種主流 CTR 模型架構上均取得穩(wěn)定提升,并已部署于日活數億級用戶的短視頻廣告平臺。

會議簡介

圖片

ACM SIGKDD Conference on Knowledge Discovery and Data Mining (KDD) 是數據挖掘與知識發(fā)現領域的重要國際學術會議,由 ACM SIGKDD 主辦,也是中國計算機學會推薦的 A 類國際學術會議。會議涵蓋數據挖掘、機器學習、推薦系統(tǒng)及其真實應用等研究方向。KDD 2026 計劃于 2026 年 8 月 9 日至 13 日在韓國濟州島召開。

論文簡介
面向流式點擊率預測的
分布感知數值特征嵌入

圖片

論文鏈接:https://arxiv.org/abs/2602.03223

問題背景

點擊率預測是推薦系統(tǒng)與計算廣告中的核心任務,其目標是估計用戶點擊某一內容或廣告的概率。主流深度 CTR 模型通常遵循“嵌入層—特征交互層—預測層”的范式:首先將類別特征和數值特征映射到統(tǒng)一的低維向量空間,再通過交互網絡建模高階特征關系,最終輸出點擊概率。

對于類別特征而言,嵌入查表已經成為標準做法。例如,用戶性別、廣告類目、視頻標簽等離散 ID 可以直接映射到對應的 embedding。然而,數值特征卻更加復雜。用戶年齡、商品價格、曝光次數、歷史點擊率、統(tǒng)計轉化率等數值特征通常具有連續(xù)分布、長尾分布、強尺度差異和天然序關系,很難像類別特征一樣直接查表表示。

在真實工業(yè)系統(tǒng)中,這一問題進一步被流式訓練放大。推薦和廣告系統(tǒng)需要實時響應用戶興趣變化、內容熱度變化和流量分布變化,模型通常以數據流的形式持續(xù)更新。此時,數值特征的分布不再穩(wěn)定,離線統(tǒng)計結果很容易過時。如何在流式環(huán)境中讓數值特征既保持連續(xù)表示,又能顯式感知動態(tài)分布,成為點擊率預測模型中的關鍵挑戰(zhàn)。

圖片

圖 1 面向流式點擊率預測的數值特征嵌入問題示意圖

 

現有方法局限

現有數值特征嵌入方法大體可以分為四類:靜態(tài)分桶、神經網絡嵌入、插值分桶和動態(tài)分位嵌入。

靜態(tài)分桶是工業(yè)界常用方案。它先基于離線統(tǒng)計結果將連續(xù)數值劃分為若干桶,再為每個桶學習一個 embedding。該方法簡單有效,也能顯式利用數值分布信息。然而,它存在兩個明顯問題。第一,表示不連續(xù):同一桶內的不同數值會共享完全相同的 embedding,而跨越桶邊界的相鄰數值卻會被映射到不同表示。第二,分桶邊界依賴離線統(tǒng)計,一旦流式數據分布發(fā)生變化,邊界更新可能導致同一數值對應的桶編號發(fā)生改變,從而引發(fā)語義漂移。

神經網絡嵌入通過 MLP 或可微分模塊直接將數值映射為 embedding,支持端到端訓練,也能保證表示的平滑性。但這類方法通常只關注原始數值本身,缺乏對特征分布的顯式建模。例如,同樣是“100”這個數值,在低價商品中可能代表高端價格,在高價商品中卻可能代表低端價格;僅使用原始數值難以捕捉這種分布語義。

插值分桶試圖同時兼顧分布信息與表示連續(xù)性。它使用離線分位點劃分桶邊界,并通過線性插值聚合多個 meta-embedding。盡管這種方法比靜態(tài)分桶更加平滑,但它仍然依賴離線統(tǒng)計,因此并沒有真正解決流式環(huán)境中的分布更新與語義漂移問題。

動態(tài)分位嵌入是更接近本文目標的一類方法。代表性方法 DAE 嘗試在線估計分位點,并基于分布信息生成嵌入權重。然而,DAE 的分位估計依賴連續(xù) batch 獨立同分布的假設。在真實流式推薦系統(tǒng)中,數據通常具有明顯的非平穩(wěn)性和時間相關性,該假設很難成立,進而可能導致分位估計出現系統(tǒng)偏差。

圖片

圖 2 不同數值特征嵌入范式對比

方法概述

  • 讓數值特征從“數值大小”走向“分布位置”

針對上述問題,本文提出 DAES,即 Distribution-Aware End-to-End Embedding for Streaming Numerical Features。DAES 的核心思想是:數值特征的 embedding 不應只由“數值本身有多大”決定,而應由“該數值在當前流式分布中處于什么位置”以及“它在特定上下文中意味著什么”共同決定。

具體而言,DAES 包含三個關鍵模塊:

第一,流式分布估計。DAES 使用跳躍蓄水池采樣維護數值特征的全局流式分布,在有限內存下持續(xù)估計分位點。

第二,分位空間插值。DAES 不在原始數值空間中編碼,而是將數值映射到分位空間,以捕捉累計密度信息和序關系。

第三,字段感知分布調制。DAES 根據類別字段 embedding 對數值特征的分位表示進行調制,從而適配不同上下文下的條件分布語義。

  • 模塊一:跳躍蓄水池采樣
    在流式場景中,系統(tǒng)無法保存全部歷史樣本,因此需要在有限內存中維護對全局分布的近似。DAES 采用蓄水池采樣,為每個數值特征維護一個固定大小的樣本集合。該采樣機制保證在任意時間點,歷史樣本被保留在蓄水池中的概率相同,因此蓄水池可以作為全局歷史數據的無偏近似。
    然而,標準蓄水池采樣需要對每個新到來的樣本生成隨機數并判斷是否替換。當數據流極大時,大量新樣本實際上不會被選中,這會帶來明顯的計算浪費。
    為此,DAES 進一步提出 Jump Reservoir Sampling。它不再逐條判斷樣本是否進入蓄水池,而是直接采樣“下一次蓄水池更新會在多久之后發(fā)生”。在兩次更新之間,算法可以跳過所有不會被選中的樣本,從而顯著降低隨機數生成與更新開銷。論文推導了跳躍長度的分布,并給出近似  的時間復雜度,其中  為蓄水池大小, 為數據流長度。
    直觀來看,隨著數據流不斷增長,新樣本進入蓄水池的概率會越來越小。與其對每個樣本都進行一次無效判斷,不如直接預測下一次“命中”的位置。這一設計使 DAES 能夠更好適配大規(guī)模流式訓練系統(tǒng)。

圖片

 

  • 模塊二:分位空間插值
    僅估計分布還不夠,關鍵在于如何使用分布信息表示數值。
    已有動態(tài)分位嵌入方法通常在原始數值空間中度量輸入值與分位點之間的距離。但這種做法容易受到數值密度影響。例如,在稠密區(qū)域中,兩個數值之間很小的差異可能對應大量樣本;而在長尾稀疏區(qū)域中,較大的數值差異可能只對應很小的概率質量。因此,原始數值距離并不總能反映真實的分布語義。
    DAES 將數值編碼從 value space 轉移到 quantile space。具體來說,模型首先基于蓄水池估計若干分位點,將整體分布劃分為多個等概率區(qū)間。對于輸入數值 ,DAES 判斷它落在哪個分位區(qū)間,并根據它在該區(qū)間內的相對位置構造一個“溫度計式”的連續(xù)向量。 例如,一個數值若處在第 4 個分位區(qū)間的中間位置,其表示可以近似理解為:
    這一表示既保留了數值的序關系,也顯式編碼了它在整體分布中的累計位置。相比直接使用原始數值,分位空間表示更穩(wěn)定,也更適合長尾、偏態(tài)和非均勻分布的工業(yè)特征。

  • 模塊三:字段感知分布調制
    數值特征的語義往往依賴上下文。同樣的商品價格,在不同類目下可能意味著完全不同的消費層級;同樣的用戶活躍天數,在不同用戶群體中也可能反映不同的興趣強度。
    一種直接做法是為每個上下文字段單獨維護數值分布,但這會帶來嚴重的組合爆炸。尤其在推薦和廣告系統(tǒng)中,類別字段數量多、取值空間大,如果為每個字段組合都單獨建模分布,幾乎無法擴展。
    DAES 采用更靈活的方式:先用全局分布得到原始分位表示,再通過類別字段 embedding 對其進行調制。論文提出了兩種調制策略。
    第一種是 仿射變換。模型根據字段 embedding 生成一個調制矩陣,對分位表示進行上下文相關的重加權。
    第二種是 門控機制。模型根據字段 embedding 生成一個 gate 向量,對不同分位區(qū)間進行動態(tài)放大或抑制。
    經過調制后的權重向量會被用于聚合一組可學習的 meta-embedding,從而得到最終的數值特征表示。通過這種方式,DAES 將上下文校準提前到 embedding 層,而不是完全依賴后續(xù)特征交互網絡隱式學習。

實驗結果

  • 離線實驗與線上部署雙重驗證
    本文在兩個公開數據集 Criteo、AutoML 和一個大規(guī)模工業(yè)數據集上進行了實驗。所有數據均按照曝光時間排序,以模擬真實流式訓練場景。實驗指標包括 AUC 和 LogLoss,并在多個主流 CTR 模型骨干網絡上驗證方法的通用性,包括 FNN、Wide & Deep、DeepFM、IPNN、DCN v2 和 xDeepFM。對比方法覆蓋靜態(tài)分桶、神經網絡嵌入、插值分桶和動態(tài)分位嵌入四大類。
    實驗結果表明,DAES 在不同數據集和不同 backbone 上均取得了穩(wěn)定領先的效果。與靜態(tài)分桶相比,DAES 避免了離線邊界更新導致的語義漂移;與普通神經嵌入方法相比,DAES 顯式利用了分布信息;與 PLE 等插值分桶方法相比,DAES 不再依賴離線統(tǒng)計;與 DAE 相比,DAES 使用更適合流式場景的蓄水池采樣,并在分位空間而非原始數值空間中進行編碼。
    值得注意的是,PLE 在多個 baseline 中表現較強,這也從側面說明:分布信息對數值特征表示至關重要。但 PLE 的分布信息來自離線統(tǒng)計,而 DAES 將分布估計整合進流式訓練過程,因而更適合動態(tài)推薦與廣告環(huán)境。

  • 消融實驗
    為了驗證各個模塊的有效性,論文進一步進行了系統(tǒng)消融分析。
    在分布估計方面,DAES 使用的蓄水池采樣在 Criteo 數值特征上的 KL 散度顯著低于基于 order statistics 的估計方法,說明其能更準確地保留整體分布信息。同時,跳躍蓄水池采樣在保持相近估計精度的同時,將隨機數調用量降低到標準蓄水池采樣的 3%–4%。
    在插值空間方面,論文對比了原始數值空間和分位空間。結果顯示,分位空間插值能夠帶來更好的預測性能,說明“數值在分布中的位置”比“數值與分位點的歐氏距離”更適合指導 embedding 學習。
    在分布調制方面,實驗表明,引入字段感知調制后,模型性能明顯優(yōu)于不調制的版本。進一步分析發(fā)現,選擇對數值條件分布影響更顯著的類別字段進行調制,可以獲得更好的效果。這說明 DAES 并非簡單增加參數,而是在 embedding 層顯式建模了上下文相關的數值語義。

  • 線上 A/B 測試
    除離線實驗外,論文還在一個日活數億級用戶的大規(guī)模平臺上進行了為期 7 天的線上 A/B 測試。線上實驗將 DAES 與生產環(huán)境中基于人工離散化規(guī)則的數值特征處理方法進行對比。結果顯示,DAES 顯著優(yōu)于生產基線,使廣告主價值 提升 2.307%。目前,DAES 已經在該廣告平臺完成全量部署。
    這一結果表明,DAES 不僅在學術基準數據集上有效,也能夠在真實工業(yè)系統(tǒng)中產生實際商業(yè)價值。更重要的是,DAES 將數值特征處理無縫整合到模型訓練過程中,減少了對離線統(tǒng)計和人工分桶規(guī)則的依賴,降低了特征工程維護成本。

總結

總體而言,DAES 重新思考了數值特征在流式 CTR 預測中的表示方式:數值不只是一個標量,更是動態(tài)分布中的一個位置,也是特定上下文中的一種語義。通過將分布估計、分位編碼和字段感知調制統(tǒng)一到 embedding 層,DAES 為在線推薦與廣告系統(tǒng)中的數值特征建模提供了一條高效、可擴展且可落地的新路徑。

 

如果您對本文內容感興趣,可與通訊作者聯系: zhangpeng_@fudan.edu.cn

 

實驗室相關論文

[1] Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu. CL4CTR: A Contrastive Learning Framework for CTR Prediction. WSDM 2023.

[2] Fangye Wang, Yingxu Wang, Dongsheng Li, Hansu Gu, Tun Lu, Peng Zhang, Ning Gu. Enhancing CTR Prediction with Context-Aware Feature Representation Learning. SIGIR 2022.

[3] Fangye Wang, Hansu Gu, Dongsheng Li, Tun Lu, Peng Zhang, Ning Gu. Towards Deeper, Lighter and Interpretable Cross Network for CTR Prediction. CIKM 2023.

[4] Jiahao Liu, Dongsheng Li, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. Unbiased Collaborative Filtering with Fair Sampling. SIGIR 2025.

[5] Jiahao Liu, Shengkang Gu, Dongsheng Li, Guangping Zhang, Mingzhe Han, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. AgentCF++: Memory-enhanced LLM-based Agents for Popularity-aware Cross-domain Recommendations. SIGIR 2025.

[6] Jiahao Liu, Yiyang Shao, Peng Zhang, Dongsheng Li, Hansu Gu, Chao Chen, Longzhi Du, Tun Lu, Ning Gu. Filtering Discomforting Recommendations with Large Language Models. WWW 2025.

[7] Jiahao Liu, Xueshuo Yan, Dongsheng Li, Guangping Zhang, Hansu Gu, Peng Zhang, Tun Lu, Li Shang, Ning Gu. Improving LLM-powered Recommendations with Personalized Information. SIGIR 2025.

[8] Ziye Tong*, Jiahao Liu*, Weimin Zhang, Hongji Ruan, Derick Tang, Zhanpeng Zeng, Qinsong Zeng, Peng Zhang, Tun Lu, Ning Gu. RQ-GMM: Residual Quantized Gaussian Mixture Model for Multimodal Semantic Discretization in CTR Prediction. SIGIR 2026.

 

如果您對我們實驗室的相關工作感興趣,歡迎訪問我們的網站:

協同信息與系統(tǒng)實驗室(CISL)

實驗室網站主頁:https://cscw.fudan.edu.cn/

實驗室Github主頁:https://github.com/FudanCISL

學者網機構號是學者網提供的學術"公眾號"平臺,為學者團隊、學術機構、企業(yè)等提供官方媒體賬號服務,支持發(fā)布動態(tài)、活動、通知與招生招聘信息等內容,支持多人協作維護,助力機構鏈接學界資源、擴大學術影響力。

返回頂部
洛宁县| 阜南县| 黄梅县| 永胜县| 城口县| 南召县| 出国| 凯里市| 汝州市| 综艺| 东阿县| 太白县| 宿松县| 平昌县| 成安县| 乳山市| 尼玛县| 临沂市| 琼结县| 保定市| 淮北市| 湘潭县| 镇巴县| 红桥区| 枝江市| 织金县| 陇西县| 深泽县| 太和县| 商水县| 娄底市| 丽江市| 蒲城县| 喀喇沁旗| 竹山县| 钟山县| 金川县| 乃东县| 莎车县| 离岛区| 临洮县|