ACM SIGKDD Conference on Knowledge Discovery and Data Mining 是數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)領(lǐng)域的頂級(jí)國(guó)際會(huì)議之一。KDD 2026 將于 2026 年 8 月 9 日至 13 日在韓國(guó)濟(jì)州島舉辦。

CoFEH: LLM-driven Feature Engineering Empowered by Collaborative Bayesian Hyperparameter Optimization

作者：Beicheng Xu, Keyao Ding, Wei Liu, Yupeng Lu, Bin Cui

代碼鏈接：https://github.com/PKU-DAIR/cofeh

Arxiv 鏈接：https://arxiv.org/pdf/2602.09851

問(wèn)題背景與動(dòng)機(jī)

一個(gè)標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)流程可以拆成兩個(gè)相互關(guān)聯(lián)的子問(wèn)題：一是對(duì)數(shù)據(jù)進(jìn)行特征工程（FE），二是對(duì)下游模型進(jìn)行超參數(shù)優(yōu)化（HPO）。

從 FE 的角度看，傳統(tǒng) AutoML 為了讓搜索可控，通常依賴有限算子庫(kù)和固定流程模板，因此難以利用領(lǐng)域語(yǔ)義，也難以構(gòu)建真正自由的 FE 流水線。LLM 具備語(yǔ)義推理和代碼生成能力，為突破這一限制提供了可能。但現(xiàn)有 LLM-based FE 方法大多仍局限于孤立子任務(wù)，尤其是特征生成。因此，論文得到第一個(gè)判斷：

Conclusion #1：FE 是語(yǔ)義密集型任務(wù)，LLM 適合承擔(dān) FE 設(shè)計(jì)。

從超參數(shù)調(diào)優(yōu)的角度看。貝葉斯優(yōu)化（BO）長(zhǎng)期以來(lái)都是 HPO 中最主流的方法之一。相比之下，直接用 LLM 做 HPO 往往缺乏明確的目標(biāo)代理模型和不確定性估計(jì)，也難以穩(wěn)定利用完整優(yōu)化歷史。因此，論文得到第二個(gè)判斷：

Conclusion #2：在 HPO 中，BO 仍然是更可靠的核心優(yōu)化器。

這兩個(gè)判斷放在一起，就形成了本文最核心的矛盾：LLM 更適合做 FE，BO 更適合做 HPO，但真正的 AutoML 目標(biāo)并不是分別把二者做好，而是聯(lián)合優(yōu)化一條完整機(jī)器學(xué)習(xí)流水線。現(xiàn)有方法通常有兩類選擇。傳統(tǒng) AutoML 可以把 FE 和 HPO 放進(jìn)同一個(gè)同質(zhì)搜索空間中聯(lián)合優(yōu)化，但代價(jià)是 FE 空間被大幅限制。LLM-based FE 方法則常常采用異質(zhì)優(yōu)化器：LLM 負(fù)責(zé) FE，BO 負(fù)責(zé) HPO。但由于二者表示空間不同，實(shí)際流程往往退化成“先固定模型做 FE，再凍結(jié)特征做 HPO”的順序優(yōu)化。

圖 1. 現(xiàn)有方法與 CoFEH 的優(yōu)化流程對(duì)比

因此，論文得到第三個(gè)判斷：

Conclusion #3：有效的 AutoML 需要協(xié)同優(yōu)化 LLM-based FE 和 BO-based HPO。

CoFEH 框架

為了解決上述問(wèn)題，我們提出 CoFEH，一個(gè)面向端到端 AutoML 的協(xié)同優(yōu)化框架。CoFEH 的目標(biāo)不是單獨(dú)優(yōu)化 FE 或 HPO，而是在整個(gè)搜索過(guò)程中交替探索“特征工程流水線”和“模型超參數(shù)配置”的組合。

1. LLM 如何構(gòu)建自由形式的特征工程流水線

圖 2. CoFEH 的 LLM-based FE 工作流

CoFEH 將 FE 流水線構(gòu)建視為一個(gè)序列決策問(wèn)題。初始數(shù)據(jù)集是根節(jié)點(diǎn)，每執(zhí)行一個(gè)特征操作，就會(huì)得到一個(gè)新的數(shù)據(jù)狀態(tài)。整個(gè) FE 搜索過(guò)程就變成了在樹(shù)結(jié)構(gòu)中尋找最優(yōu)操作序列。具體而言，CoFEH 使用 MCTS 實(shí)現(xiàn) Tree of Thought 搜索。

2. FE 與 HPO 如何協(xié)同

FE 和 HPO 本質(zhì)上是相互依賴的。一個(gè)特征工程流水線的價(jià)值，需要在合適的模型超參數(shù)下才能被準(zhǔn)確評(píng)估；反過(guò)來(lái)，超參數(shù)優(yōu)化也依賴當(dāng)前特征表示是否足夠有效。CoFEH 通過(guò)雙向條件化機(jī)制打通二者。

一方面，BO-based HPO 會(huì)被 FE 狀態(tài)條件化。CoFEH 使用 meta-features 表征當(dāng)前數(shù)據(jù)狀態(tài)，并將其與超參數(shù)配置拼接起來(lái)作為 BO 代理模型的輸入。這樣，BO 不再只回答“哪個(gè)超參數(shù)更好”，而是回答“哪個(gè)數(shù)據(jù)狀態(tài)和哪個(gè)超參數(shù)組合更好”。

另一方面，LLM-based FE 也會(huì)被 HPO 結(jié)果條件化。HPO 在某個(gè)數(shù)據(jù)狀態(tài)上發(fā)現(xiàn)更好的模型配置后，會(huì)更新該節(jié)點(diǎn)及其祖先節(jié)點(diǎn)的性能上界，引導(dǎo) MCTS 未來(lái)優(yōu)先探索與強(qiáng)配置更協(xié)同的 FE 分支。

3. 動(dòng)態(tài)分配 FE 與 HPO 預(yù)算

不同任務(wù)對(duì) FE 和 HPO 的敏感性不同。有些數(shù)據(jù)集的瓶頸在特征表達(dá)，另一些數(shù)據(jù)集則更依賴模型配置。因此，CoFEH 將“下一步做 FE 還是 HPO”建模為一個(gè)多臂***問(wèn)題，并使用 PUCB 策略動(dòng)態(tài)調(diào)度。

實(shí)驗(yàn)結(jié)果

我們?cè)?28 個(gè)公開(kāi)數(shù)據(jù)集上評(píng)估 CoFEH，其中包括 19 個(gè)分類任務(wù)和 9 個(gè)回歸任務(wù)。對(duì)比方法覆蓋傳統(tǒng)自動(dòng)化 FE 方法和 LLM-based FE 方法，包括 OpenFE、MindWare、OCTree、ELLM-FT 和 LFG。主要實(shí)驗(yàn)結(jié)論如下：

1）只搜索 FE，使用默認(rèn)下游模型超參數(shù)，CoFEH 獲得最優(yōu)平均排名 1.82，顯著優(yōu)于第二名 LFG 的 3.11。

2）在統(tǒng)一預(yù)算下同時(shí)優(yōu)化 FE 和 HPO，CoFEH 繼續(xù)保持最優(yōu)，平均排名達(dá)到 1.75。

3） CoFEH 從 Standalone FE 到 Joint FE+HPO 的平均改進(jìn)為 7.03%，高于所有基線。

4）在 CASH 和 MLP 兩類下游模型設(shè)置中，CoFEH 也保持穩(wěn)定優(yōu)勢(shì)，說(shuō)明方法不依賴某個(gè)特定模型。

案例分析：從算子堆砌到語(yǔ)義特征工程

在 airfoil_self_noise 數(shù)據(jù)集上，CoFEH 展示了與傳統(tǒng)方法和已有 LLM-based FE 方法明顯不同的行為。該任務(wù)來(lái)自翼型風(fēng)洞實(shí)驗(yàn)，目標(biāo)是預(yù)測(cè)不同實(shí)驗(yàn)條件下的縮放自噪聲。

圖 3. CoFEH 與基線方法在 airfoil_self_noise 上發(fā)現(xiàn)的最優(yōu) FE 流水線

圖3. CoFEH方法與baselines方法搜索出的最優(yōu)FE pipeline對(duì)比

CoFEH 生成的流水線具有清晰的領(lǐng)域語(yǔ)義：它先對(duì)高跨度數(shù)值特征進(jìn)行穩(wěn)定化處理，再基于空氣動(dòng)力學(xué)知識(shí)構(gòu)造類似 Strouhal 數(shù)的特征 \(St = f \cdot c / U\)，并結(jié)合攻角生成幾何特征和交互項(xiàng)；隨后繼續(xù)進(jìn)行分布變換、標(biāo)準(zhǔn)化和特征選擇，最終得到緊湊且有效的特征表示。

我們發(fā)現(xiàn)，CoFEH 的流水線同時(shí)覆蓋了特征變換、生成、預(yù)處理和特征選擇。相比之下，OCTree、ELLM-FT、LFG 等 LLM-based 方法通常主要停留在特征生成，最多再配合簡(jiǎn)單選擇，難以形成完整流水線；MindWare 等傳統(tǒng)方法雖然包含預(yù)處理和變換等操作，但缺乏面向任務(wù)語(yǔ)義的特征構(gòu)造能力。這個(gè)案例說(shuō)明，CoFEH能夠組織一條兼具領(lǐng)域語(yǔ)義和工程完整性的FE流水線。

總結(jié)

本文提出 CoFEH，將 LLM-based FE 與 BO-based HPO 協(xié)同起來(lái)，實(shí)現(xiàn)端到端 AutoML 優(yōu)化。CoFEH 通過(guò) Tree of Thought/MCTS 構(gòu)建自由形式 FE 流水線，通過(guò) mutual conditioning 打通 FE 與 HPO 的信息交互，并通過(guò) dynamic optimizer selector 自適應(yīng)分配搜索預(yù)算。實(shí)驗(yàn)表明，CoFEH 在 standalone FE 和 joint FE+HPO 兩種設(shè)置下均優(yōu)于傳統(tǒng) AutoML 與 LLM-based FE 基線，展示了 LLM 語(yǔ)義探索能力與 BO 數(shù)值優(yōu)化能力結(jié)合的潛力。

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

作者： Wei Liu, Yang Gu, Xi Yan, Zihan Nan, Beicheng Xu, Keyao Ding, Bin Cui, Wentao Zhang

論文鏈接：https://arxiv.org/abs/2605.12376

背景與挑戰(zhàn)

在數(shù)據(jù)科學(xué) pipeline 中，表格處理（清洗、轉(zhuǎn)換、增強(qiáng)、匹配）是基礎(chǔ)但極易出錯(cuò)的環(huán)節(jié)。雖然大語(yǔ)言模型（LLM）展現(xiàn)了自動(dòng)化潛力，但在面對(duì)模糊指令和復(fù)雜任務(wù)結(jié)構(gòu)時(shí)，現(xiàn)有方法往往因缺乏對(duì)數(shù)據(jù)的結(jié)構(gòu)化理解，導(dǎo)致生成的代碼語(yǔ)法正確但語(yǔ)義錯(cuò)誤。例如，面對(duì)“標(biāo)準(zhǔn)化貨幣列”這樣的指令，現(xiàn)有工具要么無(wú)法識(shí)別具體數(shù)值格式，要么因全量掃描所有列而導(dǎo)致效率低下且充滿噪聲。核心痛點(diǎn)在于：靜態(tài)、規(guī)則驅(qū)動(dòng)的概要信息無(wú)法自適應(yīng)地探索數(shù)據(jù)，難以在精度與效率間取得平衡

圖1：概要揭示了模糊的指令暗含的信息，智能體主動(dòng)采樣貨幣列的具體取值，以實(shí)現(xiàn)準(zhǔn)確的ISO4217映射。

方法

針對(duì)上述問(wèn)題，我們提出了 ProfiliTable，首個(gè)以“動(dòng)態(tài)概要（Dynamic Profiling）”為核心的自主多代理框架。它不再將概要視為被動(dòng)的元數(shù)據(jù)讀取，而是通過(guò)交互式探索、知識(shí)增強(qiáng)合成和反饋驅(qū)動(dòng)優(yōu)化，構(gòu)建并迭代優(yōu)化統(tǒng)一的執(zhí)行上下文。

ProfiliTable 包含三個(gè)協(xié)同機(jī)制：

交互式探索： Profiler通過(guò) ReAct 循環(huán)主動(dòng)探索數(shù)據(jù)，僅探索必要信息以消除歧義，避免冗余計(jì)算。
知識(shí)增強(qiáng)合成： Generator利用 RAG 從算子庫(kù)中檢索預(yù)驗(yàn)證的算子模板，確保生成代碼的領(lǐng)域特異性與可靠性。
反饋驅(qū)動(dòng)優(yōu)化： Evaluator-Summarizer聯(lián)合模塊提供執(zhí)行評(píng)分與診斷洞察，指導(dǎo) Profiler 和 Generator 進(jìn)行迭代修正，實(shí)現(xiàn)從意圖到驗(yàn)證的連貫推理。

其架構(gòu)如圖2所示，形成了一個(gè)自我改進(jìn)的閉環(huán)流水線。

圖2：ProfiliTable 的工作流：一個(gè)以動(dòng)態(tài)概要為中心的自優(yōu)化、閉環(huán)管道

實(shí)驗(yàn)

我們?cè)诤w 18 種表格處理任務(wù)類型的綜合基準(zhǔn)上進(jìn)行了評(píng)估。實(shí)驗(yàn)表明，ProfiliTable 在單步和多步任務(wù)中均取得了 SOTA 性能。它的可運(yùn)行率（CRR、TRR）是最高的，確保了生產(chǎn)部署所需的魯棒性。同時(shí)，它在保持高精度的同時(shí)，token 消耗處于 Pareto 最優(yōu)前沿，證明了框架在兼顧準(zhǔn)確性與成本效率方面的巨大優(yōu)勢(shì)。

表1. 單步任務(wù)上ProfiliTable與基線方法效果對(duì)比

總結(jié)

我們提出了 ProfiliTable，這是一個(gè)基于動(dòng)態(tài)概要的自主表格處理多智能體框架。實(shí)驗(yàn)表明，該方法在 GPT-4o 和 GPT-5.2 上均大幅超越基線，且是唯一在多步任務(wù)中實(shí)現(xiàn) 100% 任務(wù)級(jí)可運(yùn)行率的方法，確保了代碼部署的魯棒性。此外，ProfiliTable 在準(zhǔn)確率與成本之間達(dá)到了帕累托最優(yōu)，證明了動(dòng)態(tài)概要能同時(shí)實(shí)現(xiàn)高收益與低成本。這項(xiàng)工作確立了一種新范式——概要驅(qū)動(dòng)的智能體，即通過(guò)迭代、交互和容錯(cuò)機(jī)制，將表格視為動(dòng)態(tài)且語(yǔ)義豐富的對(duì)象進(jìn)行處理。

實(shí)驗(yàn)室簡(jiǎn)介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室（Data And Intelligence Research Lab at Peking Univeristy，PKU-DAIR實(shí)驗(yàn)室）由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo)，長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究，在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果，已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇，發(fā)布多個(gè)開(kāi)源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開(kāi)卓有成效的合作，與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開(kāi)展項(xiàng)目合作和前沿探索，解決實(shí)際問(wèn)題，進(jìn)行科研成果的轉(zhuǎn)化落地。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

KDD 2026 | PKU-DAIR 實(shí)驗(yàn)室兩項(xiàng)成果被 KDD 2026 錄用

實(shí)驗(yàn)室簡(jiǎn)介

評(píng)論 0

近期熱門新聞

下一篇