麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

2
點(diǎn)贊
0
評(píng)論
0
轉(zhuǎn)載
我要入駐

KDD 2026 | PKU-DAIR 實(shí)驗(yàn)室兩項(xiàng)成果被 KDD 2026 錄用

ACM SIGKDD Conference on Knowledge Discovery and Data Mining 是數(shù)據(jù)挖掘與知識(shí)發(fā)現(xiàn)領(lǐng)域的頂級(jí)國(guó)際會(huì)議之一。KDD 2026 將于 2026 年 8 月 9 日至 13 日在韓國(guó)濟(jì)州島舉辦。

 

CoFEH: LLM-driven Feature Engineering Empowered by Collaborative Bayesian Hyperparameter Optimization

作者:Beicheng Xu, Keyao Ding, Wei Liu, Yupeng Lu, Bin Cui

代碼鏈接:https://github.com/PKU-DAIR/cofeh

Arxiv 鏈接https://arxiv.org/pdf/2602.09851

 

問(wèn)題背景與動(dòng)機(jī)

一個(gè)標(biāo)準(zhǔn)的監(jiān)督學(xué)習(xí)流程可以拆成兩個(gè)相互關(guān)聯(lián)的子問(wèn)題:一是對(duì)數(shù)據(jù)進(jìn)行特征工程(FE),二是對(duì)下游模型進(jìn)行超參數(shù)優(yōu)化(HPO)。

從 FE 的角度看,傳統(tǒng) AutoML 為了讓搜索可控,通常依賴有限算子庫(kù)和固定流程模板,因此難以利用領(lǐng)域語(yǔ)義,也難以構(gòu)建真正自由的 FE 流水線。LLM 具備語(yǔ)義推理和代碼生成能力,為突破這一限制提供了可能。但現(xiàn)有 LLM-based FE 方法大多仍局限于孤立子任務(wù),尤其是特征生成。因此,論文得到第一個(gè)判斷:

Conclusion #1:FE 是語(yǔ)義密集型任務(wù),LLM 適合承擔(dān) FE 設(shè)計(jì)。

從 超參數(shù)調(diào)優(yōu)的角度看。貝葉斯優(yōu)化(BO)長(zhǎng)期以來(lái)都是 HPO 中最主流的方法之一。相比之下,直接用 LLM 做 HPO 往往缺乏明確的目標(biāo)代理模型和不確定性估計(jì),也難以穩(wěn)定利用完整優(yōu)化歷史。因此,論文得到第二個(gè)判斷:

Conclusion #2:在 HPO 中,BO 仍然是更可靠的核心優(yōu)化器。

這兩個(gè)判斷放在一起,就形成了本文最核心的矛盾:LLM 更適合做 FE,BO 更適合做 HPO,但真正的 AutoML 目標(biāo)并不是分別把二者做好,而是聯(lián)合優(yōu)化一條完整機(jī)器學(xué)習(xí)流水線。現(xiàn)有方法通常有兩類選擇。傳統(tǒng) AutoML 可以把 FE 和 HPO 放進(jìn)同一個(gè)同質(zhì)搜索空間中聯(lián)合優(yōu)化,但代價(jià)是 FE 空間被大幅限制。LLM-based FE 方法則常常采用異質(zhì)優(yōu)化器:LLM 負(fù)責(zé) FE,BO 負(fù)責(zé) HPO。但由于二者表示空間不同,實(shí)際流程往往退化成“先固定模型做 FE,再凍結(jié)特征做 HPO”的順序優(yōu)化。

圖 1. 現(xiàn)有方法與 CoFEH 的優(yōu)化流程對(duì)比

圖 1. 現(xiàn)有方法與 CoFEH 的優(yōu)化流程對(duì)比

 

因此,論文得到第三個(gè)判斷:

Conclusion #3:有效的 AutoML 需要協(xié)同優(yōu)化 LLM-based FE 和 BO-based HPO。

 

CoFEH 框架

為了解決上述問(wèn)題,我們提出 CoFEH,一個(gè)面向端到端 AutoML 的協(xié)同優(yōu)化框架。CoFEH 的目標(biāo)不是單獨(dú)優(yōu)化 FE 或 HPO,而是在整個(gè)搜索過(guò)程中交替探索“特征工程流水線”和“模型超參數(shù)配置”的組合。

1. LLM 如何構(gòu)建自由形式的特征工程流水線

圖 2. CoFEH 的 LLM-based FE 工作流

圖 2. CoFEH 的 LLM-based FE 工作流

CoFEH 將 FE 流水線構(gòu)建視為一個(gè)序列決策問(wèn)題。初始數(shù)據(jù)集是根節(jié)點(diǎn),每執(zhí)行一個(gè)特征操作,就會(huì)得到一個(gè)新的數(shù)據(jù)狀態(tài)。整個(gè) FE 搜索過(guò)程就變成了在樹(shù)結(jié)構(gòu)中尋找最優(yōu)操作序列。具體而言,CoFEH 使用 MCTS 實(shí)現(xiàn) Tree of Thought 搜索。

 

2. FE 與 HPO 如何協(xié)同

FE 和 HPO 本質(zhì)上是相互依賴的。一個(gè)特征工程流水線的價(jià)值,需要在合適的模型超參數(shù)下才能被準(zhǔn)確評(píng)估;反過(guò)來(lái),超參數(shù)優(yōu)化也依賴當(dāng)前特征表示是否足夠有效。CoFEH 通過(guò)雙向條件化機(jī)制打通二者。

一方面,BO-based HPO 會(huì)被 FE 狀態(tài)條件化。CoFEH 使用 meta-features 表征當(dāng)前數(shù)據(jù)狀態(tài),并將其與超參數(shù)配置拼接起來(lái)作為 BO 代理模型的輸入。這樣,BO 不再只回答“哪個(gè)超參數(shù)更好”,而是回答“哪個(gè)數(shù)據(jù)狀態(tài)和哪個(gè)超參數(shù)組合更好”。

另一方面,LLM-based FE 也會(huì)被 HPO 結(jié)果條件化。HPO 在某個(gè)數(shù)據(jù)狀態(tài)上發(fā)現(xiàn)更好的模型配置后,會(huì)更新該節(jié)點(diǎn)及其祖先節(jié)點(diǎn)的性能上界,引導(dǎo) MCTS 未來(lái)優(yōu)先探索與強(qiáng)配置更協(xié)同的 FE 分支。

 

3. 動(dòng)態(tài)分配 FE 與 HPO 預(yù)算

不同任務(wù)對(duì) FE 和 HPO 的敏感性不同。有些數(shù)據(jù)集的瓶頸在特征表達(dá),另一些數(shù)據(jù)集則更依賴模型配置。因此,CoFEH 將“下一步做 FE 還是 HPO”建模為一個(gè)多臂***問(wèn)題,并使用 PUCB 策略動(dòng)態(tài)調(diào)度。

 

實(shí)驗(yàn)結(jié)果

我們?cè)?28 個(gè)公開(kāi)數(shù)據(jù)集上評(píng)估 CoFEH,其中包括 19 個(gè)分類任務(wù)和 9 個(gè)回歸任務(wù)。對(duì)比方法覆蓋傳統(tǒng)自動(dòng)化 FE 方法和 LLM-based FE 方法,包括 OpenFE、MindWare、OCTree、ELLM-FT 和 LFG。主要實(shí)驗(yàn)結(jié)論如下:

   1)只搜索 FE,使用默認(rèn)下游模型超參數(shù),CoFEH 獲得最優(yōu)平均排名 1.82,顯著優(yōu)于第二名 LFG 的 3.11。

   2) 在統(tǒng)一預(yù)算下同時(shí)優(yōu)化 FE 和 HPO,CoFEH 繼續(xù)保持最優(yōu),平均排名達(dá)到 1.75。

   3) CoFEH 從 Standalone FE 到 Joint FE+HPO 的平均改進(jìn)為 7.03%,高于所有基線。

   4) 在 CASH 和 MLP 兩類下游模型設(shè)置中,CoFEH 也保持穩(wěn)定優(yōu)勢(shì),說(shuō)明方法不依賴某個(gè)特定模型。

 

案例分析:從算子堆砌到語(yǔ)義特征工程

在 airfoil_self_noise 數(shù)據(jù)集上,CoFEH 展示了與傳統(tǒng)方法和已有 LLM-based FE 方法明顯不同的行為。該任務(wù)來(lái)自翼型風(fēng)洞實(shí)驗(yàn),目標(biāo)是預(yù)測(cè)不同實(shí)驗(yàn)條件下的縮放自噪聲。

圖 3. CoFEH 與基線方法在 airfoil_self_noise 上發(fā)現(xiàn)的最優(yōu) FE 流水線

圖3. CoFEH方法與baselines方法搜索出的最優(yōu)FE pipeline對(duì)比

CoFEH 生成的流水線具有清晰的領(lǐng)域語(yǔ)義:它先對(duì)高跨度數(shù)值特征進(jìn)行穩(wěn)定化處理,再基于空氣動(dòng)力學(xué)知識(shí)構(gòu)造類似 Strouhal 數(shù)的特征 \(St = f \cdot c / U\),并結(jié)合攻角生成幾何特征和交互項(xiàng);隨后繼續(xù)進(jìn)行分布變換、標(biāo)準(zhǔn)化和特征選擇,最終得到緊湊且有效的特征表示。

我們發(fā)現(xiàn),CoFEH 的流水線同時(shí)覆蓋了特征變換、生成、預(yù)處理和特征選擇。相比之下,OCTree、ELLM-FT、LFG 等 LLM-based 方法通常主要停留在特征生成,最多再配合簡(jiǎn)單選擇,難以形成完整流水線;MindWare 等傳統(tǒng)方法雖然包含預(yù)處理和變換等操作,但缺乏面向任務(wù)語(yǔ)義的特征構(gòu)造能力。這個(gè)案例說(shuō)明,CoFEH能夠組織一條兼具領(lǐng)域語(yǔ)義和工程完整性的FE流水線。

 

總結(jié)

本文提出 CoFEH,將 LLM-based FE 與 BO-based HPO 協(xié)同起來(lái),實(shí)現(xiàn)端到端 AutoML 優(yōu)化。CoFEH 通過(guò) Tree of Thought/MCTS 構(gòu)建自由形式 FE 流水線,通過(guò) mutual conditioning 打通 FE 與 HPO 的信息交互,并通過(guò) dynamic optimizer selector 自適應(yīng)分配搜索預(yù)算。實(shí)驗(yàn)表明,CoFEH 在 standalone FE 和 joint FE+HPO 兩種設(shè)置下均優(yōu)于傳統(tǒng) AutoML 與 LLM-based FE 基線,展示了 LLM 語(yǔ)義探索能力與 BO 數(shù)值優(yōu)化能力結(jié)合的潛力。

 

ProfiliTable: Profiling-Driven Tabular Data Processing via Agentic Workflows

作者: Wei Liu, Yang Gu, Xi Yan, Zihan Nan, Beicheng Xu, Keyao Ding, Bin Cui, Wentao Zhang

論文鏈接:https://arxiv.org/abs/2605.12376

 

背景與挑戰(zhàn)

在數(shù)據(jù)科學(xué) pipeline 中,表格處理(清洗、轉(zhuǎn)換、增強(qiáng)、匹配)是基礎(chǔ)但極易出錯(cuò)的環(huán)節(jié)。雖然大語(yǔ)言模型(LLM)展現(xiàn)了自動(dòng)化潛力,但在面對(duì)模糊指令和復(fù)雜任務(wù)結(jié)構(gòu)時(shí),現(xiàn)有方法往往因缺乏對(duì)數(shù)據(jù)的結(jié)構(gòu)化理解,導(dǎo)致生成的代碼語(yǔ)法正確但語(yǔ)義錯(cuò)誤。例如,面對(duì)“標(biāo)準(zhǔn)化貨幣列”這樣的指令,現(xiàn)有工具要么無(wú)法識(shí)別具體數(shù)值格式,要么因全量掃描所有列而導(dǎo)致效率低下且充滿噪聲。核心痛點(diǎn)在于:靜態(tài)、規(guī)則驅(qū)動(dòng)的概要信息無(wú)法自適應(yīng)地探索數(shù)據(jù),難以在精度與效率間取得平衡

圖1:概要揭示了模糊的指令暗含的信息,智能體主動(dòng)采樣貨幣列的具體取值,以實(shí)現(xiàn)準(zhǔn)確的ISO4217映射。

 

方法

針對(duì)上述問(wèn)題,我們提出了 ProfiliTable,首個(gè)以“動(dòng)態(tài)概要(Dynamic Profiling)”為核心的自主多代理框架。它不再將概要視為被動(dòng)的元數(shù)據(jù)讀取,而是通過(guò)交互式探索、知識(shí)增強(qiáng)合成和反饋驅(qū)動(dòng)優(yōu)化,構(gòu)建并迭代優(yōu)化統(tǒng)一的執(zhí)行上下文。

ProfiliTable 包含三個(gè)協(xié)同機(jī)制:

  1. 交互式探索: Profiler通過(guò) ReAct 循環(huán)主動(dòng)探索數(shù)據(jù),僅探索必要信息以消除歧義,避免冗余計(jì)算。
  2. 知識(shí)增強(qiáng)合成: Generator利用 RAG 從算子庫(kù)中檢索預(yù)驗(yàn)證的算子模板,確保生成代碼的領(lǐng)域特異性與可靠性。
  3. 反饋驅(qū)動(dòng)優(yōu)化: Evaluator-Summarizer聯(lián)合模塊提供執(zhí)行評(píng)分與診斷洞察,指導(dǎo) Profiler 和 Generator 進(jìn)行迭代修正,實(shí)現(xiàn)從意圖到驗(yàn)證的連貫推理。

其架構(gòu)如圖2所示,形成了一個(gè)自我改進(jìn)的閉環(huán)流水線。

圖2:ProfiliTable 的工作流:一個(gè)以動(dòng)態(tài)概要為中心的自優(yōu)化、閉環(huán)管道

 

實(shí)驗(yàn)

我們?cè)诤w 18 種表格處理任務(wù)類型的綜合基準(zhǔn)上進(jìn)行了評(píng)估。實(shí)驗(yàn)表明,ProfiliTable 在單步和多步任務(wù)中均取得了 SOTA 性能。它的可運(yùn)行率(CRR、TRR)是最高的,確保了生產(chǎn)部署所需的魯棒性。同時(shí),它在保持高精度的同時(shí),token 消耗處于 Pareto 最優(yōu)前沿,證明了框架在兼顧準(zhǔn)確性與成本效率方面的巨大優(yōu)勢(shì)。

表1. 單步任務(wù)上ProfiliTable與基線方法效果對(duì)比

 

 

總結(jié)

我們提出了 ProfiliTable,這是一個(gè)基于動(dòng)態(tài)概要的自主表格處理多智能體框架。實(shí)驗(yàn)表明,該方法在 GPT-4o 和 GPT-5.2 上均大幅超越基線,且是唯一在多步任務(wù)中實(shí)現(xiàn) 100% 任務(wù)級(jí)可運(yùn)行率的方法,確保了代碼部署的魯棒性。此外,ProfiliTable 在準(zhǔn)確率與成本之間達(dá)到了帕累托最優(yōu),證明了動(dòng)態(tài)概要能同時(shí)實(shí)現(xiàn)高收益與低成本。這項(xiàng)工作確立了一種新范式——概要驅(qū)動(dòng)的智能體,即通過(guò)迭代、交互和容錯(cuò)機(jī)制,將表格視為動(dòng)態(tài)且語(yǔ)義豐富的對(duì)象進(jìn)行處理。

 

實(shí)驗(yàn)室簡(jiǎn)介

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室(Data And Intelligence Research Lab at Peking Univeristy,PKU-DAIR實(shí)驗(yàn)室)由北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授領(lǐng)導(dǎo),長(zhǎng)期從事數(shù)據(jù)庫(kù)系統(tǒng)、大數(shù)據(jù)管理與分析、人工智能等領(lǐng)域的前沿研究,在理論和技術(shù)創(chuàng)新以及系統(tǒng)研發(fā)上取得多項(xiàng)成果,已在國(guó)際頂級(jí)學(xué)術(shù)會(huì)議和期刊發(fā)表學(xué)術(shù)論文200余篇,發(fā)布多個(gè)開(kāi)源項(xiàng)目。課題組同學(xué)曾數(shù)十次獲得包括CCF優(yōu)博、ACM中國(guó)優(yōu)博、北大優(yōu)博、微軟學(xué)者、蘋果獎(jiǎng)學(xué)金、谷歌獎(jiǎng)學(xué)金等榮譽(yù)。PKU-DAIR實(shí)驗(yàn)室持續(xù)與工業(yè)界展開(kāi)卓有成效的合作,與騰訊、阿里巴巴、蘋果、微軟、百度、快手、中興通訊等多家知名企業(yè)開(kāi)展項(xiàng)目合作和前沿探索,解決實(shí)際問(wèn)題,進(jìn)行科研成果的轉(zhuǎn)化落地。

學(xué)者網(wǎng)機(jī)構(gòu)號(hào)是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號(hào)"平臺(tái),為學(xué)者團(tuán)隊(duì)、學(xué)術(shù)機(jī)構(gòu)、企業(yè)等提供官方媒體賬號(hào)服務(wù),支持發(fā)布動(dòng)態(tài)、活動(dòng)、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護(hù),助力機(jī)構(gòu)鏈接學(xué)界資源、擴(kuò)大學(xué)術(shù)影響力。

北京大學(xué)數(shù)據(jù)與智能實(shí)驗(yàn)室,PKU-DAIR,Peking University Data And Intelligence Research Lab,負(fù)責(zé)人為北京大學(xué)計(jì)算機(jī)學(xué)院崔斌教授。
返回頂部
罗田县| 宣汉县| 江油市| 武胜县| 焦作市| 广德县| 绥棱县| 镇赉县| 广西| 公安县| 武邑县| 武威市| 兰溪市| 聂拉木县| 浦北县| 沧州市| 防城港市| 铁岭市| 龙州县| 鄂伦春自治旗| 松阳县| 锦屏县| 西青区| 邹城市| 榆社县| 云浮市| 宣化县| 濉溪县| 弥渡县| 保定市| 通榆县| 辉县市| 仲巴县| 甘谷县| 北川| 阿鲁科尔沁旗| 集安市| 武功县| 苏尼特右旗| 玉树县| 博湖县|