麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

團隊何樂為課題組3篇大模型系統(tǒng)研究成果被CCF-A類會議WWW和ACL錄用

近日,腦機團隊的何樂為課題組在人工智能系統(tǒng)領域取得重要突破,3項研究成果分別被CCF-A類國際頂會WWW 2026(ACM Web Conference)和ACL 2026(Association for Computational Linguistics)主會錄用。三項工作圍繞"大模型智能系統(tǒng)的效率與可靠性"這一核心主題,分別在多智能體動態(tài)編排、推理過程加速GUI智能體評測三個關鍵方向提出創(chuàng)新解決方案,展現(xiàn)了團隊在前沿AI系統(tǒng)研究中的深厚積累。

成果1:WWW 2026 (Oral) | 難度感知多智能體編排框架 DAAO

課題組成員蘇金偉(2024級研究生)的研究成果“Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows”已被CCF-A類會議ACM Web Conference 2026(WWW 26)主會錄用(Oral)。該研究提出了一種名為DAAO的難度感知多智能體編排框架,能夠根據(jù)每個查詢的復雜程度動態(tài)生成定制化的多智能體工作流,在顯著提升任務性能的同時大幅降低推理成本。

近年來,基于大語言模型(LLM)的多智能體系統(tǒng)在問答、代碼生成、數(shù)學推理、數(shù)據(jù)分析等復雜任務中展現(xiàn)出強大的能力。通過組織多個LLM協(xié)同工作,這類系統(tǒng)能夠超越單一模型的認知局限,表現(xiàn)出類似人類協(xié)作的集體智能。然而,現(xiàn)有大多數(shù)多智能體框架仍存在兩個關鍵瓶頸:其一,它們通常采用固定或任務級別的工作流,對簡單查詢過度處理、浪費資源,而對復雜查詢處理能力不足,無法適應真實世界中查詢難度差異巨大的實際情況;其二,多數(shù)框架依賴單一的LLM backbone,忽視了不同模型在性能與成本之間的互補優(yōu)勢。如何讓系統(tǒng)自主感知每個查詢的難易程度,并據(jù)此動態(tài)調整工作流的復雜度和資源分配,成為當前多智能體系統(tǒng)研究中的核心挑戰(zhàn)。

為解決上述挑戰(zhàn),本研究提出了名為DAAO的難度感知多智能體編排框架。該框架的核心創(chuàng)新在于首次將查詢難度作為可學習的策略信號,顯式地引導工作流的生成。如上圖所示,DAAO包含三個相互協(xié)同的模塊:基于變分自編碼器的查詢難度估計器、模塊化操作符分配器,以及成本與性能感知的LLM路由器。

難度估計器將輸入查詢編碼為潛在難度表征,并輸出一個介于0到1之間的可解釋難度分數(shù)。該分數(shù)通過工作流執(zhí)行成功與否的反饋信號進行自調整:若當前工作流成功解決查詢,系統(tǒng)會略微降低該查詢的預估難度,促使后續(xù)采用更簡單的工作流;若執(zhí)行失敗,則提高難度分數(shù),以觸發(fā)更復雜、更強大的工作流。操作符分配器根據(jù)難度分數(shù)動態(tài)決定工作流的深度(層數(shù))以及每一層中應該激活哪些操作符(如鏈式思考、多智能體辯論、自一致性、自我修正、集成投票等)。LLM路由器則進一步為每個選中的操作符分配最合適的大語言模型,在多個候選模型(包括GPT-4o-mini、Gemini-1.5-flash、Llama-3.1-70B、Qwen-2-72B等)之間進行智能路由,從而在保證推理能力的前提下控制成本。三者共同構成一個查詢專屬的有向無環(huán)圖工作流,實現(xiàn)了“因問施策”的自適應推理。

研究團隊在六個廣泛使用的公開基準上對DAAO進行了全面評估,涵蓋數(shù)學推理(GSM8K、MATH)、代碼生成(HumanEval、MBPP)、多任務語言理解(MMLU)以及復雜工具使用(GAIA)。實驗結果表明,DAAO在所有基準上均超越了現(xiàn)有的自動化多智能體系統(tǒng)與LLM路由方法。與最先進的自動化工作流方法相比,DAAO的平均準確率提升了3.5%至15.2%;與最新的LLM路由器相比,準確率提升了3.2%至10.2%。在極具挑戰(zhàn)性的GAIA基準上,DAAO的平均得分達到25.97%,分別超越現(xiàn)有方法AFlow和MaAS達17.97個百分點和8.33個百分點。尤為值得一提的是,在MATH基準上,DAAO以55.37%的準確率取得最佳成績,同時其訓練成本僅為對比方法的10.4%,推理成本僅為16.3%,展現(xiàn)了卓越的成本效益。此外,跨領域訓練實驗表明,DAAO具有良好的歸納遷移能力,在數(shù)學與代碼生成領域之間聯(lián)合優(yōu)化能夠小幅提升各領域的表現(xiàn),且能夠無縫適配新加入的未見過的LLM。

本研究提出了一個創(chuàng)新的大語言模型多智能體編排框架DAAO,首次將查詢難度估計、動態(tài)工作流生成與異構LLM路由融為一體,實現(xiàn)了性能與成本之間的自適應平衡。通過在六個基準上的嚴格實驗,DAAO不僅顯著超越了現(xiàn)有方法,還大幅降低了計算開銷,證明了難度感知、模塊化編排在構建可擴展且高效的LLM智能體系統(tǒng)中的核心價值。該工作為未來多智能體系統(tǒng)的自動化設計提供了新的思路,也為實際應用中應對不同難度、不同領域的用戶查詢設立了一個兼具高性能與低成本的標桿。研究團隊已將相關代碼與數(shù)據(jù)集開放,供學界與業(yè)界進一步使用與拓展。

成果2:ACL 2026 | 雙信號自適應推理加速 Shortcut Decoding

課題組成員李澤遠(2023級研究生)的研究成果“Shortcut Decoding: Accelerating Chain-of-Thought Reasoning via Dual-Signal Adaptive Control” 已被CCF-A類會議Association for Computational Linguistics 2026(ACL 26)主會錄用。該研究旨在解決大語言模型在鏈式思維推理過程中存在的“過度思考”與計算冗余問題,提出了一種無需重新訓練的高效推理加速框架。

鏈式思維提示技術顯著增強了大語言模型的復雜推理能力,使其能夠通過逐步分解問題來得出正確答案。然而,近年來研究者發(fā)現(xiàn),大語言模型在生成顯式推理文本時普遍存在“過度思考”現(xiàn)象:模型在內部隱藏狀態(tài)中早已收斂到正確結論,卻仍然繼續(xù)生成大量冗余、重復甚至自我矛盾的推理步驟。這不僅造成了嚴重的計算資源浪費,還可能導致模型從正確答案偏離,降低最終輸出的可靠性。現(xiàn)有加速方法主要分為兩類:一是依賴系統(tǒng)級優(yōu)化或模型壓縮,往往需要昂貴的重新訓練;二是基于啟發(fā)式的提前終止策略,例如監(jiān)測輸出熵,但這類方法容易陷入“自信錯誤”陷阱——模型雖然低熵、高度確定,卻可能已經走上錯誤的推理路徑。因此,如何在保證推理正確性的前提下動態(tài)、自適應地剪除冗余步驟,成為大語言模型推理效率優(yōu)化的關鍵挑戰(zhàn)。

為解決上述挑戰(zhàn),本研究提出了一種名為Shortcut Decoding的推理加速框架,如上圖所示。該框架的核心思想源于一個關鍵實證發(fā)現(xiàn):大語言模型的內部隱藏狀態(tài)往往比其顯式生成的文本更早地“想通”正確答案?;诖?,研究團隊設計了一個雙信號自適應控制器,在推理過程中實時監(jiān)測兩類互補信號。第一類信號是內部置信度得分,由一個輕量級多層感知機探針從模型的隱藏狀態(tài)中提取,用于預測當前推理路徑是否已足夠正確。第二類信號是步驟級輸出熵,用于衡量模型在生成下一詞時的確定性程度。兩類信號協(xié)同工作:當內部探針得分極高或輸出熵極低時,控制器觸發(fā)快速退出路徑;當探針得分高但熵值中等時,則啟動穩(wěn)定性驗證路徑,連續(xù)監(jiān)測多個步驟確認收斂后再退出;若兩類信號均不滿足,則允許模型繼續(xù)推理。該框架無需修改基礎模型參數(shù),可即插即用地應用于現(xiàn)有大語言模型。

研究團隊在多個數(shù)學推理基準測試上對Shortcut Decoding進行了全面評估,包括GSM8K、MATH-500以及AIME 2024/2025競賽級數(shù)據(jù)集。實驗結果表明,該方法在保持甚至提升最終答案準確率的同時,平均減少了約35%的令牌使用量。特別值得注意的是,在MATH-500數(shù)據(jù)集上,使用DeepSeek-R1-Distill-Qwen-7B模型時,該方法在壓縮近50%推理步驟的情況下,將準確率從90.8%提升至91.2%。這一反直覺的準確率提升源于對冗余后期推理的有效剪除,避免了模型在過度自我修正中發(fā)生邏輯漂移。與現(xiàn)有的訓練無關提前停止方法(如DEER、Dynasor)相比,Shortcut Decoding在準確率和壓縮比兩個維度上均表現(xiàn)更優(yōu)。進一步的錯誤歸因分析顯示,在完整鏈式思維推理失敗案例中,約60%是由“過度思考”導致——即模型在已經得出正確中間結論后,因冗余生成或錯誤修正而輸出錯誤答案。這進一步印證了適時終止推理對于提升最終輸出質量的重要性。

本研究提出了Shortcut Decoding,一個基于雙信號自適應控制的高效推理加速框架。該框架通過融合內部隱藏狀態(tài)探針與外部輸出熵信號,精準檢測“推理完成點”,在顯著降低計算開銷的同時維護甚至增強了推理可靠性。實驗結果揭示了當前大語言模型在鏈式思維推理中普遍存在的“想得比說得快”現(xiàn)象,以及過度思考對最終答案準確率的負面影響。Shortcut Decoding不僅為緩解推理效率瓶頸提供了一種輕量、有效的解決方案,也為未來大語言模型推理機制的設計指明了新方向:與其強制模型生成完整顯式推理鏈,不如學會在恰當?shù)臅r機“放手”,讓模型直接輸出其內心已經收斂的答案。

成果3:ACL 2026 | 可驗證GUI評測基準 NaturalGAIA

課題組成員鄭梓瀚(2024級研究生)、崔天樂(2024級研究生)、王陶然(2025級研究生)、王鳳濤(2025級研究生)的研究成果“NaturalGAIA: A Verifiable Benchmark and Hierarchical Framework for Long-Horizon GUI Tasks”已被CCF-A類會議Association for Computational Linguistics 2026(ACL 26)主會錄用。該研究針對圖形用戶界面(GUI)智能體在真實場景下的評估困境,提出了一個可驗證的評測基準NaturalGAIA及高效的分層協(xié)作框架LightManus-Jarvis。

近年來,大語言模型驅動的GUI智能體發(fā)展迅速,然而如何準確評估其在復雜、長序列、跨應用任務中的真實表現(xiàn)成為關鍵挑戰(zhàn)?,F(xiàn)有評測面臨“評估-真實困境”:一方面,真實場景基準如OSWorld和RealWebAssist因缺乏確定性真值,依賴不穩(wěn)定的大模型評判或人工驗證,難以精確衡量推理與執(zhí)行之間的差距;另一方面,傳統(tǒng)靜態(tài)基準采用簡化、去上下文的指令,無法模擬人類意圖中的認知非線性、冗余信息和上下文依賴,導致任務成功率被高估。此外,主流端到端視覺模型在長時程任務中容易產生語義漂移和“坐標幻覺”,難以兼顧宏觀規(guī)劃的一致性與微觀執(zhí)行的精確性。

為解決上述挑戰(zhàn),本研究提出了NaturalGAIA——一個基于真實人類GUI交互意圖的可驗證評測基準,以及LightManus-Jarvis——一個“宏觀規(guī)劃-微觀執(zhí)行”的分層協(xié)作框架。LightManus-Jarvis執(zhí)行NaturalGAIA任務的過程如上圖所示。

NaturalGAIA基準的核心創(chuàng)新在于將邏輯因果路徑與自然語言敘述解耦。具體而言,研究者基于知識圖譜(如Wikidata)定義確定性的因果路徑,每個原子任務都有可驗證的真值;同時通過自然語言注入認知挑戰(zhàn),包括非線性順序、噪聲過濾和上下文依賴參數(shù)解析,確保任務既有真實模糊性又有嚴謹?shù)目沈炞C性。該基準覆蓋了276個任務,跨越25種真實應用(包括Spotify、IMDb、Google Maps、Wikipedia等),分為基礎、中級、高級三個難度等級,其中高級任務最長包含七個原子步驟,需在多至七個應用間切換。為了全面評估智能體性能,研究團隊設計了三層評估體系:難度加權路徑成功率(WPSR)綜合任務復雜度進行加權評估;細粒度遍歷指標(MATCR和p-ATSR)量化原子任務的完成比例及長序列后段表現(xiàn);錯誤歸因分析則將失敗原因細分為知識缺失、感知錯誤、操作錯誤、規(guī)劃與推理錯誤等類型。

與此同時,研究團隊提出了LightManus-Jarvis分層協(xié)作框架。在宏觀層面,LightManus負責語義解析、任務拓撲生成、跨應用調度以及上下文演化機制,通過“執(zhí)行-感知-演化”閉環(huán)動態(tài)更新后續(xù)任務的語義描述,有效抑制長序列執(zhí)行中的語義漂移。在微觀層面,Jarvis作為高精度Android執(zhí)行內核,采用混合視覺-結構感知策略,融合截圖與Android Accessibility樹信息,利用UID錨定元素消除坐標幻覺,并強制鏈式推理生成原子操作(如點擊、輸入、滑動等),顯著提升了操作的確定性。

研究團隊在NaturalGAIA上對多個主流模型(包括Claude-Sonnet-4.5、Gemini系列、GPT系列等)進行了全面評測。實驗結果表明,LightManus-Jarvis(驅動Claude-Sonnet-4.5)的加權路徑成功率達到45.6%,顯著優(yōu)于PC-Agent的13.1%和Mobile-Agent-e的21.1%,尤其在高級長時程任務上優(yōu)勢明顯。在效率方面,相比Mobile-Agent-e,LightManus-Jarvis減少了約75%的token消耗和76%的執(zhí)行時間,且執(zhí)行步數(shù)相近,證明效率提升源于架構優(yōu)化而非路徑簡化。錯誤歸因分析進一步揭示,即使是最先進的Claude-Sonnet-4.5模型,其規(guī)劃與推理錯誤仍占2.9%,而操作錯誤和感知錯誤在純視覺方案中尤為突出。Jarvis的混合感知機制將感知錯誤從7.1%降至3.3%,操作錯誤從25.6%降至20.0%,驗證了分層框架的有效性。

本研究提出了NaturalGAIA基準與LightManus-Jarvis框架,系統(tǒng)性地緩解了GUI智能體評估中的“評估-真實困境”。NaturalGAIA通過解耦邏輯與語言、引入可驗證的因果路徑和多層評估體系,為長時程、跨應用GUI任務提供了嚴謹?shù)脑u測平臺。LightManus-Jarvis通過宏觀規(guī)劃與微觀執(zhí)行的分層協(xié)作,顯著提升了復雜任務的魯棒性和效率。實驗結果清晰地揭示了當前頂尖模型在長鏈條規(guī)劃、上下文記憶和精確執(zhí)行方面仍存在的普遍短板。NaturalGAIA與LightManus-Jarvis的公開將為學界和業(yè)界提供寶貴的評測資源與可復現(xiàn)的框架設計,推動更魯棒、更貼近真實用戶需求的自主智能體發(fā)展。


登錄用戶可以查看和發(fā)表評論, 請前往  登錄 或  注冊。
SCHOLAT.com 學者網
免責聲明 | 關于我們 | 用戶反饋
聯(lián)系我們:
贵港市| 左贡县| 琼中| 扶余县| 南陵县| 休宁县| 阿拉善盟| 钟祥市| 南陵县| 宜兰县| 南宫市| 青海省| 枣阳市| 永和县| 理塘县| 安义县| 叶城县| 亳州市| 石景山区| 申扎县| 兴城市| 宜良县| 大洼县| 平果县| 靖边县| 会昌县| 凌云县| 米泉市| 榆社县| 江北区| 平陆县| 榆树市| 江西省| 日喀则市| 垣曲县| 乾安县| 嵊泗县| 井冈山市| 浏阳市| 张家界市| 疏勒县|