欧美日韩女优惠,日韩色视频在线播放,嘿咻视频免费国产

腦機接口與混合智能研究小組

更多動態(tài)

10665

2026-04-10

近日，腦機團隊的何樂為課題組在人工智能系統(tǒng)領域取得重要突破，3項研究成果分別被CCF-A類國際頂會WWW 2026（ACM Web Conference）和ACL 2026（Association for Computational Linguistics）主會錄用。三項工作圍繞"大模型智能系統(tǒng)的效率與可靠性"這一核心主題，分別在多智能體動態(tài)編排、推理過程加速、GUI智能體評測三個關鍵方向提出創(chuàng)新解決方案，展現(xiàn)了團隊在前沿AI系統(tǒng)研究中的深厚積累。

成果1：WWW 2026 (Oral) | 難度感知多智能體編排框架 DAAO

課題組成員蘇金偉（2024級研究生）的研究成果“Difficulty-Aware Agentic Orchestration for Query-Specific Multi-Agent Workflows”已被CCF-A類會議ACM Web Conference 2026（WWW 26）主會錄用（Oral）。該研究提出了一種名為DAAO的難度感知多智能體編排框架，能夠根據(jù)每個查詢的復雜程度動態(tài)生成定制化的多智能體工作流，在顯著提升任務性能的同時大幅降低推理成本。

近年來，基于大語言模型（LLM）的多智能體系統(tǒng)在問答、代碼生成、數(shù)學推理、數(shù)據(jù)分析等復雜任務中展現(xiàn)出強大的能力。通過組織多個LLM協(xié)同工作，這類系統(tǒng)能夠超越單一模型的認知局限，表現(xiàn)出類似人類協(xié)作的集體智能。然而，現(xiàn)有大多數(shù)多智能體框架仍存在兩個關鍵瓶頸：其一，它們通常采用固定或任務級別的工作流，對簡單查詢過度處理、浪費資源，而對復雜查詢處理能力不足，無法適應真實世界中查詢難度差異巨大的實際情況；其二，多數(shù)框架依賴單一的LLM backbone，忽視了不同模型在性能與成本之間的互補優(yōu)勢。如何讓系統(tǒng)自主感知每個查詢的難易程度，并據(jù)此動態(tài)調整工作流的復雜度和資源分配，成為當前多智能體系統(tǒng)研究中的核心挑戰(zhàn)。

為解決上述挑戰(zhàn)，本研究提出了名為DAAO的難度感知多智能體編排框架。該框架的核心創(chuàng)新在于首次將查詢難度作為可學習的策略信號，顯式地引導工作流的生成。如上圖所示，DAAO包含三個相互協(xié)同的模塊：基于變分自編碼器的查詢難度估計器、模塊化操作符分配器，以及成本與性能感知的LLM路由器。

難度估計器將輸入查詢編碼為潛在難度表征，并輸出一個介于0到1之間的可解釋難度分數(shù)。該分數(shù)通過工作流執(zhí)行成功與否的反饋信號進行自調整：若當前工作流成功解決查詢，系統(tǒng)會略微降低該查詢的預估難度，促使后續(xù)采用更簡單的工作流；若執(zhí)行失敗，則提高難度分數(shù)，以觸發(fā)更復雜、更強大的工作流。操作符分配器根據(jù)難度分數(shù)動態(tài)決定工作流的深度（層數(shù)）以及每一層中應該激活哪些操作符（如鏈式思考、多智能體辯論、自一致性、自我修正、集成投票等）。LLM路由器則進一步為每個選中的操作符分配最合適的大語言模型，在多個候選模型（包括GPT-4o-mini、Gemini-1.5-flash、Llama-3.1-70B、Qwen-2-72B等）之間進行智能路由，從而在保證推理能力的前提下控制成本。三者共同構成一個查詢專屬的有向無環(huán)圖工作流，實現(xiàn)了“因問施策”的自適應推理。

研究團隊在六個廣泛使用的公開基準上對DAAO進行了全面評估，涵蓋數(shù)學推理（GSM8K、MATH）、代碼生成（HumanEval、MBPP）、多任務語言理解（MMLU）以及復雜工具使用（GAIA）。實驗結果表明，DAAO在所有基準上均超越了現(xiàn)有的自動化多智能體系統(tǒng)與LLM路由方法。與最先進的自動化工作流方法相比，DAAO的平均準確率提升了3.5%至15.2%；與最新的LLM路由器相比，準確率提升了3.2%至10.2%。在極具挑戰(zhàn)性的GAIA基準上，DAAO的平均得分達到25.97%，分別超越現(xiàn)有方法AFlow和MaAS達17.97個百分點和8.33個百分點。尤為值得一提的是，在MATH基準上，DAAO以55.37%的準確率取得最佳成績，同時其訓練成本僅為對比方法的10.4%，推理成本僅為16.3%，展現(xiàn)了卓越的成本效益。此外，跨領域訓練實驗表明，DAAO具有良好的歸納遷移能力，在數(shù)學與代碼生成領域之間聯(lián)合優(yōu)化能夠小幅提升各領域的表現(xiàn)，且能夠無縫適配新加入的未見過的LLM。

本研究提出了一個創(chuàng)新的大語言模型多智能體編排框架DAAO，首次將查詢難度估計、動態(tài)工作流生成與異構LLM路由融為一體，實現(xiàn)了性能與成本之間的自適應平衡。通過在六個基準上的嚴格實驗，DAAO不僅顯著超越了現(xiàn)有方法，還大幅降低了計算開銷，證明了難度感知、模塊化編排在構建可擴展且高效的LLM智能體系統(tǒng)中的核心價值。該工作為未來多智能體系統(tǒng)的自動化設計提供了新的思路，也為實際應用中應對不同難度、不同領域的用戶查詢設立了一個兼具高性能與低成本的標桿。研究團隊已將相關代碼與數(shù)據(jù)集開放，供學界與業(yè)界進一步使用與拓展。

成果2：ACL 2026 | 雙信號自適應推理加速 Shortcut Decoding

課題組成員李澤遠（2023級研究生）的研究成果“Shortcut Decoding: Accelerating Chain-of-Thought Reasoning via Dual-Signal Adaptive Control” 已被CCF-A類會議Association for Computational Linguistics 2026（ACL 26）主會錄用。該研究旨在解決大語言模型在鏈式思維推理過程中存在的“過度思考”與計算冗余問題，提出了一種無需重新訓練的高效推理加速框架。

鏈式思維提示技術顯著增強了大語言模型的復雜推理能力，使其能夠通過逐步分解問題來得出正確答案。然而，近年來研究者發(fā)現(xiàn)，大語言模型在生成顯式推理文本時普遍存在“過度思考”現(xiàn)象：模型在內部隱藏狀態(tài)中早已收斂到正確結論，卻仍然繼續(xù)生成大量冗余、重復甚至自我矛盾的推理步驟。這不僅造成了嚴重的計算資源浪費，還可能導致模型從正確答案偏離，降低最終輸出的可靠性。現(xiàn)有加速方法主要分為兩類：一是依賴系統(tǒng)級優(yōu)化或模型壓縮，往往需要昂貴的重新訓練；二是基于啟發(fā)式的提前終止策略，例如監(jiān)測輸出熵，但這類方法容易陷入“自信錯誤”陷阱——模型雖然低熵、高度確定，卻可能已經走上錯誤的推理路徑。因此，如何在保證推理正確性的前提下動態(tài)、自適應地剪除冗余步驟，成為大語言模型推理效率優(yōu)化的關鍵挑戰(zhàn)。

為解決上述挑戰(zhàn)，本研究提出了一種名為Shortcut Decoding的推理加速框架，如上圖所示。該框架的核心思想源于一個關鍵實證發(fā)現(xiàn)：大語言模型的內部隱藏狀態(tài)往往比其顯式生成的文本更早地“想通”正確答案?；诖?，研究團隊設計了一個雙信號自適應控制器，在推理過程中實時監(jiān)測兩類互補信號。第一類信號是內部置信度得分，由一個輕量級多層感知機探針從模型的隱藏狀態(tài)中提取，用于預測當前推理路徑是否已足夠正確。第二類信號是步驟級輸出熵，用于衡量模型在生成下一詞時的確定性程度。兩類信號協(xié)同工作：當內部探針得分極高或輸出熵極低時，控制器觸發(fā)快速退出路徑；當探針得分高但熵值中等時，則啟動穩(wěn)定性驗證路徑，連續(xù)監(jiān)測多個步驟確認收斂后再退出；若兩類信號均不滿足，則允許模型繼續(xù)推理。該框架無需修改基礎模型參數(shù)，可即插即用地應用于現(xiàn)有大語言模型。

研究團隊在多個數(shù)學推理基準測試上對Shortcut Decoding進行了全面評估，包括GSM8K、MATH-500以及AIME 2024/2025競賽級數(shù)據(jù)集。實驗結果表明，該方法在保持甚至提升最終答案準確率的同時，平均減少了約35%的令牌使用量。特別值得注意的是，在MATH-500數(shù)據(jù)集上，使用DeepSeek-R1-Distill-Qwen-7B模型時，該方法在壓縮近50%推理步驟的情況下，將準確率從90.8%提升至91.2%。這一反直覺的準確率提升源于對冗余后期推理的有效剪除，避免了模型在過度自我修正中發(fā)生邏輯漂移。與現(xiàn)有的訓練無關提前停止方法（如DEER、Dynasor）相比，Shortcut Decoding在準確率和壓縮比兩個維度上均表現(xiàn)更優(yōu)。進一步的錯誤歸因分析顯示，在完整鏈式思維推理失敗案例中，約60%是由“過度思考”導致——即模型在已經得出正確中間結論后，因冗余生成或錯誤修正而輸出錯誤答案。這進一步印證了適時終止推理對于提升最終輸出質量的重要性。

本研究提出了Shortcut Decoding，一個基于雙信號自適應控制的高效推理加速框架。該框架通過融合內部隱藏狀態(tài)探針與外部輸出熵信號，精準檢測“推理完成點”，在顯著降低計算開銷的同時維護甚至增強了推理可靠性。實驗結果揭示了當前大語言模型在鏈式思維推理中普遍存在的“想得比說得快”現(xiàn)象，以及過度思考對最終答案準確率的負面影響。Shortcut Decoding不僅為緩解推理效率瓶頸提供了一種輕量、有效的解決方案，也為未來大語言模型推理機制的設計指明了新方向：與其強制模型生成完整顯式推理鏈，不如學會在恰當?shù)臅r機“放手”，讓模型直接輸出其內心已經收斂的答案。

成果3：ACL 2026 | 可驗證GUI評測基準 NaturalGAIA

課題組成員鄭梓瀚（2024級研究生）、崔天樂（2024級研究生）、王陶然（2025級研究生）、王鳳濤（2025級研究生）的研究成果“NaturalGAIA: A Verifiable Benchmark and Hierarchical Framework for Long-Horizon GUI Tasks”已被CCF-A類會議Association for Computational Linguistics 2026（ACL 26）主會錄用。該研究針對圖形用戶界面（GUI）智能體在真實場景下的評估困境，提出了一個可驗證的評測基準NaturalGAIA及高效的分層協(xié)作框架LightManus-Jarvis。

近年來，大語言模型驅動的GUI智能體發(fā)展迅速，然而如何準確評估其在復雜、長序列、跨應用任務中的真實表現(xiàn)成為關鍵挑戰(zhàn)?，F(xiàn)有評測面臨“評估-真實困境”：一方面，真實場景基準如OSWorld和RealWebAssist因缺乏確定性真值，依賴不穩(wěn)定的大模型評判或人工驗證，難以精確衡量推理與執(zhí)行之間的差距；另一方面，傳統(tǒng)靜態(tài)基準采用簡化、去上下文的指令，無法模擬人類意圖中的認知非線性、冗余信息和上下文依賴，導致任務成功率被高估。此外，主流端到端視覺模型在長時程任務中容易產生語義漂移和“坐標幻覺”，難以兼顧宏觀規(guī)劃的一致性與微觀執(zhí)行的精確性。

為解決上述挑戰(zhàn)，本研究提出了NaturalGAIA——一個基于真實人類GUI交互意圖的可驗證評測基準，以及LightManus-Jarvis——一個“宏觀規(guī)劃-微觀執(zhí)行”的分層協(xié)作框架。LightManus-Jarvis執(zhí)行NaturalGAIA任務的過程如上圖所示。

NaturalGAIA基準的核心創(chuàng)新在于將邏輯因果路徑與自然語言敘述解耦。具體而言，研究者基于知識圖譜（如Wikidata）定義確定性的因果路徑，每個原子任務都有可驗證的真值；同時通過自然語言注入認知挑戰(zhàn)，包括非線性順序、噪聲過濾和上下文依賴參數(shù)解析，確保任務既有真實模糊性又有嚴謹?shù)目沈炞C性。該基準覆蓋了276個任務，跨越25種真實應用（包括Spotify、IMDb、Google Maps、Wikipedia等），分為基礎、中級、高級三個難度等級，其中高級任務最長包含七個原子步驟，需在多至七個應用間切換。為了全面評估智能體性能，研究團隊設計了三層評估體系：難度加權路徑成功率（WPSR）綜合任務復雜度進行加權評估；細粒度遍歷指標（MATCR和p-ATSR）量化原子任務的完成比例及長序列后段表現(xiàn)；錯誤歸因分析則將失敗原因細分為知識缺失、感知錯誤、操作錯誤、規(guī)劃與推理錯誤等類型。

與此同時，研究團隊提出了LightManus-Jarvis分層協(xié)作框架。在宏觀層面，LightManus負責語義解析、任務拓撲生成、跨應用調度以及上下文演化機制，通過“執(zhí)行-感知-演化”閉環(huán)動態(tài)更新后續(xù)任務的語義描述，有效抑制長序列執(zhí)行中的語義漂移。在微觀層面，Jarvis作為高精度Android執(zhí)行內核，采用混合視覺-結構感知策略，融合截圖與Android Accessibility樹信息，利用UID錨定元素消除坐標幻覺，并強制鏈式推理生成原子操作（如點擊、輸入、滑動等），顯著提升了操作的確定性。

研究團隊在NaturalGAIA上對多個主流模型（包括Claude-Sonnet-4.5、Gemini系列、GPT系列等）進行了全面評測。實驗結果表明，LightManus-Jarvis（驅動Claude-Sonnet-4.5）的加權路徑成功率達到45.6%，顯著優(yōu)于PC-Agent的13.1%和Mobile-Agent-e的21.1%，尤其在高級長時程任務上優(yōu)勢明顯。在效率方面，相比Mobile-Agent-e，LightManus-Jarvis減少了約75%的token消耗和76%的執(zhí)行時間，且執(zhí)行步數(shù)相近，證明效率提升源于架構優(yōu)化而非路徑簡化。錯誤歸因分析進一步揭示，即使是最先進的Claude-Sonnet-4.5模型，其規(guī)劃與推理錯誤仍占2.9%，而操作錯誤和感知錯誤在純視覺方案中尤為突出。Jarvis的混合感知機制將感知錯誤從7.1%降至3.3%，操作錯誤從25.6%降至20.0%，驗證了分層框架的有效性。

本研究提出了NaturalGAIA基準與LightManus-Jarvis框架，系統(tǒng)性地緩解了GUI智能體評估中的“評估-真實困境”。NaturalGAIA通過解耦邏輯與語言、引入可驗證的因果路徑和多層評估體系，為長時程、跨應用GUI任務提供了嚴謹?shù)脑u測平臺。LightManus-Jarvis通過宏觀規(guī)劃與微觀執(zhí)行的分層協(xié)作，顯著提升了復雜任務的魯棒性和效率。實驗結果清晰地揭示了當前頂尖模型在長鏈條規(guī)劃、上下文記憶和精確執(zhí)行方面仍存在的普遍短板。NaturalGAIA與LightManus-Jarvis的公開將為學界和業(yè)界提供寶貴的評測資源與可復現(xiàn)的框架設計，推動更魯棒、更貼近真實用戶需求的自主智能體發(fā)展。

登錄用戶可以查看和發(fā)表評論，請前往登錄或注冊。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品