瑟瑟网站观看,11亚洲麻豆久久

腦機接口與混合智能研究小組

更多動態(tài)

224

2026-06-02

該論文發(fā)表于Association for Computational Linguistics

(ACL) 2025，題目為《MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis》。

加州大學圣塔芭芭拉分校的Daniel Rose為此文第一作者。

論文鏈接：https://aclanthology.org/2025.acl-long.677.pdf

論文概要

鑒別診斷（DDx） 是臨床決策中一項基礎卻復雜的核心環(huán)節(jié)：醫(yī)生會依據(jù)患者癥狀、既往病史及醫(yī)學專業(yè)知識，迭代完善并排序潛在疑似疾病列表。盡管大語言模型（LLM）的最新研究進展，已在輔助鑒別診斷方面展現(xiàn)出應用潛力，但現(xiàn)有研究方案仍存在明顯短板：僅基于單一數(shù)據(jù)集做評測、各模塊孤立優(yōu)化、對患者病歷信息默認理想化完整、僅支持單次診斷推理，無法迭代問診。

論文提出模塊化可解釋鑒別診斷智能體框架 MEDDxAgent，面向交互式鑒別診斷場景設計，其診斷推理過程依托迭代式學習逐步推演，而非默認一開始就能獲取完整患者病歷。

MEDDxAgent 包含三大模塊化組件：(1) 調(diào)度控制器（DDxDriver）；(2) 病史采集模擬器；(3) 分別負責知識檢索與診斷策略制定的兩個專用智能體。為實現(xiàn)穩(wěn)健評測，作者構(gòu)建了一套覆蓋呼吸系統(tǒng)疾病、皮膚病及罕見病的綜合性鑒別診斷基準數(shù)據(jù)集。通過對單輪診斷方法進行對比分析，論文證實：在初始無法獲取完整患者病歷的真實場景下，迭代式診斷優(yōu)化至關重要。

研究背景

鑒別診斷（DDx）是醫(yī)學決策中至關重要的環(huán)節(jié)，醫(yī)生會從多種潛在疾病中系統(tǒng)篩選出可能性最大的病癥。在真實臨床工作中，鑒別診斷必不可少，因為它能夠應對診斷過程中存在的不確定性。

同時，鑒別診斷的實施難度極大：人類已知潛在疾病數(shù)量龐大、醫(yī)學知識更新迭代迅速，且許多癥狀與既往病史特征可同時指向多種不同疾病。但真實臨床病例表現(xiàn)復雜多變，因此近年研究開始嘗試構(gòu)建基于大語言模型（LLM）的計算框架，用于優(yōu)化輔助鑒別診斷流程。

盡管基于大語言模型的系統(tǒng)在智能輔助診斷方面展現(xiàn)出應用潛力，但現(xiàn)有方法仍存在多處明顯局限：

依賴單一數(shù)據(jù)集評估，難以在不同人群、不同疾病類別上保證泛化能力；
僅單獨優(yōu)化某一個診斷模塊（如只優(yōu)化診斷策略），缺乏可同時提升診斷全流程多環(huán)節(jié)的一體化方案；
默認一開始就能獲取完整患者病歷（包含全部癥狀與既往病史），且普遍采用單輪診斷范式，與真實臨床不符 —— 實際鑒別診斷是一個逐步探查的過程，需要通過后續(xù)問診不斷補充信息；
缺少迭代學習機制，無法在多輪交互中動態(tài)更新診斷結(jié)論，而這恰恰是真實臨床決策的核心特征；

醫(yī)學相關研究過度依賴醫(yī)學問答類基準數(shù)據(jù)集，無法真實還原實際鑒別診斷任務的復雜程度。

針對以上研究空白，論文提出模塊化可解釋鑒別診斷智能體框架 MEDDxAgent。

方法

圖1 MEDDxAgent 框架整體架構(gòu):該框架整合了中央調(diào)度器（DDxDriver）、病史采集模擬器以及兩個專用智能體（知識檢索、診斷策略）?？蚣茏裱?ReAct 范式，即思考 — 行動 — 觀測流程，支持串行推理與分步執(zhí)行，并可在迭代學習過程中，對所有交互行為進行透明化日志記錄。

論文提出的 MEDDxAgent 框架由中央調(diào)度器（DDxDriver）、病史采集模擬器，以及分別負責知識檢索與診斷策略的兩個專用診斷智能體共同組成。

模擬器與兩個診斷智能體均僅與 DDxDriver 進行通信交互；DDxDriver 負責監(jiān)控、存儲、維護并實時更新患者信息與排序后的鑒別診斷疾病列表。

憑借這一核心中樞角色，DDxDriver 可統(tǒng)籌調(diào)度迭代反饋循環(huán)：利用各個智能體返回的觀測信息，結(jié)合智能體指令，對后續(xù)的智能體調(diào)用過程進行優(yōu)化與迭代完善。

(一) 病史采集模擬器(Simulator)

病史采集是鑒別診斷中至關重要的第一步，臨床醫(yī)生通過向患者詢問癥狀、既往病史及生活方式相關因素，收集關鍵診療信息。

為模擬這種真實交互問診場景，論文設計了病史采集模擬器。實驗中作者采用雙大語言模型對模擬器進行初始化構(gòu)建：第一個大語言模型扮演患者，可讀取完整患者病歷；第二個大語言模型扮演醫(yī)生，僅獲取患者初始病歷。

交互過程中，醫(yī)生角色圍繞診斷流程提出問診問題，患者角色依據(jù)自身完整病歷給出對應回答。對話會持續(xù)進行，直至完成預設問診目標，或達到提前設定的終止條件（如最大提問輪次）。問診對話結(jié)束后，完整對話記錄會被轉(zhuǎn)發(fā)至 DDxDriver 調(diào)度器。

(二) 知識檢索智能體Knowledge Retrieval Agent

該智能體通過從科研文獻、醫(yī)學數(shù)據(jù)庫、臨床診療指南等外部數(shù)據(jù)源中檢索相關醫(yī)學知識，輔助診斷流程。

智能體被觸發(fā)后，會接收由DDxDriver根據(jù)當前患者病歷與初步鑒別診斷列表生成的檢索查詢。智能體從查詢中提取核心醫(yī)學概念，整理為結(jié)構(gòu)化關鍵詞，再在外部數(shù)據(jù)庫中進行定向檢索。

論文采用兩大主要知識來源：維基百科與 PubMed。前者提供高權(quán)重詞條的精簡概述，后者可檢索可全文獲取文獻的摘要內(nèi)容。

(三) 診斷策略智能體Diagnosis Strategy Agent

該智能體負責依據(jù)DDxDriver整理好的信息，生成、迭代優(yōu)化并排序各類疑似診斷結(jié)果。

診斷策略智能體提供兩種可選用的工作模式：第一種是零樣本模式：大語言模型僅依靠當前患者的病歷信息，直接預測最有可能的診斷結(jié)果。該方式流程簡單，但面對復雜病癥或罕見病時，診斷準確率有限。第二種是少樣本模式：診斷策略智能體借助額外的相似病例作為參考來輔助預測，實現(xiàn)更貼合上下文場景的臨床診斷推理。

(四) 中央調(diào)度器Orchestrator

論文將 DDxDriver 設計為 MEDDxAgent 框架中的中央?yún)f(xié)調(diào)樞紐。DDxDriver 可實現(xiàn)診斷智能體與基準數(shù)據(jù)集之間的模塊化兼容，只需極少適配改造即可接入使用。

DDxDriver 采用 ReAct 范式：在每一輪流程中，DDxDriver 首先獲取環(huán)境交互信息（輸入 / 輸出），以及模擬器和各智能體上一輪運行的返回結(jié)果（如有觀測信息）；隨后基于現(xiàn)有臨床證據(jù)進行狀態(tài)推理（思考），并依據(jù)當前患者病歷狀態(tài)，生成面向特定智能體的執(zhí)行指令（行動）。它將指令下發(fā)至選定的模擬器或智能體并執(zhí)行，再利用新獲取的信息更新患者病歷。

(五) 迭代學習機制

論文設計迭代學習機制，避免僅依賴單一診斷智能體或靜態(tài)決策流程。本機制設置兩種迭代模式：(1) 固定迭代、(2) 動態(tài)迭代。

固定迭代按固定順序依次調(diào)度病史采集模擬器、知識檢索智能體、診斷策略智能體循環(huán)運行，直至達到預設終止條件（如指定迭代輪次）。

與之相對，動態(tài)迭代不再受預設執(zhí)行順序限制，允許DDxDriver 在鑒別診斷過程中自適應動態(tài)調(diào)度。每一輪獲得觀測結(jié)果后，DDxDriver 會依據(jù)最新信息（更新后的患者病歷、醫(yī)學文獻資料、當前預測的鑒別診斷列表），自主推理下一步應該調(diào)用哪個模塊：病史采集模擬器、知識檢索智能體或診斷策略智能體。

這種設計實現(xiàn)了靈活決策，讓診斷流程能夠隨著新信息的不斷補充而動態(tài)調(diào)整。迭代學習機制使MEDDxAgent 可以持續(xù)優(yōu)化診斷結(jié)果，同時對自身推理過程提供透明、可追溯的解釋。

結(jié)果分析

(一) 數(shù)據(jù)集設置:

DDxPlus: 大規(guī)模結(jié)構(gòu)化數(shù)據(jù)集，包含130 萬例合成呼吸科患者病例，涵蓋 49 種呼吸系統(tǒng)相關疾病。
iCraft-MD：包含 394 種皮膚??；該數(shù)據(jù)集在原有 Craft-MD 數(shù)據(jù)集靜態(tài)皮膚科臨床病例基礎上，改造為交互式評測場景：系統(tǒng)初始只能獲取部分患者信息，需要主動問診、自行收集補充病情信息。
RareBench：在 DDxPlus 基礎上進行擴充，新增 421 種罕見病。

(二) 評估指標:

1. 正確疾病的平均排名

用于衡量模型能否將真實診斷結(jié)果排在靠前位置。若真實診斷未進入模型預測的前10名，則統(tǒng)一將其排名記為11。

2. GTPA@k（真實病理準確率）

用于判斷真實疾病標簽是否出現(xiàn)在模型預測的前 k 個診斷結(jié)果中

3. 平均進展率(Δ Progress)

用于追蹤真實疾病在鑒別診斷列表中的排名變化，對于每一例患者樣本i，先計算其在N 輪迭代診斷中排名的進步值并取平均，再對全部M 例患者做整體聚合統(tǒng)計。該指標可以量化評估系統(tǒng)在多輪迭代中逐步優(yōu)化、收斂至正確診斷的效果。

(三) 模型和任務

1. LLM模型選擇：

論文在全部實驗任務上對 GPT-4o、Llama3.1-70B 與 Llama3.1-8B三類大模型開展評測，實現(xiàn)不同參數(shù)量規(guī)模大語言模型的橫向?qū)Ρ取?/p>

2. 評測方案：

(1) 單智能體單獨優(yōu)化評測；

在單輪推理場景下，分別評測知識檢索、診斷策略兩大智能體。該方式可以排除信息不完整帶來的干擾因素，獨立驗證各智能體自身推理機制的有效性。

(2) 交互式鑒別診斷評測；

在交互式鑒別診斷場景下評估 MEDDxAgent 整體性能，并與單輪診斷智能體、病史采集模擬器進行對比。交互式鑒別診斷是更具挑戰(zhàn)性、也更貼近真實臨床的場景：模型僅能獲取患者初始信息，無法拿到完整的癥狀與既往病史列表。

3. 超參數(shù)和實驗設置：

對于知識檢索智能體，論文限定每次檢索查詢最多使用3 個醫(yī)學關鍵詞。
動態(tài)少樣本部分采用 BioClinicalBERT（BERT）與 BGE-BASE-EN-V1.5（BAII）具體采用歸一化嵌入向量的 L2 距離計算相似度，效果與余弦相似度設置相近。
在病史采集模擬器部分，論文構(gòu)建迭代問診環(huán)境，4. 分別設置最大提問輪次為 5、10、15 進行評測。
論文設置迭代次數(shù)為 1～3 輪，每輪固定 5 次問診提問。

(四) 關鍵實驗與結(jié)果分析:

1. 單智能體最優(yōu)參數(shù)調(diào)優(yōu)實驗

在將知識檢索智能體與診斷策略智能體融入迭代實驗場景之前,沿用已有研究的實驗設定，向模型提供完整患者病歷。

表1 上圖為非交互式場景下知識檢索智能體（上半部分）與診斷策略智能體（下半部分）的實驗結(jié)果。‡ 論文僅列出少樣本（標準少樣本、Dyn_BAII 動態(tài)少樣本）結(jié)果，原因是該方案性能始終優(yōu)于 Dyn_BERT 方法，且所有模型均呈現(xiàn)相似變化趨勢。

結(jié)果分析:

在知識檢索智能體中，PubMed 整體表現(xiàn)略優(yōu)于維基百科；在需要復雜疾病專業(yè)信息的 RareBench 數(shù)據(jù)集上，這一優(yōu)勢尤為明顯。

對于診斷策略智能體，最優(yōu)配置隨數(shù)據(jù)集不同而存在差異：在 DDxPlus 與 RareBench 上，基于 BAII 嵌入向量的動態(tài)少樣本效果最佳，這是因為相似病例樣例能夠為疑似疾病提供可靠的上下文參考依據(jù)。而在 iCraft-MD 數(shù)據(jù)集上，零樣本思維鏈（CoT）更具優(yōu)勢，可針對復雜臨床病例開展結(jié)構(gòu)化推理。

對 iCraft-MD 而言，少樣本學習往往會降低診斷性能，原因是該數(shù)據(jù)集中每例臨床病例特征差異極大，引入額外參考樣例反而會帶入噪聲干擾。

基于以上實驗結(jié)論，論文為后續(xù)迭代實驗場景選定如下配置：知識檢索智能體統(tǒng)一采用 PubMed；

2. 交互式鑒別診斷實驗

交互式鑒別診斷實驗進一步評測更具挑戰(zhàn)性進一步評測更具挑戰(zhàn)性的交互式鑒別診斷任務：模型初始僅擁有有限患者信息，由病史采集模擬器構(gòu)建完整交互實驗環(huán)境。

表2 三大數(shù)據(jù)集在無完整患者病歷條件下的交互式實驗性能；其中 KR 代表知識檢索智能體，DS 代表診斷策略智能體；n 為病史采集模擬器的問診輪次；MEDDx 為同時結(jié)合 KR 與 DS 的模型配置。

結(jié)果分析:

當 n=0 時，模擬器未通過問診獲取任何額外患者信息。以 GPT-4o 在 RareBench 數(shù)據(jù)集上的結(jié)果為例：知識檢索智能體（KR）的 GTPA@1 由 0.45 降至 0.07；診斷策略智能體（零樣本設置）的 GTPA@1 由 0.46 降至 0.11。該基線結(jié)果表明：以往在完備病歷條件下得到的評測結(jié)論，無法適用于初始信息匱乏的交互式場景。

當交互輪次增至 n=5 時，知識檢索智能體與診斷策略智能體的診斷性能均得到大幅提升。這一結(jié)果印證了病史采集對于提升診斷準確率至關重要。

在 DDxPlus 數(shù)據(jù)集上，GPT-4o 的 GTPA@1 從 0.69 提升至 0.86，Llama3.1-70B 從 0.54 提升至 0.71。

對于 Llama3.1-8B 小模型，在 DDxPlus 數(shù)據(jù)集上仍保持性能提升趨勢，但在 iCraft-MD 與 RareBench 數(shù)據(jù)集上表現(xiàn)不穩(wěn)定，凸顯了模型參數(shù)量規(guī)模對診斷效果的影響。

平均進展率 ΔProgress 始終為正值，說明 MEDDxAgent 能夠通過多輪迭代，持續(xù)抬高真實疾病在診斷列表中的排名。平均進展率在不同數(shù)據(jù)集、不同模型上表現(xiàn)各異，為 MEDDxAgent 的診斷性能提升提供了可解釋依據(jù)。

整體實驗結(jié)果表明：MEDDxAgent 能夠在高難度、貼近真實臨床的交互式鑒別診斷場景中穩(wěn)定有效運行。

結(jié)論

現(xiàn)有的自動鑒別診斷方法存在諸多局限：要么僅采用單一數(shù)據(jù)集開展評估，要么假定患者病歷信息完整可全量獲取，要么只針對孤立的診斷模塊做局部優(yōu)化，或是僅進行單次一次性診斷。

論文提出 MEDDxAgent，這是一個具備模塊化、可解釋性的框架，通過迭代學習方式提升自動鑒別診斷能力。MEDDxAgent 整合了病史采集模擬器、兩大智能體（知識檢索智能體、診斷策略智能體）以及調(diào)度控制器 DDxDriver，用以應對更具挑戰(zhàn)性、更貼近真實臨床的交互式鑒別診斷場景 —— 這類場景下初始患者病歷并不完整。。該框架采用模塊化設計，可對最優(yōu)智能體組合配置進行系統(tǒng)性評測；同時通過中間過程日志記錄與全新的平均進展率指標，為模型推理過程提供關鍵的可解釋性與透明性

實驗結(jié)果表明：交互式鑒別診斷的難度遠高于傳統(tǒng)單輪診斷。MEDDxAgent 能夠迭代修正診斷預測結(jié)果，性能顯著優(yōu)于簡易的單輪診斷方法。希望該框架能夠推動相關研究持續(xù)進步，助力研發(fā)出適應性更強、效果更優(yōu)的自動鑒別診斷模型。

撰稿人：姚剛

審稿人：何樂為

登錄用戶可以查看和發(fā)表評論，請前往登錄或注冊。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

論文概要

研究背景

方法

結(jié)果分析

結(jié)論