
該論文發(fā)表于Association for Computational Linguistics
(ACL) 2025,題目為《MEDDxAgent: A Unified Modular Agent Framework for Explainable Automatic Differential Diagnosis》。
加州大學圣塔芭芭拉分校的Daniel Rose為此文第一作者。
論文鏈接:https://aclanthology.org/2025.acl-long.677.pdf
鑒別診斷(DDx) 是臨床決策中一項基礎卻復雜的核心環(huán)節(jié):醫(yī)生會依據(jù)患者癥狀、既往病史及醫(yī)學專業(yè)知識,迭代完善并排序潛在疑似疾病列表。盡管大語言模型(LLM)的最新研究進展,已在輔助鑒別診斷方面展現(xiàn)出應用潛力,但現(xiàn)有研究方案仍存在明顯短板:僅基于單一數(shù)據(jù)集做評測、各模塊孤立優(yōu)化、對患者病歷信息默認理想化完整、僅支持單次診斷推理,無法迭代問診。
論文提出模塊化可解釋鑒別診斷智能體框架 MEDDxAgent,面向交互式鑒別診斷場景設計,其診斷推理過程依托迭代式學習逐步推演,而非默認一開始就能獲取完整患者病歷。
MEDDxAgent 包含三大模塊化組件:(1) 調(diào)度控制器(DDxDriver);(2) 病史采集模擬器;(3) 分別負責知識檢索與診斷策略制定的兩個專用智能體。為實現(xiàn)穩(wěn)健評測,作者構(gòu)建了一套覆蓋呼吸系統(tǒng)疾病、皮膚病及罕見病的綜合性鑒別診斷基準數(shù)據(jù)集。通過對單輪診斷方法進行對比分析,論文證實:在初始無法獲取完整患者病歷的真實場景下,迭代式診斷優(yōu)化至關重要。
鑒別診斷(DDx)是醫(yī)學決策中至關重要的環(huán)節(jié),醫(yī)生會從多種潛在疾病中系統(tǒng)篩選出可能性最大的病癥。在真實臨床工作中,鑒別診斷必不可少,因為它能夠應對診斷過程中存在的不確定性。
同時,鑒別診斷的實施難度極大:人類已知潛在疾病數(shù)量龐大、醫(yī)學知識更新迭代迅速,且許多癥狀與既往病史特征可同時指向多種不同疾病。但真實臨床病例表現(xiàn)復雜多變,因此近年研究開始嘗試構(gòu)建基于大語言模型(LLM) 的計算框架,用于優(yōu)化輔助鑒別診斷流程。
盡管基于大語言模型的系統(tǒng)在智能輔助診斷方面展現(xiàn)出應用潛力,但現(xiàn)有方法仍存在多處明顯局限:
醫(yī)學相關研究過度依賴醫(yī)學問答類基準數(shù)據(jù)集,無法真實還原實際鑒別診斷任務的復雜程度。
針對以上研究空白,論文提出模塊化可解釋鑒別診斷智能體框架 MEDDxAgent。

圖1 MEDDxAgent 框架整體架構(gòu):該框架整合了中央調(diào)度器(DDxDriver)、病史采集模擬器以及兩個專用智能體(知識檢索、診斷策略)??蚣茏裱?ReAct 范式,即思考 — 行動 — 觀測流程,支持串行推理與分步執(zhí)行,并可在迭代學習過程中,對所有交互行為進行透明化日志記錄。
論文提出的 MEDDxAgent 框架由中央調(diào)度器(DDxDriver)、病史采集模擬器,以及分別負責知識檢索與診斷策略的兩個專用診斷智能體共同組成。
模擬器與兩個診斷智能體均僅與 DDxDriver 進行通信交互;DDxDriver 負責監(jiān)控、存儲、維護并實時更新患者信息與排序后的鑒別診斷疾病列表。
憑借這一核心中樞角色,DDxDriver 可統(tǒng)籌調(diào)度迭代反饋循環(huán):利用各個智能體返回的觀測信息,結(jié)合智能體指令,對后續(xù)的智能體調(diào)用過程進行優(yōu)化與迭代完善。
(一) 病史采集模擬器(Simulator)
病史采集是鑒別診斷中至關重要的第一步,臨床醫(yī)生通過向患者詢問癥狀、既往病史及生活方式相關因素,收集關鍵診療信息。
為模擬這種真實交互問診場景,論文設計了病史采集模擬器。實驗中作者采用雙大語言模型對模擬器進行初始化構(gòu)建:第一個大語言模型扮演患者,可讀取完整患者病歷;第二個大語言模型扮演醫(yī)生,僅獲取患者初始病歷。
交互過程中,醫(yī)生角色圍繞診斷流程提出問診問題,患者角色依據(jù)自身完整病歷給出對應回答。對話會持續(xù)進行,直至完成預設問診目標,或達到提前設定的終止條件(如最大提問輪次)。問診對話結(jié)束后,完整對話記錄會被轉(zhuǎn)發(fā)至 DDxDriver 調(diào)度器。
(二) 知識檢索智能體Knowledge Retrieval Agent
該智能體通過從科研文獻、醫(yī)學數(shù)據(jù)庫、臨床診療指南等外部數(shù)據(jù)源中檢索相關醫(yī)學知識,輔助診斷流程。
智能體被觸發(fā)后,會接收由DDxDriver根據(jù)當前患者病歷與初步鑒別診斷列表生成的檢索查詢。智能體從查詢中提取核心醫(yī)學概念,整理為結(jié)構(gòu)化關鍵詞,再在外部數(shù)據(jù)庫中進行定向檢索。
論文采用兩大主要知識來源:維基百科與 PubMed。前者提供高權(quán)重詞條的精簡概述,后者可檢索可全文獲取文獻的摘要內(nèi)容。
(三) 診斷策略智能體Diagnosis Strategy Agent
該智能體負責依據(jù)DDxDriver整理好的信息,生成、迭代優(yōu)化并排序各類疑似診斷結(jié)果。
診斷策略智能體提供兩種可選用的工作模式:第一種是零樣本模式:大語言模型僅依靠當前患者的病歷信息,直接預測最有可能的診斷結(jié)果。該方式流程簡單,但面對復雜病癥或罕見病時,診斷準確率有限。第二種是少樣本模式:診斷策略智能體借助額外的相似病例作為參考來輔助預測,實現(xiàn)更貼合上下文場景的臨床診斷推理。
(四) 中央調(diào)度器Orchestrator
論文將 DDxDriver 設計為 MEDDxAgent 框架中的中央?yún)f(xié)調(diào)樞紐。DDxDriver 可實現(xiàn)診斷智能體與基準數(shù)據(jù)集之間的模塊化兼容,只需極少適配改造即可接入使用。
DDxDriver 采用 ReAct 范式:在每一輪流程中,DDxDriver 首先獲取環(huán)境交互信息(輸入 / 輸出),以及模擬器和各智能體上一輪運行的返回結(jié)果(如有觀測信息);隨后基于現(xiàn)有臨床證據(jù)進行狀態(tài)推理(思考),并依據(jù)當前患者病歷狀態(tài),生成面向特定智能體的執(zhí)行指令(行動)。它將指令下發(fā)至選定的模擬器或智能體并執(zhí)行,再利用新獲取的信息更新患者病歷。
(五) 迭代學習機制
論文設計迭代學習機制,避免僅依賴單一診斷智能體或靜態(tài)決策流程。本機制設置兩種迭代模式:(1) 固定迭代、(2) 動態(tài)迭代。
固定迭代按固定順序依次調(diào)度病史采集模擬器、知識檢索智能體、診斷策略智能體循環(huán)運行,直至達到預設終止條件(如指定迭代輪次)。
與之相對,動態(tài)迭代不再受預設執(zhí)行順序限制,允許DDxDriver 在鑒別診斷過程中自適應動態(tài)調(diào)度。每一輪獲得觀測結(jié)果后,DDxDriver 會依據(jù)最新信息(更新后的患者病歷、醫(yī)學文獻資料、當前預測的鑒別診斷列表),自主推理下一步應該調(diào)用哪個模塊:病史采集模擬器、知識檢索智能體 或 診斷策略智能體。
這種設計實現(xiàn)了靈活決策,讓診斷流程能夠隨著新信息的不斷補充而動態(tài)調(diào)整。迭代學習機制使MEDDxAgent 可以持續(xù)優(yōu)化診斷結(jié)果,同時對自身推理過程提供透明、可追溯的解釋。
(一) 數(shù)據(jù)集設置:
DDxPlus: 大規(guī)模結(jié)構(gòu)化數(shù)據(jù)集,包含130 萬例合成呼吸科患者病例,涵蓋 49 種呼吸系統(tǒng)相關疾病。
iCraft-MD:包含 394 種皮膚??;該數(shù)據(jù)集在原有 Craft-MD 數(shù)據(jù)集靜態(tài)皮膚科臨床病例基礎上,改造為交互式評測場景:系統(tǒng)初始只能獲取部分患者信息,需要主動問診、自行收集補充病情信息。
RareBench:在 DDxPlus 基礎上進行擴充,新增 421 種罕見病。
(二) 評估指標:
1. 正確疾病的平均排名
用于衡量模型能否將真實診斷結(jié)果排在靠前位置。若真實診斷未進入模型預測的前10名,則統(tǒng)一將其排名記為11。
2. GTPA@k(真實病理準確率)
用于判斷真實疾病標簽是否出現(xiàn)在模型預測的前 k 個診斷結(jié)果中
3. 平均進展率(Δ Progress)
用于追蹤真實疾病在鑒別診斷列表中的排名變化,對于每一例患者樣本i,先計算其在N 輪迭代診斷中排名的進步值并取平均,再對全部M 例患者做整體聚合統(tǒng)計。該指標可以量化評估系統(tǒng)在多輪迭代中逐步優(yōu)化、收斂至正確診斷的效果。
(三) 模型和任務
1. LLM模型選擇:
論文在全部實驗任務上對 GPT-4o、Llama3.1-70B 與 Llama3.1-8B三類大模型開展評測,實現(xiàn)不同參數(shù)量規(guī)模大語言模型的橫向?qū)Ρ取?/p>
2. 評測方案:
(1) 單智能體單獨優(yōu)化評測;
在單輪推理場景下,分別評測知識檢索、診斷策略兩大智能體。該方式可以排除信息不完整帶來的干擾因素,獨立驗證各智能體自身推理機制的有效性。
(2) 交互式鑒別診斷評測;
在交互式鑒別診斷場景下評估 MEDDxAgent 整體性能,并與單輪診斷智能體、病史采集模擬器進行對比。交互式鑒別診斷是更具挑戰(zhàn)性、也更貼近真實臨床的場景:模型僅能獲取患者初始信息,無法拿到完整的癥狀與既往病史列表。
3. 超參數(shù)和實驗設置:
對于知識檢索智能體,論文限定每次檢索查詢最多使用3 個醫(yī)學關鍵詞。
動態(tài)少樣本部分采用 BioClinicalBERT(BERT)與 BGE-BASE-EN-V1.5(BAII)具體采用歸一化嵌入向量的 L2 距離計算相似度,效果與余弦相似度設置相近。
在病史采集模擬器部分,論文構(gòu)建迭代問診環(huán)境,4. 分別設置最大提問輪次為 5、10、15 進行評測。
論文設置迭代次數(shù)為 1~3 輪,每輪固定 5 次問診提問。
(四) 關鍵實驗與結(jié)果分析:
1. 單智能體最優(yōu)參數(shù)調(diào)優(yōu)實驗
在將知識檢索智能體與診斷策略智能體融入迭代實驗場景之前,沿用已有研究的實驗設定,向模型提供完整患者病歷。

表1 上圖為非交互式場景下知識檢索智能體(上半部分)與診斷策略智能體(下半部分)的實驗結(jié)果。‡ 論文僅列出少樣本(標準少樣本、Dyn_BAII 動態(tài)少樣本)結(jié)果,原因是該方案性能始終優(yōu)于 Dyn_BERT 方法,且所有模型均呈現(xiàn)相似變化趨勢。
結(jié)果分析:
在知識檢索智能體中,PubMed 整體表現(xiàn)略優(yōu)于維基百科;在需要復雜疾病專業(yè)信息的 RareBench 數(shù)據(jù)集上,這一優(yōu)勢尤為明顯。
對于診斷策略智能體,最優(yōu)配置隨數(shù)據(jù)集不同而存在差異:在 DDxPlus 與 RareBench 上,基于 BAII 嵌入向量的動態(tài)少樣本效果最佳,這是因為相似病例樣例能夠為疑似疾病提供可靠的上下文參考依據(jù)。而在 iCraft-MD 數(shù)據(jù)集上,零樣本思維鏈(CoT) 更具優(yōu)勢,可針對復雜臨床病例開展結(jié)構(gòu)化推理。
對 iCraft-MD 而言,少樣本學習往往會降低診斷性能,原因是該數(shù)據(jù)集中每例臨床病例特征差異極大,引入額外參考樣例反而會帶入噪聲干擾。
基于以上實驗結(jié)論,論文為后續(xù)迭代實驗場景選定如下配置:知識檢索智能體統(tǒng)一采用 PubMed;
2. 交互式鑒別診斷實驗
交互式鑒別診斷實驗進一步評測更具挑戰(zhàn)性進一步評測更具挑戰(zhàn)性的交互式鑒別診斷任務:模型初始僅擁有有限患者信息,由病史采集模擬器構(gòu)建完整交互實驗環(huán)境。

表2 三大數(shù)據(jù)集在無完整患者病歷條件下的交互式實驗性能;其中 KR 代表知識檢索智能體,DS 代表診斷策略智能體;n 為病史采集模擬器的問診輪次;MEDDx 為同時結(jié)合 KR 與 DS 的模型配置。
結(jié)果分析:
當 n=0 時,模擬器未通過問診獲取任何額外患者信息。以 GPT-4o 在 RareBench 數(shù)據(jù)集上的結(jié)果為例:知識檢索智能體(KR)的 GTPA@1 由 0.45 降至 0.07;診斷策略智能體(零樣本設置)的 GTPA@1 由 0.46 降至 0.11。該基線結(jié)果表明:以往在完備病歷條件下得到的評測結(jié)論,無法適用于初始信息匱乏的交互式場景。
當交互輪次增至 n=5 時,知識檢索智能體與診斷策略智能體的診斷性能均得到大幅提升。這一結(jié)果印證了病史采集對于提升診斷準確率至關重要。
在 DDxPlus 數(shù)據(jù)集上,GPT-4o 的 GTPA@1 從 0.69 提升至 0.86,Llama3.1-70B 從 0.54 提升至 0.71。
對于 Llama3.1-8B 小模型,在 DDxPlus 數(shù)據(jù)集上仍保持性能提升趨勢,但在 iCraft-MD 與 RareBench 數(shù)據(jù)集上表現(xiàn)不穩(wěn)定,凸顯了模型參數(shù)量規(guī)模對診斷效果的影響。
平均進展率 ΔProgress 始終為正值,說明 MEDDxAgent 能夠通過多輪迭代,持續(xù)抬高真實疾病在診斷列表中的排名。平均進展率在不同數(shù)據(jù)集、不同模型上表現(xiàn)各異,為 MEDDxAgent 的診斷性能提升提供了可解釋依據(jù)。
整體實驗結(jié)果表明:MEDDxAgent 能夠在高難度、貼近真實臨床的交互式鑒別診斷場景中穩(wěn)定有效運行。
現(xiàn)有的自動鑒別診斷方法存在諸多局限:要么僅采用單一數(shù)據(jù)集開展評估,要么假定患者病歷信息完整可全量獲取,要么只針對孤立的診斷模塊做局部優(yōu)化,或是僅進行單次一次性診斷。
論文提出 MEDDxAgent,這是一個具備模塊化、可解釋性的框架,通過迭代學習方式提升自動鑒別診斷能力。MEDDxAgent 整合了病史采集模擬器、兩大智能體(知識檢索智能體、診斷策略智能體)以及調(diào)度控制器 DDxDriver,用以應對更具挑戰(zhàn)性、更貼近真實臨床的交互式鑒別診斷場景 —— 這類場景下初始患者病歷并不完整。。該框架采用模塊化設計,可對最優(yōu)智能體組合配置進行系統(tǒng)性評測;同時通過中間過程日志記錄與全新的平均進展率指標,為模型推理過程提供關鍵的可解釋性與透明性
實驗結(jié)果表明:交互式鑒別診斷的難度遠高于傳統(tǒng)單輪診斷。MEDDxAgent 能夠迭代修正診斷預測結(jié)果,性能顯著優(yōu)于簡易的單輪診斷方法。希望該框架能夠推動相關研究持續(xù)進步,助力研發(fā)出適應性更強、效果更優(yōu)的自動鑒別診斷模型。
撰稿人:姚剛
審稿人:何樂為