該論文發(fā)表于Association for the Advancement of Artificial Intelligence 2024(CCF-A 人工智能頂級會議),題目為《SleepFM: Multi-modal Representation Learning for Sleep across ECG, EEG and Respiratory Signals》。
斯坦福大學生物醫(yī)學數(shù)據(jù)科學系Rahul Thapa為第一作者和通訊作者。
論文鏈接:
https://openreview.net/forum?id=cDXtscWCKC
論文概要
睡眠是一個涉及多種生理信號的復雜過程,包括腦電圖(EEG)、心電圖(ECG)和呼吸信號等多種模態(tài)。現(xiàn)有的睡眠研究方法大多依賴有標簽的單一任務數(shù)據(jù),難以充分利用多導睡眠圖(PSG)中豐富的跨模態(tài)生理信息。此外,睡眠數(shù)據(jù)的標注成本高昂,專家標注耗時耗力,限制了大規(guī)模監(jiān)督學習方法的應用。如何從海量的多模態(tài)睡眠數(shù)據(jù)中學習到有效的通用表征,是當前睡眠醫(yī)學研究面臨的關鍵問題。
為了解決這些問題,本文提出了 SleepFM——首個基于多模態(tài)對比學習的睡眠基礎模型。SleepFM 利用來自超過 14,000 名參與者的多導睡眠圖數(shù)據(jù)(總計超過 100,000 小時),通過對比學習框架將 EEG、ECG 和呼吸信號三種模態(tài)的表征統(tǒng)一到共享的潛在空間中。本文提出了兩種對比學習策略:成對對比學習(Pairwise CL)和留一法對比學習(Leave-One-Out CL)。在下游任務評估中,基于 SleepFM 學習到的嵌入向量訓練的邏輯回歸模型,在睡眠分期任務中達到宏平均 AUPRC 0.69,在呼吸暫停檢測中達到 AUPRC 0.71,顯著優(yōu)于端到端訓練的 CNN 基線模型(睡眠分期 AUPRC 0.579,呼吸暫停檢測 AUPRC 0.56)。該研究證實了多模態(tài)睡眠建模的價值,并展示了 SleepFM 在小樣本場景下的良好泛化能力。
研究背景
睡眠監(jiān)測對于理解睡眠障礙、評估大腦健康、肺部功能和心臟健康具有重要意義。多導睡眠圖(PSG)作為綜合性的夜間睡眠檢查手段,能夠記錄多種生理信號,包括腦電圖(EEG)、眼電圖(EOG)和心電圖(ECG)。傳統(tǒng)的 PSG 數(shù)據(jù)分析依賴于人工視覺檢查,這種方法勞動密集且容易出錯。近年來,監(jiān)督深度學習方法在自動睡眠分期(尤其是呼吸暫停檢測)方面展現(xiàn)出了一定潛力。然而,大多數(shù)方法依賴于特定任務的標注數(shù)據(jù),很少利用 PSG 中多種模態(tài)所包含的完整生理動態(tài)信息。
與此同時,對比學習作為一種強大的表征學習技術,在放射學和病理學等領域取得了顯著進展。研究者通過將醫(yī)學影像與對應的醫(yī)學報告配對進行對比學習,學習到了豐富的醫(yī)學影像表征。然而,通過多模態(tài)對比學習將不同 PSG 通道配對來學習睡眠表征的研究仍然較少。雖然部分單模態(tài)對比學習方法已被應用于 ECG 數(shù)據(jù),但這些方法無法在潛在空間中有效比較不同模態(tài)的信號,而這對于遷移學習至關重要。因此,如何利用多模態(tài) PSG 數(shù)據(jù)通過對比學習構建統(tǒng)一的睡眠基礎模型,是一個尚未被充分探索的研究方向。
研究方法
為了解決上述問題,本文提出了 SleepFM,一個通過多模態(tài)對比學習訓練的睡眠基礎模型。SleepFM 的核心思想是將來自同一時間段的不同模態(tài)的生理信號(EEG、ECG 和呼吸信號)在潛在空間中拉近,同時將不同時間段的信號推遠,從而學習到跨模態(tài)的統(tǒng)一表征。整體框架如圖 1 所示,主要包含數(shù)據(jù)預處理、嵌入模型設計和多模態(tài)對比學習三個關鍵部分。

Figure 1:多模態(tài) PSG 對比學習預訓練框架概覽圖。內(nèi)容為:左側是原始睡眠數(shù)據(jù)(EEG/ECG/呼吸三種模態(tài)),分別通過各自的 CNN 編碼器生成嵌入向量;右側展示了成對對比學習(Pairwise)和留一法對比學習(Leave-One-Out)兩種訓練方式的示意圖。
(1) 數(shù)據(jù)預處理
本文使用的數(shù)據(jù)來自美國一家睡眠診所自 1999 年起的 PSG 記錄,包含 14,068 條記錄,每條記錄涵蓋約 8 小時的睡眠數(shù)據(jù)。數(shù)據(jù)集根據(jù)三種主要模態(tài)(呼吸信號、EEG 和 ECG)進行篩選,分別包含 7、10 和 2 個通道。所有總睡眠時長被轉換為 30 秒的 epoch,數(shù)據(jù)重采樣至 256 Hz。標注標簽由專業(yè)睡眠技師標注,包括:清醒(Wake)、Stage 1、Stage 2、Stage 3、REM 和睡眠呼吸暫停(Sleep Apnea)。為防止數(shù)據(jù)泄漏,數(shù)據(jù)集按照患者級別劃分為預訓練集(11,261 名參與者)、訓練集(1,265 名)、驗證集(141 名)和測試集(1,401 名)。
(2) 嵌入模型
SleepFM 使用卷積神經(jīng)網(wǎng)絡(CNN)分別從呼吸、EEG 和 ECG 通道生成嵌入向量。針對三種不同的模態(tài),分別設計了三個獨立的編碼器模型,主要差異在于輸入層的通道數(shù)不同(EEG 為 10 通道,ECG 為 2 通道,呼吸信號為 7 通道)。這些嵌入模型的架構基于 MobileNetV2 和 EfficientNet 的輕量化設計,首先使用空洞卷積(atrous convolution)提取特征,隨后通過多通道一維卷積層處理。模型層數(shù)與 EfficientNet 的原始設計一致,但參數(shù)量大幅削減至原始架構的不到 1/10,以優(yōu)化運行效率和降低復雜度。在空洞卷積層之后,模型采用了殘差結構,將輸入和輸出瓶頸層通過擴展層相連接。
(3) 多模態(tài)對比學習
本文探索了兩種對比學習框架來學習跨模態(tài)的聯(lián)合表征:成對對比學習(Pairwise CL)和留一法對比學習(Leave-One-Out CL)。核心思想是將時間對齊的 30 秒片段中不同模態(tài)的正樣本嵌入在潛在空間中拉近,同時將負樣本推遠。
在成對對比學習中,對所有模態(tài)對(EEG-ECG、EEG-呼吸、ECG-呼吸)構建對比預測任務。對于來自模態(tài) i 的嵌入 x_i 和來自模態(tài) j 的嵌入 x_j,使用對比損失鼓勵正樣本對之間的一致性,同時抑制負樣本對之間的一致性。最終的損失函數(shù)為所有模態(tài)對的成對對比損失之和。
在留一法對比學習中,對于每個模態(tài) i,通過對其余模態(tài)的嵌入求平均來構建一個"留一"表征 x_≠i,然后在模態(tài) i 的嵌入與該留一表征之間應用對比損失。這種方法使得模型能夠從更全局的視角學習模態(tài)之間的關系。
實驗結果
本文在多個任務上對 SleepFM 進行了全面評估,包括跨模態(tài)檢索、睡眠分期和呼吸暫停檢測,并與端到端訓練的 CNN 基線模型進行了對比。
(1) 跨模態(tài)檢索分析
檢索評估結果表明,SleepFM 的性能較基線指標有顯著提升。模型在 Recall@10 指標上實現(xiàn)了超過 500 至 7000 倍的提升(基線隨機 Recall@10 = 0.0001)。在成對對比學習中,ECG 與 EEG 之間的檢索 Recall@10 達到 0.74-0.82,中位排名為 1-6;在留一法對比學習中,ECG 與 EEG 之間的 Recall@10 為 0.46-0.58。


成對對比學習在檢索任務上總體優(yōu)于留一法,這可能是因為檢索評估直接映射了成對對比學習的訓練方式。值得注意的是,呼吸信號與其他模態(tài)之間的檢索性能相對較低,這可能是因為 EEG 和 ECG 都捕捉身體內(nèi)的電信號活動,具有更高的相似性和更易識別的模式。
(2) 睡眠分期分類
在睡眠分期這一多分類任務中(包含 Wake、Stage 1、Stage 2、Stage 3 和 REM 五個類別),基于 SleepFM 預訓練表征訓練的邏輯回歸模型在所有指標上均優(yōu)于端到端訓練的 CNN 基線模型。

留一法對比學習模型的宏平均 AUROC 達到 0.906,AUPRC 達到 0.685,顯著優(yōu)于成對對比學習模型(AUROC 0.876,AUPRC 0.608)和監(jiān)督 CNN 基線(AUROC 0.842,AUPRC 0.579)。具體到各類別,留一法模型在 REM 分類上的 AUROC 達到 0.951,在 Wake 分類上達到 0.945,在 Stage 2 分類上的 AUPRC 達到 0.876。
(3) 呼吸暫停檢測
在呼吸暫停檢測這一二分類任務中,留一法對比學習模型取得了最優(yōu)性能,AUROC 為 0.941,AUPRC 為 0.711,顯著優(yōu)于成對對比學習模型(AUROC 0.902,AUPRC 0.586)和監(jiān)督 CNN 基線(AUROC 0.843,AUPRC 0.555)??紤]到呼吸暫停事件的低流行率(僅 1.7%),該模型在高不平衡數(shù)據(jù)上的表現(xiàn)尤為突出。

(4) 少樣本評估
本文在少樣本場景下(從 k=1 到完整訓練集 1265 名參與者逐步增加訓練數(shù)據(jù)量)對模型進行了評估。結果如圖2顯示,在所有少樣本設置下,SleepFM 預訓練模型均顯著優(yōu)于監(jiān)督 CNN 基線模型,在睡眠分期和呼吸暫停分類任務上均表現(xiàn)出色。留一法對比學習模型在所有樣本量下均顯著優(yōu)于成對對比學習模型,尤其在呼吸暫停分類任務中優(yōu)勢更為明顯。這一結果表明,SleepFM 在標注數(shù)據(jù)有限的實際臨床場景中具有很好的應用前景。

結論
本文提出了 SleepFM——首個基于多模態(tài)對比學習的睡眠基礎模型,通過整合 EEG、ECG 和呼吸信號三種生理模態(tài),實現(xiàn)了對睡眠相關表征的統(tǒng)一建模。該方法的核心創(chuàng)新在于利用對比學習框架,將來自同一時間段的不同模態(tài)的生理信號在潛在空間中對齊,從而學習到具有跨模態(tài)一致性的高質(zhì)量表征。本文提出的兩種對比學習策略——成對對比學習和留一法對比學習——各有優(yōu)勢:成對對比學習在檢索任務上表現(xiàn)更優(yōu),而留一法對比學習在所有下游分類任務中顯著優(yōu)于成對對比學習。
在來自超過 14,000 名參與者的多導睡眠圖數(shù)據(jù)集上的實驗結果表明,SleepFM 在跨模態(tài)檢索、睡眠分期和呼吸暫停檢測等多個任務上均取得了優(yōu)異的性能?;?SleepFM 學習到的表征訓練的邏輯回歸模型,在睡眠分期任務中宏平均 AUPRC 達到 0.69,在呼吸暫停檢測中 AUPRC 達到 0.71,均顯著優(yōu)于端到端訓練的 CNN 基線模型。特別是在少樣本評估場景下,SleepFM 展現(xiàn)出了良好的泛化能力,證明了該方法在標注數(shù)據(jù)有限的臨床環(huán)境中的實際應用價值。該研究為睡眠醫(yī)學中的多模態(tài)生理信號分析提供了一種有效的基礎模型范式,為未來的睡眠研究和臨床應用奠定了重要基礎。
撰稿人:方旭
審稿人:王斐