国i一区二区,国产超碰97

腦機(jī)接口與混合智能研究小組

更多動態(tài)

6307

2026-01-30

文本

AI 生成的內(nèi)容可能不正確。

該論文發(fā)表于IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 2024，題目為《MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild》。

坦佩雷大學(xué)的Kateryna Chumachenko為此文第一作者。

論文鏈接：https://openaccess.thecvf.com/content/CVPR2024W/ABAW/html/Chumachenko_MMA-DFER_MultiModal_Adaptation_of_Unimodal_Models_for_Dynamic_Facial_Expression_CVPRW_2024_paper.html

論文概要

近年來，動態(tài)面部表情識別（DFER）因其在實(shí)現(xiàn)更具同理心和人性化技術(shù)方面的關(guān)鍵作用而備受關(guān)注。對于實(shí)際應(yīng)用而言，DFER模型在自然場景數(shù)據(jù)上的魯棒性尤為重要。此類模型的一個改進(jìn)方向是基于音頻和視頻數(shù)據(jù)的多模態(tài)情感識別。DFER中的多模態(tài)學(xué)習(xí)通過利用更豐富、互補(bǔ)的數(shù)據(jù)表示來提升模型性能。在多模態(tài)DFER領(lǐng)域，近期的研究方法側(cè)重于利用自監(jiān)督學(xué)習(xí)（SSL）的最新進(jìn)展來預(yù)訓(xùn)練強(qiáng)大的多模態(tài)編碼器。另一研究方向則致力于將預(yù)訓(xùn)練的靜態(tài)模型應(yīng)用于DFER。本文提出了一種不同的視角，通過調(diào)整SSL預(yù)訓(xùn)練的不相交單模態(tài)編碼器來提升多模態(tài)DFER的性能，并且識別出該任務(wù)的主要挑戰(zhàn)，即模態(tài)內(nèi)自適應(yīng)、跨模態(tài)對齊和時間自適應(yīng)，進(jìn)一步針對每個挑戰(zhàn)提出了相應(yīng)的解決方案。

研究背景

隨著人機(jī)交互、醫(yī)療健康與智能監(jiān)控等應(yīng)用的快速發(fā)展，機(jī)器對人類非語言行為的理解需求日益迫切，其中基于面部表情的情感識別是關(guān)鍵研究方向之一。近年來，面部表情識別技術(shù)已從受控環(huán)境下的靜態(tài)圖像識別，逐步發(fā)展到動態(tài)視頻分析，并進(jìn)一步擴(kuò)展至融合視覺與語音信息的多模態(tài)DFER。多模態(tài)信息能夠提供互補(bǔ)線索，在復(fù)雜場景中有助于提升情感理解的準(zhǔn)確性，因此成為當(dāng)前研究的熱點(diǎn)。

然而，現(xiàn)有多模態(tài) DFER 方法大多依賴于大規(guī)模、配對良好的多模態(tài)數(shù)據(jù)以及專門的聯(lián)合預(yù)訓(xùn)練策略。在真實(shí)的場景中，情感表達(dá)受光照、姿態(tài)、遮擋、背景以及個體差異等因素影響顯著，多模態(tài)數(shù)據(jù)的采集與標(biāo)注成本極高，且數(shù)據(jù)分布更加復(fù)雜。這使得在受控數(shù)據(jù)集上表現(xiàn)良好的方法，往往難以在真實(shí)場景下實(shí)現(xiàn)穩(wěn)定泛化。此外，盡管自監(jiān)督學(xué)習(xí)在單模態(tài)和多模態(tài)情感識別中已展現(xiàn)出潛力，但現(xiàn)有方法通常仍需要針對表情識別任務(wù)進(jìn)行專門設(shè)計的預(yù)訓(xùn)練，限制了其通用性與可遷移性。

與此同時，大量性能優(yōu)異的單模態(tài)基礎(chǔ)模型（如視覺或語音模型）已在各自領(lǐng)域得到充分訓(xùn)練和驗(yàn)證，但這些模型通常獨(dú)立訓(xùn)練、缺乏有效的跨模態(tài)對齊機(jī)制，難以直接用于多模態(tài) DFER 任務(wù)。因此，如何在不依賴大規(guī)模多模態(tài)聯(lián)合預(yù)訓(xùn)練的前提下，充分利用現(xiàn)有的單模態(tài)基礎(chǔ)模型，實(shí)現(xiàn)對真實(shí)場景中動態(tài)面部表情的魯棒建模與有效融合，成為亟待解決的重要研究問題。

方法與結(jié)果分析

本篇論文提出MMA-DFER模型，首先由兩個預(yù)訓(xùn)練的凍結(jié)MAE編碼器通過融合瓶頸模塊進(jìn)行模態(tài)對齊，隨后接入聯(lián)合適應(yīng)模塊和多模態(tài)時序Transformer，各模態(tài)中的可學(xué)習(xí)提示詞獨(dú)立處理預(yù)訓(xùn)練數(shù)據(jù)與下游數(shù)據(jù)之間的模態(tài)內(nèi)差距。模型結(jié)構(gòu)如圖1所示。

fff.drawio

圖1 MMA-DFER結(jié)構(gòu)圖

（1）采用漸進(jìn)式提示調(diào)優(yōu)彌合模態(tài)內(nèi)差距

對提示調(diào)優(yōu)采用針對每種模態(tài)獨(dú)立進(jìn)行，旨在減少單模態(tài)基礎(chǔ)模型中的領(lǐng)域偏移。即為每種模態(tài)引入一組可學(xué)習(xí)提示，這些提示與數(shù)據(jù)序列拼接后通過反向傳播進(jìn)行更新。當(dāng)模型處理token時，可學(xué)習(xí)提示會與數(shù)據(jù)token交互，從而改變其特征表示分布，使其更接近模型訓(xùn)練數(shù)據(jù)的初始分布。

雖然基于可學(xué)習(xí)提示的Transformer模型適應(yīng)已在少數(shù)應(yīng)用領(lǐng)域取得成功。然而，在先前的研究中，該方法僅應(yīng)用于輸入空間層面。同時，不同深度層級特征分布的差異可能具有不同本質(zhì)，僅通過輸入層級的統(tǒng)一提示難以全面解決所有問題。相反，在不同深度層級應(yīng)用專屬提示可有效促進(jìn)模型適應(yīng)。為此采用漸進(jìn)式提示適配方案：在模型不同深度引入不同數(shù)量的 token，這些 token與初始M個可學(xué)習(xí)提示 token互補(bǔ)，并逐步注入網(wǎng)絡(luò)，并在每層按公式（1）更新提示。

（2）運(yùn)用融合瓶頸模塊實(shí)現(xiàn)跨模態(tài)對齊

通過輕量級瓶頸融合適配器改造預(yù)訓(xùn)練的單模態(tài)模型，同時保留其單模態(tài)特征提取能力。即給定對應(yīng)多幀的視頻表示與音頻序列，首先按照公式（2）將二者分別投影至低維潛在空間，獲得對應(yīng)的低維表示。

文本, 信件

AI 生成的內(nèi)容可能不正確。

隨后，每個低維表示根據(jù)公式（3）所示的聚合函數(shù)進(jìn)行計算，獲得每種模態(tài)的全局序列表示。

圖片包含信件

AI 生成的內(nèi)容可能不正確。

對于音頻模態(tài)，這個聚合函數(shù)計算通過對音頻序列的token進(jìn)行全局平均池化實(shí)現(xiàn)；對于視覺模態(tài)，則通過對單個視頻中所有幀內(nèi)所有圖像序列的token進(jìn)行全局平均池化實(shí)現(xiàn)。

在獲得每種模態(tài)的全局低維表示后，通過與另一種模態(tài)（未聚合）進(jìn)行加法融合，并運(yùn)用公式（4）所示上采樣函數(shù)將聯(lián)合表示擴(kuò)展回原始維度空間。

最后，通過公式（5）所示的門控跳躍連接將獲得的融合表示添加到原始表示中，其中采用可學(xué)習(xí)參數(shù)α來控制多模態(tài)表示的強(qiáng)度。

圖示

AI 生成的內(nèi)容可能不正確。

（3）通過多模態(tài)時序 Transformer 實(shí)現(xiàn)時序?qū)R

采用時序自注意方法，并提出多模態(tài)時序 Transformer用于時序信息提取。即提取同一視頻中每幀的[CLS]token，將其拼接形成時序序列，通過加法將音頻分支對應(yīng)的[CLS]token融合至視頻序列，并使用聯(lián)合適應(yīng)模塊處理新獲得的多模態(tài)序列。此外，為多模態(tài)時序序列添加可學(xué)習(xí)的時間嵌入，并拼接新的[CLS]token。將新序列輸入多模態(tài)時域Transformer模塊進(jìn)行處理。最終將[CLS] token作為輸入傳遞至分類器。

為驗(yàn)證本文提出的模型的有效性，采用兩個主流的多模態(tài)動態(tài)面部表情識別真實(shí)場景數(shù)據(jù)集DFEW和MAFW將本方法與現(xiàn)有最先進(jìn)方法進(jìn)行比較，對比結(jié)果見表1。

表1 MMA與SOTA方法的比較，*表示對兩個均勻采樣視頻片段的平均預(yù)測值，M表示模態(tài)，Res表示圖像分辨率

由表1的實(shí)驗(yàn)結(jié)果可知，MMA-DFER在各項指標(biāo)上均優(yōu)于其他先進(jìn)方法。具體而言，在DFEW數(shù)據(jù)集上，MMA-DFER的UAR和WAR指標(biāo)分別比當(dāng)前最先進(jìn)方法S2D高出1.5%，在MAFW數(shù)據(jù)集上高出1%。值得注意的是，S2D的最佳UAR和WAR分別來自不同模型/訓(xùn)練策略（含/不含弱類超采樣），而MMA-DFER僅通過單一模型即達(dá)成此目標(biāo)。相較于最佳多模態(tài)模型HiCMAE，MMA-DFER在224和160兩種分辨率下均取得更優(yōu)結(jié)果。在相同圖像分辨率下，DFEW數(shù)據(jù)集提升2-3%，MAFW數(shù)據(jù)集提升1.5%。

為探究多模態(tài)時序Transformer的布局對模型性能的影響，聯(lián)合中間時序適配器（ITA）進(jìn)行評估實(shí)驗(yàn)，實(shí)驗(yàn)結(jié)果見表2。

表2 多模態(tài)時序 Transformer 與中間時序模塊的比較

由表2可知，本文的MTM方案表現(xiàn)最佳，其次是MTM與ITA的組合方案。在ITA方案中，d=128的變體顯著優(yōu)于其他競爭方案。

為了驗(yàn)證論文提出的融合瓶頸模塊的有效性，將融合瓶頸模塊和其他流行的多模態(tài)融合方法在160×160分辨率的DFEW數(shù)據(jù)集進(jìn)行一折交叉的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。

表3 模態(tài)融合方法的比較

通過表3可以得知，本文的方法顯著優(yōu)于其他融合方案，驗(yàn)證了融合瓶頸模型的有效性。MULT和MULT-concat模型表現(xiàn)欠佳，可能源于難以建立單幀圖像與完整音頻頻譜圖之間的關(guān)聯(lián)性。

結(jié)論

本文研究了預(yù)訓(xùn)練單模態(tài)模型在真實(shí)環(huán)境中多模態(tài)動態(tài)面部表情識別中的適應(yīng)性問題。識別出預(yù)訓(xùn)練模型適應(yīng)此任務(wù)的關(guān)鍵限制，即模態(tài)內(nèi)適應(yīng)、跨模態(tài)對齊和時間適應(yīng)，并提出了相應(yīng)的解決方案。提出的MMA-DFER模型在兩個主流DFER基準(zhǔn)數(shù)據(jù)集DFEW和MAFW上創(chuàng)下新紀(jì)錄。

撰稿人：周健波

審稿人：梁艷

登錄用戶可以查看和發(fā)表評論，請前往登錄或注冊。

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品