麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

CVPR 2024 | MMA-DFER:單模態(tài)模型在真實(shí)環(huán)境動態(tài)面部表情識別中的多模態(tài)適應(yīng)

文本

AI 生成的內(nèi)容可能不正確。

該論文發(fā)表于IEEE/CVF Computer Vision and Pattern Recognition Conference (CVPR) 2024,題目為《MMA-DFER: MultiModal Adaptation of unimodal models for Dynamic Facial Expression Recognition in-the-wild》。

坦佩雷大學(xué)的Kateryna Chumachenko為此文第一作者。

論文鏈接:https://openaccess.thecvf.com/content/CVPR2024W/ABAW/html/Chumachenko_MMA-DFER_MultiModal_Adaptation_of_Unimodal_Models_for_Dynamic_Facial_Expression_CVPRW_2024_paper.html

論文概要

近年來,動態(tài)面部表情識別(DFER)因其在實(shí)現(xiàn)更具同理心和人性化技術(shù)方面的關(guān)鍵作用而備受關(guān)注。對于實(shí)際應(yīng)用而言,DFER模型在自然場景數(shù)據(jù)上的魯棒性尤為重要。此類模型的一個改進(jìn)方向是基于音頻和視頻數(shù)據(jù)的多模態(tài)情感識別。DFER中的多模態(tài)學(xué)習(xí)通過利用更豐富、互補(bǔ)的數(shù)據(jù)表示來提升模型性能。在多模態(tài)DFER領(lǐng)域,近期的研究方法側(cè)重于利用自監(jiān)督學(xué)習(xí)(SSL)的最新進(jìn)展來預(yù)訓(xùn)練強(qiáng)大的多模態(tài)編碼器。另一研究方向則致力于將預(yù)訓(xùn)練的靜態(tài)模型應(yīng)用于DFER。本文提出了一種不同的視角,通過調(diào)整SSL預(yù)訓(xùn)練的不相交單模態(tài)編碼器來提升多模態(tài)DFER的性能,并且識別出該任務(wù)的主要挑戰(zhàn),即模態(tài)內(nèi)自適應(yīng)、跨模態(tài)對齊和時間自適應(yīng),進(jìn)一步針對每個挑戰(zhàn)提出了相應(yīng)的解決方案。

研究背景

隨著人機(jī)交互、醫(yī)療健康與智能監(jiān)控等應(yīng)用的快速發(fā)展,機(jī)器對人類非語言行為的理解需求日益迫切,其中基于面部表情的情感識別是關(guān)鍵研究方向之一。近年來,面部表情識別技術(shù)已從受控環(huán)境下的靜態(tài)圖像識別,逐步發(fā)展到動態(tài)視頻分析,并進(jìn)一步擴(kuò)展至融合視覺與語音信息的多模態(tài)DFER。多模態(tài)信息能夠提供互補(bǔ)線索,在復(fù)雜場景中有助于提升情感理解的準(zhǔn)確性,因此成為當(dāng)前研究的熱點(diǎn)。

然而,現(xiàn)有多模態(tài) DFER 方法大多依賴于大規(guī)模、配對良好的多模態(tài)數(shù)據(jù)以及專門的聯(lián)合預(yù)訓(xùn)練策略。在真實(shí)的場景中,情感表達(dá)受光照、姿態(tài)、遮擋、背景以及個體差異等因素影響顯著,多模態(tài)數(shù)據(jù)的采集與標(biāo)注成本極高,且數(shù)據(jù)分布更加復(fù)雜。這使得在受控數(shù)據(jù)集上表現(xiàn)良好的方法,往往難以在真實(shí)場景下實(shí)現(xiàn)穩(wěn)定泛化。此外,盡管自監(jiān)督學(xué)習(xí)在單模態(tài)和多模態(tài)情感識別中已展現(xiàn)出潛力,但現(xiàn)有方法通常仍需要針對表情識別任務(wù)進(jìn)行專門設(shè)計的預(yù)訓(xùn)練,限制了其通用性與可遷移性。

與此同時,大量性能優(yōu)異的單模態(tài)基礎(chǔ)模型(如視覺或語音模型)已在各自領(lǐng)域得到充分訓(xùn)練和驗(yàn)證,但這些模型通常獨(dú)立訓(xùn)練、缺乏有效的跨模態(tài)對齊機(jī)制,難以直接用于多模態(tài) DFER 任務(wù)。因此,如何在不依賴大規(guī)模多模態(tài)聯(lián)合預(yù)訓(xùn)練的前提下,充分利用現(xiàn)有的單模態(tài)基礎(chǔ)模型,實(shí)現(xiàn)對真實(shí)場景中動態(tài)面部表情的魯棒建模與有效融合,成為亟待解決的重要研究問題。

方法與結(jié)果分析

本篇論文提出MMA-DFER模型,首先由兩個預(yù)訓(xùn)練的凍結(jié)MAE編碼器通過融合瓶頸模塊進(jìn)行模態(tài)對齊,隨后接入聯(lián)合適應(yīng)模塊和多模態(tài)時序Transformer,各模態(tài)中的可學(xué)習(xí)提示詞獨(dú)立處理預(yù)訓(xùn)練數(shù)據(jù)與下游數(shù)據(jù)之間的模態(tài)內(nèi)差距。模型結(jié)構(gòu)如圖1所示。

fff.drawio

圖1 MMA-DFER結(jié)構(gòu)圖

(1)采用漸進(jìn)式提示調(diào)優(yōu)彌合模態(tài)內(nèi)差距

對提示調(diào)優(yōu)采用針對每種模態(tài)獨(dú)立進(jìn)行,旨在減少單模態(tài)基礎(chǔ)模型中的領(lǐng)域偏移。即為每種模態(tài)引入一組可學(xué)習(xí)提示,這些提示與數(shù)據(jù)序列拼接后通過反向傳播進(jìn)行更新。當(dāng)模型處理token時,可學(xué)習(xí)提示會與數(shù)據(jù)token交互,從而改變其特征表示分布,使其更接近模型訓(xùn)練數(shù)據(jù)的初始分布。

雖然基于可學(xué)習(xí)提示的Transformer模型適應(yīng)已在少數(shù)應(yīng)用領(lǐng)域取得成功。然而,在先前的研究中,該方法僅應(yīng)用于輸入空間層面。同時,不同深度層級特征分布的差異可能具有不同本質(zhì),僅通過輸入層級的統(tǒng)一提示難以全面解決所有問題。相反,在不同深度層級應(yīng)用專屬提示可有效促進(jìn)模型適應(yīng)。為此采用漸進(jìn)式提示適配方案:在模型不同深度引入不同數(shù)量的 token,這些 token與初始M個可學(xué)習(xí)提示 token互補(bǔ),并逐步注入網(wǎng)絡(luò),并在每層按公式(1)更新提示。

(2)運(yùn)用融合瓶頸模塊實(shí)現(xiàn)跨模態(tài)對齊

通過輕量級瓶頸融合適配器改造預(yù)訓(xùn)練的單模態(tài)模型,同時保留其單模態(tài)特征提取能力。即給定對應(yīng)多幀的視頻表示與音頻序列,首先按照公式(2)將二者分別投影至低維潛在空間,獲得對應(yīng)的低維表示。

文本, 信件

AI 生成的內(nèi)容可能不正確。

隨后,每個低維表示根據(jù)公式(3)所示的聚合函數(shù)進(jìn)行計算,獲得每種模態(tài)的全局序列表示。

圖片包含 信件

AI 生成的內(nèi)容可能不正確。

對于音頻模態(tài),這個聚合函數(shù)計算通過對音頻序列的token進(jìn)行全局平均池化實(shí)現(xiàn);對于視覺模態(tài),則通過對單個視頻中所有幀內(nèi)所有圖像序列的token進(jìn)行全局平均池化實(shí)現(xiàn)。

在獲得每種模態(tài)的全局低維表示后,通過與另一種模態(tài)(未聚合)進(jìn)行加法融合,并運(yùn)用公式(4)所示上采樣函數(shù)將聯(lián)合表示擴(kuò)展回原始維度空間。

最后,通過公式(5)所示的門控跳躍連接將獲得的融合表示添加到原始表示中,其中采用可學(xué)習(xí)參數(shù)α來控制多模態(tài)表示的強(qiáng)度。

圖示

AI 生成的內(nèi)容可能不正確。

(3)通過多模態(tài)時序 Transformer 實(shí)現(xiàn)時序?qū)R

采用時序自注意方法,并提出多模態(tài)時序 Transformer用于時序信息提取。即提取同一視頻中每幀的[CLS]token,將其拼接形成時序序列,通過加法將音頻分支對應(yīng)的[CLS]token融合至視頻序列,并使用聯(lián)合適應(yīng)模塊處理新獲得的多模態(tài)序列。此外,為多模態(tài)時序序列添加可學(xué)習(xí)的時間嵌入,并拼接新的[CLS]token。將新序列輸入多模態(tài)時域Transformer模塊進(jìn)行處理。最終將[CLS] token作為輸入傳遞至分類器。

為驗(yàn)證本文提出的模型的有效性,采用兩個主流的多模態(tài)動態(tài)面部表情識別真實(shí)場景數(shù)據(jù)集DFEW和MAFW將本方法與現(xiàn)有最先進(jìn)方法進(jìn)行比較,對比結(jié)果見表1。

表1 MMA與SOTA方法的比較,*表示對兩個均勻采樣視頻片段的平均預(yù)測值,M表示模態(tài),Res表示圖像分辨率

IMG_256

由表1的實(shí)驗(yàn)結(jié)果可知,MMA-DFER在各項指標(biāo)上均優(yōu)于其他先進(jìn)方法。具體而言,在DFEW數(shù)據(jù)集上,MMA-DFER的UAR和WAR指標(biāo)分別比當(dāng)前最先進(jìn)方法S2D高出1.5%,在MAFW數(shù)據(jù)集上高出1%。值得注意的是,S2D的最佳UAR和WAR分別來自不同模型/訓(xùn)練策略(含/不含弱類超采樣),而MMA-DFER僅通過單一模型即達(dá)成此目標(biāo)。相較于最佳多模態(tài)模型HiCMAE,MMA-DFER在224和160兩種分辨率下均取得更優(yōu)結(jié)果。在相同圖像分辨率下,DFEW數(shù)據(jù)集提升2-3%,MAFW數(shù)據(jù)集提升1.5%。

為探究多模態(tài)時序Transformer的布局對模型性能的影響,聯(lián)合中間時序適配器(ITA)進(jìn)行評估實(shí)驗(yàn),實(shí)驗(yàn)結(jié)果見表2。

表2 多模態(tài)時序 Transformer 與中間時序模塊的比較

IMG_257

由表2可知,本文的MTM方案表現(xiàn)最佳,其次是MTM與ITA的組合方案。在ITA方案中,d=128的變體顯著優(yōu)于其他競爭方案。

為了驗(yàn)證論文提出的融合瓶頸模塊的有效性,將融合瓶頸模塊和其他流行的多模態(tài)融合方法在160×160分辨率的DFEW數(shù)據(jù)集進(jìn)行一折交叉的對比實(shí)驗(yàn)。實(shí)驗(yàn)結(jié)果如表3所示。

表3 模態(tài)融合方法的比較

IMG_258

通過表3可以得知,本文的方法顯著優(yōu)于其他融合方案,驗(yàn)證了融合瓶頸模型的有效性。MULT和MULT-concat模型表現(xiàn)欠佳,可能源于難以建立單幀圖像與完整音頻頻譜圖之間的關(guān)聯(lián)性。

結(jié)論

本文研究了預(yù)訓(xùn)練單模態(tài)模型在真實(shí)環(huán)境中多模態(tài)動態(tài)面部表情識別中的適應(yīng)性問題。識別出預(yù)訓(xùn)練模型適應(yīng)此任務(wù)的關(guān)鍵限制,即模態(tài)內(nèi)適應(yīng)、跨模態(tài)對齊和時間適應(yīng),并提出了相應(yīng)的解決方案。提出的MMA-DFER模型在兩個主流DFER基準(zhǔn)數(shù)據(jù)集DFEW和MAFW上創(chuàng)下新紀(jì)錄。

撰稿人:周健波

審稿人:梁艷


登錄用戶可以查看和發(fā)表評論, 請前往  登錄 或  注冊。
SCHOLAT.com 學(xué)者網(wǎng)
免責(zé)聲明 | 關(guān)于我們 | 用戶反饋
聯(lián)系我們:
裕民县| 岫岩| 宜宾市| 北川| 阿图什市| 手机| 南部县| 集贤县| 繁峙县| 镇雄县| 合肥市| 天柱县| 安达市| 台北市| 灵石县| 广州市| 通道| 高邮市| 南木林县| 江陵县| 泽普县| 淮安市| 德阳市| 碌曲县| 富蕴县| 鸡泽县| 祁门县| 花垣县| 伽师县| 白银市| 江山市| 永定县| 康马县| 拉萨市| 电白县| 沿河| 博客| 舒兰市| 天台县| 九台市| 马鞍山市|