麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

1
點(diǎn)贊
0
評(píng)論
0
轉(zhuǎn)載
我要入駐

Token空間的縮放能力:視覺語(yǔ)言模型中視覺token的縮放行為分析

收錄于合集: # 科研成果

學(xué)者網(wǎng)訊(編輯/劉秀)大語(yǔ)言模型的縮放定律已經(jīng)得到了廣泛驗(yàn)證:隨著參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)的增加,模型性能呈現(xiàn)可預(yù)測(cè)的冪律增長(zhǎng)。在token空間也有類似的規(guī)模定律現(xiàn)象。例如,通過擴(kuò)展詞表、使用n-gram或Engram等方式可以提升預(yù)訓(xùn)練模型的性能。那么在視覺語(yǔ)言模型中,視覺token的數(shù)量是否也存在類似的縮放行為?

廣東工業(yè)大學(xué)自動(dòng)化學(xué)院研究團(tuán)隊(duì)在JMLR上發(fā)表了一項(xiàng)研究,系統(tǒng)地建立了視覺token數(shù)量與視覺語(yǔ)言模型性能之間的數(shù)學(xué)框架,揭示了視覺token空間的縮放規(guī)律。

該研究表明,視覺token數(shù)量與模型性能遵循可預(yù)測(cè)的數(shù)學(xué)關(guān)系,類似于語(yǔ)言模型中參數(shù)和訓(xùn)練數(shù)據(jù)的縮放行為。這一發(fā)現(xiàn)為視覺語(yǔ)言模型的設(shè)計(jì)和優(yōu)化提供思路。

目前,該論文已被接收,代碼已開源。

研究背景:視覺token的權(quán)衡

視覺語(yǔ)言模型通常將圖像編碼為數(shù)十到數(shù)千個(gè)視覺token,然后與文本token拼接后輸入Transformer進(jìn)行處理。視覺token的數(shù)量面臨一個(gè)經(jīng)典的權(quán)衡:

  • token過少:無(wú)法捕捉足夠的圖像細(xì)節(jié),導(dǎo)致信息丟失,影響任務(wù)性能
  • token過多:雖然能捕捉更豐富的視覺信息,但時(shí)間、空間復(fù)雜度會(huì)隨著token數(shù)量快速增長(zhǎng)

例如,CLIP ViT-L/14 從 224×224 的圖像產(chǎn)生 256 個(gè)token,而高分辨率模型如 InternLM-XComposer2-4KHD 可以為 4K 圖像生成多達(dá) 2377 個(gè)token,這帶來(lái)了巨大的計(jì)算成本。

那么,視覺token數(shù)量與模型性能之間究竟存在怎樣的數(shù)學(xué)關(guān)系?這就是本研究要回答的核心問題。

核心思路:用”距離”衡量模型判別能力

研究團(tuán)隊(duì)并沒有直接測(cè)量模型在特定任務(wù)上的性能,而是提出了一個(gè)更通用的分析框架:通過測(cè)量模型在處理兩個(gè)不同輸入序列時(shí)隱藏狀態(tài)的表示距離,來(lái)量化模型的判別能力。

為什么用”距離”作為代理指標(biāo)?

這一方法基于自回歸模型的一個(gè)基本性質(zhì):在確定性生成設(shè)置下(如貪婪解碼),相同的輸入會(huì)產(chǎn)生相同的輸出。因此,可以通過觀察模型對(duì)系統(tǒng)變化的輸入的響應(yīng),來(lái)分析其判別能力。

直觀地說(shuō): - 當(dāng)兩個(gè)分支序列之間的距離較小時(shí),模型難以區(qū)分它們,導(dǎo)致預(yù)測(cè)模糊,性能降低 - 當(dāng)距離較大時(shí),模型可以可靠地區(qū)分輸入,產(chǎn)生準(zhǔn)確的響應(yīng),性能更好

輸入模式的統(tǒng)一表示

為了系統(tǒng)性地簡(jiǎn)化分析,研究團(tuán)隊(duì)首先將視覺語(yǔ)言模型的輸入模式統(tǒng)一表示為:

其中:

  • 視覺無(wú)關(guān)token:在所有輸入變化中保持恒定的文本內(nèi)容(如”請(qǐng)描述這張圖片”)
  • 視覺相關(guān)token:包含與視覺內(nèi)容直接相關(guān)的文本和視覺token

這種分解的考量是,文本內(nèi)容可能含有視覺相關(guān)的指示,從而間接提供視覺信息。

具體樣例

假設(shè)有兩個(gè)問題: 1. “請(qǐng)描述這張圖片” 2. “請(qǐng)描述這張圖片中間白色的物品”

第一個(gè)問題沒有含有任何目標(biāo)圖片的具體內(nèi)容,屬于純粹的指令性文本;而第二個(gè)問題則明確指示了位置(“中間”)和顏色信息(“白色”)。這些額外的信息能幫助模型更好地理解圖片內(nèi)容,從而影響模型性能。

再舉一個(gè)視覺問答的例子:

  • 問題A:“圖片中有什么動(dòng)物?”
  • 問題B:“圖片左下角的那個(gè)動(dòng)物是什么?”

問題B通過”左下角”這個(gè)位置指示,縮小了模型需要關(guān)注的視覺區(qū)域,優(yōu)化了模型的搜索范圍,可能提高回答的準(zhǔn)確性。

這些文本中的視覺相關(guān)指示,實(shí)際上起到了偽擴(kuò)展視覺序列長(zhǎng)度的作用,相當(dāng)于間接增加了與視覺內(nèi)容相關(guān)的信息。

分支距離的定義

考慮兩個(gè)輸入序列,它們共享相同的前綴 token,但在視覺相關(guān)部分有所不同:

 

研究團(tuán)隊(duì)使用隱藏狀態(tài)差累積和 Frobenius 范數(shù)表示分支的距離:

具體樣例

假設(shè)有一個(gè)視覺問答場(chǎng)景,共享前綴是“圖片中有什么動(dòng)物?”

幾何解釋

理論分析:兩種縮放機(jī)制

基于上述定義,研究團(tuán)隊(duì)對(duì)距離的期望進(jìn)行了深入的理論分析,揭示了視覺token縮放的兩種機(jī)制。

期望距離的上界

 

兩種縮放機(jī)制

這一期望邊界呈現(xiàn)兩種不同的縮放機(jī)制,反映了模型在處理不同數(shù)量視覺token時(shí)的行為變化:

與性能的關(guān)聯(lián)

基于上述分析,模型性能與該期望之間存在關(guān)聯(lián):

縮放指數(shù)的具體形式

關(guān)鍵參數(shù)的影響

 

實(shí)驗(yàn)驗(yàn)證:可控視覺token模型架構(gòu)

為了驗(yàn)證理論預(yù)測(cè),研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)特定的視覺語(yǔ)言模型架構(gòu),該架構(gòu)可以靈活調(diào)整視覺token數(shù)量。

模型架構(gòu)設(shè)計(jì)

遵循LLAVA格式的視覺語(yǔ)言模型架構(gòu)設(shè)計(jì),該模型基于視覺編碼器作為視覺token生成器和大語(yǔ)言模型作為基座。為了驗(yàn)證縮放關(guān)系,設(shè)計(jì)了滿足以下三個(gè)關(guān)鍵架構(gòu)需求的模型:

 

 

圖:為驗(yàn)證理論發(fā)現(xiàn)而設(shè)計(jì)的視覺語(yǔ)言模型架構(gòu),該架構(gòu)可以調(diào)整視覺token數(shù)量以進(jìn)行系統(tǒng)性實(shí)驗(yàn)

訓(xùn)練策略

  1. 大語(yǔ)言模型保持凍結(jié)
  2. 視覺編碼器、融合模塊和投影層在微調(diào)階段更新 - 這種方法隔離了視覺token縮放的影響

視覺token數(shù)量控制: 通過 Learnable Queries(特殊的占位,用于學(xué)習(xí)選擇視覺token),可以靈活調(diào)整視覺token的數(shù)量。

實(shí)驗(yàn)設(shè)置

研究團(tuán)隊(duì)采用了兩階段訓(xùn)練方法以隔離視覺token縮放的影響:

 

使用標(biāo)準(zhǔn)化評(píng)估工具(VLMEvalKit),測(cè)試的基準(zhǔn)涵蓋了多個(gè)任務(wù)領(lǐng)域:多模態(tài)理解(MME、HallusionBench、POPE)、圖像描述(COCO VAL的BLEU-1/4、ROUGE-L、CIDEr指標(biāo))以及視覺問答(OCRBench、AI2D、RealWorldQA、MMStar、SEEDBench、SEEDBench2、SEEDBench2 Plus、ScienceQA、OCRVQA、ChartQA、TextVQA)。

實(shí)驗(yàn)結(jié)果:縮放定律的驗(yàn)證

縮放分析

研究團(tuán)隊(duì)對(duì)兩種不同輸入配置的模型進(jìn)行了縮放行為分析:一種是不包含用戶提問作為輸入的進(jìn)一步微調(diào)模型,另一種是包含用戶提問作為輸入的模型。

 

 

 

 

主要觀察

  1. 縮放規(guī)律的普適性:縮放規(guī)律在兩種輸入配置下都成立——無(wú)論是否將用戶提問作為輸入的一部分,視覺token數(shù)量與性能的關(guān)系都遵循類似的模式。
  2. 任務(wù)敏感性差異:不同任務(wù)對(duì)視覺token數(shù)量的敏感度不同:
  • 部分任務(wù)(如OCRBench、ChartQA、TextVQA)需要更精細(xì)的視覺信息,減少token會(huì)導(dǎo)致較為明顯的性能下降。一些任務(wù)(如ScienceQA TEST、MMStar、AI2D)對(duì)token數(shù)量變化相對(duì)不敏感。

用戶提問對(duì)縮放行為的影響

研究團(tuán)隊(duì)還分析了用戶提問對(duì)模型性能的影響?;谳斎肽J降慕y(tǒng)一表示,用戶提問的影響可以從兩個(gè)互補(bǔ)的角度分析:

  1. 幫助模型理解用戶意圖并聚焦于相關(guān)圖像區(qū)域(如”圖片左角有什么?“)
  2. 用戶的提問可以視為視覺相關(guān)token,相當(dāng)于偽擴(kuò)展視覺序列長(zhǎng)度

實(shí)驗(yàn)結(jié)果表明,當(dāng)用戶提問包含有意義的視覺相關(guān)信息時(shí),模型性能通常會(huì)得到提升;而當(dāng)問題缺乏視覺指向性時(shí)(如COCO VAL的”請(qǐng)描述這張圖片”),這種提升并不明顯。

 

圖:包含用戶提問的模型(Vision Question Queries)與不包含用戶提問的進(jìn)一步微調(diào)模型(Vision Queries (ft))的性能差異對(duì)比。綠色表示包含用戶提問的模型性能更優(yōu),橙色表示不包含用戶提問的模型性能更優(yōu)。

總結(jié)

本研究建立了視覺token數(shù)量與視覺語(yǔ)言模型性能之間的縮放關(guān)系理論分析,并在多個(gè)基準(zhǔn)上進(jìn)行了驗(yàn)證。研究的主要貢獻(xiàn)包括:

該論文由廣東工業(yè)大學(xué)自動(dòng)化學(xué)院周郭許教授團(tuán)隊(duì)牽頭,聯(lián)合日本理化學(xué)研究所(RIKEN)完成,第一作者為博士生李騰輝。(全文完)

學(xué)者網(wǎng)機(jī)構(gòu)號(hào)是學(xué)者網(wǎng)提供的學(xué)術(shù)"公眾號(hào)"平臺(tái),為學(xué)者團(tuán)隊(duì)、學(xué)術(shù)機(jī)構(gòu)、企業(yè)等提供官方媒體賬號(hào)服務(wù),支持發(fā)布動(dòng)態(tài)、活動(dòng)、通知與招生招聘信息等內(nèi)容,支持多人協(xié)作維護(hù),助力機(jī)構(gòu)鏈接學(xué)界資源、擴(kuò)大學(xué)術(shù)影響力。

立足灣區(qū),放眼全國(guó),我們希望能以專業(yè)的視角觀照社會(huì)科技發(fā)展前沿,以切中肯綮的見解為灣區(qū)科技創(chuàng)新做出自己的貢獻(xiàn),為灣區(qū)科技工作者、灣區(qū)科創(chuàng)企業(yè)、灣區(qū)科技發(fā)展趨勢(shì),注入磅礴不息的生機(jī)與活力。
返回頂部
泽州县| 濮阳县| 政和县| 图们市| 盘山县| 西乌| 津市市| 江门市| 察雅县| 龙山县| 西乌珠穆沁旗| 千阳县| 巴东县| 峨边| 宁津县| 青海省| 商水县| 瓮安县| 克山县| 麻栗坡县| 沅陵县| 温宿县| 壶关县| 英吉沙县| 高雄县| 敖汉旗| 阿城市| 连江县| 衡南县| 小金县| 南丹县| 兴业县| 乳源| 隆德县| 巴青县| 隆昌县| 扎鲁特旗| 无棣县| 白山市| 沙雅县| 甘孜县|