學(xué)者網(wǎng)訊（編輯/劉秀）大語(yǔ)言模型的縮放定律已經(jīng)得到了廣泛驗(yàn)證：隨著參數(shù)規(guī)模和訓(xùn)練數(shù)據(jù)的增加，模型性能呈現(xiàn)可預(yù)測(cè)的冪律增長(zhǎng)。在token空間也有類似的規(guī)模定律現(xiàn)象。例如，通過擴(kuò)展詞表、使用n-gram或Engram等方式可以提升預(yù)訓(xùn)練模型的性能。那么在視覺語(yǔ)言模型中，視覺token的數(shù)量是否也存在類似的縮放行為？

廣東工業(yè)大學(xué)自動(dòng)化學(xué)院研究團(tuán)隊(duì)在JMLR上發(fā)表了一項(xiàng)研究，系統(tǒng)地建立了視覺token數(shù)量與視覺語(yǔ)言模型性能之間的數(shù)學(xué)框架，揭示了視覺token空間的縮放規(guī)律。

該研究表明，視覺token數(shù)量與模型性能遵循可預(yù)測(cè)的數(shù)學(xué)關(guān)系，類似于語(yǔ)言模型中參數(shù)和訓(xùn)練數(shù)據(jù)的縮放行為。這一發(fā)現(xiàn)為視覺語(yǔ)言模型的設(shè)計(jì)和優(yōu)化提供思路。

目前，該論文已被接收，代碼已開源。

論文地址：https://jmlr.org/papers/v26/24-2243.html
代碼鏈接：https://github.com/tenghuilee/ScalingCapFusedVisionLM.git
模型權(quán)重：https://modelscope.cn/models/LiTenghui/scalingcapabilitytokenspace

研究背景：視覺token的權(quán)衡

視覺語(yǔ)言模型通常將圖像編碼為數(shù)十到數(shù)千個(gè)視覺token，然后與文本token拼接后輸入Transformer進(jìn)行處理。視覺token的數(shù)量面臨一個(gè)經(jīng)典的權(quán)衡：

token過少：無(wú)法捕捉足夠的圖像細(xì)節(jié)，導(dǎo)致信息丟失，影響任務(wù)性能
token過多：雖然能捕捉更豐富的視覺信息，但時(shí)間、空間復(fù)雜度會(huì)隨著token數(shù)量快速增長(zhǎng)

例如，CLIP ViT-L/14 從 224×224 的圖像產(chǎn)生 256 個(gè)token，而高分辨率模型如 InternLM-XComposer2-4KHD 可以為 4K 圖像生成多達(dá) 2377 個(gè)token，這帶來(lái)了巨大的計(jì)算成本。

那么，視覺token數(shù)量與模型性能之間究竟存在怎樣的數(shù)學(xué)關(guān)系？這就是本研究要回答的核心問題。

核心思路：用”距離”衡量模型判別能力

研究團(tuán)隊(duì)并沒有直接測(cè)量模型在特定任務(wù)上的性能，而是提出了一個(gè)更通用的分析框架：通過測(cè)量模型在處理兩個(gè)不同輸入序列時(shí)隱藏狀態(tài)的表示距離，來(lái)量化模型的判別能力。

為什么用”距離”作為代理指標(biāo)？

這一方法基于自回歸模型的一個(gè)基本性質(zhì)：在確定性生成設(shè)置下（如貪婪解碼），相同的輸入會(huì)產(chǎn)生相同的輸出。因此，可以通過觀察模型對(duì)系統(tǒng)變化的輸入的響應(yīng)，來(lái)分析其判別能力。

直觀地說(shuō)： - 當(dāng)兩個(gè)分支序列之間的距離較小時(shí)，模型難以區(qū)分它們，導(dǎo)致預(yù)測(cè)模糊，性能降低 - 當(dāng)距離較大時(shí)，模型可以可靠地區(qū)分輸入，產(chǎn)生準(zhǔn)確的響應(yīng)，性能更好

輸入模式的統(tǒng)一表示

為了系統(tǒng)性地簡(jiǎn)化分析，研究團(tuán)隊(duì)首先將視覺語(yǔ)言模型的輸入模式統(tǒng)一表示為：

其中：

視覺無(wú)關(guān)token：在所有輸入變化中保持恒定的文本內(nèi)容（如”請(qǐng)描述這張圖片”）
視覺相關(guān)token：包含與視覺內(nèi)容直接相關(guān)的文本和視覺token

這種分解的考量是，文本內(nèi)容可能含有視覺相關(guān)的指示，從而間接提供視覺信息。

具體樣例：

假設(shè)有兩個(gè)問題： 1. “請(qǐng)描述這張圖片” 2. “請(qǐng)描述這張圖片中間白色的物品”

第一個(gè)問題沒有含有任何目標(biāo)圖片的具體內(nèi)容，屬于純粹的指令性文本；而第二個(gè)問題則明確指示了位置（“中間”）和顏色信息（“白色”）。這些額外的信息能幫助模型更好地理解圖片內(nèi)容，從而影響模型性能。

再舉一個(gè)視覺問答的例子：

問題A：“圖片中有什么動(dòng)物？”
問題B：“圖片左下角的那個(gè)動(dòng)物是什么？”

問題B通過”左下角”這個(gè)位置指示，縮小了模型需要關(guān)注的視覺區(qū)域，優(yōu)化了模型的搜索范圍，可能提高回答的準(zhǔn)確性。

這些文本中的視覺相關(guān)指示，實(shí)際上起到了偽擴(kuò)展視覺序列長(zhǎng)度的作用，相當(dāng)于間接增加了與視覺內(nèi)容相關(guān)的信息。

分支距離的定義

考慮兩個(gè)輸入序列，它們共享相同的前綴 token，但在視覺相關(guān)部分有所不同：

研究團(tuán)隊(duì)使用隱藏狀態(tài)差累積和 Frobenius 范數(shù)表示分支的距離：

具體樣例：

假設(shè)有一個(gè)視覺問答場(chǎng)景，共享前綴是“圖片中有什么動(dòng)物？”

幾何解釋：

理論分析：兩種縮放機(jī)制

基于上述定義，研究團(tuán)隊(duì)對(duì)距離的期望進(jìn)行了深入的理論分析，揭示了視覺token縮放的兩種機(jī)制。

期望距離的上界

兩種縮放機(jī)制

這一期望邊界呈現(xiàn)兩種不同的縮放機(jī)制，反映了模型在處理不同數(shù)量視覺token時(shí)的行為變化：

與性能的關(guān)聯(lián)

基于上述分析，模型性能與該期望之間存在關(guān)聯(lián)：

縮放指數(shù)的具體形式

關(guān)鍵參數(shù)的影響

實(shí)驗(yàn)驗(yàn)證：可控視覺token模型架構(gòu)

為了驗(yàn)證理論預(yù)測(cè)，研究團(tuán)隊(duì)設(shè)計(jì)了一個(gè)特定的視覺語(yǔ)言模型架構(gòu)，該架構(gòu)可以靈活調(diào)整視覺token數(shù)量。

模型架構(gòu)設(shè)計(jì)

遵循LLAVA格式的視覺語(yǔ)言模型架構(gòu)設(shè)計(jì)，該模型基于視覺編碼器作為視覺token生成器和大語(yǔ)言模型作為基座。為了驗(yàn)證縮放關(guān)系，設(shè)計(jì)了滿足以下三個(gè)關(guān)鍵架構(gòu)需求的模型：

圖：為驗(yàn)證理論發(fā)現(xiàn)而設(shè)計(jì)的視覺語(yǔ)言模型架構(gòu)，該架構(gòu)可以調(diào)整視覺token數(shù)量以進(jìn)行系統(tǒng)性實(shí)驗(yàn)

訓(xùn)練策略：

大語(yǔ)言模型保持凍結(jié)
視覺編碼器、融合模塊和投影層在微調(diào)階段更新 - 這種方法隔離了視覺token縮放的影響

視覺token數(shù)量控制：通過 Learnable Queries（特殊的占位，用于學(xué)習(xí)選擇視覺token），可以靈活調(diào)整視覺token的數(shù)量。

實(shí)驗(yàn)設(shè)置

研究團(tuán)隊(duì)采用了兩階段訓(xùn)練方法以隔離視覺token縮放的影響：

使用標(biāo)準(zhǔn)化評(píng)估工具（VLMEvalKit），測(cè)試的基準(zhǔn)涵蓋了多個(gè)任務(wù)領(lǐng)域：多模態(tài)理解（MME、HallusionBench、POPE）、圖像描述（COCO VAL的BLEU-1/4、ROUGE-L、CIDEr指標(biāo)）以及視覺問答（OCRBench、AI2D、RealWorldQA、MMStar、SEEDBench、SEEDBench2、SEEDBench2 Plus、ScienceQA、OCRVQA、ChartQA、TextVQA）。

實(shí)驗(yàn)結(jié)果：縮放定律的驗(yàn)證

縮放分析

研究團(tuán)隊(duì)對(duì)兩種不同輸入配置的模型進(jìn)行了縮放行為分析：一種是不包含用戶提問作為輸入的進(jìn)一步微調(diào)模型，另一種是包含用戶提問作為輸入的模型。

主要觀察

縮放規(guī)律的普適性：縮放規(guī)律在兩種輸入配置下都成立——無(wú)論是否將用戶提問作為輸入的一部分，視覺token數(shù)量與性能的關(guān)系都遵循類似的模式。
任務(wù)敏感性差異：不同任務(wù)對(duì)視覺token數(shù)量的敏感度不同：

部分任務(wù)（如OCRBench、ChartQA、TextVQA）需要更精細(xì)的視覺信息，減少token會(huì)導(dǎo)致較為明顯的性能下降。一些任務(wù)（如ScienceQA TEST、MMStar、AI2D）對(duì)token數(shù)量變化相對(duì)不敏感。

用戶提問對(duì)縮放行為的影響

研究團(tuán)隊(duì)還分析了用戶提問對(duì)模型性能的影響?；谳斎肽Ｊ降慕y(tǒng)一表示，用戶提問的影響可以從兩個(gè)互補(bǔ)的角度分析：

幫助模型理解用戶意圖并聚焦于相關(guān)圖像區(qū)域（如”圖片左角有什么？“）
用戶的提問可以視為視覺相關(guān)token，相當(dāng)于偽擴(kuò)展視覺序列長(zhǎng)度

實(shí)驗(yàn)結(jié)果表明，當(dāng)用戶提問包含有意義的視覺相關(guān)信息時(shí)，模型性能通常會(huì)得到提升；而當(dāng)問題缺乏視覺指向性時(shí)（如COCO VAL的”請(qǐng)描述這張圖片”），這種提升并不明顯。

圖：包含用戶提問的模型（Vision Question Queries）與不包含用戶提問的進(jìn)一步微調(diào)模型（Vision Queries (ft)）的性能差異對(duì)比。綠色表示包含用戶提問的模型性能更優(yōu)，橙色表示不包含用戶提問的模型性能更優(yōu)。

總結(jié)

本研究建立了視覺token數(shù)量與視覺語(yǔ)言模型性能之間的縮放關(guān)系理論分析，并在多個(gè)基準(zhǔn)上進(jìn)行了驗(yàn)證。研究的主要貢獻(xiàn)包括：

該論文由廣東工業(yè)大學(xué)自動(dòng)化學(xué)院周郭許教授團(tuán)隊(duì)牽頭，聯(lián)合日本理化學(xué)研究所（RIKEN）完成，第一作者為博士生李騰輝。（全文完）

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

Token空間的縮放能力：視覺語(yǔ)言模型中視覺token的縮放行為分析

研究背景：視覺token的權(quán)衡

核心思路：用”距離”衡量模型判別能力

為什么用”距離”作為代理指標(biāo)？

輸入模式的統(tǒng)一表示

分支距離的定義

期望距離的上界

兩種縮放機(jī)制

實(shí)驗(yàn)驗(yàn)證：可控視覺token模型架構(gòu)

模型架構(gòu)設(shè)計(jì)

實(shí)驗(yàn)結(jié)果：縮放定律的驗(yàn)證

縮放分析

總結(jié)

評(píng)論 0

近期熱門新聞

下一篇

麻豆精品无码av,欧美1区2区,久久中文字幕乱码人妻,亚洲欧美另类少妇精品,在线看黄射,69pao高清,九九九久久久国产精品,子操大逼1234区,九九爱99热精品

Token空間的縮放能力：視覺語(yǔ)言模型中視覺token的縮放行為分析

研究背景：視覺token的權(quán)衡

核心思路：用”距離”衡量模型判別能力

為什么用”距離”作為代理指標(biāo)？

輸入模式的統(tǒng)一表示

分支距離的定義

期望距離的上界

兩種縮放機(jī)制

實(shí)驗(yàn)驗(yàn)證：可控視覺token模型架構(gòu)

模型架構(gòu)設(shè)計(jì)

實(shí)驗(yàn)結(jié)果：縮放定律的驗(yàn)證

縮放分析

總結(jié)

評(píng)論 0

近期熱門新聞

下一篇

為什么用”距離”作為代理指標(biāo)？