久久久国产精品视频袁燕,99re久久精品国产,亚洲欧美日韩国产综合v,天天躁夜夜躁狠狠久久,激情五月婷婷激情五月婷婷

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
Transformer代碼隨記
視頻分析與多模態(tài)融合之一,為什么需要多模態(tài)融合
WenLan 2.0:一種不依賴Object Detection的大規(guī)模圖文匹配預(yù)訓(xùn)練模型 & 數(shù)據(jù)+算力=大力出奇跡
圖文多模態(tài)語(yǔ)義融合前的語(yǔ)義對(duì)齊——一種單雙混合塔多模態(tài)模型
在多模態(tài)模型訓(xùn)練時(shí),如何合適地融合單模態(tài)損失
FILIP: 一種基于交互的細(xì)粒度圖文預(yù)訓(xùn)練模型
作者動(dòng)態(tài) 更多
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

在多模態(tài)模型訓(xùn)練時(shí),如何合適地融合單模態(tài)損失

假如一個(gè)多模態(tài)分類模型由M個(gè)模態(tài)信息組成(如RGB,光流,音頻,深度信息等等),每一個(gè)模態(tài)的輸入記為,每一個(gè)模態(tài)的特征提取網(wǎng)絡(luò)記為,其中,那么對(duì)于一個(gè)后融合(Late-fusion)[2]的多模態(tài)分類模型來說,如Fig1.1©所示,其后融合的多模態(tài)特征由拼接(concatenate)操作構(gòu)成,因此多模態(tài)特征表示為,其中? \bigoplus?表示拼接操作。最后將會(huì)用f m f_mf m? 進(jìn)行訓(xùn)練和分類。假設(shè)訓(xùn)練集為,其中 為第i個(gè)訓(xùn)練樣本而 為第i個(gè)訓(xùn)練樣本的標(biāo)簽,那么對(duì)于多模態(tài)分類而言,其損失為:

容易知道對(duì)于單模態(tài)分類而言,其損失為:

Fig 1.1 多模態(tài)聯(lián)合訓(xùn)練,采用后融合的方式進(jìn)行不同模態(tài)的信息融合。

從理想情況看,由于多模態(tài)特征是由各個(gè)模態(tài)的特征拼接而成的,通過訓(xùn)練學(xué)習(xí)出合適的分類器參數(shù) ,那么多模態(tài)損失(1-1)就可以崩塌到單模態(tài)損失(1-2),也就是說最壞情況下多模態(tài)訓(xùn)練得到的結(jié)果,都應(yīng)該要比單模態(tài)訓(xùn)練的要好。然而結(jié)果并不是如此,如Fig 1.2(a)所示,以在Kinetics上的結(jié)果為例,最好的單模態(tài)結(jié)果總是要顯著比多模態(tài)結(jié)果(Audio,RGB,Optical Flow三者的任意組合)要好。不僅如此,如Fig 1.2(b)所示,即便采用了一些流行的正則手段,也無法得到有效的效果提升。這不是偶然,[1]的作者認(rèn)為這是由于不同模態(tài)的信息陷入過擬合的節(jié)奏是不同的,而通過相同的訓(xùn)練策略對(duì)多模態(tài)特征進(jìn)行訓(xùn)練,可能對(duì)于整體而言并不能達(dá)到最優(yōu)的狀態(tài)。為此,對(duì)于多模態(tài)損失而言需要適當(dāng)?shù)剡M(jìn)行加權(quán),去適應(yīng)不同模態(tài)學(xué)習(xí)的節(jié)奏,假設(shè)權(quán)系數(shù)滿足,其中的k kk是第k kk個(gè)模態(tài),那么最終的損失為:

其中的模態(tài)表示的是拼接起來后的多模態(tài)特征,也即是式子(1-1)所示的損失。關(guān)鍵問題有兩個(gè):

這些模態(tài)均衡系數(shù)應(yīng)該怎么確定這些模態(tài)均衡系數(shù)是在線計(jì)算(動(dòng)態(tài)更新)還是離線計(jì)算(靜態(tài)計(jì)算后使用)顯然,均衡系數(shù)是一個(gè)超參數(shù),單純靠網(wǎng)格搜索或人工調(diào)參肯定不顯示,而且無法解決關(guān)鍵問題2,也即是動(dòng)態(tài)更新。因此作者提出了一種確定多模態(tài)均衡系數(shù)的方法。

ig 1.2 (a)多模態(tài)訓(xùn)練得到的模型總是比最優(yōu)的單模態(tài)訓(xùn)練模型更差;(b) 采用了一些常用的正則手段也無法獲得有效的效果提升。

首先需要定義出一個(gè)度量以衡量該模態(tài)的過擬合與泛化情況,如Fig 1.3所示,作者定義了一種綜合度量模型的過擬合與泛化情況的指標(biāo),其定義為過擬合程度與泛化程度的比值的絕對(duì)值,如式子(1-4)所示。其中 ,而 ,表示為訓(xùn)練損失和驗(yàn)證損失的差值,其可被認(rèn)為是過擬合大小,顯然該值越大,過擬合程度越大。而表示第N個(gè)epoch與第個(gè)epoch之間的過擬合程度差值。那怎么表示泛化能力呢?可以通過第N個(gè)epoch與第個(gè)epoch之間的驗(yàn)證損失的差值表示兩個(gè)checkpoint之間的泛化能力差值。也就是說可以將式子(1-4)認(rèn)為是兩個(gè)epoch的checkpoint之間的過擬合程度與泛化程度比值的差分。顯然我們希望OGR指標(biāo)越小越好。注意此處的 表示理想中的真實(shí)驗(yàn)證損失,通常會(huì)用有限的驗(yàn)證集損失去近似,表示為。后續(xù)我們都用 代替 。

顯然有

然而對(duì)于欠擬合的模型來說,可能? 足夠小也會(huì)導(dǎo)致OGR指標(biāo)也很小,但是這并沒有意義,因?yàn)槟P腿匀晃磳W(xué)習(xí)好。因此此處用無窮小量進(jìn)行衡量,也即是有:

當(dāng)然,由于此處的n nn有實(shí)際的模型含義(一個(gè)step),也就是說其實(shí)應(yīng)該是n → 1 n\rightarrow 1n→1,也就是只有1個(gè)step的參數(shù)更新。對(duì)此我們對(duì)損失進(jìn)行一階泰勒展開有:

結(jié)合(1-5)和(1-7)我們有:

因此有:

Fig 1.3 定義出OGR以描述該模態(tài)模型下的過擬合與泛化情況。

此時(shí)我們對(duì)每個(gè)模態(tài)的梯度? 進(jìn)行預(yù)估,這個(gè)預(yù)估通過各模態(tài)對(duì)應(yīng)的分類器梯度反向求導(dǎo)得到,表示為? ,當(dāng)滿足,其中時(shí),并且給定約束,我們的對(duì)求最小值以求得最佳的模態(tài)均衡參數(shù),表示為(1-10):

原文[1]中對(duì)其進(jìn)行了解析解的證明,這里就不展開了,其解析解如(1-11):

其中, 是標(biāo)準(zhǔn)化常數(shù)項(xiàng)。由此可計(jì)算出最佳的模態(tài)均衡系數(shù),回答了我們之前提出的第一個(gè)問題。

在實(shí)踐中,再?gòu)?qiáng)調(diào)下,正如一開始所說的,無法得到,因此通常會(huì)從訓(xùn)練集中劃出一部分V作為子集去驗(yàn)證,得到 ,用此去近似。此時(shí)我們可以正式去描述Gradient-Blending(GB)算法了,我們的數(shù)據(jù)集包括訓(xùn)練集T TT,訓(xùn)練集中劃出來的驗(yàn)證集V,k 個(gè)輸入模態(tài) 以及一個(gè)多模態(tài)拼接得到的特征 。對(duì)于GB算法來說,有兩種形式:

離線Gradient-Blending: 只計(jì)算一次模態(tài)均衡參數(shù),并且在以后的訓(xùn)練中都一直固定。在線Gradient-Blending: 將會(huì)定期(比如每n個(gè)epoch-也稱之為super epoch)更新,并且用新的模態(tài)均衡參數(shù)參與后續(xù)的訓(xùn)練。

Fig 1.4 Gradient-Blending用于模態(tài)均衡系數(shù)估計(jì);離線與在線Gradient-Blending。

離在線GB算法和GB估計(jì)模態(tài)均衡參數(shù)的算法見Fig 1.4,作者發(fā)現(xiàn)采用了GB估計(jì)模態(tài)均衡參數(shù)后,無論是離線還是在線的G-Blend結(jié)合了多模態(tài)分類模型訓(xùn)練后,效果都比單模態(tài)模型有著顯著的提升,并且離線效果僅僅比在線效果差一些,而在線G-Blend的計(jì)算代價(jià)遠(yuǎn)比離線高,因此后續(xù)的實(shí)驗(yàn)都是用離線G-Blend展開的。

Fig 1.8 (a)單模態(tài)之間有著更為細(xì)粒度的知識(shí);(b)在多模態(tài)訓(xùn)練中容易被『遺忘』。

Reference

[1]. Wang, W., Tran, D., & Feiszli, M. (2020). What makes training multi-modal classification networks hard?. In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition (pp. 12695-12705).

[2]. https://blog.csdn.net/LoseInVain/article/details/105545703, 《萬(wàn)字長(zhǎng)文漫談視頻理解》 by FesianXu

[3]. https://fesian.blog.csdn.net/article/details/120364242, 《圖文搜索系統(tǒng)中的多模態(tài)模型:將MoCo應(yīng)用在多模態(tài)對(duì)比學(xué)習(xí)上》 by FesianXu

[4]. https://fesian.blog.csdn.net/article/details/119516894, 《CLIP-對(duì)比圖文多模態(tài)預(yù)訓(xùn)練的讀后感》 by FesianXu

[5]. https://fesian.blog.csdn.net/article/details/121699533, 《WenLan 2.0:一種不依賴Object Detection的大規(guī)模圖文匹配預(yù)訓(xùn)練模型 & 數(shù)據(jù)+算力=大力出奇跡》 by FesianXu 

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請(qǐng)聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧