本文轉(zhuǎn)自徐飛翔的“在深度學(xué)習(xí)中,對于特征融合方式的思考——論pointwise addition和concatenate的異同”
版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。
Point-wise addition
逐個(gè)位相加,用數(shù)學(xué)表達(dá)為:現(xiàn)有特征向量,
,為了融合這兩個(gè)特征向量,直接進(jìn)行對應(yīng)元素的相加,既是
,
。進(jìn)行這個(gè)操作的前提當(dāng)然是這兩個(gè)向量的維度是相同的,如果是不同維度,則可以通過線性變換
轉(zhuǎn)換成同維向量,其中
。
Concatenate
向量拼接,則是一個(gè)更為通用的特征融合方法,數(shù)學(xué)表達(dá)為:現(xiàn)有特征向量 ,
,將其在同一個(gè)階[2]的進(jìn)行拼接,有融合特征向量
。拼接完后,經(jīng)??梢杂镁€性映射,轉(zhuǎn)換成
,進(jìn)行這一步的操作目的是能夠和前者point-wise addition的進(jìn)行同維度的比較。
兩者關(guān)聯(lián)與異同
前面介紹的兩種操作,其實(shí)是有聯(lián)系的,結(jié)論先拋出了,就是: 是
的特殊形式,前者可以用學(xué)習(xí)的方式,用后者表示出來,用另一種說法就是,
是
加了一定先驗(yàn)假設(shè)的結(jié)果。為什么這樣說呢?我們先觀察一種情況:
比較兩種特征融合的方式,并且進(jìn)行線性映射后的結(jié)果,有:
這個(gè)時(shí)候我們可以發(fā)現(xiàn),通過學(xué)習(xí)過程中的自動參數(shù)調(diào)整,在的情況下,總是有辦法表達(dá)成
中的結(jié)果的,原因就是可以通過設(shè)置
情形下的
的某些值相同,還是舉原來的具體例子說明:
,此時(shí)只需要
,就可以表達(dá)成和
完全一樣的結(jié)果,讀者可以自行驗(yàn)證。
就結(jié)論而言,因?yàn)?span>情況下參數(shù)量完全足以
住
的,因此通過學(xué)習(xí)過程,完全是可以進(jìn)行表達(dá)的,因此后者是前者的特殊形式,是添加了先驗(yàn)知識的特征融合方法。
那么,這個(gè)先驗(yàn)知識是什么呢?筆者認(rèn)為因?yàn)?span>是在相同維度的特征空間中進(jìn)行的,相加代表特征向量的平移,因此這個(gè)先驗(yàn)知識可能是假設(shè)這兩類特征具有相似性,比如模態(tài)比較接近,性質(zhì)比較相同的特征。當(dāng)然這個(gè)只是筆者猜測,并無文獻(xiàn)參考,歡迎各位斧正,謝謝。
Update 2019/10/26:評論區(qū)有朋友問:
“point-wise addition 是 concatenate的特殊形式”的結(jié)果似乎只在均將融合后的特征線性映射成標(biāo)量后才成立,但是這兩種融合方法之后不一定要經(jīng)過這種處理吧?而且,這種線性映射會減少大量信息,似乎不甚合理?
我覺得這個(gè)問題其實(shí)是不成立的,因?yàn)樵睦锩媾e的例子是映射成為標(biāo)量只是為了舉例方便而已,實(shí)際上,映射成其他高維矢量也是沒問題的,比如說:在Pointwise addition的情況:
在的情況中,我們有:
那么如果需要退化到的情況的話,我們的
可以為:
因?yàn)槲覀冇邪藗€(gè)未知量,而只有兩個(gè)方程,因此這是個(gè)病態(tài)問題,其實(shí)我們有多組解的,不管怎么樣,我們總是可以用concatenate去退化到addition的情況的,不管是映射到標(biāo)量還是矢量。
Reference
[1]. Li K, Zou C, Bu S, et al. Multi-modal feature fusion for geographic image annotation[J]. Pattern Recognition, 2018, 73: 1-14.
[2]. https://blog.csdn.net/dcrmg/article/details/79017146