久久久国产精品视频袁燕,99re久久精品国产,亚洲欧美日韩国产综合v,天天躁夜夜躁狠狠久久,激情五月婷婷激情五月婷婷

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
數(shù)據(jù),模型,算法共同決定深度學(xué)習(xí)模型效果
一文理解Ranking Loss/Contrastive Loss/Margin Loss/Triplet Loss/Hinge Loss
參數(shù)和非參數(shù)模型——當(dāng)談到參數(shù)我在說些什么?
在深度學(xué)習(xí)中,對于特征融合方式的思考——論pointwise addition和concatenate的異同
損失函數(shù)的可視化——淺論模型的參數(shù)空間與正則
曲線擬合問題與L2正則
作者動態(tài) 更多
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

數(shù)據(jù),模型,算法共同決定深度學(xué)習(xí)模型效果

本文轉(zhuǎn)自徐飛翔的“數(shù)據(jù),模型,算法共同決定深度學(xué)習(xí)模型效果

版權(quán)聲明:本文為博主原創(chuàng)文章,遵循 CC 4.0 BY-SA 版權(quán)協(xié)議,轉(zhuǎn)載請附上原文出處鏈接和本聲明。

在文獻(xiàn)[1]中對few-shot learning進(jìn)行了很好地總結(jié),其中提到了一個(gè)比較有意思的觀點(diǎn),這里和大家分享下。先拋開few-shot learning的概念,我們先從幾個(gè)基本的機(jī)器學(xué)習(xí)的概念進(jìn)行分析。

期望風(fēng)險(xiǎn)最小化(expected risk minimization): 假設(shè)數(shù)據(jù)分布已知,其中是特征, 是標(biāo)簽,在給定了特定損失函數(shù) 的情況下,對于某個(gè)模型假設(shè),我們期望機(jī)器學(xué)習(xí)算法能夠最小化其期望風(fēng)險(xiǎn),期望風(fēng)險(xiǎn)定義為:

假如模型的參數(shù)集合為,那么我們的目標(biāo)是:

經(jīng)驗(yàn)風(fēng)險(xiǎn)最小化(empirical risk minimization): 實(shí)際上,數(shù)據(jù)分布通常不可知,那么我們就不能對其進(jìn)行積分了,我們一般對該分布進(jìn)行采樣,得到若干個(gè)具有標(biāo)簽的樣本,我們將其數(shù)量記為,那么我們用采樣結(jié)果對這個(gè)分布進(jìn)行近似,因此,我們追求最小化經(jīng)驗(yàn)風(fēng)險(xiǎn),這里的經(jīng)驗(yàn)(experience)的意思也就是指的是采樣得到的數(shù)據(jù)集:

此處的經(jīng)驗(yàn)風(fēng)險(xiǎn)(3)就可以近似期望風(fēng)險(xiǎn)(1)的近似進(jìn)行最小化了(當(dāng)然,在實(shí)踐中通常需要加上正則項(xiàng))。

我們進(jìn)行以下三種表示:

其中(4)表示最小化期望風(fēng)險(xiǎn)得到的理論上最優(yōu)的假設(shè),(5)表示在指定的假設(shè)空間 中最小化期望風(fēng)險(xiǎn)得到的約束最優(yōu)假設(shè),(6)表示在指定的數(shù)據(jù)量為的數(shù)據(jù)集上進(jìn)行優(yōu)化,并且在指定的假設(shè)空間 下最小化經(jīng)驗(yàn)風(fēng)險(xiǎn)得到的最優(yōu)假設(shè)?。

因?yàn)槲覀儧]辦法知道,因此我們沒辦法求得 ,那么作為近似, 是在假定了特定假設(shè)空間時(shí)候的近似,而 是在特定的數(shù)據(jù)集和特定假設(shè)空間里面的近似。進(jìn)行簡單的代數(shù)變換,我們有(7):

其中用 。表征了在期望損失下,在給定的假設(shè)空間下的最優(yōu)假設(shè) 能多接近最佳假設(shè)。而 表示了在給定假設(shè)空間下,對經(jīng)驗(yàn)風(fēng)險(xiǎn)進(jìn)行優(yōu)化,而不是對期望風(fēng)險(xiǎn)進(jìn)行優(yōu)化造成的影響。不失特別的,我們用?表示整個(gè)訓(xùn)練集,有 。

我們不難發(fā)現(xiàn),整個(gè)深度模型算法的效果,最后取決于假設(shè)空間和訓(xùn)練集中數(shù)據(jù)量 。換句話說,為了減少總損失,我們可以從以下幾種角度進(jìn)行考慮:

    數(shù)據(jù),也就是

    模型,其決定了假設(shè)空間

    算法,如何在指定的假設(shè)空間 中去搜索最佳假設(shè)以擬合 ?。

通常來說,如果 ?數(shù)據(jù)量很大,那么我們就有充足的監(jiān)督信息,在指定的假設(shè)空間 中,最小化 得到的就可以提供對 的一個(gè)良好近似。然而,在few-shot learning (FSL)中,某些類別的樣本數(shù)特別少,不足以支撐起對良好假設(shè)的一個(gè)近似。其經(jīng)驗(yàn)風(fēng)險(xiǎn)項(xiàng) 和期望風(fēng)險(xiǎn)項(xiàng)可能有著很大的距離,從而導(dǎo)致假設(shè)?過擬合。事實(shí)上,這個(gè)是在FSL中的核心問題,即是 經(jīng)驗(yàn)風(fēng)險(xiǎn)最小假設(shè) 變得不再可靠。整個(gè)過程如Fig 1所示,左圖有著充足的樣本,因此其經(jīng)驗(yàn)風(fēng)險(xiǎn)最小假設(shè)相當(dāng)接近,在 設(shè)計(jì)合理的情況下,可以更好地近似。而右圖則不同,都比較遠(yuǎn),跟別說和 了。

Fig 1. 樣本充足和樣本缺乏,在學(xué)習(xí)過程中結(jié)果的示意圖。

為了解決在數(shù)據(jù)量缺少的情況下的不可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)問題,也就是FSL問題,我們必須要引入先驗(yàn)知識,考慮到從數(shù)據(jù),模型,算法這三個(gè)角度分別引入先驗(yàn)知識,現(xiàn)有的FSL工作可以被分為以下幾種:

數(shù)據(jù)。在這類型方法中,我們利用先驗(yàn)知識去對 ?進(jìn)行數(shù)據(jù)增廣(data augment),從數(shù)據(jù)量提高到,通常> I" />。隨后標(biāo)準(zhǔn)的機(jī)器學(xué)習(xí)算法就可以在已經(jīng)增廣過后的數(shù)據(jù)集上進(jìn)行。因此,我們可以得到更為精確的假設(shè) ?。如Fig 2 (a)所示。模型。這類型方法通過先驗(yàn)知識去約束了假設(shè)空間  的復(fù)雜度,得到了各位窄小的假設(shè)空間 。如Fig 2 (b) 所示?;疑珔^(qū)域已經(jīng)通過先驗(yàn)知識給排除掉了,因此模型不會考慮往這些方向進(jìn)行更新,因此,往往需要更少的數(shù)據(jù)就可以達(dá)到更為可靠的經(jīng)驗(yàn)風(fēng)險(xiǎn)假設(shè)。    算法。這類型的方法考慮使用先驗(yàn)知識,指導(dǎo)如何對 進(jìn)行搜索。先驗(yàn)知識可以通過提供一個(gè)好的參數(shù)初始化,或者指導(dǎo)參數(shù)的更新步,進(jìn)而影響參數(shù)搜索策略。對于后者來說,其導(dǎo)致的搜索更新步由先驗(yàn)知識和經(jīng)驗(yàn)風(fēng)險(xiǎn)最小項(xiàng)共同決定。

Fig 2. 分別從數(shù)據(jù),模型和算法三個(gè)角度去引入先驗(yàn)知識。

Reference

[1]. Wang Y, Yao Q, Kwok J, et al. Generalizing from a few examples: A survey on few-shot learning[M]//arXiv: 1904.05046. 2019.

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 4
收藏 3
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
  • dy-J4n9lg5Q 2021-05-19 13:29
    對我很有幫助
    回復(fù)