獎(jiǎng)勵(lì)劫持問(wèn)題
在大語(yǔ)言模型(Large Language Model, LLM)中,存在所謂的尺度擴(kuò)展規(guī)律(Scaling Laws) [2],如Fig 1所示,即是:
LLM的性能會(huì)隨著模型的參數(shù)量、模型的訓(xùn)練量、模型的訓(xùn)練數(shù)據(jù)量的增加而增加
Fig 1. 大模型中的尺度擴(kuò)展規(guī)律,測(cè)試集損失隨著模型訓(xùn)練量、訓(xùn)練集數(shù)據(jù)量、模型參數(shù)量的增加而遞減(即是模型性能遞增)。
眾所周知,獎(jiǎng)勵(lì)模型(Reward Model,RM)是LLM的訓(xùn)練管道 【一個(gè)典型的LLM訓(xùn)練管道包含有:預(yù)訓(xùn)練(Pretrain)、行為克隆(SFT)、人類偏好對(duì)齊(Preference Alignment)等幾個(gè)過(guò)程,其中的人類偏好對(duì)齊部分,通常會(huì)采用獎(jiǎng)勵(lì)模型進(jìn)行偏好打分,從LLM的輸出采樣中選取最符合人類偏好的樣本。】 中一個(gè)重要部件,其可對(duì)LLM的輸出進(jìn)行偏好打分(Preference Score),也可以視為是對(duì)LLM的輸出進(jìn)行質(zhì)量打分。然而獎(jiǎng)勵(lì)模型會(huì)遇到所謂獎(jiǎng)勵(lì)劫持(Reward Hacking)的問(wèn)題,即是獎(jiǎng)勵(lì)模型被樣本的其他無(wú)關(guān)/弱相關(guān)特征所劫持,其打分不能再正確建模LLM的輸出質(zhì)量,最常見(jiàn)的就是獎(jiǎng)勵(lì)模型容易認(rèn)為L(zhǎng)LM輸出越長(zhǎng)質(zhì)量就越高(被稱之為長(zhǎng)度偏置,通常來(lái)自于獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)中,邏輯性越好、解釋越完整的樣本,其長(zhǎng)度傾向于越長(zhǎng);但是反之不成立,長(zhǎng)度越長(zhǎng)的樣本不一定是質(zhì)量越好的)。獎(jiǎng)勵(lì)劫持將會(huì)使得獎(jiǎng)勵(lì)模型無(wú)法持續(xù)從LLM的輸出采樣中挑選更好的樣本,從而影響LLM的進(jìn)一步優(yōu)化。
從結(jié)果上看,導(dǎo)致獎(jiǎng)勵(lì)劫持的原因是對(duì)獎(jiǎng)勵(lì)模型的過(guò)度優(yōu)化(Overoptimization),即優(yōu)化獎(jiǎng)勵(lì)模型的值過(guò)高時(shí),反而會(huì)阻礙真實(shí)目標(biāo)的性能提升。此處有一個(gè)術(shù)語(yǔ)描述這個(gè)現(xiàn)象,稱之為古德哈特現(xiàn)象(Goodhart's Law),他是一個(gè)在經(jīng)濟(jì)學(xué)、社會(huì)學(xué)、管理學(xué)以及人工智能等領(lǐng)域廣泛討論的現(xiàn)象,它描述了當(dāng)一個(gè)指標(biāo)被用作目標(biāo)進(jìn)行優(yōu)化時(shí),該指標(biāo)的有效性可能會(huì)因?yàn)檫^(guò)度優(yōu)化而降低,甚至導(dǎo)致與原始目標(biāo)背離的情況。(原文:When a measure becomes a target, it ceases to be a good measure.)
對(duì)其的改進(jìn)方向是多樣的,比如訓(xùn)練數(shù)據(jù)的多樣性、獎(jiǎng)勵(lì)模型的參數(shù)量、獎(jiǎng)勵(lì)模型的訓(xùn)練量等,在這篇論文中,作者正是去研究獎(jiǎng)勵(lì)模型的尺度擴(kuò)展規(guī)律,以及不同實(shí)驗(yàn)設(shè)置下對(duì)緩解獎(jiǎng)勵(lì)模型過(guò)度優(yōu)化的幫助。
尺度擴(kuò)展包含了訓(xùn)練數(shù)據(jù)量、模型參數(shù)量、模型訓(xùn)練量三個(gè)維度,后兩者可以自然擴(kuò)展,但是獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)來(lái)自于人類標(biāo)注,擴(kuò)展訓(xùn)練數(shù)據(jù)將會(huì)帶來(lái)巨大的標(biāo)注代價(jià),因此本文作者采用生成數(shù)據(jù)作為代理獎(jiǎng)勵(lì)模型的訓(xùn)練數(shù)據(jù)。整個(gè)流程如Fig 2.所示,常規(guī)的代理獎(jiǎng)勵(lì)模型(Proxy Reward Model) 【之所以稱之為代理獎(jiǎng)勵(lì)模型,是因?yàn)闃?biāo)注的訓(xùn)練數(shù)據(jù)總是有限的,因此訓(xùn)練出來(lái)的獎(jiǎng)勵(lì)模型其實(shí)是真實(shí)的獎(jiǎng)勵(lì)模型的一個(gè)『代理』?!?是由人類標(biāo)注員標(biāo)注的偏好數(shù)據(jù)進(jìn)行訓(xùn)練的,而本文采用的方法則是:
- 首先采用人類標(biāo)注數(shù)據(jù),訓(xùn)練一個(gè)6B大小的獎(jiǎng)勵(lì)模型,這個(gè)模型被稱之為『標(biāo)準(zhǔn)獎(jiǎng)勵(lì)模型(Gold Reward Model)』,后面的所有實(shí)驗(yàn)中,都會(huì)認(rèn)為標(biāo)準(zhǔn)獎(jiǎng)勵(lì)模型的打分是真實(shí)值 【通常這類型模型在一些工作中也會(huì)被稱之為『Oracle』,也就是『先知』?!?,文章中稱之為『標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分(gold reward model score)』,這用來(lái)評(píng)估不同實(shí)驗(yàn)設(shè)置下的代理獎(jiǎng)勵(lì)模型的效果。
- 將標(biāo)準(zhǔn)獎(jiǎng)勵(lì)模型對(duì)一批無(wú)標(biāo)注的數(shù)據(jù)進(jìn)行打標(biāo),然后用打標(biāo)后的數(shù)據(jù)進(jìn)行代理獎(jiǎng)勵(lì)模型的訓(xùn)練,代理獎(jiǎng)勵(lì)模型的參數(shù)量從3M到3B。在本工作中,作者生成了100K個(gè)樣本,保留了10%作為驗(yàn)證集合用于計(jì)算RM的驗(yàn)證損失。
Fig 2. 真實(shí) vs 合成獎(jiǎng)勵(lì)模型訓(xùn)練設(shè)置的示意圖。人類標(biāo)注者生成比較數(shù)據(jù)。在真實(shí)的人類反饋強(qiáng)化學(xué)習(xí)(RLHF)設(shè)置中,這些數(shù)據(jù)被用來(lái)訓(xùn)練一個(gè)代理獎(jiǎng)勵(lì)模型,該模型通過(guò)強(qiáng)化學(xué)習(xí)(RL)或最佳選擇采樣(BoN)進(jìn)行優(yōu)化。而在我們的合成設(shè)置中,我們則使用一個(gè)『標(biāo)準(zhǔn)獎(jiǎng)勵(lì)模型(Gold RM)』作為我們的真實(shí)標(biāo)準(zhǔn)。
用R表示標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分,KL:=DKL(π||πinit)表示優(yōu)化后策略模型π與初始策略模型πinit的KL距離(作者用當(dāng)前策略距離初始策略的KL距離表示策略模型的優(yōu)化情況),定義d:=DKL(π||πinit),注意到對(duì)于Best-of-N(BoN)方式而言,其KL距離存在解析解 [3],如公式(1-1)所示,其中的n為BoN采樣數(shù)量。
(1-1)KLbon=log?n−n−1n
作者在做了眾多試驗(yàn)后,得出了一個(gè)經(jīng)驗(yàn)公式,如(1-2)所示,其中的αbon,βbon,αRL,βRL為公式參數(shù),通過(guò)實(shí)驗(yàn)擬合得出(受到代理RM模型參數(shù)量、代理RM模型的訓(xùn)練數(shù)據(jù)量等等因素決定),定義當(dāng)d=0時(shí)候?yàn)?span data-eeimg="1" data-tex="R(0):=0">R(0):=0。
)(1-2)Rbon(d)=d(αbon−βbond)RRL(d)=d(αRL−βRLlog?d)
從這個(gè)公式中不難發(fā)現(xiàn)這個(gè)曲線是一個(gè)隨著KL距離增加,開(kāi)口朝下的二次曲線,這意味著隨著代理獎(jiǎng)勵(lì)模型優(yōu)化的進(jìn)行,標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分會(huì)先增加,意味著此時(shí)代理獎(jiǎng)勵(lì)模型還未遇到過(guò)度優(yōu)化。到達(dá)一定程度后,標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分開(kāi)始下降,意味著代理獎(jiǎng)勵(lì)模型開(kāi)始過(guò)度優(yōu)化。
獎(jiǎng)勵(lì)模型參數(shù)量維度的尺度擴(kuò)展
Fig 3. 策略模型的參數(shù)量保持不變(1.2B參數(shù)),而獎(jiǎng)勵(lì)模型的規(guī)模則有所變化。圖表的x軸采用平方根刻度。請(qǐng)注意,這些圖表的x軸是不同的。標(biāo)準(zhǔn)獎(jiǎng)勵(lì)代表了真實(shí)獎(jiǎng)勵(lì);觀察到,當(dāng)我們針對(duì)標(biāo)準(zhǔn)獎(jiǎng)勵(lì)的已學(xué)習(xí)代理進(jìn)行優(yōu)化時(shí),標(biāo)準(zhǔn)獎(jiǎng)勵(lì)最初會(huì)增加,隨后則會(huì)減少。公式(1-2)提煉的函數(shù)形式能夠很好地?cái)M合這一效應(yīng)(Gold Fit曲線)。
我們看到實(shí)際的試驗(yàn)曲線情況,如Fig 3.所示,這些是在90K合成訓(xùn)練數(shù)據(jù)下訓(xùn)練代理獎(jiǎng)勵(lì)模型(策略模型參數(shù)量固定在1.2B)的結(jié)果,分別采用了BoN訓(xùn)練方案和RL訓(xùn)練方案,橫坐標(biāo)是優(yōu)化策略模型和初始策略模型的KL距離(表示優(yōu)化程度),縱坐標(biāo)是RM打分。關(guān)注到:
- 深色實(shí)線表示標(biāo)準(zhǔn)獎(jiǎng)勵(lì)模型的打分,這也是公式(1-2)所建模的,而對(duì)應(yīng)顏色的淺色實(shí)線就是根據(jù)公式(1-2)的擬合曲線,能發(fā)現(xiàn)能很好地?cái)M合實(shí)際實(shí)驗(yàn)的結(jié)果。
- 標(biāo)準(zhǔn)獎(jiǎng)勵(lì)模型能到達(dá)的頂峰值隨著代理獎(jiǎng)勵(lì)模型的參數(shù)量提升而提升,存在參數(shù)量的尺度擴(kuò)展效應(yīng)。
- 如虛線所示,代理獎(jiǎng)勵(lì)打分是線性增加(BoN)或者對(duì)數(shù)增加的(RL),這表面對(duì)于代理獎(jiǎng)勵(lì)模型而言,是隨著優(yōu)化的進(jìn)行,其模型效果是變得更好的。但是我們知道標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分是到一定程度后會(huì)下降的,這個(gè)差值可以認(rèn)為是代理獎(jiǎng)勵(lì)模型過(guò)度優(yōu)化而帶來(lái)的獎(jiǎng)勵(lì)劫持程度。不難發(fā)現(xiàn),獎(jiǎng)勵(lì)劫持的程度是隨著優(yōu)化程度逐漸變大的。
在不同代理獎(jiǎng)勵(lì)模型參數(shù)量下,從公式(1-2)中解算出的αbon,βbon和βRL(從Fig 3中不難發(fā)現(xiàn),我們有一系列KL-RM score數(shù)據(jù)點(diǎn),可以采用最小二乘法等方法解算出這些參數(shù)),這些參數(shù)的曲線圖如Fig 4所示,其中的αRL是設(shè)置為了一個(gè)常數(shù)。從圖中能看出,這些待定參數(shù)和代理獎(jiǎng)勵(lì)模型參數(shù)量呈現(xiàn)線性關(guān)系,這意味著在給定了代理獎(jiǎng)勵(lì)模型參數(shù)量的情況下,可以預(yù)測(cè)其標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分的峰值。
Fig 4. 在最佳選擇采樣(BoN)和強(qiáng)化學(xué)習(xí)(RL)的過(guò)優(yōu)化擴(kuò)展規(guī)律中,隨著參數(shù)數(shù)量的變化,代理獎(jiǎng)勵(lì)(虛線)和標(biāo)準(zhǔn)獎(jiǎng)勵(lì)(實(shí)線)的 α_bon,β_{bon}和β_{RL}的值。
獎(jiǎng)勵(lì)模型訓(xùn)練數(shù)據(jù)量的尺度擴(kuò)展
在固定代理獎(jiǎng)勵(lì)模型參數(shù)量為12M后,作者實(shí)驗(yàn)了不同訓(xùn)練數(shù)據(jù)量下的效果,如Fig 5.所示,能發(fā)現(xiàn):更多的數(shù)據(jù)會(huì)帶來(lái)更高的標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分和更少的古德哈特效應(yīng)(可以理解為獎(jiǎng)勵(lì)劫持的現(xiàn)象減少了) 。不過(guò)在數(shù)據(jù)量的擴(kuò)展中,未曾觀察到如Fig 4一般,在α,β等函數(shù)參數(shù)上的尺度擴(kuò)展關(guān)系。
Fig 5. 獎(jiǎng)勵(lì)模型數(shù)據(jù)擴(kuò)展實(shí)驗(yàn)。獎(jiǎng)勵(lì)模型(RM)的規(guī)模保持不變(12M參數(shù)量),而獎(jiǎng)勵(lì)模型的數(shù)據(jù)量則有所變化。圖表的x軸采用平方根刻度。請(qǐng)注意,這些圖表的x軸是不同的。虛線表示代理獎(jiǎng)勵(lì),實(shí)線表示標(biāo)準(zhǔn)獎(jiǎng)勵(lì)。
從Fig 5中能隱約發(fā)現(xiàn),當(dāng)訓(xùn)練數(shù)據(jù)量比較少的時(shí)候(比如120、250...),隨著KL的增大,標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分是遞減的趨勢(shì),這意味著參與訓(xùn)練的數(shù)據(jù)量可能有一個(gè)最低的下限。我們?cè)倏吹紽ig 6,從圖(a)中,我們能看出:
- 在不同的模型大小下,隨著數(shù)據(jù)量的提升,其模型效果在提升(RM驗(yàn)證損失持續(xù)下降,標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分持續(xù)提高),這證實(shí)了獎(jiǎng)勵(lì)模型也有數(shù)據(jù)量上的尺度擴(kuò)展效應(yīng)。
- 注意到當(dāng)數(shù)據(jù)量小于2000時(shí)候,所有大小的獎(jiǎng)勵(lì)模型的性能都接近隨機(jī),這意味著對(duì)于獎(jiǎng)勵(lì)模型而言存在一個(gè)最小的訓(xùn)練數(shù)據(jù)量,只有大于這個(gè)數(shù)據(jù)量才能正常訓(xùn)練獎(jiǎng)勵(lì)模型。
Fig 6. 在不同的訓(xùn)練數(shù)據(jù)量和模型大小的組合下,其RM驗(yàn)證損失和最大的標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分結(jié)果。
策略模型的尺度擴(kuò)展
前面的研究都是固定了策略模型【策略模型(Policy Model):策略模型負(fù)責(zé)生成行為或輸出,例如在語(yǔ)言生成任務(wù)中生成文本。獎(jiǎng)勵(lì)模型(Reward Model):獎(jiǎng)勵(lì)模型用于評(píng)估策略模型生成的行為或輸出的質(zhì)量,并提供反饋信號(hào),用于優(yōu)化策略模型?!看笮〉模?.2B參數(shù)量),作者在文章中研究了增大策略模型尺寸(1.2B → 6B)是否對(duì)獎(jiǎng)勵(lì)模型訓(xùn)練有所幫助。如Fig 7.所示,我們能發(fā)現(xiàn)6B策略模型參數(shù)量確實(shí)1.2B策略模型參數(shù)量,從標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分角度,在初始階段有著較大的優(yōu)勢(shì),但是這個(gè)優(yōu)勢(shì)隨著訓(xùn)練的進(jìn)行會(huì)逐漸縮小,最后6B比1.2B的優(yōu)勢(shì)并不大。
從直觀上看,更大的策略模型由于會(huì)更容易生成獎(jiǎng)勵(lì)模型偏好的輸出,因此會(huì)更容易過(guò)度擬合,不過(guò)從Fig 7.看并非如此,我們看到(b),兩種尺寸的模型都在接近的訓(xùn)練程度上達(dá)到了峰值(意味著更大尺寸的策略模型并沒(méi)有讓過(guò)度優(yōu)化變得更快),從(c)的代理獎(jiǎng)勵(lì)模型和標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分的差值來(lái)看,也能發(fā)現(xiàn)兩種尺寸模型的獎(jiǎng)勵(lì)劫持程度基本上接近(6B模型的獎(jiǎng)勵(lì)劫持程度甚至還整體更低些)。因此,較大的策略模型在針對(duì)獎(jiǎng)勵(lì)模型進(jìn)行優(yōu)化時(shí)獲得的提升較小,不過(guò)也不會(huì)出現(xiàn)更多的過(guò)優(yōu)化現(xiàn)象。
Fig 7. 策略模型擴(kuò)展實(shí)驗(yàn)。獎(jiǎng)勵(lì)模型的規(guī)模保持不變(12M參數(shù)),而策略模型大小有所變化。圖表的x軸采用平方根刻度。請(qǐng)注意,這些圖表的x軸是不同的。虛線表示代理獎(jiǎng)勵(lì),實(shí)線表示標(biāo)準(zhǔn)獎(jiǎng)勵(lì)。在強(qiáng)化學(xué)習(xí)圖表中,星號(hào)表示每個(gè)策略規(guī)模下的最大金標(biāo)準(zhǔn)分?jǐn)?shù)。
RL和BoN方式訓(xùn)練模型的對(duì)比
直觀上看,一個(gè)預(yù)訓(xùn)練好后的LLM的效果上限是其Best-of-N結(jié)果,后訓(xùn)練(包括行為克隆和偏好對(duì)齊等)的目的就是將Best-of-N結(jié)果蒸餾到LLM中,這個(gè)蒸餾的方式有兩種:
- BoN方式:采用獎(jiǎng)勵(lì)模型對(duì)N個(gè)LLM采樣結(jié)果(也稱為N個(gè)軌跡) A={Ai,i=1,?,N}進(jìn)行打分S={si,i=1,?,N},然后選取其中的最好結(jié)果集合 Abest=A[arg?maxiS],然后通過(guò)SFT將最好結(jié)果集合蒸餾到LLM中,這個(gè)過(guò)程可以迭代反復(fù)進(jìn)行。如同F(xiàn)ig 8. 所示,在每一輪的BoN過(guò)程中,如公式(1-1)所示,其增加的KL距離是固定的。注意到,BoN的方式只會(huì)保留N個(gè)軌跡中被獎(jiǎng)勵(lì)模型選出的唯一一個(gè)軌跡蒸餾到目標(biāo)LLM中,這意味著對(duì)采樣軌跡的利用率較低。
- 通過(guò)PPO的方式(RL方式):采用PPO的方式,此時(shí)獎(jiǎng)勵(lì)模型同樣對(duì)采樣的N個(gè)軌跡進(jìn)行打分,不過(guò)PPO的方式可以充分利用N個(gè)軌跡,并且策略模型在每一個(gè)訓(xùn)練步中,都會(huì)存在KL距離的增加,根據(jù)Fig 9 (a) 所示,其KL距離增加隨著步數(shù)增加呈現(xiàn)二次方的關(guān)系,因此RL過(guò)程如Fig 8.的粉色虛線所示,是以逐漸增加的較大KL步長(zhǎng)搜索到最終策略(也即是圖中的
策略 #4
)。當(dāng)然,從圖中也不難發(fā)現(xiàn),RL方式的KL步長(zhǎng)如果沒(méi)控制好,就容易錯(cuò)過(guò)最佳策略,這也暗示了RL方式的不穩(wěn)定性。
Fig 8. 在后訓(xùn)練中,無(wú)論是BoN還是RL,模型都是通過(guò)消耗KL距離去搜索新策略。BoN的每一輪搜索增加的KL距離是log(n),而RL隨著訓(xùn)練步數(shù)其KL距離以二次方速度增加。
從以上討論看,基于BoN的方法和基于RL的方法(通過(guò)PPO)去后訓(xùn)練LLM,其方式差別很大,預(yù)期其兩者的獎(jiǎng)勵(lì)模型的過(guò)度優(yōu)化情況會(huì)有所不同,因此作者在本文對(duì)此也進(jìn)行了研究。作者在本文中,把KL距離視為是一種可以被『消耗』的資源,在模型訓(xùn)練過(guò)程中,通過(guò)消耗KL距離去找到新的策略(通過(guò)獎(jiǎng)勵(lì)模型去判斷新策略是否比舊策略好),如Fig 8所示。
如公式(1-1)所示,BoN的優(yōu)化方式,KL距離的增加都是穩(wěn)定的,大約是log?(n)的增長(zhǎng),因此是一個(gè)局部的搜索,而RL的優(yōu)化方式中每一步都會(huì)修改上一步的策略,帶來(lái)KL距離的增加,從Fig 9 (a)的實(shí)驗(yàn)看,無(wú)論是何種模型大小,其KL距離都是隨著訓(xùn)練步數(shù),呈現(xiàn)二次增加(沒(méi)有引入KL懲罰的情況),因此對(duì)比BoN,RL是一種更為低效利用KL資源的一種方式。
Fig 9. 獎(jiǎng)勵(lì)模型中,不同模型大小下KL距離隨著訓(xùn)練步數(shù)的變化情況,以及加入了KL懲罰項(xiàng)后的變化曲線。
不過(guò)這也從另一種角度說(shuō)明,不同的訓(xùn)練方式下,消耗KL距離的方式也不同,采用KL距離去量化衡量?jī)?yōu)化過(guò)程是不充足的,因此也就無(wú)法使用KL距離作為橫坐標(biāo),將BoN和RL兩種方式下的標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分繪制曲線進(jìn)行對(duì)比。存在一些對(duì)策略的擾動(dòng),這些擾動(dòng)與獎(jiǎng)勵(lì)信號(hào)正交(也即是導(dǎo)致獎(jiǎng)勵(lì)劫持的原因,獎(jiǎng)勵(lì)模型建模中沒(méi)有建模出這些正交的擾動(dòng)信號(hào)),會(huì)導(dǎo)致KL距離增加,但并不會(huì)提升標(biāo)準(zhǔn)獎(jiǎng)勵(lì)或代理獎(jiǎng)勵(lì),相反,一些極其微小但精準(zhǔn)的目標(biāo)化擾動(dòng),可以在很小的KL預(yù)算內(nèi)顯著改變策略的行為。
作者指出,可以考慮采用代理獎(jiǎng)勵(lì)打分作為一種量化的指標(biāo),如Fig 10所示此時(shí)可以通過(guò)對(duì)比sgold_rm−sproxy_rm 作為指代獎(jiǎng)勵(lì)劫持的指標(biāo),去對(duì)比BoN和RL的表現(xiàn)。Fig 10中,理想的曲線應(yīng)該是sgold_rm=sproxy_rm,也即是曲線越靠近對(duì)角線就表示該方法越好,其中不同顏色表示的是不同的模型大?。üP者猜的,原文沒(méi)提到這點(diǎn)),可以發(fā)現(xiàn)在不同的模型尺度下,都是RL方式會(huì)優(yōu)于BoN方式。
Fig 10. 代理指標(biāo)與標(biāo)準(zhǔn)的RM分?jǐn)?shù)在BoN和RL中的對(duì)比。為了便于閱讀,RL曲線在代理RM分?jǐn)?shù)為1.6處被截?cái)唷?/p>
KL懲罰項(xiàng)的作用類似于『早?!?/h2>
在RL優(yōu)化過(guò)程中,可以增加KL懲罰項(xiàng)(KL(πold||πnew))去約束KL距離的過(guò)度增加,增加了KL懲罰項(xiàng)后的策略損失如公式(1-3)所示,其中的A^t為t時(shí)刻的優(yōu)勢(shì)函數(shù),rt(θ)=πθ(at|st)πθold(at|st), β為懲罰項(xiàng)大小。增加了KL懲罰項(xiàng)后的曲線如Fig 9 (b) 所示,可以發(fā)現(xiàn)KL懲罰項(xiàng)越大,KL距離增加的速度就越慢,最后接近停滯。從Fig 11.中,我們對(duì)比不同大小的KL懲罰項(xiàng)后發(fā)現(xiàn),不同的KL懲罰項(xiàng)只會(huì)影響收斂速度,而不會(huì)影響標(biāo)準(zhǔn)獎(jiǎng)勵(lì)打分的峰值,這意味著KL懲罰項(xiàng)的作用類似于『早停』,是一種正則化工具。
(1-3)θ∗=arg?maxθLactor(θ)=Et[min(rt(θ)⋅A^t,clip(rt(θ),1−?,1+?)⋅A^t)]−β⋅KL(πθold||πθ)
Fig 11. 在不同KL懲罰項(xiàng)下的RL優(yōu)化實(shí)驗(yàn)。策略網(wǎng)絡(luò)的大小(1.2B參數(shù))和獎(jiǎng)勵(lì)模型的大?。?.2B參數(shù))保持不變。虛線表示代理獎(jiǎng)勵(lì)(proxy rewards),實(shí)線表示真實(shí)獎(jiǎng)勵(lì)(gold rewards)。我們觀察到KL懲罰對(duì)真實(shí)得分(gold score)的影響等同于早停(early stopping)。
在原文中,作者還指出古德哈特現(xiàn)象分為以下四種,然后分析了獎(jiǎng)勵(lì)劫持現(xiàn)象在這四個(gè)現(xiàn)象中的分類,受限于篇幅本文就不展開(kāi)了,有興趣的讀者可以翻閱原論文 [1]。
- 回歸型古德哈特現(xiàn)象
- 外部型古德哈特現(xiàn)象
- 因果型古德哈特現(xiàn)象
- 對(duì)抗型古德哈特現(xiàn)象
筆者讀下來(lái),這篇文章的信息密度很大,是一篇常讀常新的極品文章,其主要論點(diǎn)有:
- 獎(jiǎng)勵(lì)模型可以尺度擴(kuò)展以緩解獎(jiǎng)勵(lì)劫持問(wèn)題(模型尺寸、訓(xùn)練數(shù)據(jù)大?。?,但是訓(xùn)練數(shù)據(jù)大小會(huì)有一個(gè)最低的數(shù)量要求。
- 獎(jiǎng)勵(lì)模型的過(guò)度優(yōu)化現(xiàn)象在不同尺寸的模型和不同大小的訓(xùn)練數(shù)據(jù)下都會(huì)出現(xiàn)。
- 策略模型的尺度擴(kuò)展,對(duì)獎(jiǎng)勵(lì)模型緩解獎(jiǎng)勵(lì)劫持無(wú)太大幫助。
- KL距離是一種資源,BoN和RL的優(yōu)化模式是不同的,他們消耗KL距離的方式也不同。
- KL懲罰項(xiàng)會(huì)加速模型收斂,但是不會(huì)提高模型的性能峰值,是一種類似『早?!坏恼齽t項(xiàng)。
當(dāng)然,本文也留下了一些重要的待探索的問(wèn)題,比如:
- 探索多輪迭代式地優(yōu)化RLHF
- 繼續(xù)深入探索對(duì)策略模型的尺度擴(kuò)展
- 探索除了BoN和RL之外的其他訓(xùn)練方式
- 當(dāng)前的標(biāo)準(zhǔn)模型是采用的合成標(biāo)簽訓(xùn)練的,合成標(biāo)簽和真實(shí)的世界標(biāo)簽會(huì)有差距。
如果覺(jué)得該博文對(duì)您有所幫助,筆者強(qiáng)烈建議您翻閱原論文,以獲得第一手的信息。
Reference
[1]. Gao, Leo, John Schulman, and Jacob Hilton. "Scaling laws for reward model overoptimization." In International Conference on Machine Learning, pp. 10835-10866. PMLR, 2023.
[2]. Kaplan, Jared, Sam McCandlish, Tom Henighan, Tom B. Brown, Benjamin Chess, Rewon Child, Scott Gray, Alec Radford, Jeffrey Wu, and Dario Amodei. "Scaling laws for neural language models." arXiv preprint arXiv:2001.08361 (2020).
[3]. Nisan Stiennon, Long Ouyang, Jeff Wu, Daniel M. Ziegler, Ryan Lowe, Chelsea Voss, Alec Radford, Dario Amodei, and Paul Christiano. Learning to summarize from human feedback. Computing Research Repository, 2020. version 3