久久久国产精品视频袁燕,99re久久精品国产,亚洲欧美日韩国产综合v,天天躁夜夜躁狠狠久久,激情五月婷婷激情五月婷婷

認(rèn)證：優(yōu)質(zhì)創(chuàng)作者

所在專題目錄查看專題

增強(qiáng)型語(yǔ)言模型——走向通用智能的道路？！

【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式

【論文極速讀】EMT——評(píng)估多模態(tài)LLM中的災(zāi)難性遺忘問(wèn)題

LVM，視覺(jué)大模型的GPT時(shí)刻？

BLIP2——采用Q-Former融合視覺(jué)語(yǔ)義與LLM能力的方法

【論文極速讀】Flamingo：一種交織圖文的視覺(jué)語(yǔ)言大模型方法

作者動(dòng)態(tài) 更多

給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配

05-19 09:33

大模型推理時(shí)的尺度擴(kuò)展定律

05-18 10:32

世界多胞體與世界模型

05-13 09:42

獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持

05-12 08:41

MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果

05-08 09:13

工程師都在看

便攜式電源電路分析

PFC Boost電路設(shè)計(jì)中涉及的數(shù)學(xué)公式

手機(jī)充電器插入排插時(shí)打火花是怎么回事？

3KW單相在線式UPS系統(tǒng)設(shè)計(jì)

跳脈沖模式(PSM)與突發(fā)模式(Burst Mode)大揭秘，二者等同嗎？差異有哪些？

雙向全橋CLLC諧振拓?fù)涔ぷ髟砗?jiǎn)介

BOOST電路DCM模式電感峰值電流公式推導(dǎo) | 基于伏秒平衡原理

硬件面試易錯(cuò)題！負(fù)載電流越大，BUCK電路中電感值越大還是越?。?/div>

電子星球，上新啦！星球號(hào)助你，變值錢(qián)！

電路設(shè)計(jì)中，Type-C口還不會(huì)使用？

增強(qiáng)型語(yǔ)言模型——走向通用智能的道路？！

徐土豆 2023-12-11 09:20 110 閱讀 2 贊 3 收藏 0 評(píng)論

Augmented Language Model (ALM)，筆者將其翻譯為增強(qiáng)型語(yǔ)言模型，因其不僅可處理常規(guī)的自然語(yǔ)言處理任務(wù)（如命名實(shí)體識(shí)別、文本分類等等），而且在一些看似不是自然語(yǔ)言任務(wù)的場(chǎng)景也可以應(yīng)用（如操控機(jī)械臂等），在論文[4]中，作者給我們展示了一個(gè)ALM在當(dāng)前已有的一些研究，筆者深受其震撼。總結(jié)來(lái)說(shuō)，ALM主要有兩種最為突出的能力：

推理能力（Reasoning）: 指的是模型能將復(fù)雜任務(wù)拆解為多個(gè)或多步簡(jiǎn)單任務(wù)，通過(guò)對(duì)簡(jiǎn)單任務(wù)的求解從而達(dá)到對(duì)復(fù)雜任務(wù)求解的目的。
對(duì)外部工具的操控能力（The ability of using external tools）: 指的是有能力調(diào)用外部工具，比如搜索引擎、數(shù)據(jù)庫(kù)、甚至是物理世界的機(jī)械臂等。這種能力有可以再細(xì)分為單純從工具中獲取知識(shí)（如調(diào)用搜索引擎），或者通過(guò)工具影響物理世界（如操作機(jī)械臂）。

首先需要強(qiáng)調(diào)的是，這些能力目前來(lái)看都只在大規(guī)模語(yǔ)言模型（Large Language Model, LLM）中有所涌現(xiàn)（Emergency） [5]，涌現(xiàn)指的是某種只在模型參數(shù)規(guī)模達(dá)到一定程度后（>10B）才能出現(xiàn)的能力，這些能力在小模型上都無(wú)從談起，對(duì)此的討論可參考博文 [6]。LLM的涌現(xiàn)能力可以說(shuō)是ALM的基礎(chǔ)，具備了涌現(xiàn)能力之后，ALM才具有了強(qiáng)大的邏輯推理和語(yǔ)義理解能力?？梢韵胂?，一個(gè)模型如果能夠具有強(qiáng)大的語(yǔ)義理解能力和邏輯推理能力，并且可以通過(guò)操作外部工具獲取知識(shí)，影響物理世界，那么這已經(jīng)和我們認(rèn)識(shí)中的『強(qiáng)人工智能』似乎也相差不遠(yuǎn)了？本文就是嘗試對(duì)ALM的這些神奇的能力進(jìn)行綜述。

推理能力

通常來(lái)說(shuō)，推理能力是通過(guò)證據(jù)（Evidence）和邏輯（Logic）對(duì)一個(gè)問(wèn)題進(jìn)行推理的能力，通?？梢圆鸱譃橐恍┳訂?wèn)題進(jìn)行研究，比如常識(shí)推理（Commonsense reasoning）、數(shù)學(xué)推理（mathematical reasoning）、符號(hào)推理（Symbolic reasoning）等等。近些年來(lái)，基于prompt技術(shù)的語(yǔ)言模型得到了廣泛地流行，prompt技術(shù)+預(yù)訓(xùn)練模型是一種新的范式，與傳統(tǒng)pretrain -> finetune的范式有所不同的是，在pretrain -> prompt范式中，我們可以不對(duì)模型參數(shù)進(jìn)行更新，只需要考慮如何設(shè)計(jì)更加合理的prompt，就能充分地利用預(yù)訓(xùn)練模型中的知識(shí)。這里指的『設(shè)計(jì)更合理的prompt』，既可以是借助已有的人工標(biāo)注數(shù)據(jù)進(jìn)行設(shè)計(jì)，也可以對(duì)已有的人工標(biāo)注數(shù)據(jù)進(jìn)行擴(kuò)展，比如Chain of Thought Prompt [7] 就擴(kuò)展了已有標(biāo)注，補(bǔ)充了思維鏈的過(guò)程。

說(shuō)到底，無(wú)論是prompt還是finetune，都是為了讓預(yù)訓(xùn)練模型更好地往著下游任務(wù)遷移的過(guò)程，然而這兩者有著完全不同的設(shè)計(jì)思路。對(duì)于finetune而言，預(yù)訓(xùn)練模型仿佛是一個(gè)早熟的『孩子』，知識(shí)豐富卻缺少了經(jīng)驗(yàn)，因此通過(guò)一些人工標(biāo)注數(shù)據(jù)作為監(jiān)督信號(hào)，去教導(dǎo)這個(gè)孩子成為某個(gè)領(lǐng)域的專家，然而這個(gè)蛻變的過(guò)程是刻骨銘心的，一旦他成為了一個(gè)領(lǐng)域的專家，他可能就很難成為另一個(gè)領(lǐng)域的專家了。蛻變后的他獲得了某個(gè)領(lǐng)域的成功，卻失去了作為孩子的無(wú)限發(fā)展的可能性（模型通用性）。不僅如此，現(xiàn)在的預(yù)訓(xùn)練模型日漸龐大，GPT-3的參數(shù)量已經(jīng)達(dá)到了175B，PaLM的參數(shù)量達(dá)到了540B，在這種參數(shù)量下，即便是少量樣本的微調(diào)，也顯得代價(jià)難以接受。

此時(shí)，我們自然就在想，是否可以在不更新模型參數(shù)的前提下，進(jìn)行預(yù)訓(xùn)練模型的下游任務(wù)遷移呢？而這也不是癡人說(shuō)夢(mèng)，預(yù)訓(xùn)練模型在參數(shù)量足夠巨大的時(shí)候，本身就蘊(yùn)含著無(wú)限可能性，他好似一個(gè)無(wú)窮盡的知識(shí)庫(kù)，只是缺少了有效的搜索途徑。從這個(gè)角度看，『finetune』這個(gè)過(guò)程才顯得可笑，這相當(dāng)于為了契合某個(gè)人的喜好，就將這個(gè)已有知識(shí)寶庫(kù)里面的大部分知識(shí)都付之一炬一般。理查德·道金斯所著的《自私的基因》一書(shū)中曾經(jīng)有句名言：

當(dāng)搜索空間足夠大時(shí),有效的搜索就與真正的創(chuàng)造并無(wú)二致了

我們?cè)趽碛辛诉@個(gè)無(wú)盡知識(shí)寶庫(kù)（大規(guī)模語(yǔ)言模型）后，應(yīng)該考慮的是如何才能有效從中找到我們需要的內(nèi)容，而這個(gè)過(guò)程我們不妨就稱之為prompt。^1

LLM的推理能力正是可以通過(guò)prompt技術(shù)進(jìn)行誘導(dǎo)，而prompt又可以分為zero-shot prompt和few-shot prompt，后者我們通常也稱之為情景學(xué)習(xí)(in-context learning)^2。如Fig 1.1 (a) 所示，few-shot prompt技術(shù)可以通過(guò)提供一個(gè)解決某個(gè)問(wèn)題的中間思維過(guò)程作為示例，如綠底字就提供了解決這個(gè)文字?jǐn)?shù)學(xué)問(wèn)題的中間計(jì)算過(guò)程，誘導(dǎo)LLM的回答里面也包含這個(gè)中間思維過(guò)程，因此這種prompt方式也稱之為思維鏈提示(Chain of Thought Prompt, CoT prompt)。如果只提供了一個(gè)示例，稱之為one-shot prompt，如果提供了若干個(gè)示例，則稱之為few-shot prompt，如果沒(méi)有提供任何示例呢？如Fig 1.1 (b)所示，這種我們稱之為zero-shot prompt。在zero-shot prompt中，沒(méi)有提供任何和任務(wù)有關(guān)的示例，頂多會(huì)提供一些通用的提示詞，如[8]只是在輸入的問(wèn)題后面添加上了一段 Let's think step by step，即便如此，實(shí)驗(yàn)也證實(shí)了在GSM8K等推理任務(wù)中，zero-shot prompt也有著不錯(cuò)的表現(xiàn)（即便比不過(guò)few-shot prompt）。

Fig 1.1 通過(guò)使用Few-shot思維鏈提示技術(shù)和zero-shot提示技術(shù)，可以『誘導(dǎo)』出模型的推理能力。

如Fig 1.2 (a)所示，采用了CoT prompt技術(shù)的LLM模型，比起不采用CoT的有著巨大的性能提升，而如Fig 1.2 (b)所示，CoT prompt帶來(lái)的大幅性能提升只在模型規(guī)模達(dá)到一定程度之后才會(huì)涌現(xiàn)。

Fig 1.2 采用了CoT prompt技術(shù)后，與傳統(tǒng)prompt技術(shù)的結(jié)果對(duì)比。

還有一些研究在嘗試將復(fù)雜問(wèn)題進(jìn)行分解成多個(gè)子任務(wù)，進(jìn)行分而治之解決，這些方法又可以分為兩大類，將復(fù)雜問(wèn)題分解為子任務(wù)的方法，也是采用了prompt技術(shù)[9]進(jìn)行的。

獨(dú)立對(duì)子問(wèn)題進(jìn)行求解，并將子解合并為最終解。
序列式地求解子問(wèn)題，將上一個(gè)子問(wèn)題的答案作為下一個(gè)子問(wèn)題的依賴進(jìn)行求解。

這個(gè)過(guò)程可見(jiàn)Fig 1.3，在Prompt 0中對(duì)復(fù)雜問(wèn)題進(jìn)行分解，得到兩個(gè)子問(wèn)題，顯然這兩個(gè)子問(wèn)題存在依賴關(guān)系，我們需要首先解決綠色子問(wèn)題Subquestion 1。在prompt 1中，將綠色子問(wèn)題Subquestion 1作為prompt，和原問(wèn)題一并提供給LLM得到Answer 1。然后在Prompt 2中將原問(wèn)題，Subquestion 1和Answer 1作為prompt的一部分輸入，同時(shí)再加入Subquestion 2，得到最終的問(wèn)題答案Answer 2。

Fig 1.3 LLM對(duì)復(fù)雜任務(wù)進(jìn)行子任務(wù)分解，然后序列式地對(duì)子問(wèn)題進(jìn)行求解，得到最終的問(wèn)題答案。

即便已經(jīng)取得了如此了不起的結(jié)果，prompt技術(shù)還處在一些缺陷，特別是當(dāng)LLM足夠大的時(shí)候。首先，探索出一些能夠誘導(dǎo)出LLM形成推理能力（如多步推理）的prompt，挑選一個(gè)合適的prompt并不是一件容易的事情。如Fig 1.4 (a)所示，即便是相同的prompt示例樣本，不同標(biāo)注者的prompt風(fēng)格都可以導(dǎo)致在GSM8K上的結(jié)果有較大差距。不僅如此，當(dāng)LLM規(guī)模較大的時(shí)候，長(zhǎng)prompt同樣會(huì)帶來(lái)較大的計(jì)算負(fù)擔(dān)。

Fig 1.4 即便對(duì)于同一個(gè)示例樣本，不同的prompt風(fēng)格都會(huì)對(duì)結(jié)果有很大影響。

因此，一些研究嘗試顯式地誘導(dǎo)語(yǔ)言模型進(jìn)行推理^3，這個(gè)過(guò)程就回到了pretrain -> finetune的范式，不過(guò)還是同樣會(huì)使用prompt技術(shù)的輔助。文獻(xiàn)[10]提出了一種稱之為『草稿本(Scratchpad)』的概念，指的是模型在訓(xùn)練時(shí)候可以同時(shí)見(jiàn)到原問(wèn)題和中間步驟，并且以中間步驟作為監(jiān)督信號(hào)進(jìn)行模型的finetune，在預(yù)測(cè)階段模型匯通是對(duì)中間步驟和中間答案都進(jìn)行預(yù)測(cè)，像極了我們解數(shù)學(xué)題時(shí)候的草稿本，因此而得名。如Fig 1.5所示，該圖展示了一般直接式的程序執(zhí)行預(yù)測(cè)和草稿本策略下的程序執(zhí)行預(yù)測(cè)的差別，后者會(huì)對(duì)程序調(diào)用過(guò)程中的結(jié)果進(jìn)行跟蹤，并且以此微調(diào)模型，以此顯式地獲得推理能力。我們能發(fā)現(xiàn)，scratchpad策略和我們之前提到的few-shot prompt等策略都有所不同，它是需要對(duì)模型進(jìn)行微調(diào)的。

Fig 1.5 scratchpad會(huì)對(duì)代碼運(yùn)行或者數(shù)學(xué)計(jì)算的中間步驟和結(jié)果都進(jìn)行預(yù)測(cè)。

還有一種類似的做法，scratchpad的方法是將多步推理標(biāo)注作為模型每一步預(yù)測(cè)的監(jiān)督信號(hào)，而[11]則是一股腦將多步推理標(biāo)注作為prompt的一部分，與原問(wèn)題一并輸入，如Fig 1.6所示，作者用<work> </work>各開(kāi)了原問(wèn)題和多步推理的prompt，監(jiān)督信號(hào)此時(shí)就只剩下了最終的問(wèn)題結(jié)果，通過(guò)這種形式對(duì)模型進(jìn)行微調(diào)。在預(yù)測(cè)階段，只需要在輸入后加上<work>，就可以激活模型的多步推理能力。

Fig 1.6 另一種可行的顯式多步推理建模，將多步推理過(guò)程在prompt中作為輸入。

總結(jié)來(lái)看，LLM的推理能力可以認(rèn)為是一種將復(fù)雜問(wèn)題分解為多個(gè)子問(wèn)題，并且進(jìn)行分別求解的過(guò)程，這個(gè)過(guò)程中不能保證中間步驟的有效性，同時(shí)LLM也經(jīng)常會(huì)出現(xiàn)一些常識(shí)性錯(cuò)誤，并且LLM經(jīng)常在一些簡(jiǎn)單的數(shù)學(xué)問(wèn)題中得到錯(cuò)誤的中間答案。這些我們將在后文中看到，可以通過(guò)調(diào)用外部工具（如搜索引擎、計(jì)算器等）進(jìn)行緩解，提高中間推理步驟的有效性。

在原文中，此處作者還提到了一個(gè)有趣的結(jié)論，采用顯式的指令微調(diào)（instruction finetuning），已經(jīng)在諸多研究中證實(shí)了其作用，能夠使得較小規(guī)模的（10B左右）的語(yǔ)言模型，超越未經(jīng)過(guò)指令微調(diào)的大規(guī)模語(yǔ)言模型，特別是在那些非?？粗刂噶顖?zhí)行的任務(wù)中。這一點(diǎn)在chatGPT和其前輩instructGPT [15]都有體現(xiàn)，他們利用了RLHF（Reinforcement Learning from Human Feedback）技術(shù)，對(duì)LLM進(jìn)行了指令微調(diào)，從而得到了強(qiáng)大的推理能力。

使用外部工具的能力

最近c(diǎn)hatGPT又推出了一個(gè)使用插件的功能 [12]，使得chatGPT可以聯(lián)網(wǎng)與超過(guò)5000種的外部插件進(jìn)行交互，這是一個(gè)轟動(dòng)的結(jié)果，這意味著chatGPT作為一個(gè)『大腦』，從此可以利用互聯(lián)網(wǎng)中海量的插件能力，這無(wú)疑給chatGPT賦予了左膀右臂，如Fig 2.1的官方演示所示，一旦chatGPT接入了Wolfram Alpha，就再也不用擔(dān)心chatGPT數(shù)值計(jì)算的不準(zhǔn)確的問(wèn)題了。一旦chatGPT接入了搜索引擎和數(shù)據(jù)庫(kù)，chatGPT就可以檢索到最新的信息了。一旦chatGPT接入了代碼解釋器，chatGPT甚至還能幫你debug代碼！這海量的插件將給chatGPT帶來(lái)完全不同的玩法，我們不禁感嘆天網(wǎng)將至，似乎我們往著通用人工智能又往前了一大步。

Fig 2.1 chatGPT接入了Wolfram Alpha插件后，擁有了更為精確的數(shù)值計(jì)算功能。

從上面的例子中，我們不難看出LLM除了推理能力，還能借助外部知識(shí)庫(kù)的力量鞏固自己的知識(shí)，不僅如此，LLM甚至還能『聽(tīng)得懂』你的指令為你購(gòu)物，還能控制物理世界的機(jī)械臂 [13]，而本章就討論LLM的這兩種能力：利用工具鞏固自己知識(shí)、通過(guò)工具影響外部世界。

此處的外部工具（External Tools）是一個(gè)廣義的概念，不僅僅是搜索引擎、數(shù)據(jù)庫(kù)、機(jī)械臂等，連神經(jīng)網(wǎng)絡(luò)或者語(yǔ)言模型本身也可以視為是外部工具。從這種角度上看，LLM迭代式地調(diào)用自身也可以視為是調(diào)用工具，類似的工作如PEER [15]。如Fig 2.1所示，PEER是一個(gè)自己調(diào)用自己的過(guò)程，其每次迭代中會(huì)輸入Text，LLM生成Plan和Edit，通過(guò)Plan的引導(dǎo)對(duì)原文進(jìn)行修改，并形成修改后的文本Edit。在后續(xù)的迭代中，將Edit作為T(mén)ext，并迭代運(yùn)行，直到達(dá)到終止條件為止。這種迭代式優(yōu)化文本的方式對(duì)于一些復(fù)雜的生成任務(wù)，如小說(shuō)、文章生成而言有著優(yōu)勢(shì)，相當(dāng)于是將復(fù)雜任務(wù)拆分為了多個(gè)小型的子任務(wù)了。

Fig 2.1 采用PEER的迭代式prompt的例子。

正如上文所談到的，LLM還可以調(diào)用外部的知識(shí)單元，比如搜索引擎、數(shù)據(jù)庫(kù)等提高自身的知識(shí)推理能力，通過(guò)這種手段可以減少LLM的事實(shí)錯(cuò)誤推理，產(chǎn)生過(guò)時(shí)信息等，并且通過(guò)將LLM的知識(shí)儲(chǔ)存功能下放到外部知識(shí)模塊，可以減少LLM的參數(shù)量。檢索通?？梢苑譃橄∈铏z索（Sparse）和稠密檢索（Dense），前者通過(guò)對(duì)文檔和檢索詞進(jìn)行詞袋（Word of Bag, WoB）表達(dá)后進(jìn)行匹配，是一種類似于字詞匹配的技術(shù)；而后者通過(guò)神經(jīng)網(wǎng)絡(luò)對(duì)文檔和檢索詞進(jìn)行向量編碼后進(jìn)行相似度計(jì)算，也被稱之為向量化檢索 [16]，這是一種基于語(yǔ)義的檢索方式。在我們本文中提到的工作都是采用稠密檢索的。語(yǔ)言模型嘗試采用檢索系統(tǒng)的結(jié)果并不是一件稀罕事兒，這類型的工作會(huì)將文檔的稠密表達(dá)拼接到當(dāng)前語(yǔ)言模型上下文的后面，從而進(jìn)行相似度計(jì)量，第一篇端到端的工作是REALM [17]，還有若干篇后續(xù)工作。還有一些工作嘗試把思維鏈的思想也引入到檢索中，如IRCoT（交織型檢索思維鏈, Interleaving Retrieval CoT） [18]這個(gè)方案通過(guò)交織檢索步（Retrieve）和推理步（Reason），利用檢索得到的結(jié)果去加強(qiáng)CoT推理步的結(jié)果，反過(guò)來(lái)也用CoT推理步的結(jié)果去更好地檢索新結(jié)果，這是一個(gè)彼此加強(qiáng)的過(guò)程，如Fig 2.2所示。

Fig 2.2 IRCoT的流程交織著檢索步（Retrieve）和推理步（Reason）。

在這些工作中，為了獲得對(duì)應(yīng)的資料去增強(qiáng)語(yǔ)言模型，對(duì)于每個(gè)檢索請(qǐng)求（Query）都會(huì)調(diào)用檢索器（Retriever）。與此同時(shí)，也有些其他工作讓語(yǔ)言模型只在需要的時(shí)候請(qǐng)求檢索器擴(kuò)充知識(shí)。比如BlenderBot [20] 可以通過(guò)prompt的方法決定是否發(fā)起檢索，在這種情況下，prompt方法直接與調(diào)用搜索引擎工具的指令相關(guān)聯(lián)了。由于可以訪問(wèn)到外部的搜索引擎，因此BlenderBot可以應(yīng)對(duì)開(kāi)放域（open-domain）的問(wèn)題，如Fig 2.3所示，作者將其作為公開(kāi)應(yīng)用進(jìn)行部署、公開(kāi)，讓模型能以人在回路（human in the loop）的方式對(duì)模型進(jìn)行持續(xù)訓(xùn)練。

Fig 2.3 BlenderBot 采用人在回路的方式，對(duì)模型進(jìn)行持續(xù)學(xué)習(xí)。

BlenderBot只能對(duì)檢索器^4進(jìn)行調(diào)用，而在WebGPT這篇工作中，作者嘗試讓語(yǔ)言模型去仿照人的行為去『瀏覽』一個(gè)瀏覽器，為了實(shí)現(xiàn)的簡(jiǎn)便性，此處的瀏覽器是一個(gè)純文本構(gòu)成的瀏覽器^5。webGPT可以學(xué)習(xí)出如何通過(guò)使用如Fig 2.4所示的有限指令集對(duì)瀏覽器進(jìn)行檢索、瀏覽、點(diǎn)擊鏈接、引用數(shù)據(jù)源等，由于這顯然是一個(gè)action-reward的過(guò)程，在訓(xùn)練模型的時(shí)候采用了強(qiáng)化學(xué)習(xí)，而此處的獎(jiǎng)勵(lì)也并不難定義，在給定了某個(gè)特定的任務(wù)描述的時(shí)候，只要判斷webGPT是否在瀏覽器中找到了需要的內(nèi)容，即可定義出非零既一的硬獎(jiǎng)勵(lì)函數(shù)去引導(dǎo)模型的學(xué)習(xí)了。

Fig 2.4 WebGPT所使用的有限指令集，包括了網(wǎng)頁(yè)瀏覽相關(guān)的基本操作，如查詢、點(diǎn)擊鏈接、定位網(wǎng)頁(yè)、引用等等。

由此我們看到LLM具有分解任務(wù)和決策序列規(guī)劃的能力，這種能力對(duì)于控制外部工具而言非常重要，LLM有一個(gè)很有意思的應(yīng)用就是嘗試?yán)肔LM作為『大腦』去分解高級(jí)指令，拆解目標(biāo)后控制一個(gè)虛擬仿真世界中的實(shí)體或者真實(shí)世界中的實(shí)體（agent）。如Fig 2.5所示，"Get Class of Milk"是一個(gè)復(fù)雜且抽象的指令，為了完成這個(gè)指令需要實(shí)體知道周圍環(huán)境的狀態(tài)，并且拆解、規(guī)劃出合適的一系列動(dòng)作去完成，而[22]這篇工作指出，在LLM足夠龐大并且進(jìn)行了正確的prompt之后，LLM中所具有的世界知識(shí)（World Knowledge）足以讓實(shí)體完成這個(gè)任務(wù)。

Fig 2.5 LLM可以拆解復(fù)雜、抽象的指令成若干具體指令，然后指導(dǎo)虛擬世界的實(shí)體進(jìn)行執(zhí)行。

在[23]這個(gè)工作中，作者則結(jié)合多模態(tài)模型（Visual-Language Model, VLM）和LLM模型去控制模擬環(huán)境下的機(jī)械臂，LLM作為多步規(guī)劃器（去理解環(huán)境狀況與任務(wù)語(yǔ)義，進(jìn)行復(fù)雜任務(wù)的拆解），而VLM則作為觀察外部環(huán)境的手段，通過(guò)多模態(tài)模型的引入提供了更好的觀察外部世界的手段。

Reference

[1]. Kosinski, M. (2023). Theory of mind may have spontaneously emerged in large language models. arXiv preprint arXiv:2302.02083.

[2]. Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., ... & Zhang, Y. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.

[3]. https://cdn.openai.com/papers/gpt-4.pdf

[4]. Mialon, Grégoire, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière et al. "Augmented language models: a survey." arXiv preprint arXiv:2302.07842 (2023).

[5]. Wei, Jason, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).

[6]. https://fesianxu.github.io/2023/03/25/emergent-abilities-llm-20230324/，《【論文極速讀】大規(guī)模語(yǔ)言模型中的能力“涌現(xiàn)”現(xiàn)象》

[7]. Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. "Chain of thought prompting elicits reasoning in large language models." arXiv preprint arXiv:2201.11903 (2022).

[8]. Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. In Advances in Neural Information Processing Systems (NeurIPS), 2022.

[9]. Zeqiu Wu, Yi Luan, Hannah Rashkin, David Reitter, and Gaurav Singh Tomar. Conqrr: Conversational query rewriting for retrieval with reinforcement learning. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022d.

[10]. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., ... & Odena, A. (2021). Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114.

[11]. Taylor, Ross, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, and Robert Stojnic. "Galactica: A large language model for science." arXiv preprint arXiv:2211.09085 (2022).

[12]. https://openai.com/blog/chatgpt-plugins

[13]. Driess, Danny, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).

[14]. Timo Schick, Jane Dwivedi-Yu, Zhengbao Jiang, Fabio Petroni, Patrick Lewis, Gautier Izacard, Qingfei You, Christoforos Nalmpantis, Edouard Grave, and Sebastian Riedel. Peer: A collaborative language model. arXiv preprint arXiv:2208.11663, 2022.

[15]. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744. short for InstructGPT

[16]. Johnson, Jeff, Matthijs Douze, and Hervé Jégou. "Billion-scale similarity search with gpus." IEEE Transactions on Big Data 7, no. 3 (2019): 535-547.

[17]. Gautier Izacard and Edouard Grave. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282, 2020.

[18]. Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions. arXiv preprint arXiv:2212.10509, 2022.

[19]. Shuster, Kurt, Jing Xu, Mojtaba Komeili, Da Ju, Eric Michael Smith, Stephen Roller, Megan Ung et al. "Blenderbot 3: a deployed conversational agent that continually learns to responsibly engage." arXiv preprint arXiv:2208.03188 (2022).

[20]. Yao, Shunyu, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. "React: Synergizing reasoning and acting in language models." arXiv preprint arXiv:2210.03629 (2022).

[21]. Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., ... & Schulman, J. (2021). Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332.

[22]. Huang, Wenlong, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. "Language models as zero-shot planners: Extracting actionable knowledge for embodied agents." In International Conference on Machine Learning, pp. 9118-9147. PMLR, 2022.

[23]. Zeng, Andy, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael Ryoo et al. "Socratic models: Composing zero-shot multimodal reasoning with language." arXiv preprint arXiv:2204.00598 (2022).

聲明：本內(nèi)容為作者獨(dú)立觀點(diǎn)，不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴，請(qǐng)聯(lián)系：editor@netbroad.com

覺(jué)得內(nèi)容不錯(cuò)的朋友，別忘了一鍵三連哦！

贊 2

收藏 3

關(guān)注 52

成為作者賺取收益

專題目錄下一篇

下一篇：【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式

全部留言

0/200

成為第一個(gè)和作者交流的人吧

<menuitem id="fwupm"><delect id="fwupm"></delect></menuitem>