久久久国产精品视频袁燕,99re久久精品国产,亚洲欧美日韩国产综合v,天天躁夜夜躁狠狠久久,激情五月婷婷激情五月婷婷

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
增強(qiáng)型語(yǔ)言模型——走向通用智能的道路?!
【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式
【論文極速讀】EMT——評(píng)估多模態(tài)LLM中的災(zāi)難性遺忘問題
LVM,視覺大模型的GPT時(shí)刻?
BLIP2——采用Q-Former融合視覺語(yǔ)義與LLM能力的方法
【論文極速讀】Flamingo:一種交織圖文的視覺語(yǔ)言大模型方法
作者動(dòng)態(tài) 更多
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

增強(qiáng)型語(yǔ)言模型——走向通用智能的道路?!

Augmented Language Model (ALM),筆者將其翻譯為增強(qiáng)型語(yǔ)言模型,因其不僅可處理常規(guī)的自然語(yǔ)言處理任務(wù)(如命名實(shí)體識(shí)別、文本分類等等),而且在一些看似不是自然語(yǔ)言任務(wù)的場(chǎng)景也可以應(yīng)用(如操控機(jī)械臂等),在論文[4]中,作者給我們展示了一個(gè)ALM在當(dāng)前已有的一些研究,筆者深受其震撼。總結(jié)來(lái)說(shuō),ALM主要有兩種最為突出的能力:

  1. 推理能力(Reasoning): 指的是模型能將復(fù)雜任務(wù)拆解為多個(gè)或多步簡(jiǎn)單任務(wù),通過對(duì)簡(jiǎn)單任務(wù)的求解從而達(dá)到對(duì)復(fù)雜任務(wù)求解的目的。
  2. 對(duì)外部工具的操控能力(The ability of using external tools): 指的是有能力調(diào)用外部工具,比如搜索引擎、數(shù)據(jù)庫(kù)、甚至是物理世界的機(jī)械臂等。這種能力有可以再細(xì)分為單純從工具中獲取知識(shí)(如調(diào)用搜索引擎),或者通過工具影響物理世界(如操作機(jī)械臂)。

首先需要強(qiáng)調(diào)的是,這些能力目前來(lái)看都只在大規(guī)模語(yǔ)言模型(Large Language Model, LLM)中有所涌現(xiàn)(Emergency) [5],涌現(xiàn)指的是某種只在模型參數(shù)規(guī)模達(dá)到一定程度后(>10B)才能出現(xiàn)的能力,這些能力在小模型上都無(wú)從談起,對(duì)此的討論可參考博文 [6]。LLM的涌現(xiàn)能力可以說(shuō)是ALM的基礎(chǔ),具備了涌現(xiàn)能力之后,ALM才具有了強(qiáng)大的邏輯推理和語(yǔ)義理解能力??梢韵胂耄粋€(gè)模型如果能夠具有強(qiáng)大的語(yǔ)義理解能力和邏輯推理能力,并且可以通過操作外部工具獲取知識(shí),影響物理世界,那么這已經(jīng)和我們認(rèn)識(shí)中的『強(qiáng)人工智能』似乎也相差不遠(yuǎn)了?本文就是嘗試對(duì)ALM的這些神奇的能力進(jìn)行綜述。

推理能力

通常來(lái)說(shuō),推理能力是通過證據(jù)(Evidence)和邏輯(Logic)對(duì)一個(gè)問題進(jìn)行推理的能力,通??梢圆鸱譃橐恍┳訂栴}進(jìn)行研究,比如常識(shí)推理(Commonsense reasoning)、數(shù)學(xué)推理(mathematical reasoning)、符號(hào)推理(Symbolic reasoning)等等。近些年來(lái),基于prompt技術(shù)的語(yǔ)言模型得到了廣泛地流行,prompt技術(shù)+預(yù)訓(xùn)練模型是一種新的范式,與傳統(tǒng)pretrain -> finetune的范式有所不同的是,在pretrain -> prompt范式中,我們可以不對(duì)模型參數(shù)進(jìn)行更新,只需要考慮如何設(shè)計(jì)更加合理的prompt,就能充分地利用預(yù)訓(xùn)練模型中的知識(shí)。這里指的『設(shè)計(jì)更合理的prompt』,既可以是借助已有的人工標(biāo)注數(shù)據(jù)進(jìn)行設(shè)計(jì),也可以對(duì)已有的人工標(biāo)注數(shù)據(jù)進(jìn)行擴(kuò)展,比如Chain of Thought Prompt [7] 就擴(kuò)展了已有標(biāo)注,補(bǔ)充了思維鏈的過程。

說(shuō)到底,無(wú)論是prompt還是finetune,都是為了讓預(yù)訓(xùn)練模型更好地往著下游任務(wù)遷移的過程,然而這兩者有著完全不同的設(shè)計(jì)思路。對(duì)于finetune而言,預(yù)訓(xùn)練模型仿佛是一個(gè)早熟的『孩子』,知識(shí)豐富卻缺少了經(jīng)驗(yàn),因此通過一些人工標(biāo)注數(shù)據(jù)作為監(jiān)督信號(hào),去教導(dǎo)這個(gè)孩子成為某個(gè)領(lǐng)域的專家,然而這個(gè)蛻變的過程是刻骨銘心的,一旦他成為了一個(gè)領(lǐng)域的專家,他可能就很難成為另一個(gè)領(lǐng)域的專家了。蛻變后的他獲得了某個(gè)領(lǐng)域的成功,卻失去了作為孩子的無(wú)限發(fā)展的可能性(模型通用性)。不僅如此,現(xiàn)在的預(yù)訓(xùn)練模型日漸龐大,GPT-3的參數(shù)量已經(jīng)達(dá)到了175B,PaLM的參數(shù)量達(dá)到了540B,在這種參數(shù)量下,即便是少量樣本的微調(diào),也顯得代價(jià)難以接受。

此時(shí),我們自然就在想,是否可以在不更新模型參數(shù)的前提下,進(jìn)行預(yù)訓(xùn)練模型的下游任務(wù)遷移呢?而這也不是癡人說(shuō)夢(mèng),預(yù)訓(xùn)練模型在參數(shù)量足夠巨大的時(shí)候,本身就蘊(yùn)含著無(wú)限可能性,他好似一個(gè)無(wú)窮盡的知識(shí)庫(kù),只是缺少了有效的搜索途徑。從這個(gè)角度看,『finetune』這個(gè)過程才顯得可笑,這相當(dāng)于為了契合某個(gè)人的喜好,就將這個(gè)已有知識(shí)寶庫(kù)里面的大部分知識(shí)都付之一炬一般。理查德·道金斯所著的《自私的基因》一書中曾經(jīng)有句名言:

當(dāng)搜索空間足夠大時(shí),有效的搜索就與真正的創(chuàng)造并無(wú)二致了

我們?cè)趽碛辛诉@個(gè)無(wú)盡知識(shí)寶庫(kù)(大規(guī)模語(yǔ)言模型)后,應(yīng)該考慮的是如何才能有效從中找到我們需要的內(nèi)容,而這個(gè)過程我們不妨就稱之為prompt。^1

LLM的推理能力正是可以通過prompt技術(shù)進(jìn)行誘導(dǎo),而prompt又可以分為zero-shot promptfew-shot prompt,后者我們通常也稱之為情景學(xué)習(xí)(in-context learning)^2。如Fig 1.1 (a) 所示,few-shot prompt技術(shù)可以通過提供一個(gè)解決某個(gè)問題的中間思維過程作為示例,如綠底字就提供了解決這個(gè)文字?jǐn)?shù)學(xué)問題的中間計(jì)算過程,誘導(dǎo)LLM的回答里面也包含這個(gè)中間思維過程,因此這種prompt方式也稱之為思維鏈提示(Chain of Thought Prompt, CoT prompt)。如果只提供了一個(gè)示例,稱之為one-shot prompt,如果提供了若干個(gè)示例,則稱之為few-shot prompt,如果沒有提供任何示例呢?如Fig 1.1 (b)所示,這種我們稱之為zero-shot prompt。在zero-shot prompt中,沒有提供任何和任務(wù)有關(guān)的示例,頂多會(huì)提供一些通用的提示詞,如[8]只是在輸入的問題后面添加上了一段 Let's think step by step,即便如此,實(shí)驗(yàn)也證實(shí)了在GSM8K等推理任務(wù)中,zero-shot prompt也有著不錯(cuò)的表現(xiàn)(即便比不過few-shot prompt)。

   Fig 1.1 通過使用Few-shot思維鏈提示技術(shù)和zero-shot提示技術(shù),可以『誘導(dǎo)』出模型的推理能力。 

如Fig 1.2 (a)所示,采用了CoT prompt技術(shù)的LLM模型,比起不采用CoT的有著巨大的性能提升,而如Fig 1.2 (b)所示,CoT prompt帶來(lái)的大幅性能提升只在模型規(guī)模達(dá)到一定程度之后才會(huì)涌現(xiàn)。

   Fig 1.2 采用了CoT prompt技術(shù)后,與傳統(tǒng)prompt技術(shù)的結(jié)果對(duì)比。 

還有一些研究在嘗試將復(fù)雜問題進(jìn)行分解成多個(gè)子任務(wù),進(jìn)行分而治之解決,這些方法又可以分為兩大類,將復(fù)雜問題分解為子任務(wù)的方法,也是采用了prompt技術(shù)[9]進(jìn)行的。

  1. 獨(dú)立對(duì)子問題進(jìn)行求解,并將子解合并為最終解。
  2. 序列式地求解子問題,將上一個(gè)子問題的答案作為下一個(gè)子問題的依賴進(jìn)行求解。

這個(gè)過程可見Fig 1.3,在Prompt 0中對(duì)復(fù)雜問題進(jìn)行分解,得到兩個(gè)子問題,顯然這兩個(gè)子問題存在依賴關(guān)系,我們需要首先解決綠色子問題Subquestion 1。在prompt 1中,將綠色子問題Subquestion 1作為prompt,和原問題一并提供給LLM得到Answer 1。然后在Prompt 2中將原問題,Subquestion 1和Answer 1作為prompt的一部分輸入,同時(shí)再加入Subquestion 2,得到最終的問題答案Answer 2。

   Fig 1.3 LLM對(duì)復(fù)雜任務(wù)進(jìn)行子任務(wù)分解,然后序列式地對(duì)子問題進(jìn)行求解,得到最終的問題答案。 

即便已經(jīng)取得了如此了不起的結(jié)果,prompt技術(shù)還處在一些缺陷,特別是當(dāng)LLM足夠大的時(shí)候。首先,探索出一些能夠誘導(dǎo)出LLM形成推理能力(如多步推理)的prompt,挑選一個(gè)合適的prompt并不是一件容易的事情。如Fig 1.4 (a)所示,即便是相同的prompt示例樣本,不同標(biāo)注者的prompt風(fēng)格都可以導(dǎo)致在GSM8K上的結(jié)果有較大差距。不僅如此,當(dāng)LLM規(guī)模較大的時(shí)候,長(zhǎng)prompt同樣會(huì)帶來(lái)較大的計(jì)算負(fù)擔(dān)。

   Fig 1.4 即便對(duì)于同一個(gè)示例樣本,不同的prompt風(fēng)格都會(huì)對(duì)結(jié)果有很大影響。 

因此,一些研究嘗試顯式地誘導(dǎo)語(yǔ)言模型進(jìn)行推理^3,這個(gè)過程就回到了pretrain -> finetune的范式,不過還是同樣會(huì)使用prompt技術(shù)的輔助。文獻(xiàn)[10]提出了一種稱之為『草稿本(Scratchpad)』的概念,指的是模型在訓(xùn)練時(shí)候可以同時(shí)見到原問題和中間步驟,并且以中間步驟作為監(jiān)督信號(hào)進(jìn)行模型的finetune,在預(yù)測(cè)階段模型匯通是對(duì)中間步驟和中間答案都進(jìn)行預(yù)測(cè),像極了我們解數(shù)學(xué)題時(shí)候的草稿本,因此而得名。如Fig 1.5所示,該圖展示了一般直接式的程序執(zhí)行預(yù)測(cè)和草稿本策略下的程序執(zhí)行預(yù)測(cè)的差別,后者會(huì)對(duì)程序調(diào)用過程中的結(jié)果進(jìn)行跟蹤,并且以此微調(diào)模型,以此顯式地獲得推理能力。我們能發(fā)現(xiàn),scratchpad策略和我們之前提到的few-shot prompt等策略都有所不同,它是需要對(duì)模型進(jìn)行微調(diào)的。

   Fig 1.5 scratchpad會(huì)對(duì)代碼運(yùn)行或者數(shù)學(xué)計(jì)算的中間步驟和結(jié)果都進(jìn)行預(yù)測(cè)。 

還有一種類似的做法,scratchpad的方法是將多步推理標(biāo)注作為模型每一步預(yù)測(cè)的監(jiān)督信號(hào),而[11]則是一股腦將多步推理標(biāo)注作為prompt的一部分,與原問題一并輸入,如Fig 1.6所示,作者用<work> </work>各開了原問題和多步推理的prompt,監(jiān)督信號(hào)此時(shí)就只剩下了最終的問題結(jié)果,通過這種形式對(duì)模型進(jìn)行微調(diào)。在預(yù)測(cè)階段,只需要在輸入后加上<work>,就可以激活模型的多步推理能力。

   Fig 1.6  另一種可行的顯式多步推理建模,將多步推理過程在prompt中作為輸入。 

總結(jié)來(lái)看,LLM的推理能力可以認(rèn)為是一種將復(fù)雜問題分解為多個(gè)子問題,并且進(jìn)行分別求解的過程,這個(gè)過程中不能保證中間步驟的有效性,同時(shí)LLM也經(jīng)常會(huì)出現(xiàn)一些常識(shí)性錯(cuò)誤,并且LLM經(jīng)常在一些簡(jiǎn)單的數(shù)學(xué)問題中得到錯(cuò)誤的中間答案。這些我們將在后文中看到,可以通過調(diào)用外部工具(如搜索引擎、計(jì)算器等)進(jìn)行緩解,提高中間推理步驟的有效性。

在原文中,此處作者還提到了一個(gè)有趣的結(jié)論,采用顯式的指令微調(diào)(instruction finetuning),已經(jīng)在諸多研究中證實(shí)了其作用,能夠使得較小規(guī)模的(10B左右)的語(yǔ)言模型,超越未經(jīng)過指令微調(diào)的大規(guī)模語(yǔ)言模型,特別是在那些非??粗刂噶顖?zhí)行的任務(wù)中。這一點(diǎn)在chatGPT和其前輩instructGPT [15]都有體現(xiàn),他們利用了RLHF(Reinforcement Learning from Human Feedback)技術(shù),對(duì)LLM進(jìn)行了指令微調(diào),從而得到了強(qiáng)大的推理能力。

使用外部工具的能力

最近c(diǎn)hatGPT又推出了一個(gè)使用插件的功能 [12],使得chatGPT可以聯(lián)網(wǎng)與超過5000種的外部插件進(jìn)行交互,這是一個(gè)轟動(dòng)的結(jié)果,這意味著chatGPT作為一個(gè)『大腦』,從此可以利用互聯(lián)網(wǎng)中海量的插件能力,這無(wú)疑給chatGPT賦予了左膀右臂,如Fig 2.1的官方演示所示,一旦chatGPT接入了Wolfram Alpha,就再也不用擔(dān)心chatGPT數(shù)值計(jì)算的不準(zhǔn)確的問題了。一旦chatGPT接入了搜索引擎和數(shù)據(jù)庫(kù),chatGPT就可以檢索到最新的信息了。一旦chatGPT接入了代碼解釋器,chatGPT甚至還能幫你debug代碼!這海量的插件將給chatGPT帶來(lái)完全不同的玩法,我們不禁感嘆天網(wǎng)將至,似乎我們往著通用人工智能又往前了一大步。

   Fig 2.1 chatGPT接入了Wolfram Alpha插件后,擁有了更為精確的數(shù)值計(jì)算功能。 

從上面的例子中,我們不難看出LLM除了推理能力,還能借助外部知識(shí)庫(kù)的力量鞏固自己的知識(shí),不僅如此,LLM甚至還能『聽得懂』你的指令為你購(gòu)物,還能控制物理世界的機(jī)械臂 [13],而本章就討論LLM的這兩種能力:利用工具鞏固自己知識(shí)、通過工具影響外部世界。

此處的外部工具(External Tools)是一個(gè)廣義的概念,不僅僅是搜索引擎、數(shù)據(jù)庫(kù)、機(jī)械臂等,連神經(jīng)網(wǎng)絡(luò)或者語(yǔ)言模型本身也可以視為是外部工具。從這種角度上看,LLM迭代式地調(diào)用自身也可以視為是調(diào)用工具,類似的工作如PEER [15]。如Fig 2.1所示,PEER是一個(gè)自己調(diào)用自己的過程,其每次迭代中會(huì)輸入Text,LLM生成Plan和Edit,通過Plan的引導(dǎo)對(duì)原文進(jìn)行修改,并形成修改后的文本Edit。在后續(xù)的迭代中,將Edit作為Text,并迭代運(yùn)行,直到達(dá)到終止條件為止。這種迭代式優(yōu)化文本的方式對(duì)于一些復(fù)雜的生成任務(wù),如小說(shuō)、文章生成而言有著優(yōu)勢(shì),相當(dāng)于是將復(fù)雜任務(wù)拆分為了多個(gè)小型的子任務(wù)了。

   Fig 2.1 采用PEER的迭代式prompt的例子。 

正如上文所談到的,LLM還可以調(diào)用外部的知識(shí)單元,比如搜索引擎、數(shù)據(jù)庫(kù)等提高自身的知識(shí)推理能力,通過這種手段可以減少LLM的事實(shí)錯(cuò)誤推理,產(chǎn)生過時(shí)信息等,并且通過將LLM的知識(shí)儲(chǔ)存功能下放到外部知識(shí)模塊,可以減少LLM的參數(shù)量。檢索通??梢苑譃橄∈铏z索(Sparse)和稠密檢索(Dense),前者通過對(duì)文檔和檢索詞進(jìn)行詞袋(Word of Bag, WoB)表達(dá)后進(jìn)行匹配,是一種類似于字詞匹配的技術(shù);而后者通過神經(jīng)網(wǎng)絡(luò)對(duì)文檔和檢索詞進(jìn)行向量編碼后進(jìn)行相似度計(jì)算,也被稱之為向量化檢索 [16],這是一種基于語(yǔ)義的檢索方式。在我們本文中提到的工作都是采用稠密檢索的。語(yǔ)言模型嘗試采用檢索系統(tǒng)的結(jié)果并不是一件稀罕事兒,這類型的工作會(huì)將文檔的稠密表達(dá)拼接到當(dāng)前語(yǔ)言模型上下文的后面,從而進(jìn)行相似度計(jì)量,第一篇端到端的工作是REALM [17],還有若干篇后續(xù)工作。還有一些工作嘗試把思維鏈的思想也引入到檢索中,如IRCoT(交織型檢索思維鏈, Interleaving Retrieval CoT) [18]這個(gè)方案通過交織檢索步(Retrieve)和推理步(Reason),利用檢索得到的結(jié)果去加強(qiáng)CoT推理步的結(jié)果,反過來(lái)也用CoT推理步的結(jié)果去更好地檢索新結(jié)果,這是一個(gè)彼此加強(qiáng)的過程,如Fig 2.2所示。

   Fig 2.2 IRCoT的流程交織著檢索步(Retrieve)和推理步(Reason)。 

在這些工作中,為了獲得對(duì)應(yīng)的資料去增強(qiáng)語(yǔ)言模型,對(duì)于每個(gè)檢索請(qǐng)求(Query)都會(huì)調(diào)用檢索器(Retriever)。與此同時(shí),也有些其他工作讓語(yǔ)言模型只在需要的時(shí)候請(qǐng)求檢索器擴(kuò)充知識(shí)。比如BlenderBot [20] 可以通過prompt的方法決定是否發(fā)起檢索,在這種情況下,prompt方法直接與調(diào)用搜索引擎工具的指令相關(guān)聯(lián)了。由于可以訪問到外部的搜索引擎,因此BlenderBot可以應(yīng)對(duì)開放域(open-domain)的問題,如Fig 2.3所示,作者將其作為公開應(yīng)用進(jìn)行部署、公開,讓模型能以人在回路(human in the loop)的方式對(duì)模型進(jìn)行持續(xù)訓(xùn)練。

   Fig 2.3 BlenderBot 采用人在回路的方式,對(duì)模型進(jìn)行持續(xù)學(xué)習(xí)。 

BlenderBot只能對(duì)檢索器^4進(jìn)行調(diào)用,而在WebGPT這篇工作中,作者嘗試讓語(yǔ)言模型去仿照人的行為去『瀏覽』一個(gè)瀏覽器,為了實(shí)現(xiàn)的簡(jiǎn)便性,此處的瀏覽器是一個(gè)純文本構(gòu)成的瀏覽器^5。webGPT可以學(xué)習(xí)出如何通過使用如Fig 2.4所示的有限指令集對(duì)瀏覽器進(jìn)行檢索、瀏覽、點(diǎn)擊鏈接、引用數(shù)據(jù)源等,由于這顯然是一個(gè)action-reward的過程,在訓(xùn)練模型的時(shí)候采用了強(qiáng)化學(xué)習(xí),而此處的獎(jiǎng)勵(lì)也并不難定義,在給定了某個(gè)特定的任務(wù)描述的時(shí)候,只要判斷webGPT是否在瀏覽器中找到了需要的內(nèi)容,即可定義出非零既一的硬獎(jiǎng)勵(lì)函數(shù)去引導(dǎo)模型的學(xué)習(xí)了。

   Fig 2.4 WebGPT所使用的有限指令集,包括了網(wǎng)頁(yè)瀏覽相關(guān)的基本操作,如查詢、點(diǎn)擊鏈接、定位網(wǎng)頁(yè)、引用等等。 

由此我們看到LLM具有分解任務(wù)和決策序列規(guī)劃的能力,這種能力對(duì)于控制外部工具而言非常重要,LLM有一個(gè)很有意思的應(yīng)用就是嘗試?yán)肔LM作為『大腦』去分解高級(jí)指令,拆解目標(biāo)后控制一個(gè)虛擬仿真世界中的實(shí)體或者真實(shí)世界中的實(shí)體(agent)。如Fig 2.5所示,"Get Class of Milk"是一個(gè)復(fù)雜且抽象的指令,為了完成這個(gè)指令需要實(shí)體知道周圍環(huán)境的狀態(tài),并且拆解、規(guī)劃出合適的一系列動(dòng)作去完成,而[22]這篇工作指出,在LLM足夠龐大并且進(jìn)行了正確的prompt之后,LLM中所具有的世界知識(shí)(World Knowledge)足以讓實(shí)體完成這個(gè)任務(wù)。

   Fig 2.5 LLM可以拆解復(fù)雜、抽象的指令成若干具體指令,然后指導(dǎo)虛擬世界的實(shí)體進(jìn)行執(zhí)行。 

在[23]這個(gè)工作中,作者則結(jié)合多模態(tài)模型(Visual-Language Model, VLM)和LLM模型去控制模擬環(huán)境下的機(jī)械臂,LLM作為多步規(guī)劃器(去理解環(huán)境狀況與任務(wù)語(yǔ)義,進(jìn)行復(fù)雜任務(wù)的拆解),而VLM則作為觀察外部環(huán)境的手段,通過多模態(tài)模型的引入提供了更好的觀察外部世界的手段。

Reference

[1]. Kosinski, M. (2023). Theory of mind may have spontaneously emerged in large language models. arXiv preprint arXiv:2302.02083.

[2]. Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., ... & Zhang, Y. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.

[3]. https://cdn.openai.com/papers/gpt-4.pdf

[4]. Mialon, Grégoire, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière et al. "Augmented language models: a survey." arXiv preprint arXiv:2302.07842 (2023).

[5]. Wei, Jason, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).

[6]. https://fesianxu.github.io/2023/03/25/emergent-abilities-llm-20230324/, 《【論文極速讀】 大規(guī)模語(yǔ)言模型中的能力“涌現(xiàn)”現(xiàn)象》

[7]. Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. "Chain of thought prompting elicits reasoning in large language models." arXiv preprint arXiv:2201.11903 (2022).

[8]. Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. In Advances in Neural Information Processing Systems (NeurIPS), 2022.

[9]. Zeqiu Wu, Yi Luan, Hannah Rashkin, David Reitter, and Gaurav Singh Tomar. Conqrr: Conversational query rewriting for retrieval with reinforcement learning. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022d.

[10]. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., ... & Odena, A. (2021). Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114.

[11]. Taylor, Ross, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, and Robert Stojnic. "Galactica: A large language model for science." arXiv preprint arXiv:2211.09085 (2022).

[12]. https://openai.com/blog/chatgpt-plugins

[13]. Driess, Danny, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).

[14]. Timo Schick, Jane Dwivedi-Yu, Zhengbao Jiang, Fabio Petroni, Patrick Lewis, Gautier Izacard, Qingfei You, Christoforos Nalmpantis, Edouard Grave, and Sebastian Riedel. Peer: A collaborative language model. arXiv preprint arXiv:2208.11663, 2022.

[15]. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744. short for InstructGPT

[16]. Johnson, Jeff, Matthijs Douze, and Hervé Jégou. "Billion-scale similarity search with gpus." IEEE Transactions on Big Data 7, no. 3 (2019): 535-547.

[17]. Gautier Izacard and Edouard Grave. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282, 2020.

[18]. Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions. arXiv preprint arXiv:2212.10509, 2022.

[19]. Shuster, Kurt, Jing Xu, Mojtaba Komeili, Da Ju, Eric Michael Smith, Stephen Roller, Megan Ung et al. "Blenderbot 3: a deployed conversational agent that continually learns to responsibly engage." arXiv preprint arXiv:2208.03188 (2022).

[20]. Yao, Shunyu, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. "React: Synergizing reasoning and acting in language models." arXiv preprint arXiv:2210.03629 (2022).

[21]. Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., ... & Schulman, J. (2021). Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332.

[22]. Huang, Wenlong, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. "Language models as zero-shot planners: Extracting actionable knowledge for embodied agents." In International Conference on Machine Learning, pp. 9118-9147. PMLR, 2022.

[23]. Zeng, Andy, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael Ryoo et al. "Socratic models: Composing zero-shot multimodal reasoning with language." arXiv preprint arXiv:2204.00598 (2022).

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請(qǐng)聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 2
收藏 3
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧