99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認證:優質創作者
所在專題目錄 查看專題
增強型語言模型——走向通用智能的道路?!
【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務適配方式
【論文極速讀】EMT——評估多模態LLM中的災難性遺忘問題
LVM,視覺大模型的GPT時刻?
BLIP2——采用Q-Former融合視覺語義與LLM能力的方法
【論文極速讀】Flamingo:一種交織圖文的視覺語言大模型方法
作者動態 更多
給定計算預算下的最佳LLM模型尺寸與預訓練數據量分配
05-19 09:33
大模型推理時的尺度擴展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎勵模型中的尺度擴展定律和獎勵劫持
05-12 08:41
MeCo——給預訓練數據增加源信息,就能減少33%的訓練量并且提升效果
05-08 09:13

增強型語言模型——走向通用智能的道路?!

Augmented Language Model (ALM),筆者將其翻譯為增強型語言模型,因其不僅可處理常規的自然語言處理任務(如命名實體識別、文本分類等等),而且在一些看似不是自然語言任務的場景也可以應用(如操控機械臂等),在論文[4]中,作者給我們展示了一個ALM在當前已有的一些研究,筆者深受其震撼??偨Y來說,ALM主要有兩種最為突出的能力:

  1. 推理能力(Reasoning): 指的是模型能將復雜任務拆解為多個或多步簡單任務,通過對簡單任務的求解從而達到對復雜任務求解的目的。
  2. 對外部工具的操控能力(The ability of using external tools): 指的是有能力調用外部工具,比如搜索引擎、數據庫、甚至是物理世界的機械臂等。這種能力有可以再細分為單純從工具中獲取知識(如調用搜索引擎),或者通過工具影響物理世界(如操作機械臂)。

首先需要強調的是,這些能力目前來看都只在大規模語言模型(Large Language Model, LLM)中有所涌現(Emergency) [5],涌現指的是某種只在模型參數規模達到一定程度后(>10B)才能出現的能力,這些能力在小模型上都無從談起,對此的討論可參考博文 [6]。LLM的涌現能力可以說是ALM的基礎,具備了涌現能力之后,ALM才具有了強大的邏輯推理和語義理解能力??梢韵胂耄粋€模型如果能夠具有強大的語義理解能力和邏輯推理能力,并且可以通過操作外部工具獲取知識,影響物理世界,那么這已經和我們認識中的『強人工智能』似乎也相差不遠了?本文就是嘗試對ALM的這些神奇的能力進行綜述。

推理能力

通常來說,推理能力是通過證據(Evidence)和邏輯(Logic)對一個問題進行推理的能力,通??梢圆鸱譃橐恍┳訂栴}進行研究,比如常識推理(Commonsense reasoning)、數學推理(mathematical reasoning)、符號推理(Symbolic reasoning)等等。近些年來,基于prompt技術的語言模型得到了廣泛地流行,prompt技術+預訓練模型是一種新的范式,與傳統pretrain -> finetune的范式有所不同的是,在pretrain -> prompt范式中,我們可以不對模型參數進行更新,只需要考慮如何設計更加合理的prompt,就能充分地利用預訓練模型中的知識。這里指的『設計更合理的prompt』,既可以是借助已有的人工標注數據進行設計,也可以對已有的人工標注數據進行擴展,比如Chain of Thought Prompt [7] 就擴展了已有標注,補充了思維鏈的過程。

說到底,無論是prompt還是finetune,都是為了讓預訓練模型更好地往著下游任務遷移的過程,然而這兩者有著完全不同的設計思路。對于finetune而言,預訓練模型仿佛是一個早熟的『孩子』,知識豐富卻缺少了經驗,因此通過一些人工標注數據作為監督信號,去教導這個孩子成為某個領域的專家,然而這個蛻變的過程是刻骨銘心的,一旦他成為了一個領域的專家,他可能就很難成為另一個領域的專家了。蛻變后的他獲得了某個領域的成功,卻失去了作為孩子的無限發展的可能性(模型通用性)。不僅如此,現在的預訓練模型日漸龐大,GPT-3的參數量已經達到了175B,PaLM的參數量達到了540B,在這種參數量下,即便是少量樣本的微調,也顯得代價難以接受。

此時,我們自然就在想,是否可以在不更新模型參數的前提下,進行預訓練模型的下游任務遷移呢?而這也不是癡人說夢,預訓練模型在參數量足夠巨大的時候,本身就蘊含著無限可能性,他好似一個無窮盡的知識庫,只是缺少了有效的搜索途徑。從這個角度看,『finetune』這個過程才顯得可笑,這相當于為了契合某個人的喜好,就將這個已有知識寶庫里面的大部分知識都付之一炬一般。理查德·道金斯所著的《自私的基因》一書中曾經有句名言:

當搜索空間足夠大時,有效的搜索就與真正的創造并無二致了

我們在擁有了這個無盡知識寶庫(大規模語言模型)后,應該考慮的是如何才能有效從中找到我們需要的內容,而這個過程我們不妨就稱之為prompt。^1

LLM的推理能力正是可以通過prompt技術進行誘導,而prompt又可以分為zero-shot promptfew-shot prompt,后者我們通常也稱之為情景學習(in-context learning)^2。如Fig 1.1 (a) 所示,few-shot prompt技術可以通過提供一個解決某個問題的中間思維過程作為示例,如綠底字就提供了解決這個文字數學問題的中間計算過程,誘導LLM的回答里面也包含這個中間思維過程,因此這種prompt方式也稱之為思維鏈提示(Chain of Thought Prompt, CoT prompt)。如果只提供了一個示例,稱之為one-shot prompt,如果提供了若干個示例,則稱之為few-shot prompt,如果沒有提供任何示例呢?如Fig 1.1 (b)所示,這種我們稱之為zero-shot prompt。在zero-shot prompt中,沒有提供任何和任務有關的示例,頂多會提供一些通用的提示詞,如[8]只是在輸入的問題后面添加上了一段 Let's think step by step,即便如此,實驗也證實了在GSM8K等推理任務中,zero-shot prompt也有著不錯的表現(即便比不過few-shot prompt)。

   Fig 1.1 通過使用Few-shot思維鏈提示技術和zero-shot提示技術,可以『誘導』出模型的推理能力。 

如Fig 1.2 (a)所示,采用了CoT prompt技術的LLM模型,比起不采用CoT的有著巨大的性能提升,而如Fig 1.2 (b)所示,CoT prompt帶來的大幅性能提升只在模型規模達到一定程度之后才會涌現。

   Fig 1.2 采用了CoT prompt技術后,與傳統prompt技術的結果對比。 

還有一些研究在嘗試將復雜問題進行分解成多個子任務,進行分而治之解決,這些方法又可以分為兩大類,將復雜問題分解為子任務的方法,也是采用了prompt技術[9]進行的。

  1. 獨立對子問題進行求解,并將子解合并為最終解。
  2. 序列式地求解子問題,將上一個子問題的答案作為下一個子問題的依賴進行求解。

這個過程可見Fig 1.3,在Prompt 0中對復雜問題進行分解,得到兩個子問題,顯然這兩個子問題存在依賴關系,我們需要首先解決綠色子問題Subquestion 1。在prompt 1中,將綠色子問題Subquestion 1作為prompt,和原問題一并提供給LLM得到Answer 1。然后在Prompt 2中將原問題,Subquestion 1和Answer 1作為prompt的一部分輸入,同時再加入Subquestion 2,得到最終的問題答案Answer 2。

   Fig 1.3 LLM對復雜任務進行子任務分解,然后序列式地對子問題進行求解,得到最終的問題答案。 

即便已經取得了如此了不起的結果,prompt技術還處在一些缺陷,特別是當LLM足夠大的時候。首先,探索出一些能夠誘導出LLM形成推理能力(如多步推理)的prompt,挑選一個合適的prompt并不是一件容易的事情。如Fig 1.4 (a)所示,即便是相同的prompt示例樣本,不同標注者的prompt風格都可以導致在GSM8K上的結果有較大差距。不僅如此,當LLM規模較大的時候,長prompt同樣會帶來較大的計算負擔。

   Fig 1.4 即便對于同一個示例樣本,不同的prompt風格都會對結果有很大影響。 

因此,一些研究嘗試顯式地誘導語言模型進行推理^3,這個過程就回到了pretrain -> finetune的范式,不過還是同樣會使用prompt技術的輔助。文獻[10]提出了一種稱之為『草稿本(Scratchpad)』的概念,指的是模型在訓練時候可以同時見到原問題和中間步驟,并且以中間步驟作為監督信號進行模型的finetune,在預測階段模型匯通是對中間步驟和中間答案都進行預測,像極了我們解數學題時候的草稿本,因此而得名。如Fig 1.5所示,該圖展示了一般直接式的程序執行預測和草稿本策略下的程序執行預測的差別,后者會對程序調用過程中的結果進行跟蹤,并且以此微調模型,以此顯式地獲得推理能力。我們能發現,scratchpad策略和我們之前提到的few-shot prompt等策略都有所不同,它是需要對模型進行微調的。

   Fig 1.5 scratchpad會對代碼運行或者數學計算的中間步驟和結果都進行預測。 

還有一種類似的做法,scratchpad的方法是將多步推理標注作為模型每一步預測的監督信號,而[11]則是一股腦將多步推理標注作為prompt的一部分,與原問題一并輸入,如Fig 1.6所示,作者用<work> </work>各開了原問題和多步推理的prompt,監督信號此時就只剩下了最終的問題結果,通過這種形式對模型進行微調。在預測階段,只需要在輸入后加上<work>,就可以激活模型的多步推理能力。

   Fig 1.6  另一種可行的顯式多步推理建模,將多步推理過程在prompt中作為輸入。 

總結來看,LLM的推理能力可以認為是一種將復雜問題分解為多個子問題,并且進行分別求解的過程,這個過程中不能保證中間步驟的有效性,同時LLM也經常會出現一些常識性錯誤,并且LLM經常在一些簡單的數學問題中得到錯誤的中間答案。這些我們將在后文中看到,可以通過調用外部工具(如搜索引擎、計算器等)進行緩解,提高中間推理步驟的有效性。

在原文中,此處作者還提到了一個有趣的結論,采用顯式的指令微調(instruction finetuning),已經在諸多研究中證實了其作用,能夠使得較小規模的(10B左右)的語言模型,超越未經過指令微調的大規模語言模型,特別是在那些非??粗刂噶顖绦械娜蝿罩?。這一點在chatGPT和其前輩instructGPT [15]都有體現,他們利用了RLHF(Reinforcement Learning from Human Feedback)技術,對LLM進行了指令微調,從而得到了強大的推理能力。

使用外部工具的能力

最近chatGPT又推出了一個使用插件的功能 [12],使得chatGPT可以聯網與超過5000種的外部插件進行交互,這是一個轟動的結果,這意味著chatGPT作為一個『大腦』,從此可以利用互聯網中海量的插件能力,這無疑給chatGPT賦予了左膀右臂,如Fig 2.1的官方演示所示,一旦chatGPT接入了Wolfram Alpha,就再也不用擔心chatGPT數值計算的不準確的問題了。一旦chatGPT接入了搜索引擎和數據庫,chatGPT就可以檢索到最新的信息了。一旦chatGPT接入了代碼解釋器,chatGPT甚至還能幫你debug代碼!這海量的插件將給chatGPT帶來完全不同的玩法,我們不禁感嘆天網將至,似乎我們往著通用人工智能又往前了一大步。

   Fig 2.1 chatGPT接入了Wolfram Alpha插件后,擁有了更為精確的數值計算功能。 

從上面的例子中,我們不難看出LLM除了推理能力,還能借助外部知識庫的力量鞏固自己的知識,不僅如此,LLM甚至還能『聽得懂』你的指令為你購物,還能控制物理世界的機械臂 [13],而本章就討論LLM的這兩種能力:利用工具鞏固自己知識、通過工具影響外部世界。

此處的外部工具(External Tools)是一個廣義的概念,不僅僅是搜索引擎、數據庫、機械臂等,連神經網絡或者語言模型本身也可以視為是外部工具。從這種角度上看,LLM迭代式地調用自身也可以視為是調用工具,類似的工作如PEER [15]。如Fig 2.1所示,PEER是一個自己調用自己的過程,其每次迭代中會輸入Text,LLM生成Plan和Edit,通過Plan的引導對原文進行修改,并形成修改后的文本Edit。在后續的迭代中,將Edit作為Text,并迭代運行,直到達到終止條件為止。這種迭代式優化文本的方式對于一些復雜的生成任務,如小說、文章生成而言有著優勢,相當于是將復雜任務拆分為了多個小型的子任務了。

   Fig 2.1 采用PEER的迭代式prompt的例子。 

正如上文所談到的,LLM還可以調用外部的知識單元,比如搜索引擎、數據庫等提高自身的知識推理能力,通過這種手段可以減少LLM的事實錯誤推理,產生過時信息等,并且通過將LLM的知識儲存功能下放到外部知識模塊,可以減少LLM的參數量。檢索通常可以分為稀疏檢索(Sparse)和稠密檢索(Dense),前者通過對文檔和檢索詞進行詞袋(Word of Bag, WoB)表達后進行匹配,是一種類似于字詞匹配的技術;而后者通過神經網絡對文檔和檢索詞進行向量編碼后進行相似度計算,也被稱之為向量化檢索 [16],這是一種基于語義的檢索方式。在我們本文中提到的工作都是采用稠密檢索的。語言模型嘗試采用檢索系統的結果并不是一件稀罕事兒,這類型的工作會將文檔的稠密表達拼接到當前語言模型上下文的后面,從而進行相似度計量,第一篇端到端的工作是REALM [17],還有若干篇后續工作。還有一些工作嘗試把思維鏈的思想也引入到檢索中,如IRCoT(交織型檢索思維鏈, Interleaving Retrieval CoT) [18]這個方案通過交織檢索步(Retrieve)和推理步(Reason),利用檢索得到的結果去加強CoT推理步的結果,反過來也用CoT推理步的結果去更好地檢索新結果,這是一個彼此加強的過程,如Fig 2.2所示。

   Fig 2.2 IRCoT的流程交織著檢索步(Retrieve)和推理步(Reason)。 

在這些工作中,為了獲得對應的資料去增強語言模型,對于每個檢索請求(Query)都會調用檢索器(Retriever)。與此同時,也有些其他工作讓語言模型只在需要的時候請求檢索器擴充知識。比如BlenderBot [20] 可以通過prompt的方法決定是否發起檢索,在這種情況下,prompt方法直接與調用搜索引擎工具的指令相關聯了。由于可以訪問到外部的搜索引擎,因此BlenderBot可以應對開放域(open-domain)的問題,如Fig 2.3所示,作者將其作為公開應用進行部署、公開,讓模型能以人在回路(human in the loop)的方式對模型進行持續訓練。

   Fig 2.3 BlenderBot 采用人在回路的方式,對模型進行持續學習。 

BlenderBot只能對檢索器^4進行調用,而在WebGPT這篇工作中,作者嘗試讓語言模型去仿照人的行為去『瀏覽』一個瀏覽器,為了實現的簡便性,此處的瀏覽器是一個純文本構成的瀏覽器^5。webGPT可以學習出如何通過使用如Fig 2.4所示的有限指令集對瀏覽器進行檢索、瀏覽、點擊鏈接、引用數據源等,由于這顯然是一個action-reward的過程,在訓練模型的時候采用了強化學習,而此處的獎勵也并不難定義,在給定了某個特定的任務描述的時候,只要判斷webGPT是否在瀏覽器中找到了需要的內容,即可定義出非零既一的硬獎勵函數去引導模型的學習了。

   Fig 2.4 WebGPT所使用的有限指令集,包括了網頁瀏覽相關的基本操作,如查詢、點擊鏈接、定位網頁、引用等等。 

由此我們看到LLM具有分解任務和決策序列規劃的能力,這種能力對于控制外部工具而言非常重要,LLM有一個很有意思的應用就是嘗試利用LLM作為『大腦』去分解高級指令,拆解目標后控制一個虛擬仿真世界中的實體或者真實世界中的實體(agent)。如Fig 2.5所示,"Get Class of Milk"是一個復雜且抽象的指令,為了完成這個指令需要實體知道周圍環境的狀態,并且拆解、規劃出合適的一系列動作去完成,而[22]這篇工作指出,在LLM足夠龐大并且進行了正確的prompt之后,LLM中所具有的世界知識(World Knowledge)足以讓實體完成這個任務。

   Fig 2.5 LLM可以拆解復雜、抽象的指令成若干具體指令,然后指導虛擬世界的實體進行執行。 

在[23]這個工作中,作者則結合多模態模型(Visual-Language Model, VLM)和LLM模型去控制模擬環境下的機械臂,LLM作為多步規劃器(去理解環境狀況與任務語義,進行復雜任務的拆解),而VLM則作為觀察外部環境的手段,通過多模態模型的引入提供了更好的觀察外部世界的手段。

Reference

[1]. Kosinski, M. (2023). Theory of mind may have spontaneously emerged in large language models. arXiv preprint arXiv:2302.02083.

[2]. Bubeck, S., Chandrasekaran, V., Eldan, R., Gehrke, J., Horvitz, E., Kamar, E., ... & Zhang, Y. (2023). Sparks of Artificial General Intelligence: Early experiments with GPT-4. arXiv preprint arXiv:2303.12712.

[3]. https://cdn.openai.com/papers/gpt-4.pdf

[4]. Mialon, Grégoire, Roberto Dessì, Maria Lomeli, Christoforos Nalmpantis, Ram Pasunuru, Roberta Raileanu, Baptiste Rozière et al. "Augmented language models: a survey." arXiv preprint arXiv:2302.07842 (2023).

[5]. Wei, Jason, Yi Tay, Rishi Bommasani, Colin Raffel, Barret Zoph, Sebastian Borgeaud, Dani Yogatama et al. "Emergent abilities of large language models." arXiv preprint arXiv:2206.07682 (2022).

[6]. https://fesianxu.github.io/2023/03/25/emergent-abilities-llm-20230324/, 《【論文極速讀】 大規模語言模型中的能力“涌現”現象》

[7]. Wei, Jason, Xuezhi Wang, Dale Schuurmans, Maarten Bosma, Ed Chi, Quoc Le, and Denny Zhou. "Chain of thought prompting elicits reasoning in large language models." arXiv preprint arXiv:2201.11903 (2022).

[8]. Takeshi Kojima, Shixiang Shane Gu, Machel Reid, Yutaka Matsuo, and Yusuke Iwasawa. Large language models are zero-shot reasoners. In Advances in Neural Information Processing Systems (NeurIPS), 2022.

[9]. Zeqiu Wu, Yi Luan, Hannah Rashkin, David Reitter, and Gaurav Singh Tomar. Conqrr: Conversational query rewriting for retrieval with reinforcement learning. Conference on Empirical Methods in Natural Language Processing (EMNLP), 2022d.

[10]. Nye, M., Andreassen, A. J., Gur-Ari, G., Michalewski, H., Austin, J., Bieber, D., ... & Odena, A. (2021). Show your work: Scratchpads for intermediate computation with language models. arXiv preprint arXiv:2112.00114.

[11]. Taylor, Ross, Marcin Kardas, Guillem Cucurull, Thomas Scialom, Anthony Hartshorn, Elvis Saravia, Andrew Poulton, Viktor Kerkez, and Robert Stojnic. "Galactica: A large language model for science." arXiv preprint arXiv:2211.09085 (2022).

[12]. https://openai.com/blog/chatgpt-plugins

[13]. Driess, Danny, Fei Xia, Mehdi SM Sajjadi, Corey Lynch, Aakanksha Chowdhery, Brian Ichter, Ayzaan Wahid et al. "Palm-e: An embodied multimodal language model." arXiv preprint arXiv:2303.03378 (2023).

[14]. Timo Schick, Jane Dwivedi-Yu, Zhengbao Jiang, Fabio Petroni, Patrick Lewis, Gautier Izacard, Qingfei You, Christoforos Nalmpantis, Edouard Grave, and Sebastian Riedel. Peer: A collaborative language model. arXiv preprint arXiv:2208.11663, 2022.

[15]. Ouyang, L., Wu, J., Jiang, X., Almeida, D., Wainwright, C., Mishkin, P., ... & Lowe, R. (2022). Training language models to follow instructions with human feedback. Advances in Neural Information Processing Systems, 35, 27730-27744. short for InstructGPT

[16]. Johnson, Jeff, Matthijs Douze, and Hervé Jégou. "Billion-scale similarity search with gpus." IEEE Transactions on Big Data 7, no. 3 (2019): 535-547.

[17]. Gautier Izacard and Edouard Grave. Leveraging passage retrieval with generative models for open domain question answering. arXiv preprint arXiv:2007.01282, 2020.

[18]. Harsh Trivedi, Niranjan Balasubramanian, Tushar Khot, and Ashish Sabharwal. Interleaving retrieval with chain-of-thought reasoning for knowledge-intensive multi-step questions. arXiv preprint arXiv:2212.10509, 2022.

[19]. Shuster, Kurt, Jing Xu, Mojtaba Komeili, Da Ju, Eric Michael Smith, Stephen Roller, Megan Ung et al. "Blenderbot 3: a deployed conversational agent that continually learns to responsibly engage." arXiv preprint arXiv:2208.03188 (2022).

[20]. Yao, Shunyu, Jeffrey Zhao, Dian Yu, Nan Du, Izhak Shafran, Karthik Narasimhan, and Yuan Cao. "React: Synergizing reasoning and acting in language models." arXiv preprint arXiv:2210.03629 (2022).

[21]. Nakano, R., Hilton, J., Balaji, S., Wu, J., Ouyang, L., Kim, C., ... & Schulman, J. (2021). Webgpt: Browser-assisted question-answering with human feedback. arXiv preprint arXiv:2112.09332.

[22]. Huang, Wenlong, Pieter Abbeel, Deepak Pathak, and Igor Mordatch. "Language models as zero-shot planners: Extracting actionable knowledge for embodied agents." In International Conference on Machine Learning, pp. 9118-9147. PMLR, 2022.

[23]. Zeng, Andy, Adrian Wong, Stefan Welker, Krzysztof Choromanski, Federico Tombari, Aveek Purohit, Michael Ryoo et al. "Socratic models: Composing zero-shot multimodal reasoning with language." arXiv preprint arXiv:2204.00598 (2022).

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 2
收藏 3
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 蜜桃AV噜噜一区二区三区 | 国产在线精品一区二区 | 亚洲乱码久久久 | 欧美综合视频在线 | 色婷婷tv| 国产综合色视频 | 中文字幕国产视频 | 国产真实一区二区三区 | 日韩爱爱小视频 | 国产精品一区二区三区视频网站 | 精品成人毛片一区二区 | 国产成人久久久精品二区三区 | 任你操在线精品 | 国产在线观看香蕉视频网 | 国产精品探花在线观看 | 久久精品欧美一区二区三区不卡 | 欧美精产国品一二三产品 | 成人av中文解说水果派在线观看 | 天天做天天爱夜夜爽女人爽 | 成人福利一区 | 男人插女人免费视频 | 亚洲欧洲日产国码韩国 | 免费国产女王调教在线视频 | 亚洲乱色熟女一区二区三区 | 亚洲成a人片777777久久 | 999www人成免费视频 | 人人爽人人澡人人人人妻 | 欧洲成人午夜精品无码区久久 | 91久久丝袜国产露脸动漫 | 一级黄色录像影片夫妻性生活影片 | 99福利资源久久福利资源 | 久久亚洲sm情趣捆绑调教 | 精品久久久久久18免费网站 | 一边捏奶头一边高潮视频 | 在线观看的黄色 | 免费一级大片 | 亚洲国产一成久久精品 | 麻豆精品videohd4k | 乱人伦人妻中文字幕无码久久网 | 天天操天天碰视频 | 国产日产免费高清欧美一区 |