99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
增強(qiáng)型語言模型——走向通用智能的道路?!
【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式
【論文極速讀】EMT——評估多模態(tài)LLM中的災(zāi)難性遺忘問題
LVM,視覺大模型的GPT時(shí)刻?
BLIP2——采用Q-Former融合視覺語義與LLM能力的方法
【論文極速讀】Flamingo:一種交織圖文的視覺語言大模型方法
作者動(dòng)態(tài) 更多
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式

眾所周知,當(dāng)前LLM是人工智能界的香餑餑,眾多廠商和研究者都希望能夠在LLM上進(jìn)行應(yīng)用推廣和研究,這就難免需要對LLM進(jìn)行下游任務(wù)的適配,最理想的情況當(dāng)然是可以用私有數(shù)據(jù),進(jìn)行全網(wǎng)絡(luò)端到端的微調(diào)。但是LLM現(xiàn)在參數(shù)量巨大,大部分都大于6B,有些甚至達(dá)到了100B以上,即便是端到端微調(diào)都需要大量的硬件資源。PEFT(Parameter-Efficient FineTune)旨在最高效地引入?yún)?shù),探索合適的訓(xùn)練方式,使得LLM適配下游任務(wù)的代價(jià)最小化,而本文提到的Prompt Tuning [1] 就是這樣一個(gè)工作。

在介紹這個(gè)工作之前,我們得知道什么是prompt,關(guān)于prompt的內(nèi)容之前在博文[2]中曾經(jīng)介紹過,簡單來說,就是用某種固定的模板或者范式,嘗試去讓LLM去適配下游任務(wù),從在prompt中是否提供例子的角度上看,又可以分為one-shot prompt, few-shot prompt, zero-shot prompt等。但是,在文章[3]中提到過,不同的prompt模板對性能的影響巨大,如Fig 1.所示,我們也把這種prompt稱之為硬提示詞(hard-prompt)。既然有『硬』的,那么就肯定有『軟』的prompt,soft-prompt指的是模型可以通過學(xué)習(xí)的方式去學(xué)習(xí)出prompt模板,經(jīng)典工作包括P-Tuning [3], prefix prompt [4], soft prompt [5],以及本文將會(huì)介紹到的prompt tuning [1]。

Fig 1.  不同的prompt模板對性能影響巨大

如Fig 2.所示,在prompt tuning中,在原有hard prompt模板之前拼接了若干個(gè)可學(xué)習(xí)的token,我們用表示soft prompt部分,其中為拼接的token數(shù)量,用表示hard prompt部分。那么,完整的prompt可表示為,模型的目標(biāo)既變?yōu)榱?span>。此時(shí),LLM的參數(shù)和embedding層的參數(shù)都是設(shè)置為不可學(xué)習(xí)的 (?),整個(gè)網(wǎng)絡(luò)只有soft prompt層是可學(xué)習(xí)的(????),這意味著微調(diào)模型需要的內(nèi)存和計(jì)算代價(jià)都大大減小了 。

這是由于將LLM的參數(shù)設(shè)置成為了不可學(xué)習(xí),因此在反向過程中很多參數(shù)并不需要在顯存中維護(hù)。假設(shè)模型的參數(shù)量為X,那么常用的Adam優(yōu)化器的兩個(gè)動(dòng)量就不需要維護(hù)了(減少2X),激活值通過重計(jì)算技術(shù),已經(jīng)縮減了絕大部分,并且梯度只需要傳遞到soft prompt部分,而不需要進(jìn)行參數(shù)更新,因此梯度也可以不維護(hù)(減少X),因此所需顯存減少了3X,并且減少了對參數(shù)更新的計(jì)算量。

Fig 2.  prompt tuning在原有hard-prompt模板之前,拼接了若干個(gè)可學(xué)習(xí)的token,并將其視為soft-prompt。

只需要設(shè)置不同的soft prompt就可以適配不同的下游任務(wù)了,如Fig 3. 所示,在模型參數(shù)量足夠大()的時(shí)候,采用prompt tuning的效果足以比肩全參數(shù)微調(diào),而且所需參數(shù)量只有后者的萬分之一,是名副其實(shí)的參數(shù)高效(Parameter-Efficient)方法。而不管在什么尺度的模型下,prompt tuning的結(jié)果都要遠(yuǎn)遠(yuǎn)優(yōu)于hard prompt design的結(jié)果,人工設(shè)計(jì)的prompt模板確實(shí)很難與模型自己學(xué)習(xí)出來的競爭。

Fig 3.  (a)在10B以上的模型中,采用prompt tuning的結(jié)果可以和全模型端到端微調(diào)的結(jié)果持平,(b)而prompt tuning增加的參數(shù)量只有全模型端到端微調(diào)的萬分之一。

此外,作者在論文中還進(jìn)行了更多實(shí)驗(yàn)去驗(yàn)證prompt tuning的有效性和其他特性。第一個(gè)就是soft prompt所需要的長度,如Fig 4. (a)所示,在10B模型下,20-100個(gè)soft token是一個(gè)比較合適的數(shù)量,20個(gè)token能提供最大的性價(jià)比。如何初始化這些新增的soft token embedding也是一個(gè)指的思考的問題,作者嘗試了隨機(jī)均勻初始化,從詞表的embedding中采樣,以及對于分類任務(wù)而言,用label的類別embedding進(jìn)行初始化,如Fig 4. (b) 所示,隨機(jī)初始化在模型參數(shù)量不夠的時(shí)候(< 10B)表現(xiàn),不如從詞表采樣和label初始化的方法,但當(dāng)模型參數(shù)量足夠大時(shí),隨機(jī)初始化的效果能夠達(dá)到最好,優(yōu)于從詞表中采樣的方法。考慮到本文采用的LLM是T5,而T5是一個(gè)encoder-decoder的結(jié)構(gòu),在設(shè)計(jì)預(yù)訓(xùn)練任務(wù)的時(shí)候采用的是span corruption + 哨兵token的形式,如:

Origin: Thank you for inviting me to your party last week 

Corrupted: Thank you for [X] me to your party [Y] week 

Target: [X] inviting [Y] last [Z]

這樣設(shè)計(jì)預(yù)訓(xùn)練任務(wù)能實(shí)現(xiàn)encoder-decoder架構(gòu)的T5高效預(yù)訓(xùn)練,但是這意味著模型沒有見過自然語言的輸入(因?yàn)檩斎肟偸怯猩诒鴗oken,比如[X]/[Y]等),為了實(shí)現(xiàn)T5到LM的適配,在本文中作者嘗試對T5進(jìn)行了LM Adaptation的后訓(xùn)練:繼續(xù)T5的少量預(yù)訓(xùn)練,給定自然文本作為輸入,嘗試預(yù)測自然語言的輸出,而不是帶有哨兵token的文本。此外,作者還嘗試了所謂的Span Corruption + 哨兵的方法,指的是在原T5模型基礎(chǔ)上,在應(yīng)用到下游任務(wù)預(yù)測時(shí)候,都給拼接上哨兵token,以減少下游任務(wù)和預(yù)訓(xùn)練任務(wù)的gap。如Fig 4. (C)所示,無論采用多大尺度的模型,采用了LM Adaptation能帶來持續(xù)的增益,而Span Corruption或者Span Corruption+Sentinel的方法,則只在10B模型的尺度上能有比較好的效果(然而仍然無法超越前者)。那么LM Adaptation需要進(jìn)行多少step的訓(xùn)練合適呢?在Fig 4. (d)中,作者進(jìn)行了若干嘗試,結(jié)果表明越多step將會(huì)帶來越多的收益,最終作者選定在100k step。

Fig 4.  對prompt tuning不同設(shè)置的探索實(shí)驗(yàn)。

采用prompt tuning還有一個(gè)好處就是可以讓多個(gè)下游任務(wù)復(fù)用同一個(gè)LLM模型。在模型微調(diào)中,對于每個(gè)下游任務(wù)都需要維護(hù)一套獨(dú)立的模型,如Fig 5. 左圖所示,而在prompt tuning中,則只需要維護(hù)一套靜態(tài)的LLM模型,不同任務(wù)通過不同的soft prompt進(jìn)行區(qū)分即可激發(fā)LLM的不同下游任務(wù)能力,如Fig 5. 右圖所示,因?yàn)榭梢怨?jié)省很多資源,這對于部署來說很友好。

Fig 5. 采用prompt tuning的方式,可以很方便的用同一個(gè)模型覆蓋多個(gè)下游任務(wù),實(shí)現(xiàn)資源節(jié)省。

Reference

[1]. Lester, Brian, Rami Al-Rfou, and Noah Constant. "The power of scale for parameter-efficient prompt tuning." arXiv preprint arXiv:2104.08691 (2021).  aka Prompt Tuning.

[2]. https://blog.csdn.net/LoseInVain/article/details/130500648, 《增強(qiáng)型語言模型——走向通用智能的道路?!?》

[3]. Xiao Liu, Yanan Zheng, Zhengxiao Du, Ming Ding, Yujie Qian, Zhilin Yang, and Jie Tang. 2021. Gpt understands, too. arXiv:2103.10385. aka p-tuning

[4]. Li, Xiang Lisa, and Percy Liang. "Prefix-tuning: Optimizing continuous prompts for generation." arXiv preprint arXiv:2101.00190 (2021). aka prefix tuning

[5]. Qin, Guanghui, and Jason Eisner. "Learning how to ask: Querying LMs with mixtures of soft prompts." arXiv preprint arXiv:2104.06599 (2021). aka soft prompt

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧
主站蜘蛛池模板: 免费日韩毛片 | 久久99亚洲精品久久99果 | 国产美女久久 | 毛片综合| 国产高清一区二区三区视频 | 久草免费新视频 | 国产精品久久久久久久久久了 | JiZZJiZZ成熟丰满熟妇 | 亚洲小说综合网 | 在线观看无码AV网站永久免费 | 日韩爱爱片 | 日韩在线播放网站 | 亚洲日本乱码一区二区三区 | 国产精品亚洲午夜不卡 | 午夜福利无码不卡在线观看 | 欧美熟妇色ⅹxxx欧美妇 | 天天爽天天狠久久久综合麻豆 | www一起操 | 爽爽午夜影视窝窝看片 | 亚洲aa视频 | 把女人弄爽特黄a大片777 | 久久中文字幕亚洲 | 四虎国产| 亚洲成人诱惑 | 亚洲日韩在线中文字幕第一页 | 中文字幕中文字幕在线中文字幕三区 | 免费乱码人妻系列无码专区 | 成人h动漫无码网站久久 | 久热精品视频在线 | 911色_911色sss主站色播 | 久久久久久久人妻无码中文字幕爆 | 性刺激的大陆三级视频 | 污污汅18禁在线无遮挡免费观看 | 九色精品国产 | 久久久久久久久无码精品亚洲日韩 | 国产乱码精品 | 日本欧美一区二区三区视频麻豆 | 日韩精品久久久久久久软件91 | 亚洲a一区二区三区 | 国产成人啪精品视频免费网站 | 67194成在线观看免费 |