99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
所在專題目錄 查看專題
增強(qiáng)型語(yǔ)言模型——走向通用智能的道路?!
【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式
【論文極速讀】EMT——評(píng)估多模態(tài)LLM中的災(zāi)難性遺忘問(wèn)題
LVM,視覺(jué)大模型的GPT時(shí)刻?
BLIP2——采用Q-Former融合視覺(jué)語(yǔ)義與LLM能力的方法
【論文極速讀】Flamingo:一種交織圖文的視覺(jué)語(yǔ)言大模型方法
作者動(dòng)態(tài) 更多
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

【論文極速讀】EMT——評(píng)估多模態(tài)LLM中的災(zāi)難性遺忘問(wèn)題

災(zāi)難性遺忘(Catastrophic forgetting)是在深度學(xué)習(xí)領(lǐng)域的一個(gè)概念,指的是模型在學(xué)習(xí)一個(gè)新目標(biāo)的時(shí)候,對(duì)熱啟模型信息忘卻的一個(gè)現(xiàn)象,比如在采用預(yù)訓(xùn)練模型作為熱啟,對(duì)模型進(jìn)行微調(diào)導(dǎo)致模型對(duì)預(yù)訓(xùn)練模型信息的忘卻。論文[1]報(bào)告了在多模態(tài)大規(guī)模語(yǔ)言模型(Multimodal Large Language Model, MLLM)中遇到的災(zāi)難性遺忘現(xiàn)象。通常來(lái)說(shuō),MLLM的視覺(jué)信息部分由視覺(jué)編碼器(如ViT、Resnet等)組成,作者在論文中發(fā)現(xiàn)MLLM的圖片分類能力對(duì)比原視覺(jué)編碼器而言,會(huì)出現(xiàn)分類性能的下降,而在對(duì)MLLM進(jìn)行微調(diào)后,發(fā)現(xiàn)會(huì)出現(xiàn)災(zāi)難性遺忘,作者提出一個(gè)稱之為EMT的框架去評(píng)估(取名得純純二次元呢:P)。

所謂的EMT(Evaluating MulTimodality),如Fig 1.所示,首先輸入待評(píng)估圖片和prompt,讓MLLM去對(duì)圖片類別進(jìn)行預(yù)測(cè),由于LLM是生成式模型,其輸出格式具有一定的不可控性,這意味著其預(yù)測(cè)輸出和真實(shí)label之間可能是語(yǔ)義相同(semantic match)的,但是字面上卻不匹配(lexical mismatch),因此在下游接入另一個(gè)LLM(比如GPT 3.5 turbo)進(jìn)行預(yù)測(cè)結(jié)果的評(píng)估。

Fig 1. EMT的框架示意圖。

通過(guò)這種方法,作者評(píng)估了LLaVA-7b、LLaVA13b與其視覺(jué)編碼器CLIP的性能差異,見(jiàn)Fig 2. (a),同樣的,作者也評(píng)估了LENS與openCLIP,InstructBLIP 7b、InstructBLIP 13b與openCLIP性能的差別,在各個(gè)圖像分類測(cè)試集中結(jié)果繪制成玫瑰圖,如Fig 2.所示。不難發(fā)現(xiàn),絕大部分情況下MLLM的視覺(jué)分類能力都弱與其原生采用的視覺(jué)編碼器CLIP,只有在ViT-g-14上的CIFAR-10數(shù)據(jù)上有所特殊。當(dāng)然,這個(gè)可能和作者采用的prompt也有很大關(guān)系,眾所周知,prompt模板的好壞對(duì)LLM的性能影響很大,這一點(diǎn)在之前的博文 [2] 中也曾經(jīng)討論過(guò)。

Fig 2. MLLM的視覺(jué)分類能力比其采用的圖像編碼器的分類能力更弱。

作者認(rèn)為其性能下降主要有以下三種情況:預(yù)測(cè)錯(cuò)誤(incorrect prediction),內(nèi)部幻覺(jué)(intrinsic hallucination),外部幻覺(jué)(extrinsic hallucination),如下所示,具體細(xì)節(jié)請(qǐng)參考原論文。

為何會(huì)產(chǎn)生性能下降呢?一個(gè)直接的想法就是,視覺(jué)語(yǔ)義和LLM的文本語(yǔ)義未完全對(duì)齊,導(dǎo)致對(duì)LLM的提問(wèn)不能從知識(shí)庫(kù)中檢索出來(lái)(筆者:當(dāng)然也不能排除prompt不合適的原因)。這點(diǎn)容易理解,假如視覺(jué)語(yǔ)義和文本語(yǔ)義已經(jīng)對(duì)齊,那么對(duì)MLLM的提問(wèn),其實(shí)本質(zhì)上就是在prompt中指定的若干個(gè)類別中檢索一個(gè)語(yǔ)義最為接近的類別進(jìn)行返回,如果沒(méi)對(duì)齊,那么就會(huì)預(yù)測(cè)錯(cuò)誤,如果LLM沒(méi)能充分理解prompt的語(yǔ)義,則會(huì)出現(xiàn)幻覺(jué)?;谶@種想法,可以對(duì)MLLM進(jìn)行微調(diào)以更好地對(duì)齊多模語(yǔ)義,或者讓LLM理解prompt語(yǔ)義,這種微調(diào)可以有幾種,比如LoRA,Linear適配,prompt tuning,P-Tuning等,本文作者采用了LoRA和Linear適配。

  1. LoRA,采用Low Rank技術(shù)增加一些低秩矩陣參數(shù),具體可見(jiàn) [3]。
  2. Linear適配,在視覺(jué)編碼向量后新增一個(gè)線性投影層,得到作為輸入到MLLM的視覺(jué)特征。

如Fig 3.所示,作者用LLaVA 6b和13b在不同數(shù)據(jù)集上進(jìn)行微調(diào)了3個(gè)epoch,然后在其他數(shù)據(jù)集上進(jìn)行測(cè)試,繪制出玫瑰圖。不難發(fā)現(xiàn)大部分出現(xiàn)了災(zāi)難性遺忘情況(基線為7b-v0和13b-v0),也即是在某個(gè)數(shù)據(jù)集上微調(diào)在其他測(cè)試集上測(cè)試,其結(jié)果甚至遠(yuǎn)遠(yuǎn)低于基線,特別是采用lora微調(diào)的遺忘情況比linear適配的更為嚴(yán)重。由于LoRA會(huì)對(duì)LLM本身參數(shù)進(jìn)行更新(低秩矩陣參數(shù)也是LLM的一部分),而Linear適配只是對(duì)視覺(jué)語(yǔ)義和文本語(yǔ)義進(jìn)行對(duì)齊,因此猜測(cè)是對(duì)LLM的不當(dāng)微調(diào)更容易導(dǎo)致幻覺(jué)。

Fig 3. LLaVA 6b和13b下微調(diào)了3個(gè)epoch,采用LoRA和Linear適配的結(jié)果對(duì)比,可以發(fā)現(xiàn)都出現(xiàn)了過(guò)擬合情況。

當(dāng)然,3個(gè)epoch的微調(diào)可能對(duì)于MLLM來(lái)說(shuō)太多了,作者同樣對(duì)epoch的數(shù)量進(jìn)行了探索,如Fig 4.所示,(a)是Linear適配而(b)是同時(shí)更新Linear適配層和LoRA參數(shù)。有幾點(diǎn)觀察:

  1. 在只對(duì)Linear適配層進(jìn)行更新的配置下,少量的微調(diào)(比如一個(gè)epoch內(nèi))能幫助視覺(jué)和文本語(yǔ)義的對(duì)齊。
  2. 采用Linear和LoRA同時(shí)更新的結(jié)果,其災(zāi)難性遺忘現(xiàn)象嚴(yán)重,對(duì)LLM層參數(shù)的不當(dāng)更新會(huì)導(dǎo)致嚴(yán)重的幻覺(jué)。
  3. 微調(diào)數(shù)據(jù)集足夠多樣化能夠幫助減緩災(zāi)難性遺忘,這一點(diǎn)可從Fig 4. (a)的在CIFAR 10、CIFAR 100數(shù)據(jù)集上的微調(diào)結(jié)果中看出來(lái)。

因此,在期望對(duì)MLLM進(jìn)行微調(diào)的時(shí)候其下游數(shù)據(jù)集需要進(jìn)行精心設(shè)計(jì),盡可能保證微調(diào)數(shù)據(jù)集的多樣性,并且微調(diào)方式也需要多考慮,盡可能不要碰LLM的原先參數(shù),筆者覺(jué)得也許Prompt Tuning會(huì)是一個(gè)更好的方式,可以結(jié)合Linear適配和Prompt Tuning進(jìn)行微調(diào)的實(shí)驗(yàn)嘗試。我們就當(dāng)LLM通過(guò)大規(guī)模的預(yù)訓(xùn)練已經(jīng)語(yǔ)義完備了,MLLM的語(yǔ)義對(duì)齊就交給視覺(jué)端進(jìn)行吧,其實(shí)理論上說(shuō),語(yǔ)義對(duì)齊這個(gè)能力應(yīng)該交給上游的CLIP對(duì)比學(xué)習(xí)完成,但是可能出現(xiàn)語(yǔ)義漂移,因此適當(dāng)?shù)南掠稳蝿?wù)語(yǔ)義對(duì)齊也是必要的。

Fig 4 采用了不同epoch數(shù)量的測(cè)試結(jié)果,同時(shí)作者對(duì)比了(a)線性適配和(b)同時(shí)更新線性適配層和LoRA參數(shù)。

Reference

[1]. Zhai, Yuexiang, et al. "Investigating the Catastrophic Forgetting in Multimodal Large Language Models." arXiv preprint arXiv:2309.10313 (2023).

[2]. https://blog.csdn.net/LoseInVain/article/details/133385359, 《【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式》

[3]. Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場(chǎng)。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請(qǐng)聯(lián)系:editor@netbroad.com
覺(jué)得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 0
收藏 1
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧
主站蜘蛛池模板: 久久视频在线视频观看天天看 | 亚洲免费视频中文字幕 | 国产农村妇女一区二区三区 | JAPAN黑人极大黑炮 | 久久这里只有精品18 | 精品国产片 | 亚洲国产精品成人精品无码区在线 | 好大好硬好爽18禁视频免费 | 久久中文字幕网站 | 我要看黄色大片 | 国产欧美一级 | 久久综合香蕉国产蜜臀av | 美女精品 | 神马久久精品综合 | 特黄一级 | 美女胸18下看禁止免费视频51 | 午夜a毛片 | 国产精品扒开腿做爽爽爽A片唱戏 | 精品国自产拍天天拍 | аⅴ资源天堂资源库 | 国产成人精品视频免费 | 久久99精品无码一区二区三区 | 国产精品久久久久久一区二区三区 | 简单av自拍 | 成人激情视频网站 | 亚洲VS成人无码人在线观看堂 | 猫咪www免费人成人入口 | 欧美肥妇毛多水多bbxx水蜜桃 | 深夜国产一区二区三区在线看 | 久久午夜国产 | 91九色丨porny丨交换 | 蜜桃臀AV高潮无码 | 嫩草院一区二区乱码蜜臀 | 天天舔夜夜 | 日韩欧美精品在线视频 | 波多野结衣在线播放 | 久久久久久草 | 久久九色 | 男女性潮高清免费网站 | 翁吻乳婷婷小玲21 | aaaaa毛片|