災(zāi)難性遺忘(Catastrophic forgetting)是在深度學(xué)習(xí)領(lǐng)域的一個(gè)概念,指的是模型在學(xué)習(xí)一個(gè)新目標(biāo)的時(shí)候,對(duì)熱啟模型信息忘卻的一個(gè)現(xiàn)象,比如在采用預(yù)訓(xùn)練模型作為熱啟,對(duì)模型進(jìn)行微調(diào)導(dǎo)致模型對(duì)預(yù)訓(xùn)練模型信息的忘卻。論文[1]報(bào)告了在多模態(tài)大規(guī)模語(yǔ)言模型(Multimodal Large Language Model, MLLM)中遇到的災(zāi)難性遺忘現(xiàn)象。通常來(lái)說(shuō),MLLM的視覺(jué)信息部分由視覺(jué)編碼器(如ViT、Resnet等)組成,作者在論文中發(fā)現(xiàn)MLLM的圖片分類能力對(duì)比原視覺(jué)編碼器而言,會(huì)出現(xiàn)分類性能的下降,而在對(duì)MLLM進(jìn)行微調(diào)后,發(fā)現(xiàn)會(huì)出現(xiàn)災(zāi)難性遺忘,作者提出一個(gè)稱之為EMT的框架去評(píng)估(取名得純純二次元呢:P)。
所謂的EMT(Evaluating MulTimodality),如Fig 1.所示,首先輸入待評(píng)估圖片和prompt,讓MLLM去對(duì)圖片類別進(jìn)行預(yù)測(cè),由于LLM是生成式模型,其輸出格式具有一定的不可控性,這意味著其預(yù)測(cè)輸出和真實(shí)label之間可能是語(yǔ)義相同(semantic match)的,但是字面上卻不匹配(lexical mismatch),因此在下游接入另一個(gè)LLM(比如GPT 3.5 turbo)進(jìn)行預(yù)測(cè)結(jié)果的評(píng)估。
Fig 1. EMT的框架示意圖。
通過(guò)這種方法,作者評(píng)估了LLaVA-7b、LLaVA13b與其視覺(jué)編碼器CLIP的性能差異,見(jiàn)Fig 2. (a),同樣的,作者也評(píng)估了LENS與openCLIP,InstructBLIP 7b、InstructBLIP 13b與openCLIP性能的差別,在各個(gè)圖像分類測(cè)試集中結(jié)果繪制成玫瑰圖,如Fig 2.所示。不難發(fā)現(xiàn),絕大部分情況下MLLM的視覺(jué)分類能力都弱與其原生采用的視覺(jué)編碼器CLIP,只有在ViT-g-14上的CIFAR-10數(shù)據(jù)上有所特殊。當(dāng)然,這個(gè)可能和作者采用的prompt也有很大關(guān)系,眾所周知,prompt模板的好壞對(duì)LLM的性能影響很大,這一點(diǎn)在之前的博文 [2] 中也曾經(jīng)討論過(guò)。
Fig 2. MLLM的視覺(jué)分類能力比其采用的圖像編碼器的分類能力更弱。
作者認(rèn)為其性能下降主要有以下三種情況:預(yù)測(cè)錯(cuò)誤(incorrect prediction),內(nèi)部幻覺(jué)(intrinsic hallucination),外部幻覺(jué)(extrinsic hallucination),如下所示,具體細(xì)節(jié)請(qǐng)參考原論文。
為何會(huì)產(chǎn)生性能下降呢?一個(gè)直接的想法就是,視覺(jué)語(yǔ)義和LLM的文本語(yǔ)義未完全對(duì)齊,導(dǎo)致對(duì)LLM的提問(wèn)不能從知識(shí)庫(kù)中檢索出來(lái)(筆者:當(dāng)然也不能排除prompt不合適的原因)。這點(diǎn)容易理解,假如視覺(jué)語(yǔ)義和文本語(yǔ)義已經(jīng)對(duì)齊,那么對(duì)MLLM的提問(wèn),其實(shí)本質(zhì)上就是在prompt中指定的若干個(gè)類別中檢索一個(gè)語(yǔ)義最為接近的類別進(jìn)行返回,如果沒(méi)對(duì)齊,那么就會(huì)預(yù)測(cè)錯(cuò)誤,如果LLM沒(méi)能充分理解prompt的語(yǔ)義,則會(huì)出現(xiàn)幻覺(jué)?;谶@種想法,可以對(duì)MLLM進(jìn)行微調(diào)以更好地對(duì)齊多模語(yǔ)義,或者讓LLM理解prompt語(yǔ)義,這種微調(diào)可以有幾種,比如LoRA,Linear適配,prompt tuning,P-Tuning等,本文作者采用了LoRA和Linear適配。
- LoRA,采用Low Rank技術(shù)增加一些低秩矩陣參數(shù),具體可見(jiàn) [3]。
- Linear適配,在視覺(jué)編碼向量后新增一個(gè)線性投影層,得到作為輸入到MLLM的視覺(jué)特征。
如Fig 3.所示,作者用LLaVA 6b和13b在不同數(shù)據(jù)集上進(jìn)行微調(diào)了3個(gè)epoch,然后在其他數(shù)據(jù)集上進(jìn)行測(cè)試,繪制出玫瑰圖。不難發(fā)現(xiàn)大部分出現(xiàn)了災(zāi)難性遺忘情況(基線為7b-v0和13b-v0),也即是在某個(gè)數(shù)據(jù)集上微調(diào)在其他測(cè)試集上測(cè)試,其結(jié)果甚至遠(yuǎn)遠(yuǎn)低于基線,特別是采用lora微調(diào)的遺忘情況比linear適配的更為嚴(yán)重。由于LoRA會(huì)對(duì)LLM本身參數(shù)進(jìn)行更新(低秩矩陣參數(shù)也是LLM的一部分),而Linear適配只是對(duì)視覺(jué)語(yǔ)義和文本語(yǔ)義進(jìn)行對(duì)齊,因此猜測(cè)是對(duì)LLM的不當(dāng)微調(diào)更容易導(dǎo)致幻覺(jué)。
Fig 3. LLaVA 6b和13b下微調(diào)了3個(gè)epoch,采用LoRA和Linear適配的結(jié)果對(duì)比,可以發(fā)現(xiàn)都出現(xiàn)了過(guò)擬合情況。
當(dāng)然,3個(gè)epoch的微調(diào)可能對(duì)于MLLM來(lái)說(shuō)太多了,作者同樣對(duì)epoch的數(shù)量進(jìn)行了探索,如Fig 4.所示,(a)是Linear適配而(b)是同時(shí)更新Linear適配層和LoRA參數(shù)。有幾點(diǎn)觀察:
- 在只對(duì)Linear適配層進(jìn)行更新的配置下,少量的微調(diào)(比如一個(gè)epoch內(nèi))能幫助視覺(jué)和文本語(yǔ)義的對(duì)齊。
- 采用Linear和LoRA同時(shí)更新的結(jié)果,其災(zāi)難性遺忘現(xiàn)象嚴(yán)重,對(duì)LLM層參數(shù)的不當(dāng)更新會(huì)導(dǎo)致嚴(yán)重的幻覺(jué)。
- 微調(diào)數(shù)據(jù)集足夠多樣化能夠幫助減緩災(zāi)難性遺忘,這一點(diǎn)可從Fig 4. (a)的在CIFAR 10、CIFAR 100數(shù)據(jù)集上的微調(diào)結(jié)果中看出來(lái)。
因此,在期望對(duì)MLLM進(jìn)行微調(diào)的時(shí)候其下游數(shù)據(jù)集需要進(jìn)行精心設(shè)計(jì),盡可能保證微調(diào)數(shù)據(jù)集的多樣性,并且微調(diào)方式也需要多考慮,盡可能不要碰LLM的原先參數(shù),筆者覺(jué)得也許Prompt Tuning會(huì)是一個(gè)更好的方式,可以結(jié)合Linear適配和Prompt Tuning進(jìn)行微調(diào)的實(shí)驗(yàn)嘗試。我們就當(dāng)LLM通過(guò)大規(guī)模的預(yù)訓(xùn)練已經(jīng)語(yǔ)義完備了,MLLM的語(yǔ)義對(duì)齊就交給視覺(jué)端進(jìn)行吧,其實(shí)理論上說(shuō),語(yǔ)義對(duì)齊這個(gè)能力應(yīng)該交給上游的CLIP對(duì)比學(xué)習(xí)完成,但是可能出現(xiàn)語(yǔ)義漂移,因此適當(dāng)?shù)南掠稳蝿?wù)語(yǔ)義對(duì)齊也是必要的。
Fig 4 采用了不同epoch數(shù)量的測(cè)試結(jié)果,同時(shí)作者對(duì)比了(a)線性適配和(b)同時(shí)更新線性適配層和LoRA參數(shù)。
Reference
[1]. Zhai, Yuexiang, et al. "Investigating the Catastrophic Forgetting in Multimodal Large Language Models." arXiv preprint arXiv:2309.10313 (2023).
[2]. https://blog.csdn.net/LoseInVain/article/details/133385359, 《【論文極速讀】Prompt Tuning——一種高效的LLM模型下游任務(wù)適配方式》
[3]. Edward J Hu, Yelong Shen, Phillip Wallis, Zeyuan Allen-Zhu, Yuanzhi Li, Shean Wang, Lu Wang, and Weizhu Chen. Lora: Low-rank adaptation of large language models. arXiv preprint arXiv:2106.09685, 2021