BLIP2——采用Q-Former融合視覺語義與LLM能力的方法

徐土豆 2024-12-02 11:39 489 閱讀 2 贊 3 收藏 0 評論

筆者最近忙于工作，已經很久沒空更新博客，剛好最近在回顧一些論文，順便將其進行筆記。BLIP2的目的是希望將現有可用的（預訓練好的）視覺編碼器和LLM中進行融合得到MLLM，而如何將視覺語義向量和LLM進行融合是一件極具有挑戰性的工作。LLM是以文本語義為目標進行訓練的，而視覺編碼器是以視覺語義為目的進行訓練的，視覺語義即便經過了語義對齊，如通過CLIP等方式進行跨模態語義對齊，其語義和LLM之間也會存在較大的區別，如何融合這兩種語義信息，是MLLM模型必須解決的問題，而BLIP2 [1]就提出了采用Q-Former的方法進行解決。

不過在深入介紹BLIP2的內容之前，我們不妨先賣個關子，先給自己10分鐘思考，如果讓我們設計一個簡單的融合視覺語義和LLM語義的方法，我們會怎么做呢？筆者能想到的方法，會類似于LLaVA [2]，通過Image/Video Caption模型對圖片/視頻進行文字描述（場景、事件、實體等等），然后利用LLM，在合適的prompt下對這段文字描述進行總結后，輸入到LLM中作為輸入，從而間接地引入了視覺語義信息到LLM中，流程可見Fig 1.所示。這種通過視覺Captioner間接地將視覺語義轉換成文本語義（語義轉換階段），然后通過Prompt+LLM的方式更好地適配文本語義（語義適配階段），最后將其作為目標LLM的輸入從而構成MLLM的方法（語義融合階段）。這種思路直接且容易操作，但是其缺陷也很明顯，這里的每個階段都存在信息損失，最終的MLLM模型對原始視覺的細粒度信息無法感知，這顯然嚴重限制了MLLM的上限。

Fig 1. 一種樸素的，通過Captioner間接地將視覺語義轉換成文本語義，通過prompt+LLM的方式進行合適的語義適配后，作為目標LLM的輸入，從而構成了MLLM。

不過這種思路是可以進行擴展的，其實在以上的三個階段中，信息損失最為嚴重的就是語義轉換階段和語義適配階段，如果我們對視覺語義的轉換不是以文字描述的形式，而是語義向量的形式，會不會信息損失控制得最少呢？同時，對于語義適配的過程，我們不采用“硬prompt”，而是可學習的“軟prompt”是不是也能進一步提升效果呢？其實這也就是BLIP2中的Q-Former的主要思路了，Q-Former主體如Fig 2.所示，圖片通過預訓練好的圖片編碼器進行特征提取后得到視覺語義 $f_{v} \in \mathbb{R}^{M \times D}$ 。我們給定K個可學習的"軟prompt"，在此處稱之為"Learnable Queries"，符號表示為 $V_Q \in \mathbb{R}^{K \times D}$ ，這些prompt的作用類似于prompt tuning [3]中進行下游任務遷移的作用，是為了更好的進行視覺語義到文本語義的遷移，從而產出的Transferred vision representation可表示為 $E_V \in \mathbb{R}^{K \times D}$ ，則可以作為輸入，喂給后續的LLM。為了讓 $E_V$ 包含有充分的視覺語義，Q-Former采用了交叉注意力機制（Cross Attention, xattn）融合圖片語義和可學習Q，公式如(1)所示。

總結來看，Q-Former和Fig 1.提到的樸素方法其實可以類比，Learnable Queries可以類比為對文字描述進行總結的prompt詞，而產出的Transferred vision representation可以類比經過LLM總結后的文字描述。

Fig 2. BLIP2中的Q-Former的基本組成。

Q-Former進行視覺語義表征遷移的方式，其實是受啟發自Flamingo [4] 中的Perceiver Resampler的設計，此處畢竟不是Flamingo的主場因此不打算對其進行展開介紹，但是筆者覺得有必要對Perceiver Resampler的設計進行簡述，會加深讀者對Q-Former的理解，如Fig 3所示，由于Flamingo是對圖片、視頻進行處理的，因此Perceiver Resampler需要將可能變長的視頻幀信息轉化為固定大小長度的特征，否則過長的視頻幀會大大加大后續LLM的計算負擔。Perceiver Resampler考慮采用learnable latent queries作為交叉注意力中的Q，而將視頻幀/圖片幀進行特征提取后展開表示為 $X_f$ ，和Q拼接起來作為交叉注意力中的K和V，通過這種方法將learnable latent queries對應位置的Transformer輸出作為視覺特征聚合表示，這樣變長的視頻幀特征就規整為了固定大小的特征，方便了后續的處理。

Fig 3. Flamingo中Perceiver Resampler的設計。

到此為止我們算是對Q-Former的設計初衷和設計進行了介紹，接下來才開始對BLIP2這篇工作進行整體介紹，我們要如何訓練Q-Former呢？BLIP2的訓練分為兩個階段，如下所示。

第一階段，訓練Q-Former實現跨模態表征的語義融合第二階段，將訓練好的Q-Former和LLM進行結合，實現MLLM在第一階段中，為了對Q-Former進行充分訓練，作者精妙地設計了三種類型的損失，分別是對比損失（Image-Text Contrastive Learning, ITC），匹配損失(Image-Text Matching, ITM)和生成損失(Image-Grounded Text Generation, ITG)，如Fig 4.所示，Q-Former的訓練數據是圖片——文本對，其中視覺輸入Q和文本輸入T共用一個自注意層，即是將Q和T拼接起來后輸入到自注意層中，通過不同的mask去選擇QT之間是否需要注意力交互，mask的具體生效機制見 [5]。讓我們回到Q-Former，我們將文本輸入[CLS]對應Transformer的輸出記為 $E_T \in \mathbb{R}^{N \times D}$ 其中N NN為batch size， $E_V \in \mathbb{R}^{N \times K \times D}$ ，那么以下是各種損失的組成：

1、對比損失 ITC：

sim_matrix = matmul(E_V, E_T, transposed_Y=True) # output (N, K, N)
sim_matrix = reduce_max(sim_matrix, axis=1) # output (N, N)， maxpool for a best text-vision matching
dig_label = tensor(list(range(0, batch_size))).reshape(batch_size, 1)
itc_loss = cross_entropy_with_softmax(sim_matrix, dig_label)

2、匹配損失 ITM：

pos_score = model(Q, T) # positive sample score, output (N, 1)
neg_score = model(Q, T_neg) # negative sample score, output (N, 1), T_neg could be the hard negative sampled at ITC stage
itm_loss = mse(pos_score, 1) + mse(neg_score, 0)

其中的T_neg為負樣本文本，可以參考ALBEF [6] 的工作進行難負樣本采樣，在此不贅述。

3、生成損失 ITG：

logits = model(Q, T, mask) # output (N, S, 1)
itg_loss = cross_entropy_with_softmax(logits, gt_char_label)

由于自注意力層的輸入是QT的拼接，在不同損失中需要考慮不同的掩膜類型，mask的作用形式見公式(1)所示。在ITC損失中，Q見到T或者T見到Q都會帶來信息泄漏，因此需要控制mask使得Q只能和自身交互，T同樣，mask形態如Fig 4 (b3)所示。在ITM損失中，Q和T需要進行交互以進行細粒度學習，因此其掩膜為全unmask狀態。ITG損失中，由于提前見到文本T的全文將會帶來信息泄漏，因此需要保證預測當前token的時候，只能和該token之前的token進行交互，而Q則全文皆可見，因此mask形態如Fig 4 (b2)所示。

Fig 4. Q-Former的訓練過程有ITC、ITM和ITG三種損失構成。

待第一階段訓練好后，可將第一階段的產出 $E_V$ 通過FC層連接到LLM作為視覺語義輸入 $f(E_v)$ ，如Fig 5.所示，即為第二階段訓練。此時根據LLM的類型（decoder-only模型、encoder-decoder模型）可選擇不同的建模方式，在decoder-only模型中，給定 $f(E_v)$ 后直接對文本進行預測，而在encoder-decoder模型中，則需要將文本信息劃分為兩段A/B，LLM encoder只喂 $f(E_V)$ 和文本A，在LLM decoder模型中對文本B進行預測。此時，由于LLM的參數固定，只需要更新FC層的參數即可。

Fig 5. BLIP2第二階段訓練，聯合LLM進行生成式目標預訓練。

作者在實驗中，對BLIP2的zero-shot能力進行測試，如Fig 6.所示，在多個任務上，BLIP2在引入更少額外待學習參數的前提下達到了更好的zero-shot效果。如Fig 7.所示，BLIP2在VQA任務中和多個SOTA模型性能的對比，我們不難發現底座的視覺模型參數量更大(ViT-L -> ViT-g)，LLM參數量更大（OPT 2.7B -> OPT 6.7B），隨之帶來了BLIP2性能的穩定提升。我們同時肯定也會好奇，Q-Former這種引入視覺語義向量的方式帶來的收益，作者也對第一階段的訓練進行了消融試驗，如Fig 8.所示，引入了第一階段進行語義遷移后，能帶來明顯的性能提升。

Fig 6. BLIP2在更少待學習參數的前提下，在多個任務上達到了更好的zero-shot效果。

Fig 7. BLIP2在VQA任務中，和各種SOTA模型的對比，我們發現底座的視覺模型參數量更大(ViT-L -> ViT-g)，LLM參數量更大（OPT 2.7B -> OPT 6.7B），隨之帶來了BLIP2性能的穩定提升。

Fig 8. 以VQA試驗為例，進行消融試驗，驗證Q-Former第一階段訓練帶來的收益。

BLIP2引入Q-Former進行視覺語義到文本語義遷移的方式是具有啟發性的，但是作者在論文中也說明了當前BLIP2的一些缺陷，由于訓練過程中仍然是單個圖片—文本對的形式進行的，BLIP2模型缺少in-context learning的能力，同時由于采用了固定的LLM模型，BLIP2集成了LLM的固有缺陷，比如幻覺、毒害性等，后續如何進行MLLM的聯合訓練仍然是一個很值得關注的開放性問題。

Reference

[1]. Li, Junnan, Dongxu Li, Silvio Savarese, and Steven Hoi. “Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models.” arXiv preprint arXiv:2301.12597 (2023). aka BLIP2

[2]. Liu, Haotian, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. “Visual instruction tuning.” arXiv preprint arXiv:2304.08485 (2023). aka LLaVA

[3]. Lester, Brian, Rami Al-Rfou, and Noah Constant. “The power of scale for parameter-efficient prompt tuning.” arXiv preprint arXiv:2104.08691 (2021). aka Prompt Tuning.

[4]. Alayrac, Jean-Baptiste, Jeff Donahue, Pauline Luc, Antoine Miech, Iain Barr, Yana Hasson, Karel Lenc et al. “Flamingo: a visual language model for few-shot learning.” Advances in Neural Information Processing Systems 35 (2022): 23716-23736. aka Flamingo

[5]. https://blog.csdn.net/LoseInVain/article/details/116137177, 《Transformer代碼隨記》

[6]. https://blog.csdn.net/LoseInVain/article/details/122735603，《圖文多模態語義融合前的語義對齊——一種單雙混合塔多模態模型》

聲明：本內容為作者獨立觀點，不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴，請聯系：editor@netbroad.com

覺得內容不錯的朋友，別忘了一鍵三連哦！

贊 2

關注 52

成為作者賺取收益

下一篇：【論文極速讀】Flamingo：一種交織圖文的視覺語言大模型方法

全部留言

0/200

成為第一個和作者交流的人吧

99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

BLIP2——采用Q-Former融合視覺語義與LLM能力的方法