解耦多模態大模型中的視覺語義壓縮與視覺語義摘要

徐土豆 05-04 09:30 53 閱讀 2 贊 2 收藏 0 評論

多模態大模型MLLM通常由三部分組成：

視覺編碼器，可以是CLIP、SigLIP、DINO等，采用的結構可以是ViT，也可以是傳統的CNN，不過現在主流都是ViT結構，本文指的視覺編碼器也是ViT的產出。
視覺連接器（Projector），通常是簡單的MLP結構，或者Q-Former、Resampler、D-abstractor等復雜結構。
底座LLM，如LLama、Qwen、baichuan等。

對于被切分為N個塊的圖片輸入x∈RN×W×H×3，其ViT視覺表征輸出為I∈RN×dI，視覺連接器f(⋅)將視覺表征輸出映射到文本表征空間，記為Q=f(I)∈RM×dT，如果采用的是非壓縮型的連接器，此處的M=N，如果采用的是壓縮型連接器，那么M。底座LLM將文本輸入和f(I)進行計算，輸出隱層狀態記為T∈RL×dT，輸出的結果為序列Y={y1,?,yN}。

不難看出，視覺連接器作為視覺編碼器和底座LLM的連接部分，起著重要的視覺語義壓縮和視覺語義抽取的作用。通常來說，視覺連接器從是否進行壓縮的角度，可以分為2種：

非壓縮型連接器：如LLaVA [3] 中采用的線性連接，只是將視覺表征空間的維度dI映射到文本表征空間dT。
壓縮型連接器：典型的如BLIP2中的Q-Former結構，其不僅將視覺表征空間的維度dI映射到文本表征空間dT，同時進行了視覺語義令牌數量的壓縮。

作者將視覺連接器中的信息壓縮和語義轉換階段解耦，分別稱之為壓縮（compression）和摘要（abstraction），前者指的是減少視覺令牌數量，后者則指的是對視覺語義概念的抽取（如屬性、實體等）。

在轉入作者分析階段之前，我們直接給出作者在本文的結論：

觀察1：底座LLM本身可以從原始視覺特征I中進行有效的語義提取。
觀察2：壓縮型的連接器從視覺塊中提取的視覺語義信息會存在折損。
結論：Q-Former這種同時進行壓縮和摘要的連接器，由于本身已經進行了有損的壓縮和摘要，而底座LLM又會進行進一步的摘要，會導致信息損失。

我們主要看下作者是怎么分析的，作者采用了一種稱之為GAE（Generic Attention Explainability）[5] 的可視化工具（在文中作者將其擴展成了R-GAE，以適配生成式的LLM模型），用來可視化文本與視覺的關聯，可以簡單認為激活區域越亮的部分，和文本標簽的關聯越大。如Fig 1. 所示，作者通過R-GAE工具去跟蹤文本標簽與視覺塊之間的關聯，為了能夠分析出映射后的視覺令牌（projected visual tokens）的作用，作者將其拆解為了Text -> Patch = Text -> Query * Query -> Patch兩個過程，如公式(1)所示，這種拆解讓我們可以分別觀察RT→Qt和RQ→It這兩部分的特點。

(1)RT→It=RT→Qt×RQ→It

Fig 1. 將Text-Patch部分拆解為Query-Patch和Text-Query兩個部分。

如圖Fig 2.所示，我們能看到對于同一個文本描述"remote with purple and red buttons"（帶著紫色和紅色按鈕的遙控器），在不同視覺連接器（線性、Q-Former）下的R-GAE可視化結果。我們分別分析下：

對于線性的連接器，其不具有壓縮的作用，因此視覺令牌數量維持在了576個。從Text-Patch的可視化結果來看，模型主要關注在了紫色的按鈕上，通過拆解，可以發現這個語義提取主要是Text-Query貢獻的，再看到Query-Patch部分沒有明顯的高亮部分，意味著從原始圖像塊（Patch）到視覺令牌（Query）的過程中不存在語義的提取，進而也暗示著底座LLM本身具有從圖片塊中直接進行視覺語義提取的能力（也就是abstraction能力）。
對于Q-Former，其具有壓縮（compression）的作用，視覺令牌的數量從576壓縮到了64個。從Text-Patch的可視化結果來看，模型的關注點是錯誤的（也即是沒有關注到紫色和紅色的按鈕上），從拆解的結果來看，我們觀察到幾個現象：

Text-Query部分具有明顯的語義提取過程，在很多圖片部分都存在語義高亮。
Query-Patch部分中，Query具有64個視覺令牌，Query-Patch部分放大的結果來看，存在很多不同Query關注在了同一個語義區域的情況，這導致了信息的冗余和浪費。注意到Q-Former是進行了信息壓縮的，如果壓縮后還具有比較高的信息冗余，意味著會損失一些有效信息。

在Text-Query和Query-Patch部分同時都進行了視覺語義提取（Abstraction）的現象，作者稱之為雙重摘要（Double-Abstraction phenomenon）。這種現象來自于Q-Former這東西同時考慮了信息壓縮和信息摘要，從線性連接器的分析來看，底座LLM是可以對原始的圖片特征進行語義提取的，因此作者認為一個“合格”的視覺連接器，只需要進行信息的有效壓縮就足夠了。

Fig 2. 觀察不同視覺連接器下的R-GAE情況。

基于以上的分析和啟發，作者使用了最簡單的自適應平均池化作為視覺連接器，如Fig 3.所示，顯然這種連接器具有信息壓縮的能力（會壓縮視覺令牌的數量），而且平均池化對比Q-Former，不具有語義提取的能力，從而避免了作者提到的雙重摘要的問題。此時，平均池化只作為信息壓縮器，而底座LLM則負責提取語義。其R-GAE的可視化結果如Fig 2.所示，從中能發現query-patch部分，query提供了更加豐富多樣的視覺信息，而text-query則能正確提取語義。

Fig 3. 采用簡單的自適應平均池化作為視覺連接器，只是進行信息壓縮，而不嘗試進行視覺語義信息提取。

作者設計了一些實驗，驗證采用平均池化作為視覺壓縮器的效果，如Fig 4所示，其中的Linear是沒進行壓縮的實驗（#V=576 tokens），而#V=144的則是進行了壓縮的，能發現對比主流的壓縮器（Q-Former、C-Abstractor和D-Abstractor），DeCo在多個基準集合上存在效果的優勢。作者也進行了進一步的實驗，通過組合不同的視覺編碼器、底座LLM和輸入圖像分辨率，如Fig 5.所示，作者發現對比C-Abstractor，平均池化（AvgPool）在多個基準測試中具有一致的優勢。

Fig 4. 對比Linear（無壓縮）和其他壓縮器的效果，DeCo有一定的優勢。

Fig 5. C-Abstractor和平均池化，在不同視覺編碼器和底座LLM、輸入圖像分辨率組合下的效果對比，能發現采用平均池化具有一致的優勢趨勢。

作者還進行了一個試驗，逐步提高壓縮視覺token的數量，也即是減少視覺信息的壓縮率，如Fig 6.所示，我們會發現幾點：

隨著壓縮率的減少，輸入的視覺token數量會提高，無論采用的何種視覺連接器，效果總是提高的。
當壓縮能力減少到沒有的情況下，輸入的視覺token數量等于原始視覺編碼器提供的視覺token數量，此時采用不同的連接器效果是相當接近的。
在高壓縮的情況下，如576->144，平均池化連接器具有較大的優勢。
筆者覺得有點奇怪的是，在576->256這個地方，C-Abstractor存在一個明顯的性能下降，這一點有點說不過去？

Fig 6. 隨著視覺token數量的增加（也即是視覺連接器的壓縮能力減少），其效果總是提高的，而采用不同的連接器的效果最終都會趨于相同的點。

筆者讀下來，一個比較重要的啟示就是，多模態大模型中的視覺連接器的作用，其實是可以劃分為信息壓縮和語義摘要的，而底座LLM本身就是語義摘要的好手，因此視覺連接器，似乎只需要做好保真且高效的信息壓縮就可以了，盡量不要讓它具有過多的語義提取能力，而Q-Former的設計就具有了很強的語義提取能力，導致其效果并沒有很好。這個對于我們設計多模態大模型，也是一個很值得參考的結論。

Reference

[1]. Li, Junnan, Dongxu Li, Silvio Savarese, and Steven Hoi. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." In International conference on machine learning, pp. 19730-19742. PMLR, 2023. aka BLIP2

[2]. Yao, Linli, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, and Lu Hou. "DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models." arXiv preprint arXiv:2405.20985 (2024). aka DeCo

[3]. Liu, Haotian, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. "Visual instruction tuning." Advances in neural information processing systems 36 (2024). aka LLaVA

[4]. Lin, Ji, Hongxu Yin, Wei Ping, Pavlo Molchanov, Mohammad Shoeybi, and Song Han. "Vila: On pre-training for visual language models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 26689-26699. 2024. aka VILA

[5]. H. Chefer, S. Gur, and L. Wolf. Generic attention-model explainability for interpreting bi-modal and encoder-decoder transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 397–406, 2021 aka GAE

聲明：本內容為作者獨立觀點，不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴，請聯系：editor@netbroad.com

覺得內容不錯的朋友，別忘了一鍵三連哦！

贊 2

關注 52

成為作者賺取收益

全部留言

0/200

成為第一個和作者交流的人吧

99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

解耦多模態大模型中的視覺語義壓縮與視覺語義摘要

Reference