99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

解耦多模態大模型中的視覺語義壓縮與視覺語義摘要

多模態大模型MLLM通常由三部分組成:

  1. 視覺編碼器,可以是CLIP、SigLIP、DINO等,采用的結構可以是ViT,也可以是傳統的CNN,不過現在主流都是ViT結構,本文指的視覺編碼器也是ViT的產出。
  2. 視覺連接器(Projector),通常是簡單的MLP結構,或者Q-Former、Resampler、D-abstractor等復雜結構。
  3. 底座LLM,如LLama、Qwen、baichuan等。

對于被切分為N個塊的圖片輸入x∈RN×W×H×3,其ViT視覺表征輸出為I∈RN×dI,視覺連接器f(⋅)將視覺表征輸出映射到文本表征空間,記為Q=f(I)∈RM×dT,如果采用的是非壓縮型的連接器,此處的M=N,如果采用的是壓縮型連接器,那么M。 底座LLM將文本輸入和f(I)進行計算,輸出隱層狀態記為T∈RL×dT,輸出的結果為序列Y={y1,?,yN}

不難看出,視覺連接器作為視覺編碼器和底座LLM的連接部分,起著重要的視覺語義壓縮視覺語義抽取的作用。通常來說,視覺連接器從是否進行壓縮的角度,可以分為2種:

  1. 非壓縮型連接器:如LLaVA [3] 中采用的線性連接,只是將視覺表征空間的維度dI映射到文本表征空間dT
  2. 壓縮型連接器:典型的如BLIP2中的Q-Former結構,其不僅將視覺表征空間的維度dI映射到文本表征空間dT,同時進行了視覺語義令牌數量的壓縮。

作者將視覺連接器中的信息壓縮和語義轉換階段解耦,分別稱之為壓縮(compression)和摘要(abstraction),前者指的是減少視覺令牌數量,后者則指的是對視覺語義概念的抽取(如屬性、實體等)。

在轉入作者分析階段之前,我們直接給出作者在本文的結論:

  • 觀察1: 底座LLM本身可以從原始視覺特征I中進行有效的語義提取。
  • 觀察2:壓縮型的連接器從視覺塊中提取的視覺語義信息會存在折損。
  • 結論:Q-Former這種同時進行壓縮和摘要的連接器,由于本身已經進行了有損的壓縮和摘要,而底座LLM又會進行進一步的摘要,會導致信息損失。

我們主要看下作者是怎么分析的,作者采用了一種稱之為GAE(Generic Attention Explainability)[5] 的可視化工具(在文中作者將其擴展成了R-GAE,以適配生成式的LLM模型),用來可視化文本與視覺的關聯,可以簡單認為激活區域越亮的部分,和文本標簽的關聯越大。如Fig 1. 所示,作者通過R-GAE工具去跟蹤文本標簽與視覺塊之間的關聯,為了能夠分析出映射后的視覺令牌(projected visual tokens)的作用,作者將其拆解為了Text -> Patch = Text -> Query * Query -> Patch兩個過程,如公式(1)所示,這種拆解讓我們可以分別觀察RT→QtRQ→It這兩部分的特點。

(1)RT→It=RT→Qt×RQ→It

Fig 1. 將Text-Patch部分拆解為Query-Patch和Text-Query兩個部分。

如圖Fig 2.所示,我們能看到對于同一個文本描述"remote with purple and red buttons"(帶著紫色和紅色按鈕的遙控器),在不同視覺連接器(線性、Q-Former)下的R-GAE可視化結果。我們分別分析下:

  • 對于線性的連接器,其不具有壓縮的作用,因此視覺令牌數量維持在了576個。從Text-Patch的可視化結果來看,模型主要關注在了紫色的按鈕上,通過拆解,可以發現這個語義提取主要是Text-Query貢獻的,再看到Query-Patch部分沒有明顯的高亮部分,意味著從原始圖像塊(Patch)到視覺令牌(Query)的過程中不存在語義的提取,進而也暗示著底座LLM本身具有從圖片塊中直接進行視覺語義提取的能力(也就是abstraction能力)
  • 對于Q-Former,其具有壓縮(compression)的作用,視覺令牌的數量從576壓縮到了64個。從Text-Patch的可視化結果來看,模型的關注點是錯誤的(也即是沒有關注到紫色和紅色的按鈕上),從拆解的結果來看,我們觀察到幾個現象:
  1. Text-Query部分具有明顯的語義提取過程,在很多圖片部分都存在語義高亮。
  2. Query-Patch部分中,Query具有64個視覺令牌,Query-Patch部分放大的結果來看,存在很多不同Query關注在了同一個語義區域的情況,這導致了信息的冗余和浪費。注意到Q-Former是進行了信息壓縮的,如果壓縮后還具有比較高的信息冗余,意味著會損失一些有效信息。

在Text-Query和Query-Patch部分同時都進行了視覺語義提取(Abstraction)的現象,作者稱之為雙重摘要(Double-Abstraction phenomenon)。這種現象來自于Q-Former這東西同時考慮了信息壓縮和信息摘要,從線性連接器的分析來看,底座LLM是可以對原始的圖片特征進行語義提取的,因此作者認為一個“合格”的視覺連接器,只需要進行信息的有效壓縮就足夠了。

Fig 2. 觀察不同視覺連接器下的R-GAE情況。

基于以上的分析和啟發,作者使用了最簡單的自適應平均池化作為視覺連接器,如Fig 3.所示,顯然這種連接器具有信息壓縮的能力(會壓縮視覺令牌的數量),而且平均池化對比Q-Former,不具有語義提取的能力,從而避免了作者提到的雙重摘要的問題。此時,平均池化只作為信息壓縮器,而底座LLM則負責提取語義。其R-GAE的可視化結果如Fig 2.所示,從中能發現query-patch部分,query提供了更加豐富多樣的視覺信息,而text-query則能正確提取語義。

Fig 3. 采用簡單的自適應平均池化作為視覺連接器,只是進行信息壓縮,而不嘗試進行視覺語義信息提取。

作者設計了一些實驗,驗證采用平均池化作為視覺壓縮器的效果,如Fig 4所示,其中的Linear是沒進行壓縮的實驗(#V=576 tokens),而#V=144的則是進行了壓縮的,能發現對比主流的壓縮器(Q-Former、C-Abstractor和D-Abstractor),DeCo在多個基準集合上存在效果的優勢。作者也進行了進一步的實驗,通過組合不同的視覺編碼器、底座LLM和輸入圖像分辨率,如Fig 5.所示,作者發現對比C-Abstractor,平均池化(AvgPool)在多個基準測試中具有一致的優勢。

Fig 4. 對比Linear(無壓縮)和其他壓縮器的效果,DeCo有一定的優勢。

Fig 5. C-Abstractor和平均池化,在不同視覺編碼器和底座LLM、輸入圖像分辨率組合下的效果對比,能發現采用平均池化具有一致的優勢趨勢。

作者還進行了一個試驗,逐步提高壓縮視覺token的數量,也即是減少視覺信息的壓縮率,如Fig 6.所示,我們會發現幾點:

  • 隨著壓縮率的減少,輸入的視覺token數量會提高,無論采用的何種視覺連接器,效果總是提高的。
  • 當壓縮能力減少到沒有的情況下,輸入的視覺token數量等于原始視覺編碼器提供的視覺token數量,此時采用不同的連接器效果是相當接近的。
  • 在高壓縮的情況下,如576->144, 平均池化連接器具有較大的優勢。
  • 筆者覺得有點奇怪的是,在576->256這個地方,C-Abstractor存在一個明顯的性能下降,這一點有點說不過去?

Fig 6. 隨著視覺token數量的增加(也即是視覺連接器的壓縮能力減少),其效果總是提高的,而采用不同的連接器的效果最終都會趨于相同的點。

筆者讀下來,一個比較重要的啟示就是,多模態大模型中的視覺連接器的作用,其實是可以劃分為信息壓縮和語義摘要的,而底座LLM本身就是語義摘要的好手,因此視覺連接器,似乎只需要做好保真且高效的信息壓縮就可以了,盡量不要讓它具有過多的語義提取能力,而Q-Former的設計就具有了很強的語義提取能力,導致其效果并沒有很好。這個對于我們設計多模態大模型,也是一個很值得參考的結論。

Reference

[1]. Li, Junnan, Dongxu Li, Silvio Savarese, and Steven Hoi. "Blip-2: Bootstrapping language-image pre-training with frozen image encoders and large language models." In International conference on machine learning, pp. 19730-19742. PMLR, 2023. aka BLIP2

[2]. Yao, Linli, Lei Li, Shuhuai Ren, Lean Wang, Yuanxin Liu, Xu Sun, and Lu Hou. "DeCo: Decoupling Token Compression from Semantic Abstraction in Multimodal Large Language Models." arXiv preprint arXiv:2405.20985 (2024). aka DeCo

[3]. Liu, Haotian, Chunyuan Li, Qingyang Wu, and Yong Jae Lee. "Visual instruction tuning." Advances in neural information processing systems 36 (2024). aka LLaVA

[4]. Lin, Ji, Hongxu Yin, Wei Ping, Pavlo Molchanov, Mohammad Shoeybi, and Song Han. "Vila: On pre-training for visual language models." In Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition, pp. 26689-26699. 2024. aka VILA

[5]. H. Chefer, S. Gur, and L. Wolf. Generic attention-model explainability for interpreting bi-modal and encoder-decoder transformers. In Proceedings of the IEEE/CVF International Conference on Computer Vision, pages 397–406, 2021 aka GAE

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 2
收藏 2
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 精品久久久久久18免费网站 | 亚洲AV成人一区二区三区天堂 | 亚洲激情四射视频中文字幕久久 | 一本大道久久加勒比香蕉 | 黑人狂躁日本妞一区二区三区 | 亚州av不卡中文 | 99久久亚洲精品日本无码 | 人妻系列无码专区无码专区 | 高清亚洲| 绿帽在线| 日本在线视频播放 | 夜夜夜草视频 | 成人免费看片视频 | 久久无码精品一区二区三区 | 国产一区二区三区网 | 91日韩精品视频 | 亚洲国产精品毛片AV不卡在线 | 老少配videoshd乱配 | 激情亚洲一区国产精品 | 9191视频| 日韩精品欧美在线成人 | 高清性色生活片97 | 麻豆福利网 | 久久大香国产成人AV | 久久处女视频 | 青青草视频在线免费观看 | 精品国产一区二区三区麻豆小说 | 日本aⅴ日本高清视频影片www | 国产综合精品一区二区 | 日日操夜夜透 | 一区二区午夜 | 九九久久精品一区 | 久久免费黄色网址 | 亚洲精品7777 | 国产精品久久久久久久久吹潮 | 久久精品不卡一区二区 | 日本一区二区免费在线观看 | www一起操 | 特级做a爰片免费看一区 | 亚洲精品无码永久在线观看性色 | 99热这里只有精品久久 |