99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認證:優質創作者
所在專題目錄 查看專題
視頻分析與多模態融合之一,為什么需要多模態融合
WenLan 2.0:一種不依賴Object Detection的大規模圖文匹配預訓練模型 & 數據+算力=大力出奇跡
圖文多模態語義融合前的語義對齊——一種單雙混合塔多模態模型
在多模態模型訓練時,如何合適地融合單模態損失
FILIP: 一種基于交互的細粒度圖文預訓練模型
ERNIE VIL 2.0,多模態模型的一種多視角預訓練范式
作者動態 更多
給定計算預算下的最佳LLM模型尺寸與預訓練數據量分配
05-19 09:33
大模型推理時的尺度擴展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎勵模型中的尺度擴展定律和獎勵劫持
05-12 08:41
MeCo——給預訓練數據增加源信息,就能減少33%的訓練量并且提升效果
05-08 09:13

FILIP: 一種基于交互的細粒度圖文預訓練模型

FILIP [1] 提出是為了解決圖文匹配中的細粒度匹配問題。我們之前在博文 [2] 中曾經討論過,在圖文雙塔匹配中,由于需要對圖片塔的向量提前進行刷庫,一些長尾的,形態較小的物體可能會在訓練過程中被忽略,導致圖文匹配的時候缺少對細粒度匹配的能力。為了解決這個問題,我們需要提供模型以圖片和文本在線交互(online interaction)的能力,將圖片以某種形式提取出每個區域的信息(ROI Detector檢測每個ROI區域,或者單純的劃分patch,如ViT所做的那樣),然后將文本和圖片每個區域進行交互,從而模型有能力挖掘出圖片中的一些細粒度信息。以第一種方式為例,如Fig 1.1所示,如果采用ROI Detector首先對圖片的ROI區域進行提取,如紅框所示,通過對文本『黃色桌子上的小黃人』進行在線匹配,即可實現對場景中的小黃人的細粒度匹配。

Fig 1.1 以ROI Detector的方式提取出圖片中的ROI區域,通過對文本和ROI區域進行在線交互(在線匹配),即可實現細粒度圖文匹配的目的。

當然,這個前提是有一個足夠好的ROI detector,并且其計算復雜度的代價也很高,對于在線應用比如圖片搜索來說是一個比較大的負擔。FILIP用了一種比較直接,也比較聰明的方法實現在線交互,其方法就是『遲交互(Late Interaction)』,想辦法盡可能把交互的操作后移,從而使得pipeline的前端結果可以刷庫,減少在線交互的代價。

如Fig 1.2所示,FILIP的圖片編碼器是ViT [3-4],對輸入圖片進行簡單的分塊后,進行線性映射輸入到Transformer中,其輸出就是對應每個Image Patch的Embedding向量,文本側同樣采用Transformer,其輸出就是每個token的embedding。如果用x I x^Ix I 表示圖片樣本,表示文本樣本,那么表示batch內圖片的第i ii個樣本,表示batch內文本的第i個樣本,具有同個下標的樣本對我們認為是一對正樣本,而下標不同的樣本對我們認為是一對負樣本。用表示圖片編碼器,表示文本編碼器,在不存在交互的雙塔匹配模型中,如CLIP和ALIGN中,第i個和第j個樣本間的相似度定義為:

其中f ,無論是圖片編碼器還是文本編碼器,均對同一個圖片/文本只產出一個特征向量,通過計算余弦相似度計算其圖文相似性,顯然這是一種全局(Global)的相似度計算方式。而在FILIP中,采用ViT和Text Transformer可以對每個圖片token和文本token產出『專屬』的embedding(可以認為是每個模態的細粒度局部信息),假設分別是第i ii個圖片樣本和第j個文本樣本的token數量,那么有 。 我們怎么計算第i個和第j個樣本間的相似度呢?此時就體現了遲交互的作用,對于第i個圖片的第k個token而言,分別計算其和第j個文本樣本的所有個token間的相似程度,并且挑選其中相似度最大的打分,作為第i個圖片第k個token的打分代表,這個方式作者稱之為『逐令牌最大相似度(token-wise maximum similarity)』。

當然,對于圖片樣本i來說,這個只是第k個token的最大相似度打分,而我們有 個圖片token,因此會對這個最大相似度打分進行求平均。

其中的標識了其最大相似度的索引,也就是 ,式子(1-3)是圖片-文本側的相似度度量,類似的,我們也可以定義出文本-圖片側的相似度度量。 注意到不一定等于,也就是說基于最大相似度的交互,其跨模態相似度不一定是對稱的,這一點和CLIP不同。

Fig 1.2 FILIP的框圖示意,采用了跨模態遲交互后,可以進行更細粒度的匹配。

我們發現這種對每個模態的token,求另外模態的最大相似度的方法,其實類似于Fig 1.1中的交互方法,只是其沒有采用ROI的方式進行匹配,而是以圖片patch和文本token依次匹配的方式,如Fig 1.3所示,顯然這種方式同樣可以實現細粒度的圖文匹配。在線上應用時候,需要對每張圖片都進行刷特征并且存入正排庫,刷特征的時候需要對圖片每個patch的特征都進行落盤,以便在線上進行交互時候使用。如公式(1-3)所示,線上交互時可以計算,然后以其平均值作為最終相似度(Query-圖片搜索應用直接用即可)。顯然,由于需要對個圖片patch特征都進行落盤到正排庫,需要非常大量的正排存儲資源,在實際落地的過程中也許會碰到一定的困難,需要進行工程上的優化。

Fig 1.3 通過對圖片和文本分別進行分塊(對于文本是分詞,對于圖片是分patch),在遲交互階段采用的逐令牌最大相似度匹配,可以實現細粒度匹配。

作者采用了Prompt Learning的方式,對數據集采用了Prompt模版的優化,本文就不展開了。在論文中作者對圖文細粒度匹配的結果進行了可視化,如Fig 1.4所示,此處的label分別為“Balloon(氣球)”,“Lifeboat(救生艇)”,“Small white butterfly(小白蝶)”,“Electric Iocomotive(電力機車)”,而label后面的數字表示label的某位單詞在label模版中的位置。舉個例子,此處的模版為

Label模版:a photo of a {label}

當label為"Small white butterfly"的時候,label模版即為“a photo of a small white butterfly”,small在該模版中的第5位,white在第6位而butterfly在第7位。按照前文描述的交互方式,我們求出每個圖片patch與label模版單詞,其中的最大相似度匹配的模版位置ID,然后將這些位置ID中為label位置ID的進行高亮,這樣就繪制出了如Fig 1.4所示的結果。我們可以發現這些label物體有些是非常細粒度的,如氣球在原圖中的視覺占比非常小,CLIP的結果和我們預期的一致,壓根沒有對這種細粒度物體進行響應。而FILIP的結果則能對圖中patch中有氣球部分的進行響應。FILIP不僅能對細粒度物體進行響應,對于大物體同樣效果不俗,如Fig 1.4©所示,這個蝴蝶占據了大半個圖片,此時FILIP匹配效果同樣能夠超過CLIP。

Fig 1.4 對比CLIP的結果,可以發現FILIP對于圖文細粒度匹配更有優勢。

Reference

[1]. Yao, Lewei, Runhui Huang, Lu Hou, Guansong Lu, Minzhe Niu, Hang Xu, Xiaodan Liang, Zhenguo Li, Xin Jiang, and Chunjing Xu. “Filip: Fine-grained interactive language-image pre-training.” arXiv preprint arXiv:2111.07783 (2021).

[2]. https://blog.csdn.net/LoseInVain/article/details/122735603, 圖文多模態語義融合前的語義對齊——一種單雙混合塔多模態模型

[3]. https://blog.csdn.net/LoseInVain/article/details/116031656,將Transformer用在圖片上:Vision Transformer論文雜談

[4]. Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 我要看黄色大片 | 久产久人精午夜精国 | 996热re视频精品视频这里 | 一级黄色录像影片夫妻性生活影片 | 午夜影院啊啊啊 | 亚洲国产日韩a综合在线 | 伊人青青久久 | 三个男人躁我一个爽公交车上 | 国产69精品久久久久777糖心 | 成人精品久久一区二区三区 | 日韩第一页在线 | 亚洲国产成人精品无码区在线网站 | 欧美日韩一区二区国产 | 麻豆亚洲av永久无码精品久久 | 欧美秋霞 | 女人张开腿让男人桶爽 | aⅴ日本亚洲欧洲免费天堂 2019中文字幕久久 | 在线观看视频网站www色 | 成人在线三级 | 久久日韩激情一区二区三区四区 | 人人草人人爽 | 亚洲国产精品高清在线第1页 | 精品久久久久久久久久香蕉 | 亚洲欧美日韩国产精品一区 | 亚洲a在线播放 | 国产真实乱偷精品视频免 | 黄色一级久久 | 亚洲日韩欧美综合 | 中文字幕永久视频 | 亚洲午夜福利在线观看老司机 | 在线看福利中文字幕人妻 | 被黑人伦流澡到高潮hn小说 | 丰满的熟女爽死你 | 天天舔天天干 | 妓女嫖客叫床粗话对白 | 91久视频| 秋霞影视一区二区三区 | av资源免费观看 | 玩弄少妇肉体到高潮动态图 | 国产无遮挡无码视频免费软件 | 亚洲超碰在线 |