99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
作者動(dòng)態(tài)
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

CatLIP,加速2.7倍!采用分類損失的CLIP水準(zhǔn)的預(yù)訓(xùn)練視覺編碼器

CLIP [2] 開創(chuàng)了一個(gè)圖文大規(guī)模預(yù)訓(xùn)練的時(shí)代,然而CLIP也具有不足之處,因此引出了一系列的改進(jìn)工作,具體可見 [3]。 針對CLIP在大規(guī)模數(shù)據(jù)下訓(xùn)練速度慢的問題,已有一些工作研究,如SigLIP [4] 嘗試用sigmoid損失去替換infoNCE損失,從而減少通信量,在提速的同時(shí)還能提高模型效果,具體可見博文 [5]。 本文介紹的CatLIP [1], 則是考慮將對比學(xué)習(xí)這種方式改為多標(biāo)簽分類任務(wù),從而進(jìn)一步減少通信量,并且能在各任務(wù)下達(dá)到CLIP水準(zhǔn)的視覺編碼表現(xiàn)。如Fig 1 (b) 所示,對于當(dāng)前batch給定的N個(gè)圖片-文本對,CLIP需要分別進(jìn)行圖片編碼器和文本編碼器的計(jì)算得到特征向量,然后組成N2個(gè)正負(fù)樣本對進(jìn)行損失計(jì)算。 而對于CatLIP來說,如Fig 1 (a) 所示,任務(wù)從CLIP的厘清N2個(gè)正負(fù)樣本對,變成了只需要對N個(gè)圖片進(jìn)行多標(biāo)簽分類,分類的多個(gè)類別來自于當(dāng)前圖片-文本對中的文本,為了提高泛化性,我們還需要對這文本進(jìn)行找近義詞的操作。 整個(gè)過程中,不再需要進(jìn)行特征向量的跨卡通信,不再需要訓(xùn)練文本編碼器,而只需要最基本的梯度信息跨卡通信(多機(jī)多卡訓(xùn)練難以避免的基礎(chǔ)通信代價(jià))。從Fig 1.的實(shí)驗(yàn)來看,CatLIP能在保持下游任務(wù)性能持平的情況下,提速2.7倍!

Fig 1. CatLIP和CLIP的流程對比,以及性能和訓(xùn)練速度對比,其中 表示模型參數(shù)可訓(xùn)練。

讓我們具體看下整個(gè)工作,筆者曾經(jīng)在博文 [3] 中談到過自己對CLIP的理解,CLIP主要是跨圖文模態(tài)語義對齊,進(jìn)一步說就是對視覺語義元素,包括實(shí)體(Entity),屬性(Attribution),關(guān)系(Relation)進(jìn)行語義對齊。其中最為主要的,可能就是“實(shí)體”和“屬性”了,至于“關(guān)系”這一個(gè)元素,則可以在語義融合階段進(jìn)行更加高效地學(xué)習(xí)。然而,有一個(gè)問題不禁在心中涌出:采用大規(guī)模對比學(xué)習(xí)的方式,去學(xué)習(xí)“實(shí)體”和“屬性”,性價(jià)比是否足夠高呢?

為了回答這個(gè)問題,有必要回顧下CLIP學(xué)習(xí)到語義對齊的原理,對比Image-Text Matching(ITM)和Mask Image Modeling(MIM)來說,CLIP是高效的語義對齊機(jī)制。 CLIP的模型結(jié)構(gòu)和正負(fù)樣本組成策略并不復(fù)雜,其負(fù)樣本構(gòu)成方式是經(jīng)典的batch negative方式,也即是從batch內(nèi)部去構(gòu)成負(fù)樣本,而CLIP的貢獻(xiàn)點(diǎn)在于能夠采用海量的來自于互聯(lián)網(wǎng)的圖文對數(shù)據(jù)(約4億條圖文對)和超大batch size(約32000)進(jìn)行預(yù)訓(xùn)練,并且為了能夠充分學(xué)習(xí),采用了大容量的模型結(jié)構(gòu)。為何CLIP的這種“樸素”學(xué)習(xí)方式可以有效進(jìn)行語義對齊呢?如Fig 2. 所示,在一次對比中,正樣本可以和海量的負(fù)樣本進(jìn)行對比,這種對比有兩種維度:

  • 圖-文對比:一個(gè)圖片對應(yīng)有一個(gè)匹配的文本(正樣本),和個(gè)不匹配的文本(負(fù)樣本),此時(shí)一次正負(fù)樣本對比,可以充分地厘清不同文本中的視覺語義對齊。如Fig 6.2中,以第一行視為正樣本,那么對于文本中的“幼犬、小狗、小狗寶寶”都是與正樣本圖片相符的,而其負(fù)樣本文本“小貓”則和正樣本圖片不負(fù)。因此一次性就厘清了“小狗,幼犬”和“小貓”的語義差別,如果我們的負(fù)樣本足夠大,那么就能夠在一次迭代過程中,厘清非常多的文本中的視覺概念,而這是MLM和ITM不能做到的。
  • 文-圖對比:和圖-文對比類似,一個(gè)文本對應(yīng)有一個(gè)匹配的圖片(正樣本),和N−1個(gè)不匹配的圖片(負(fù)樣本),同樣一次正負(fù)樣本的對比,可以厘清不同圖片之間的視覺語義對齊。同樣以第一行為正樣本,那么文本中的"幼犬、小狗、小狗寶寶"等字樣只和第一行圖片匹配,和其他圖片并不能有效匹配,因此能一次性厘清非常多圖片中的視覺概念。

也即是CLIP中對于語義概念,除了本身圖文對的正樣本監(jiān)督之外,都是依賴與負(fù)樣本的“對比”學(xué)習(xí)出來的,而這種模式主要在學(xué)習(xí)視覺實(shí)體和視覺屬性。這種學(xué)習(xí)機(jī)制,在學(xué)習(xí)初期可以有效地進(jìn)行視覺概念的厘清,但是到后期后,絕大部分的負(fù)樣本將會(huì)變成簡單負(fù)樣本(語義概念已在前期學(xué)習(xí)到了),使得學(xué)習(xí)變得緩慢且低效。回到我們的問題:光是為了實(shí)體和屬性的對齊,采用大規(guī)模對比學(xué)習(xí)的方式去學(xué)習(xí)是不夠劃算的。

Fig 2. CLIP的對比學(xué)習(xí)方式,使得能夠在一次對比過程中,有效厘清正樣本和負(fù)樣本中的視覺語義概念。

而本文的CatLIP作者提出了一種方法,將對比學(xué)習(xí)任務(wù)改為多標(biāo)簽分類任務(wù),其中的多標(biāo)簽就是來自于圖文對中的文本描述,主要就是各種名詞性的實(shí)體,為了進(jìn)一步提高泛化性和zero-shot能力,作者還對這些實(shí)體進(jìn)行求同義詞。讓我們形式化表達(dá)下整個(gè)過程,假設(shè)當(dāng)前batch有N個(gè)圖文對(Ii,Ti),i=1,?,N,求同義詞的過程 可表示為ExtractSynset(T)={f(wi)|posi is a noun ∀i=1,?,m} ,其中的f(⋅)將原文本描述W中的名詞wi映射到WordNet中的同義詞集合S。這個(gè)過程中,不難知道同義詞中也會(huì)有不同的共現(xiàn)次數(shù),次數(shù)少的意味著這個(gè)同義詞是長冷的,為了減少多分類分類的代價(jià),可以將其舍棄,本文設(shè)定共現(xiàn)次數(shù)大于閾值Vτ=500的才會(huì)保留下來。最終作者在DataComp-1.3BCC3M這兩個(gè)預(yù)訓(xùn)練數(shù)據(jù)集上提取了同義詞集合,可以看到:

  • 越大的預(yù)訓(xùn)練集合(13億 vs 3百萬),其同義詞集合的尺度就越大(將近40000 vs 將近10000),這代表越大的預(yù)訓(xùn)練數(shù)據(jù)具有更多的內(nèi)容豐富度和多樣性。
  • 采用閾值Vτ=500進(jìn)行篩選后,整個(gè)多標(biāo)簽分類任務(wù)的類別將在2000-25000左右。

Fig 3. 分析圖文對數(shù)據(jù)集中提取的WordNet同義詞集,較大的數(shù)據(jù)集(13億 vs 3百萬)通常包含更多數(shù)量的同義詞,表明較大數(shù)據(jù)集中的內(nèi)容多樣性增加。

作者對比了CatLIP和CLIP (圖像編碼器都是ViT B/16)在數(shù)據(jù)集CC3M上的預(yù)訓(xùn)練效果,采用ImageNet-1k的線性探測(Linear Probe)top-1準(zhǔn)確率作為指標(biāo)監(jiān)控,如Fig 4. 所示,可以發(fā)現(xiàn):

  • CatLIP不需訓(xùn)練文本編碼器,并且只需要對最基本的梯度進(jìn)行跨卡通信,訓(xùn)練速度快。
  • CatLIP的指標(biāo)隨著訓(xùn)練epoch的數(shù)量提高而遞增,而CLIP則會(huì)達(dá)到飽和,這意味著CLIP或許需要更大的預(yù)訓(xùn)練數(shù)據(jù)集。

Fig 4. 對比CatLIP和CLIP的預(yù)訓(xùn)練速度和效果。在CC3M數(shù)據(jù)集上進(jìn)行預(yù)訓(xùn)練,采用ImageNet-1K的線性探測top-1準(zhǔn)確率作為指標(biāo)。

CC3M是一個(gè)只有3百萬圖文對的小型預(yù)訓(xùn)練數(shù)據(jù),作者也進(jìn)行了數(shù)據(jù)尺度放縮的試驗(yàn),將預(yù)訓(xùn)練數(shù)據(jù)集換成了DataComp-1.3B,一個(gè)具有13億圖文對的數(shù)據(jù)集,實(shí)驗(yàn)結(jié)果如Fig 5.所示,通過放大預(yù)訓(xùn)練的數(shù)據(jù)量,CatLIP能夠得到可觀的、一致的性能提升。

Fig 5. CatLIP中的數(shù)據(jù)放縮試驗(yàn)。通過在ImageNet-1k和Places365上進(jìn)行線性探測(LP)和全微調(diào)(FT),將圖像文本數(shù)據(jù)集從300萬個(gè)樣本擴(kuò)展到13億個(gè)樣本可以提高ViT B/16的遷移學(xué)習(xí)精度。

作者在原文還對模型尺度放縮的效果進(jìn)行了對比,同時(shí)用CatLIP在其他任務(wù)(如分類任務(wù)、語義分割、目標(biāo)檢測和實(shí)例分割等)進(jìn)行了效果驗(yàn)證,結(jié)論是采用CatLIP的方式預(yù)訓(xùn)練的模型,在這些任務(wù)中都得到了持平或者更好的模型效果表現(xiàn)。在此就不展開了。最后貼一張CatLIP和其他同類模型的對比參考,任務(wù)是分類任務(wù)。

Fig 6. 使用監(jiān)督和弱監(jiān)督方法在不同數(shù)據(jù)集上預(yù)訓(xùn)練的ViT模型的遷移學(xué)習(xí)精度(分類任務(wù))。遷移學(xué)習(xí)是通過在下游分類任務(wù)上微調(diào)整個(gè)模型來實(shí)現(xiàn)的。


筆者讀后感

這篇論文給筆者帶來的啟發(fā),就是CLIP中語義對齊部分的實(shí)體語義對齊,可以拆分為簡單直白的多標(biāo)簽分類任務(wù)進(jìn)行建模,損失就是Binary Cross Entropy損失,這個(gè)的確能帶來訓(xùn)練速度上的大幅度提升。不過筆者還是有點(diǎn)疑惑的地方:

  1. 只對名詞進(jìn)行檢測并且求同義詞集合,一些視覺屬性,比如顏色、圖樣(條紋狀、格子狀等)等形容詞,是不是就沒法建模了?這個(gè)CLIP應(yīng)該是可以建模出來的。同理,關(guān)系類的視覺概念似乎也沒辦法建模了。
  2. 對于組合型視覺概念更加不友好了,雖然CLIP也對組合型的視覺概念不友好,但是還是能學(xué)習(xí)出高頻組合概念的,但是我理解在CatLIP中由于完全拆分為了多標(biāo)簽分類任務(wù),并且沒有對比的過程,已經(jīng)沒辦法建模組合概念了。
  3. 我直觀上感受是,CLIP是一個(gè)主要通過正負(fù)樣本對比去學(xué)習(xí)視覺概念的過程,這個(gè)過程如果設(shè)計(jì)好正負(fù)樣本,比較容易建模細(xì)粒度的視覺概念,CatLIP這種方式,可能沒辦法對細(xì)粒度的概念(比如比同義詞集合中的描述粒度還小的概念)進(jìn)行學(xué)習(xí)。

先存疑吧,后面繼續(xù)看看有沒有后續(xù)工作討論我的這些疑問的,也歡迎讀者評論區(qū)交流&指正~。~

Reference

[1]. Mehta, Sachin, Maxwell Horton, Fartash Faghri, Mohammad Hossein Sekhavat, Mahyar Najibi, Mehrdad Farajtabar, Oncel Tuzel, and Mohammad Rastegari. "CatLIP: CLIP-level Visual Recognition Accuracy with 2.7 x Faster Pre-training on Web-scale Image-Text Data." arXiv preprint arXiv:2404.15653 (2024). aka CatLIP

[2]. Radford, Alec, Jong Wook Kim, Chris Hallacy, Aditya Ramesh, Gabriel Goh, Sandhini Agarwal, Girish Sastry et al. "Learning transferable visual models from natural language supervision." In International conference on machine learning, pp. 8748-8763. PMLR, 2021. aka CLIP

[3].https://fesianxu.github.io/2023/03/04/story-of-multimodal-models-20230304/, 《視頻與圖片檢索中的多模態(tài)語義匹配模型:原理、啟示、應(yīng)用與展望》

[4]. Zhai, Xiaohua, Basil Mustafa, Alexander Kolesnikov, and Lucas Beyer. "Sigmoid loss for language image pre-training." In Proceedings of the IEEE/CVF International Conference on Computer Vision, pp. 11975-11986. 2023. aka SigLIP

[5]. https://fesianxu.github.io/2024/09/08/sigmoid-language-image-pretrain-20240908/, 《SigLIP——采用sigmoid損失的圖文預(yù)訓(xùn)練方式》

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 2
收藏 2
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧
主站蜘蛛池模板: 日韩AV无码中文字幕 | 亚洲首页一区任你躁XXXXX | 精品国产日韩亚洲一区 | 久久久乱码精品亚洲日韩mv | 国产一级桃视频播放 | 色噜噜狠狠色综合网图区 | 一本之道中文日本高清 | 四川少妇BBB凸凸凸BBB | 欧美日韩精品一区二区三区高清视频 | 中文字幕3页 | 绿帽在线 | 四虎影院2024 | 国产亚洲h网综合h网 | 91狠狠综合久久久 | 亚洲国产AV天码精品果冻传媒 | 一区二区三区四区五区中文字幕 | 激情综合色综合啪啪五月丁香搜索 | 国产色综合视频 | 四虎国产精品永久在线无码 | 欧美日韩精品一区二区三区四区 | 国产亚洲欧美日韩高清 | 三个男人躁我一个爽公交车上 | 欧美xxxx做受欧美88 | 一级久久精品 | 久久久一区二区三区 | 亚洲欧美国产日韩精品 | 免费A级毛片无码A∨中文字幕 | 国产小视频免费观看 | 国产亚洲综合一区柠檬导航 | 日本一卡精品视频免费 | 久久久久久久久一区二区三区 | 麻豆久久久久久久 | 国产免费久久精品99RE丫丫 | 91丨porny丨最新 | 激情三级 | 91av视频免费在线观看 | 91新视频在线观看 | 九色精品国产 | 亚洲AV成人一区二区三区天堂 | 二次元人物桶二次元人物免费 | 少妇宾馆把腿扒开让我添 |