99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認(rèn)證:優(yōu)質(zhì)創(chuàng)作者
作者動(dòng)態(tài)
給定計(jì)算預(yù)算下的最佳LLM模型尺寸與預(yù)訓(xùn)練數(shù)據(jù)量分配
05-19 09:33
大模型推理時(shí)的尺度擴(kuò)展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎(jiǎng)勵(lì)模型中的尺度擴(kuò)展定律和獎(jiǎng)勵(lì)劫持
05-12 08:41
MeCo——給預(yù)訓(xùn)練數(shù)據(jù)增加源信息,就能減少33%的訓(xùn)練量并且提升效果
05-08 09:13

【論文極速讀】ERNIE VIL 2.0,多模態(tài)模型的一種多視角預(yù)訓(xùn)練范式

在ERNIE VIL 1.0[2,3]中,作者通過擴(kuò)展Mask Language Model到多模態(tài)模型上,實(shí)現(xiàn)多模態(tài)模型的建模。其數(shù)據(jù)采用的是的數(shù)據(jù)對(duì),如Fig 1.所示。 通常caption是對(duì)圖片的視覺描述,可以由人工標(biāo)注而來,也可以像Conceptual Captions(CC)和SBU Captions(SBU)數(shù)據(jù)集一樣,從互聯(lián)網(wǎng)數(shù)據(jù)中自動(dòng)挖掘得到。模型采用的單塔雙流交互模型,如Fig 2.所示。

Fig 1. 常見的Image,Caption形式的圖文數(shù)據(jù)對(duì)。

Fig 2. ERNIE VIL 1.0 采用的模型結(jié)構(gòu)是單塔雙流交互模型,通過跨模態(tài)的MLM進(jìn)行建模。

ERNIE VIL 1.0采用單塔交互模型意味著無法采用類似于CLIP[4,5]的方式,通過擴(kuò)大batch size的方式進(jìn)行大規(guī)模對(duì)比學(xué)習(xí),以提高表征能力。而且只采用了caption信息進(jìn)行預(yù)訓(xùn)練,不免浪費(fèi)了互聯(lián)網(wǎng)圖片中豐富的文本信息。如Fig 3.所示,網(wǎng)頁中的圖片附帶有著眾多不同類型的文本信息可供使用,如圖片的標(biāo)題,圖片的類別信息(可以是用戶自選的),圖片對(duì)應(yīng)的上下文信息等,這些文本信息或多或少都與圖片有所關(guān)聯(lián),在預(yù)訓(xùn)練中或多或少能提供幫助。不僅如此,甚至還可以用Object Detector進(jìn)行圖片中的實(shí)體識(shí)別,對(duì)圖片進(jìn)行打tag,生成一系列文本。同時(shí),在商業(yè)系統(tǒng)中還能通過點(diǎn)擊信號(hào),挖掘出用戶query與圖片的樣本對(duì)。

Fig 3. 互聯(lián)網(wǎng)中的圖片,通常附帶有眾多相關(guān)的文本信息。

在ERNIE VIL 2.0中,作者采用了雙塔模型,同時(shí)采用了CLIP的方式,通過使用112張A100 GPU和all_gather操作,將總batch size提高到了7168。并且,最主要的是,在該論文中作者提出了“多視角對(duì)比學(xué)習(xí)(multi-view contrastive learning)”,其中的多視角指的是同一個(gè)模態(tài)中(圖片、文本),不同視角的表達(dá)。比如對(duì)于圖片而言,可以對(duì)圖片進(jìn)行圖片增強(qiáng)(image augmentation),比如圖片抖動(dòng),隨機(jī)crop等。通過這種手段能生成兩個(gè)視角的圖片,表示原圖,表示進(jìn)行圖片增強(qiáng)后的圖片。對(duì)于文本模態(tài)而言,作者認(rèn)為除了caption之外,這個(gè)圖片的其他可用文本信息就可視為是多視角文本信息,比如在本文中,作者認(rèn)為圖片的tags是其多視角文本。那么,為圖片的caption,? 為圖片的tags(可以是用戶自己選定的,也可以是Object Detector等模型生成的)。如Fig 4.所示,與單視角對(duì)比學(xué)習(xí)相比,同個(gè)模態(tài)內(nèi)和跨模態(tài)間都可以組建對(duì)比損失。如公式(1-1)所示,其中 為正樣本對(duì)組合,為負(fù)樣本對(duì)組合,其中的i , j表示樣本編號(hào)。如公式(1-2)所示,通過infoNCE損失對(duì)(1-1)中的各類型pair進(jìn)行損失建模。整個(gè)ERNIE-VIL 2.0的模型結(jié)構(gòu)如Fig 4. ©所示。

Fig 4. (a,b)多視角對(duì)比學(xué)習(xí) 與 單視角對(duì)比學(xué)習(xí)的對(duì)比。(c)ERNIE-VIL 2.0的模型結(jié)構(gòu)框架。

實(shí)驗(yàn)結(jié)果就不貼出來了,筆者感覺這種方法比較有意思的是,它可以通過多視角文本樣本擴(kuò)充一些抽象實(shí)體的語義。如Fig 5.所示,對(duì)于(a)中的caption提到的“Dinner”,“晚餐”本質(zhì)上是一個(gè)抽象的實(shí)體,沒有具象化到某一類型具體的食物,而通過Object Detector得到的tag,我們能知道圖片中存在西紅柿,洋蔥,食物等等實(shí)體,通過建立caption和tag的關(guān)聯(lián),可以讓模型學(xué)習(xí)到Dinner的具象化語義。對(duì)于Fig 5. (b)和©而言,BMW E90是寶馬的其中一個(gè)型號(hào),而Gatos Manx應(yīng)該是主人給貓取的愛稱。汽車型號(hào)這種語義非常稀疏,而貓的姓名更是稀疏無比,在訓(xùn)練樣本中甚至可能沒有其他共現(xiàn)的文本出現(xiàn)了,這種語義很難學(xué)習(xí)出來。而通過建立caption和tag的關(guān)聯(lián),可以讓模型學(xué)習(xí)到BWM E90是一種白色汽車,而Gatos Manx是一只貓(當(dāng)然這個(gè)有風(fēng)險(xiǎn),也許有人也叫這個(gè)名字呢,emm,但是如同“旺財(cái)”“福貴”在貓狗上取名的概率更大一樣,這樣學(xué)習(xí)出來的bias似乎也并不是沒有可取之處呢?)。因此通過多視角文本的多模態(tài)預(yù)訓(xùn)練方式,可以擴(kuò)充抽象語義,學(xué)習(xí)出稀疏語義。這是ERNIE VIL 2.0一文給予筆者最大的啟發(fā)。

Fig 5. 通過多視角文本預(yù)訓(xùn)練,可以擴(kuò)充抽象語義,學(xué)習(xí)出稀疏語義。

Reference

[1]. Shan, Bin, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “ERNIE-ViL 2.0: Multi-view Contrastive Learning for Image-Text Pre-training.” arXiv preprint arXiv:2209.15270 (2022).

[2]. Yu, Fei, Jiji Tang, Weichong Yin, Yu Sun, Hao Tian, Hua Wu, and Haifeng Wang. “Ernie-vil: Knowledge enhanced vision-language representations through scene graph.” arXiv preprint arXiv:2006.16934 (2020).

[3]. https://blog.csdn.net/LoseInVain/article/details/116275484,【論文極速看】ERNIE-VIL 一種基于場景圖解析的多模態(tài)表征方法

[4]. Radford, A., Kim, J. W., Hallacy, C., Ramesh, A., Goh, G., Agarwal, S., … & Sutskever, I. (2021). Learning transferable visual models from natural language supervision. arXiv preprint arXiv:2103.00020.

[5]. https://blog.csdn.net/LoseInVain/article/details/119516894, CLIP-對(duì)比圖文多模態(tài)預(yù)訓(xùn)練的讀后感

聲明:本內(nèi)容為作者獨(dú)立觀點(diǎn),不代表電子星球立場。未經(jīng)允許不得轉(zhuǎn)載。授權(quán)事宜與稿件投訴,請(qǐng)聯(lián)系:editor@netbroad.com
覺得內(nèi)容不錯(cuò)的朋友,別忘了一鍵三連哦!
贊 2
收藏 3
關(guān)注 52
成為作者 賺取收益
全部留言
0/200
成為第一個(gè)和作者交流的人吧
主站蜘蛛池模板: 久久久久久国产精品无码超碰 | 亚洲国产成人va在线观看 | 久久久久久精品一区二区三区日本 | 国产日产欧产美韩毛毛片 | 又黄又粗又爽免费观看 | 干干日日 | 免费a网站 | 青青草久草在线视频 | 91新视频在线观看 | 日韩在线1| 欧美成人一区二区三区在线观看 | 国产精品婷婷不卡久久久 | 韩国中文字幕在线观看 | 久久夜色精品亚洲 | 亚洲乱码一区二区三区四区 | 伊人综合久久 | 亚洲另类色区欧美日韩图片 | 日本高清dvd | 四虎影视在线观看2413 | 亚洲瑟瑟| 免费av毛片不卡无码 | 第一区在线 | 久久艹av| 这里只有精品免费 | 免费在线观看日韩视频 | 嘿咻嘿咻免费区在线观看 | 欧洲美妇乱人伦视频网站 | 国产69精品久久久久孕妇 | 婷婷国产一区综合久久精品 | 亚洲国产精品久久亚洲精品大牛 | 日韩精品一区二区三区四区视频 | 欧美中文字幕在线 | 91天仙tv国产福利精品 | 国产激情з∠视频一区二区 | 亚洲久av | 91精品国产综合久久久久久丝袜 | 国产精品无码一区二区三区无卡 | 人妻少妇av中文字幕乱码 | 最新一区二区三区 | 三年片免费观看影视大全满天星 | 精品成人18|