99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

徐土豆
認證:優(yōu)質創(chuàng)作者
所在專題目錄 查看專題
MoCo 動量對比學習——一種維護超大負樣本訓練的框架
訓練大規(guī)模對比學習的一些小筆記
圖文搜索系統(tǒng)中的多模態(tài)模型:將MoCo應用在多模態(tài)對比學習上
Batch Norm層在大尺度對比學習中的過擬合現(xiàn)象及其統(tǒng)計參數(shù)信息泄露問題
hinge loss的一種實現(xiàn)方法
【論文極速讀】MoCo v3: MoCo機制下Transformer模型的訓練不穩(wěn)定現(xiàn)象
作者動態(tài) 更多
給定計算預算下的最佳LLM模型尺寸與預訓練數(shù)據(jù)量分配
05-19 09:33
大模型推理時的尺度擴展定律
05-18 10:32
世界多胞體與世界模型
05-13 09:42
獎勵模型中的尺度擴展定律和獎勵劫持
05-12 08:41
MeCo——給預訓練數(shù)據(jù)增加源信息,就能減少33%的訓練量并且提升效果
05-08 09:13

【論文極速讀】MoCo v3: MoCo機制下Transformer模型的訓練不穩(wěn)定現(xiàn)象

MoCo的基本原理,包括其歷史來龍去脈在前文中[1,2,3]中已經介紹的比較充足了,本文就不再進行贅述。本文主要介紹下MoCo v3 [4]中的一些新發(fā)現(xiàn)。MoCo v3中并沒有對模型或者MoCo機制進行改動,而是探索基于Transformer的ViT(Visual Transformer)模型[5,6]在MoCo機制下的表現(xiàn)以及一些訓練經驗。作者發(fā)現(xiàn)ViT在采用MoCo機制的訓練過程中,很容易出現(xiàn)不穩(wěn)定的情況,并且這個不穩(wěn)定的現(xiàn)象受到了學習率,batch size和優(yōu)化器的影響。如Fig 1.所示,在batch size大于4096的時候已經出現(xiàn)了明顯的劇烈抖動,如Table 1.所示,我們發(fā)現(xiàn)在bs=2048時候取得了最好的測試性能,繼續(xù)增大batch size反而有很大的負面影響,這個結論和MoCo v1里面『batch size越大,對比學習效果越好』相悖,如Fig 2.所示。這里面的大幅度訓練抖動肯定是導致這個結論相悖的罪魁禍首。這個抖動并不容易發(fā)現(xiàn),因為在bs=4096時候,模型訓練最終能收斂到和bs=1024,2048相同的水平,但是泛化效果確實會存在差別。

Fig 1. ViT在MoCo訓練過程中,不同batch size情況下的訓練曲線,我們發(fā)現(xiàn)在大batch size情況下很容易出現(xiàn)穩(wěn)定性問題。
Table 1. ViT在不同batch size下訓練出的模型測試結果。

Fig 2. 在MoCo v1中,隨著batch size的增大,對比學習的結果也逐漸變好。不僅僅是batch size,學習率也會導致ViT訓練的不穩(wěn)定,如Fig 3.所示,我們發(fā)現(xiàn)在較大的學習率下訓練曲線存在明顯的抖動,而最終的訓練收斂位置卻差別不大。在測試結果上看,則會受到很大的影響。如果將優(yōu)化器從AdamW更換到LAMB優(yōu)化器,那么結果也是類似的,如Fig 4.所示,只是可以采用更大的學習率進行訓練了。

Fig 3. ViT以MoCo機制訓練,在不同學習率下的訓練曲線和對應測試結果。

Fig 4. ViT以MoCo機制訓練,在采用LAMB優(yōu)化器的情況下,不同學習率下的訓練曲線和對應測試結果。這種出現(xiàn)訓練時的劇烈抖動,很可能是梯度劇變導致的,因此作者對ViT的第一層和最后一層的梯度的無窮范數(shù)進行了統(tǒng)計。注意到無窮范數(shù)相當于求所有梯度值中絕對值的最大值,也即是如(1)所示。結果如圖Fig 5.所示,我們發(fā)現(xiàn)的確會存在有梯度的驟變,而且總是第一層先發(fā)生,然后經過約數(shù)十個step之后傳遞給了最后一層。因此,導致訓練曲線劇烈抖動的原因可能是ViT的Transformer的第一層梯度不穩(wěn)定導致。

Fig 5. ViT在訓練過程中第一層和最后一層的梯度無窮范數(shù)。

考慮到在ViT中的第一層是將patch映射到visual token,也就是一層FC全連接層,如圖Fig6.所示。作者在MoCo v3里面的做法也很直接,直接將ViT的第一層,也即是從Patch到Visual Token的線性映射層隨機初始化后固定住,不參與訓練。

Fig 6. 在ViT中通過FC層將圖片patch線性映射到了visual token,從而輸入到Transformer。

這個做法挺奇怪的,但是實驗結果表明在固定住了線性映射層之后,的確ViT的訓練穩(wěn)定多了,如Fig 7.所示,訓練曲線的確不再出現(xiàn)詭異的劇烈抖動,最主要的是其測試結果也能隨著學習率的提高而增大了,并且同比learned path proj.的情況還更高。

Fig 7. 在固定住了patch映射到visual token的線性映射層之后,訓練曲線不再出現(xiàn)明顯的劇烈抖動。

這種現(xiàn)象還是蠻奇怪的,也就是說即便不訓練這個patch projection layer,模型的性能也不會打折,而且還會更加穩(wěn)定。作者給出的解釋就是目前這個映射是完備的(complete),甚至是過完備(over-complete)的,以的patch,768的visual token為例子,那么這個映射矩陣就是的。也就是說對于所有可能的patch來說,可能在隨機的M \mathbf{M}M?????中就已經有著近似的唯一輸出對應,即便這個映射可能不保留太多的視覺語義信息,但是也保留了原始的視覺信息,不至于損失原始信息。但是正如作者最后所說的,這個『trick』只是緩解了問題,但是并沒有解決問題,顯然這個問題出現(xiàn)在了優(yōu)化階段,而固定FC層減少了解空間提高了其穩(wěn)定性。在更大的學習率下,還是會受到相同的不穩(wěn)定現(xiàn)象,對該現(xiàn)象的研究值得繼續(xù)深究。

筆者在大規(guī)模的對比學習訓練過程中也遇到過類似的訓練曲線抖動(雖然沒有那么劇烈),但是筆者發(fā)現(xiàn)可能是溫度系數(shù)的劇烈變化導致的,我們以后再繼續(xù)討論下溫度系數(shù)的影響。

Reference

[1]. https://fesian.blog.csdn.net/article/details/119515146

[2]. https://fesian.blog.csdn.net/article/details/120039316

[3]. https://fesian.blog.csdn.net/article/details/120364242

[4]. Chen, Xinlei, Saining Xie, and Kaiming He. “An empirical study of training self-supervised vision transformers.” arXiv preprint arXiv:2104.02057 (2021).

[5]. https://blog.csdn.net/LoseInVain/article/details/116031656

[6]. Dosovitskiy, Alexey, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani et al. “An image is worth 16x16 words: Transformers for image recognition at scale.” arXiv preprint arXiv:2010.11929 (2020).

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯(lián)系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 1
收藏 2
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 日韩欧美亚洲国产精品字幕久久久 | 伊人春色精品 | 免费观看日韩视频 | 综合久久网 | 国产片在线观看 | 欧美日韩免费大片 | 久久22| 色欲人妻综合aaaaa网 | 亚洲欧美日韩专区 | 国产精品人成在线观看 | 超碰人人爱 | 狠狠色狠狠色综合久久 | 久久久久久久久久久久久久久国产 | 成人欧美大片免费观看 | 欧美在线专区 | JIZZJIZZ国产精品久久 | 久久久久国产一级毛片 | 久久99精品久久久久久久久久 | 国产精品一区二区三区成人 | 国产专区免费av无码 | 久久久久国产成人免费精品免费 | 国语国产精精品国产国语清晰对话 | 人妻丰满熟妇AV无码区乱 | 91成人破解版 | 日产中文字幕在线观看 | 天天澡日日澡狠狠欧美老妇 | 久久精品h | 日本免费不卡一区二区 | 啦啦啦啦WWW日本在线观看 | 亚洲精品中国国产嫩草影院美女 | 国产熟女一区二区三区四区五区 | 国语对白一区二区三区 | 激情综合婷婷色五月蜜桃 | 欧美性猛交xxxx乱大交退制版 | 亚洲男人的天堂在线aⅴ视频 | 中文字幕一区二区在线观看 | 久久综合免费视频影院 | 国模芊芊大尺度啪啪 | 韩日视频在线 | 国产高潮流白浆喷水在线观看 | av在线h |