99久久全国免费观看_国产一区二区三区四区五区VM_久久www人成免费看片中文_国产高清在线a视频大全_深夜福利www_日韩一级成人av

LLM結合行為模仿和偏好對齊進行Best-of-N對齊的方法

典型的大模型管道可以分為如Fig 1所示的幾部分,其中的行為模擬(Behavior Mimic)通常是通過指令微調(Supervised Fintune, SFT)的方式,使得模型可以從預訓練后的續寫模型,變為一個可以遵循用戶指令進行回答的模型,通過偏好對齊(Preference Alignment)能夠使得回答更具有人類偏好。存在不少工作認為行為模擬只是對模型回答的格式進行規范,是一種偏向于『記憶(Memorize)』的過程 [2,3],而偏好對齊才是能進一步提高模型泛化能力的關鍵 [3]。至于說到推理時擴展(Inference-time Scaling),則是考慮在推理階段采用復雜的答案采樣/答案改寫方式,提升模型的最終性能,可參考筆者在博文 [4] 中的介紹。

Fig 1. 典型的大模型訓練和推理管道。

Best-of-N (下文簡稱BoN)采樣是推理時擴展的一種經典做法,指的是給定一個提示詞x, 大模型對其進行采樣N次,得到N個完整回答, ,通過獎勵模型分別打分得到N個獎勵打分,取其打分最高的作為BoN結果。整個過程可以表示為公式 (1) 所示

作者在文中證明了BoN結果是考慮了KL散度約束情況下的漸進最優策略,在論文 [5] 中同樣進行了這一點的證明,整個過程比較復雜,筆者也沒完全看懂,盡量挑一些關鍵結論和過程進行解釋。

首先我們看到偏好對齊,偏好對齊的目標是對于一個SFT后的模型,稱之為,我們希望學習出一個新模型應該在某個指標層面上要優于。為了使得訓練過程可控,我們也不希望太過遠離,可以考慮用KL散度去度量這兩者的距離,其中為給定了提示詞x情況下的KL散度,而則是對提示詞集合D進行求期望得到的KL散度。KL散度取值范圍為,越小表示兩個分布之間差別越小。

一種可以考慮衡量優于的指標是勝率(win-rate),定義如下公式(3)所示,也就是通過獎勵函數去判斷優于的概率。

不妨可以將偏好對齊看成是一個探索&利用(Explore and Exploit)的過程,如Fig 2所示,消耗KL散度距離衡量和初始模型的偏離程度,可以認為是探索程度,用獎勵模型新探索的模型進行評估,則可看成是利用過程。因此KL距離是一種可消耗的資源,這個觀點在一些工作中也有所體現,可參考 [6]。為何不希望新策略太過于偏離初始策略呢?筆者的理解是:

如果不在訓練過程中對此進行約束,新策略可能會容易出現大幅度偏離初始策略,導致整個訓練過程不穩定且難以控制。獎勵模型通常是在初始策略模型的基礎上,采樣后進行人工標注樣本訓練得到的,也就是說如果新策略模型太過于遠離初始策略模型,那么很可能會出現獎勵模型無法很好地衡量新策略模型效果的情況,從而導致過擬合。

Fig 2. 在偏好對齊過程中,通過消耗KL距離探索新策略模型,而獎勵模型作為『法官』進行效果判斷。偏好對齊的方法整體有兩種,第一個通過人工反饋的強化學習方法(RLHF),如公式(4)所述;

第二種則是通過對比式方法(Contrastive methods),典型的如DPO方法,如公式(5)所示。

RLHF方式顯式地引入KL散度約束項,而DPO方法則通過新策略模型分布和初始策略模型分布進行比較的方式,都一定程度上約束了新策略模型不至于偏離初始策略模型。如果獎勵模型是Bradley-Terry模型,那么有:

作者文中說因此RLHF和DPO的解析解則可以表示為(對此,筆者不知道具體推導過程,望請教):

也就是說新策略模型是對初始策略模型的加權,而權值會收到獎勵模型的影響。作者認為不僅對于RLHF和DPO,對于包括BoN方式在內的一切對齊策略來說,存在統一的表達,即是有:

其中的是一個非減函數,會收到不同提示詞x的影響。基于此,可以推導出BoN方式的勝率為(具體過程參考原論文):

那么最優策略的勝率如何呢?首先我們定義最優策略,就是在給定的KL散度情況下能取得盡可能高的勝率,如公式(10)所示:

此時可以推導出最優策略模型為:

那么最優策略的勝率可以表示為

如果對BoN和最優策略分別繪制曲線圖的話,如Fig 3所示,會發現BoN方式是在有KL散度約束下的漸進的最優策略。

Fig 3. 就勝率與KL散度的關系而言,BoN本質上與最優策略表現一致。就勝率與KL散度的關系而言,BoN本質上與最優策略表現一致。 左圖:BoN與最優策略的勝率隨KL散度變化曲線。右圖:不同n值下最優策略與BoN策略的勝率差異。

那么問題來了,如何將模型的BoN的結果蒸餾到模型自身上呢?本文提出了BoNBoN方式,損失函數如公式(13)所示

損失的第一項為SFT損失,其為BoN結果,顯然這種方法只是采用了BoN結果作為模仿目標,并沒有充分利用數據,比如Worst-of-N(WoN)部分的數據。

而損失的第二項是一個對比式的損失IPO(是DPO的升級,添加了正則項減少過擬合),關于這里的正則項文中附錄有推導,博文就不贅述了。IPO-BoN損失不僅采用了BoN結果作為正向樣本(也就是,還采用了WoN結果作為負向樣本(也就是? ),數據的利用率更高。

在實驗部分,作者比較了Summarization和helpful and Harmless這兩塊任務,如Fig 4.所示,其中的黑線(BoN theoretical)是根據公式(9)繪制出來的,而BoN Sampling則是真實采樣得到的結果,可以發現是能夠符合曲線的。我們看這個圖,應該從兩個維度看:

勝率越高,說明相比初始策略模型效果更好越接近Reference Model(無論是KL散度還是平均響應長度),說明消耗的KL距離越少,則是更占優勢(筆者認為是勝率計算更加準確)從這個分析角度看,我們發現BoNBoN方法在消耗更少KL距離(或者和初始策略模型更加接近長度的平均響應長度)的情況下,能取得更高的勝率。此外,我們看到DPO BoN 效果持續遠遠優于DPO original HH,后者是采用HH數據(也就是所謂的off-policy的數據),而前者則來自于模型自身的BoN結果組建偏序數據,也就是所謂的on-policy數據。從這個結果,我們得到一個結論是,應當盡可能采用on-policy數據進行模型偏好對齊,即便這些結果可能相對來說比較弱(對比其他更好的模型采樣或者標注)。

Fig 4. BoNBoN在實現高勝率的同時,對生成過程中非目標方面的影響極小(也就是偏離初始策略模型的程度)。每個數據點代表采用特定對齊方法的模型,我們使用一個Ranker測量其相對于基礎模型的勝率。為評估非目標行為的改變,我們同時測量了估計的KL散度(左圖)和平均響應長度(右圖)。上方:BoNBoN與基線模型在摘要任務中的對比結果。

下方:BoNBoN與基線模型在單輪對話任務中的對比結果。讀后感筆者看完這篇文章后,第一感覺就是公式好多… 其實整個蒸餾BoN結果的思路很直接,就是在SFT的基礎上添加了一個DPO類的損失(或者反過來說,在DPO偏好對齊的基礎上加了一個SFT行為模仿),其實整篇文章很多篇幅在證明BoN是KL約束下的漸進最優策略,然后想辦法去接近BoN。因此我總結從這篇文章得到的收獲的話:

BoN是LLM的KL約束限制下的漸進最優策略新策略模型可以表示為初始策略模型的分布加權on-policy vs off-policy 數據作為偏好對齊,應當盡可能采用前者SFT+DPO類損失能夠更加充分利用數據

Reference

[1]. Gui, Lin, Cristina Gârbacea, and Victor Veitch. “Bonbon alignment for large language models and the sweetness of best-of-n sampling.” arXiv preprint arXiv:2406.00832 (2024). aka BoNBoN

[2]. Zhou, Chunting, Pengfei Liu, Puxin Xu, Srinivasan Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma et al. “Lima: Less is more for alignment.” Advances in Neural Information Processing Systems 36 (2023): 55006-55021. aka LIMA

[3]. Chu, Tianzhe, Yuexiang Zhai, Jihan Yang, Shengbang Tong, Saining Xie, Dale Schuurmans, Quoc V. Le, Sergey Levine, and Yi Ma. “Sft memorizes, rl generalizes: A comparative study of foundation model post-training.” arXiv preprint arXiv:2501.17161 (2025).

[4]. 《大模型推理時的尺度擴展定律》, https://fesianxu.github.io/2025/03/02/test-time-scaling-laws-20250302/

[5]. Yang, Joy Qiping, Salman Salamatian, Ziteng Sun, Ananda Theertha Suresh, and Ahmad Beirami. “Asymptotics of language model alignment.” In 2024 IEEE International Symposium on Information Theory (ISIT), pp. 2027-2032. IEEE, 2024.

[6]. 《獎勵模型中的尺度擴展定律和獎勵劫持》, https://fesianxu.github.io/2025/02/09/scaling-law-in-reward-model-20250209/

聲明:本內容為作者獨立觀點,不代表電子星球立場。未經允許不得轉載。授權事宜與稿件投訴,請聯系:editor@netbroad.com
覺得內容不錯的朋友,別忘了一鍵三連哦!
贊 3
收藏 3
關注 52
成為作者 賺取收益
全部留言
0/200
成為第一個和作者交流的人吧
主站蜘蛛池模板: 亚洲瑟瑟 | 影视先锋男人无码在线 | 亚洲成av人片在线观看无码不卡 | 手机免费av在线 | 国产国拍亚洲精品在线 | 91av视频免费在线观看 | 人妻丝袜AV中文系列先锋影音 | 国产日产欧产精品 | 国产精品久久久久久婷婷动漫 | 五十度灰2在线观看 | 男女好痛好深好爽视频 | 亚洲美女久久 | 国产精品日韩AV在线播放 | 日本成人在线免费视频 | 99久久国产综合精品女不卡 | 東热精品中字久久无码五月天 | 特黄一级 | 国产精品久久久亚洲 | 日日日日日日bbbbb视频 | 久久精品无码观看TV | 欧美日韩免费一区二区 | 69爱爱视频 | 久久久青青草原 | 国产在线一二三四区 | 99re8这里有精品热视频8在线 | 亚洲综合无码久久精品综合 | 日韩在线| 国产一级影院 | 在线不卡欧美精品一区二区三区 | 蜜乳av入口 | 日本黄色免费视频 | 久久精品人妻无码一区二区三区 | 99热网| 欧美国产成人精品二区芒果视频 | 99久久免费精品国产72精品九九 | 免费日韩在线视频 | 亚洲国产成人精品福利在线观看 | 久久无码精品一区二区三区 | 免费观看一级特黄欧美大片 | 欧美黄色一级 | 啪一啪日一日 |