亞洲資本網(wǎng) > 資訊 > 熱播 > 正文
DeepMind發(fā)布提高翻譯質(zhì)量的算法ReST
2023-08-28 12:45:31來源: 鞭牛士


【資料圖】

谷歌DeepMind于8月21日發(fā)布論文,提出一種使LLM與人類偏好對齊更簡單的算法ReST(Reinforced Self-Training)。不同于RLHF(基于人類反饋的強化學習)使用人類反饋改進語言模型,ReST通過生成和使用離線數(shù)據(jù)進行訓練,從而使得LLM與人類偏好保持一致。研究團隊表示,雖然ReST可用于所有生成任務(wù),但本文的重點是機器翻譯。研究者在機器翻譯任務(wù)上進行了實驗,測試基準包括IWSLT 2014、WMT 2020和Web Domain。結(jié)果表明,ReST可以極大地提高翻譯質(zhì)量。

關(guān)鍵詞:

專題新聞
  • 培養(yǎng)綜合素質(zhì),科大訊飛AI學習機LUMIE 10系列讓孩子在快樂中成長
  • 菏澤堯舜牡丹生物科技有限公司(關(guān)于菏澤堯舜牡丹生物科技有限公司簡述)
  • 鄭州“夏日招聘夜市”走進萬達商圈|關(guān)注高校畢業(yè)生就業(yè)
  • 自首后,特朗普狂攬710萬美元競選資金
  • 汕尾陸河創(chuàng)新禁毒宣傳形式,將禁毒宣傳與足球相結(jié)合
  • 致命失誤!米爾斯空砍21+5+6,兩戰(zhàn)46分創(chuàng)紀錄,無緣兩連勝
最近更新

京ICP備2021034106號-51

Copyright © 2011-2020  亞洲資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com