日本a片特黄久久免费观看,精品国产美女福到在线不卡f

調(diào)查分析兩百余篇大模型論文，數(shù)十位研究者一文綜述RLHF的挑戰(zhàn)與局限

2023-08-01 17:38:13來源： 機器之心

自 ChatGPT 問世，OpenAI 使用的訓(xùn)練方法人類反饋強化學(xué)習(xí)（RLHF）就備受關(guān)注，已經(jīng)成為微調(diào)大型語言模型（LLM）的核心方法。RLHF 方法在訓(xùn)練中使用人類反饋，以最小化無益、失真或偏見的輸出，使 AI 模型與人類價值觀對齊。

然而，RLHF 方法也存在一些缺陷，最近來自 MIT CSAIL、哈佛大學(xué)、哥倫比亞大學(xué)等機構(gòu)的數(shù)十位研究者聯(lián)合發(fā)表了一篇綜述論文，對兩百余篇領(lǐng)域內(nèi)的研究論文進行分析探討，系統(tǒng)地研究了 RLHF 方法的缺陷。

論文地址：https://huggingface.co/papers/2307.15217

【資料圖】

總的來說，該論文強調(diào)了 RLHF 的局限性，并表明開發(fā)更安全的 AI 系統(tǒng)需要使用多方面方法（multi-faceted approach）。研究團隊做了如下工作：

調(diào)查了 RLHF 和相關(guān)方法的公開問題和基本限制；概述了在實踐中理解、改進和補充 RLHF 的方法；提出審計和披露標(biāo)準(zhǔn)，以改善社會對 RLHF 系統(tǒng)的監(jiān)督。

具體來說，論文的核心內(nèi)容包括以下三個部分：

1.RLHF 面臨的具體挑戰(zhàn)。研究團隊對 RLHF 相關(guān)問題進行了分類和調(diào)查，并區(qū)分了 RLHF 面臨的挑戰(zhàn)與 RLHF 的根本局限性，前者更容易解決，可以在 RLHF 框架內(nèi)使用改進方法來解決，而后者則必須通過其他方法來解決對齊問題。

2. 將 RLHF 納入更廣泛的技術(shù)安全框架。論文表明 RLHF 并非開發(fā)安全 AI 的完整框架，并闡述了有助于更好地理解、改進和補充 RLHF 的一些方法，強調(diào)了多重冗余策略（multiple redundant strategy）對減少問題的重要性。

3. 治理與透明度。該論文分析探討了改進行業(yè)規(guī)范面臨的挑戰(zhàn)。例如，研究者討論了讓使用 RLHF 訓(xùn)練 AI 系統(tǒng)的公司披露訓(xùn)練細(xì)節(jié)是否有用。

我們來看下論文核心部分的結(jié)構(gòu)和基本內(nèi)容。

如下圖 1 所示，該研究分析了與 RLHF 相關(guān) 3 個過程：收集人類反饋、獎勵建模和策略優(yōu)化。其中，反饋過程引出人類對模型輸出的評估；獎勵建模過程使用監(jiān)督學(xué)習(xí)訓(xùn)練出模仿人類評估的獎勵模型；策略優(yōu)化過程優(yōu)化人工智能系統(tǒng)，以產(chǎn)生獎勵模型評估更優(yōu)的輸出。論文第三章從這三個過程以及聯(lián)合訓(xùn)練獎勵模型和策略四個方面探討了 RLHF 方法存在的問題和挑戰(zhàn)。

論文第三章總結(jié)的問題表明：嚴(yán)重依賴 RLHF 來開發(fā)人工智能系統(tǒng)會帶來安全風(fēng)險。雖然 RLHF 很有用，但它并沒有解決開發(fā)人性化人工智能的基本挑戰(zhàn)。

研究團隊認(rèn)為：任何單一策略都不應(yīng)被視為綜合解決方案。更好的做法是采用多種安全方法的「深度防御」，論文第四章從理解、改進、補充 RLHF 這幾個方面詳細(xì)闡述了提高 AI 安全性的方法。

論文第五章概述了 RLHF 治理面臨的風(fēng)險因素和審計措施。

總結(jié)

該研究發(fā)現(xiàn)，實踐中很多問題來源于 RLHF 的根本局限性，必須采用非 RLHF 的方法來避免或彌補。因此，該論文強調(diào)兩種策略的重要性：(1) 根據(jù) RLHF 和其他方法的根本局限性來評估技術(shù)進步，(2) 通過采取深度防御安全措施和與科學(xué)界公開共享研究成果，來應(yīng)對 AI 的對齊問題。

此外，該研究闡明一些挑戰(zhàn)和問題并非是 RLHF 所獨有的，如 RL 策略的難題，還有一些是 AI 對齊的基本問題。

感興趣的讀者可以閱讀論文原文，了解更多研究內(nèi)容。

關(guān)鍵詞：

相關(guān)新聞