自 ChatGPT 問(wèn)世,OpenAI 使用的訓(xùn)練方法人類反饋強(qiáng)化學(xué)習(xí)(RLHF)就備受關(guān)注,已經(jīng)成為微調(diào)大型語(yǔ)言模型(LLM)的核心方法。RLHF 方法在訓(xùn)練中使用人類反饋,以最小化無(wú)益、失真或偏見(jiàn)的輸出,使 AI 模型與人類價(jià)值觀對(duì)齊。
然而,RLHF 方法也存在一些缺陷,最近來(lái)自 MIT CSAIL、哈佛大學(xué)、哥倫比亞大學(xué)等機(jī)構(gòu)的數(shù)十位研究者聯(lián)合發(fā)表了一篇綜述論文,對(duì)兩百余篇領(lǐng)域內(nèi)的研究論文進(jìn)行分析探討,系統(tǒng)地研究了 RLHF 方法的缺陷。
論文地址:https://huggingface.co/papers/2307.15217
【資料圖】
總的來(lái)說(shuō),該論文強(qiáng)調(diào)了 RLHF 的局限性,并表明開(kāi)發(fā)更安全的 AI 系統(tǒng)需要使用多方面方法(multi-faceted approach)。研究團(tuán)隊(duì)做了如下工作:
調(diào)查了 RLHF 和相關(guān)方法的公開(kāi)問(wèn)題和基本限制;概述了在實(shí)踐中理解、改進(jìn)和補(bǔ)充 RLHF 的方法;提出審計(jì)和披露標(biāo)準(zhǔn),以改善社會(huì)對(duì) RLHF 系統(tǒng)的監(jiān)督。具體來(lái)說(shuō),論文的核心內(nèi)容包括以下三個(gè)部分:
1.RLHF 面臨的具體挑戰(zhàn)。研究團(tuán)隊(duì)對(duì) RLHF 相關(guān)問(wèn)題進(jìn)行了分類和調(diào)查,并區(qū)分了 RLHF 面臨的挑戰(zhàn)與 RLHF 的根本局限性,前者更容易解決,可以在 RLHF 框架內(nèi)使用改進(jìn)方法來(lái)解決,而后者則必須通過(guò)其他方法來(lái)解決對(duì)齊問(wèn)題。
2. 將 RLHF 納入更廣泛的技術(shù)安全框架。論文表明 RLHF 并非開(kāi)發(fā)安全 AI 的完整框架,并闡述了有助于更好地理解、改進(jìn)和補(bǔ)充 RLHF 的一些方法,強(qiáng)調(diào)了多重冗余策略(multiple redundant strategy)對(duì)減少問(wèn)題的重要性。
3. 治理與透明度。該論文分析探討了改進(jìn)行業(yè)規(guī)范面臨的挑戰(zhàn)。例如,研究者討論了讓使用 RLHF 訓(xùn)練 AI 系統(tǒng)的公司披露訓(xùn)練細(xì)節(jié)是否有用。
我們來(lái)看下論文核心部分的結(jié)構(gòu)和基本內(nèi)容。
如下圖 1 所示,該研究分析了與 RLHF 相關(guān) 3 個(gè)過(guò)程:收集人類反饋、獎(jiǎng)勵(lì)建模和策略優(yōu)化。其中,反饋過(guò)程引出人類對(duì)模型輸出的評(píng)估;獎(jiǎng)勵(lì)建模過(guò)程使用監(jiān)督學(xué)習(xí)訓(xùn)練出模仿人類評(píng)估的獎(jiǎng)勵(lì)模型;策略優(yōu)化過(guò)程優(yōu)化人工智能系統(tǒng),以產(chǎn)生獎(jiǎng)勵(lì)模型評(píng)估更優(yōu)的輸出。論文第三章從這三個(gè)過(guò)程以及聯(lián)合訓(xùn)練獎(jiǎng)勵(lì)模型和策略四個(gè)方面探討了 RLHF 方法存在的問(wèn)題和挑戰(zhàn)。
論文第三章總結(jié)的問(wèn)題表明:嚴(yán)重依賴 RLHF 來(lái)開(kāi)發(fā)人工智能系統(tǒng)會(huì)帶來(lái)安全風(fēng)險(xiǎn)。雖然 RLHF 很有用,但它并沒(méi)有解決開(kāi)發(fā)人性化人工智能的基本挑戰(zhàn)。
研究團(tuán)隊(duì)認(rèn)為:任何單一策略都不應(yīng)被視為綜合解決方案。更好的做法是采用多種安全方法的「深度防御」,論文第四章從理解、改進(jìn)、補(bǔ)充 RLHF 這幾個(gè)方面詳細(xì)闡述了提高 AI 安全性的方法。
論文第五章概述了 RLHF 治理面臨的風(fēng)險(xiǎn)因素和審計(jì)措施。
總結(jié)該研究發(fā)現(xiàn),實(shí)踐中很多問(wèn)題來(lái)源于 RLHF 的根本局限性,必須采用非 RLHF 的方法來(lái)避免或彌補(bǔ)。因此,該論文強(qiáng)調(diào)兩種策略的重要性:(1) 根據(jù) RLHF 和其他方法的根本局限性來(lái)評(píng)估技術(shù)進(jìn)步,(2) 通過(guò)采取深度防御安全措施和與科學(xué)界公開(kāi)共享研究成果,來(lái)應(yīng)對(duì) AI 的對(duì)齊問(wèn)題。
此外,該研究闡明一些挑戰(zhàn)和問(wèn)題并非是 RLHF 所獨(dú)有的,如 RL 策略的難題,還有一些是 AI 對(duì)齊的基本問(wèn)題。
感興趣的讀者可以閱讀論文原文,了解更多研究?jī)?nèi)容。
關(guān)鍵詞:
新聞發(fā)布平臺(tái) |科極網(wǎng) |環(huán)球周刊網(wǎng) |中國(guó)創(chuàng)投網(wǎng) |教體產(chǎn)業(yè)網(wǎng) |中國(guó)商界網(wǎng) |萬(wàn)能百科 |薄荷網(wǎng) |資訊_時(shí)尚網(wǎng) |連州財(cái)經(jīng)網(wǎng) |劇情啦 |5元服裝包郵 |中華網(wǎng)河南 |網(wǎng)購(gòu)省錢平臺(tái) |海淘返利 |太平洋裝修網(wǎng) |勵(lì)普網(wǎng)校 |九十三度白茶網(wǎng) |商標(biāo)注冊(cè) |專利申請(qǐng) |啟哈號(hào) |速挖投訴平臺(tái) |深度財(cái)經(jīng)網(wǎng) |深圳熱線 |財(cái)報(bào)網(wǎng) |財(cái)報(bào)網(wǎng) |財(cái)報(bào)網(wǎng) |咕嚕財(cái)經(jīng) |太原熱線 |電路維修 |防水補(bǔ)漏 |水管維修 |墻面翻修 |舊房維修 |參考經(jīng)濟(jì)網(wǎng) |中原網(wǎng)視臺(tái) |財(cái)經(jīng)產(chǎn)業(yè)網(wǎng) |全球經(jīng)濟(jì)網(wǎng) |消費(fèi)導(dǎo)報(bào)網(wǎng) |外貿(mào)網(wǎng) |重播網(wǎng) |國(guó)際財(cái)經(jīng)網(wǎng) |星島中文網(wǎng) |手機(jī)測(cè)評(píng) |品牌推廣 |名律網(wǎng) |項(xiàng)目大全 |整形資訊 |整形新聞 |美麗網(wǎng) |佳人網(wǎng) |稅法網(wǎng) |法務(wù)網(wǎng) |法律服務(wù) |法律咨詢 |成報(bào)網(wǎng) |媒體采購(gòu)網(wǎng) |聚焦網(wǎng) |參考網(wǎng) |熱點(diǎn)網(wǎng)
亞洲資本網(wǎng) 版權(quán)所有
Copyright © 2011-2020 亞洲資本網(wǎng) All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com