發(fā)布僅2天,Code Llama再次引爆AI編碼的變革。
還記得Meta在Code Llama論文中出現(xiàn)的能夠全面持平GPT-4的神秘版本Unnatural Code Llama嗎?
大佬Sebastian在自己博客里做出解釋:
(資料圖片僅供參考)
是使用了1萬5千條非自然語言指令對Code Llama- Python 34B進(jìn)行微調(diào)之后的版本。
Meta通過在論文里隱藏這樣一條非常隱蔽的信息,似乎是想暗示開源社區(qū),Code Llama的潛力非常大,大家趕快微調(diào)起來吧!
于是剛剛,基于Code Llama微調(diào)的WizardCoder 34B,在HumanEval基準(zhǔn)上,直接打敗了GPT-4。
具體來說,WizardCoder以73.2%的勝率碾壓GPT-4的3月份版本(67%)。
另外,WizardCoder 34B的性能超過了最新版本GPT-3.5,以及Claude 2。
編程大模型WizardCoder,是由微軟聯(lián)合香港浸會大學(xué)在6月發(fā)布的。據(jù)稱,微調(diào)的13B/7B版本即將推出。
英偉達(dá)頂級科學(xué)家Jim Fan表示,這基本上是「Unnatural Code Llama」的開放版本。
雖然基準(zhǔn)數(shù)據(jù)看起來不錯(cuò),但HumanEval只測試了窄分布,可能會過度擬合。自然場景下的數(shù)據(jù)測試才是真正重要的。編碼基準(zhǔn)需要重大升級。
Code Llama神秘版本誕生?
周五,Meta正式開源了三個(gè)版本的Code Llama。
在HumanEval和MBPP基準(zhǔn)圖中,許多人發(fā)現(xiàn)了一個(gè)未在Meta官方中提到的版本——Unnatural Code Llama。
這個(gè)神秘版本在HumanEval pass@1上取得了62.2%性能。
而在今天公布的微調(diào)WizardCoder 34B在HumanEval pass@1上性能高達(dá)73.2%。
根據(jù)介紹,WizardCoder 34B是使用合成數(shù)據(jù)集Evol-Instruct對Code Llama模型進(jìn)行微調(diào)的版本。
如下是和所有開源和閉源模型性能對比可視化。
在和OpenAI模型比較中,研究人員指出GPT4和ChatGPT-3.5有兩個(gè)HumanEval結(jié)果:
OpenAI的官方GPT4報(bào)告(2023/03/15)提供的結(jié)果分別是:67.0%和48.1%。而 研究人員使用最新的 API(2023/08/26)測試的結(jié)果是82.0%和72.5%。
另外,研究人員強(qiáng)調(diào),這個(gè)性能結(jié)果100%可重現(xiàn)!
WizardCoder 34B的演示已經(jīng)開放,任何人都可以對對其進(jìn)行測試。
有人指出了問題,過度擬合公共排行榜是開源模型在實(shí)際應(yīng)用中舉步維艱的主要原因之一。這里有一個(gè)例子,wizard-coder的數(shù)據(jù)準(zhǔn)備使用HumanEval pass@1的分?jǐn)?shù)來決定是否進(jìn)一步發(fā)展數(shù)據(jù)集。僅針對測試集進(jìn)行優(yōu)化有違測試集的初衷。
同樣就在昨天,來自Phind組織的研究人員,微調(diào)Code Llama-34B在HumanEval評估中擊敗了GPT-4。
ChatGPT與Code Llama對打
Code Llama在實(shí)際的代碼任務(wù)中表現(xiàn)到底怎么樣?
有一位網(wǎng)友做了一個(gè)GPT-3.5和Code Llama Instruct-34B的對比測試。它通過Perplexity.AI提供的Code Llama 34B的訪問服務(wù)進(jìn)行了測試。
它分別給兩個(gè)模型喂了8個(gè)同樣的代碼任務(wù),比較他們的生成代碼的質(zhì)量。
結(jié)果是GPT-3.5以8:5的優(yōu)勢取勝。
以下是具體的測試結(jié)果。
第一題
使用Python完成這個(gè)任務(wù),給定兩個(gè)字符串word1和word2。通過以交替順序添加字母來合并字符串,從word1開始。如果一個(gè)字符串比另一個(gè)字符串長,請將附加字母附加到合并字符串的末尾。
最后輸出合并后的字符串。
例如:
輸入:word1 =「abc」,word2 =「pqr」 輸出:「apbqcr」
GPT-3.5和Code Llama都能完成——1:1
第二題
使用Python完成這個(gè)任務(wù),給定一個(gè)字符串 s,僅反轉(zhuǎn)字符串中的所有元音并返回它。
元音為「a」、「e」、「i」、「o」和「u」,它們可以以小寫和大寫形式出現(xiàn)多次。
例如:輸入:s =「hello」 輸出:「ello」
GPT-3.5完成,Code Llama沒有完成——2:1
第三題
使用Python完成這個(gè)任務(wù),給定一個(gè)整數(shù)數(shù)組 nums,將所有 0 移至其末尾,同時(shí)保持非零元素的相對順序。
請注意,您必須就地執(zhí)行此操作,而不制作數(shù)組的副本。
例如:輸入:nums = [0,1,0,3,12] 輸出:[1,3,12,0,0]
GPT-3.5完成,Code Llama沒有完成——3:1
第四題
使用Python完成這個(gè)任務(wù),你有一個(gè)長長的花壇,其中有些地塊種了花,有些沒種。
但是,相鄰的地塊不能種植花卉。給定一個(gè)包含 0 和 1 的整數(shù)數(shù)組花壇,其中 0 表示空,1 表示非空,以及一個(gè)整數(shù) n,如果可以在花壇中種植n 朵新花而不違反無相鄰花規(guī)則,則輸出true,否則就輸出false。
例子1:輸入:花壇 = [1,0,0,0,1], n = 1 輸出:true例子2:輸入:花壇 = [1,0,0,0,1], n = 2 輸出:false
兩個(gè)模型都完成了——4:2
第五題
使用Python,給定一個(gè)輸入字符串s,反轉(zhuǎn)單詞的順序。單詞被定義為非空格字符的序列。s中的單詞將至少由一個(gè)空格分隔。
輸出由單個(gè)空格按相反順序連接的單詞字符串。請注意,s可能在兩個(gè)單詞之間包含前導(dǎo)或尾隨空格或多個(gè)空格。
返回的字符串應(yīng)該只有一個(gè)空格來分隔單詞。請勿包含任何額外空格。
例子:輸入:s =「the sky is blue」 輸出:「blue is sky the」
兩個(gè)模型都完成了——5:3
第六題
使用Python完成這個(gè)任務(wù),給定一個(gè)字符串s和一個(gè)整數(shù)k,返回s中長度為k的任何子串中元音字母的最大數(shù)量。
英語中的元音字母有「a」、「e」、「i」、「o」和「u」。例子:輸入:s =「leetcode」,k = 3 輸出:2
解釋:「lee」、「eet」和「ode」包含 2 個(gè)元音。
兩個(gè)模型都完成了——6:4
第七題
使用Python完成這個(gè)任務(wù),給定一個(gè)字符串s,其中包含星號*。通過一次操作,你可以:在s中選擇一個(gè)星號。
刪除其左側(cè)最接近的非星號字符,并刪除星號本身。刪除所有星號后輸出字符串。例子:輸入:s =「leet**cod*e」 輸出:「lecoe」
GPT-3.5完成了,但是Code Llama沒有完成——7:4
第八題
使用Python完成這個(gè)任務(wù),給定一個(gè)表示每日溫度的整數(shù)溫度數(shù)組,返回一個(gè)數(shù)組答案,其中answer[i]是在第i天之后您必須等待的天數(shù)才能獲得較溫暖的溫度。
如果未來沒有一天可以這樣做,則保留answer[i] == 0。例如:輸入:溫度 = [73,74,75,71,69,72,76,73] 輸出:[1,1,4,2,1,1,0,0]
兩個(gè)模型都完成了——8:5
針對兩個(gè)模型的表現(xiàn),這位網(wǎng)友認(rèn)為這不算是一個(gè)嚴(yán)謹(jǐn)?shù)难芯浚皇且粋€(gè)簡單的測試,每次讓模型再次生成代碼時(shí)基本都能得到更好的答案,但是測試中沒有。
所以測試的結(jié)論并不是最終兩個(gè)模型的表現(xiàn)。
堪比GPT-4,Llama 3要開源
自Llama和Llama 2開元發(fā)布后,引爆機(jī)器學(xué)習(xí)社區(qū)ChatGPT平替熱潮,各種微調(diào)模型泉涌而出。
OpenAI的研究人員Jason Wei稱,在Meta GenAI社交活動上了解到,未來Llama 3和Llama 4也會開源。
我們擁有訓(xùn)練Llama 3和4的計(jì)算能力。我們的計(jì)劃是讓Llama-3和GPT-4一樣好。哇,如果Llama-3和GPT-4一樣好,你們還會開源嗎?是的,我們會的。對不起,對齊工作人員。
又一位網(wǎng)友稱,Meta希望開源一個(gè)GPT-5級別模型,并且在AGI之前似乎一直堅(jiān)持開源。
我想說清楚這意味著什么:沒有死亡開關(guān)。
如果出了問題--一個(gè)智能體失控了,或者一個(gè)壞人把它武器化了--沒有簡單的方法把它關(guān)掉。它可以在任何小型集群上運(yùn)行。這樣就沒有安全性可言了。
安全研究變得毫無意義。
人們?yōu)樽屓斯ぶ悄芟到y(tǒng)誠實(shí)、一致、合乎道德等所做的所有工作都變得毫無意義。世界上的人工智能系統(tǒng)將朝著哪個(gè)系統(tǒng)能產(chǎn)生最大經(jīng)濟(jì)效益的方向發(fā)展,而不管它們有什么價(jià)值觀或動機(jī)。沒有護(hù)欄。任何人都可以隨心所欲地改變?nèi)斯ぶ悄艿膬r(jià)值觀或能力,無論好壞。
如果在我們獲得更智能的人工智能的同時(shí),Meta繼續(xù)開源,那么我很清楚,事情會變得一團(tuán)糟。這些外星智能體的到來已經(jīng)會讓世界變得混亂不堪,但如果我們放棄人類僅有的一點(diǎn)控制權(quán),情況就會更加糟糕。
據(jù)我所知,Meta希望開源主要源于「開源社區(qū)教條」,即「開源好」。而且據(jù)我所知,在他們的第一個(gè)模型Llama意外泄露之前,他們并不那么贊成開源,之后他們一直假裝贊成開源。
對此,馬斯克表示,不過,使用自回歸Transfomer的LLM能效極差,不僅在訓(xùn)練中如此,在推理中也是如此。我認(rèn)為它偏離了幾個(gè)數(shù)量級。
Llama 2是一個(gè)各方面性能都很強(qiáng)的模型。
但是,它有一個(gè)非常明顯的弱點(diǎn)——代碼能力。
根據(jù)Meta發(fā)布Llama 2的論文中的數(shù)據(jù),Llama 2在HumEval(評估LLM與編碼相關(guān)的基準(zhǔn)測試)的成績甚至比GPT-3.5還要差上不少,更不用說和GPT-4相比要差多少了。
來自原始Llama 2論文的注釋圖
但是代碼能力肯定會是未來開源社區(qū)使用Llama 2的一個(gè)重要方向,Meta自然不能在這個(gè)方向上擺爛,于是就有了專門針對代碼能力進(jìn)行了大幅優(yōu)化的Code Llama。
兩天前,Meta正式發(fā)布了Code Llama 家族:Code Llama(7B、13B和34B),還有3個(gè)變體:通用代碼模型Code Llama、指令遵循模型Code Llama-instruct 和Python代碼專用版本Code Llama-Python。
這些模型與Llama 2的使用許可證一樣,免費(fèi)學(xué)術(shù)和商用。
Code Llama 34B模型的代碼能力幾乎是Llama 2的兩倍,大大縮小了與GPT-4的差距。
還記得Meta在Code Llama論文中出現(xiàn)的能夠全面持平GPT-4版本的Unnatural Code Llama嗎?
大佬Sebastian在自己博客里做出解釋:
是使用了1萬5千條非自然語言指令對Code Llama- Python 34B進(jìn)行微調(diào)之后的版本。
Meta通過在論文里隱藏這樣一條非常隱蔽的信息,似乎是想暗示開源社區(qū),Code Llama的潛力非常大,大家趕快微調(diào)起來吧!
為什么沒有70B Code Llama模型?
有意思的是,Code Llama只有7B、13B和34B參數(shù)版本,與Llama 2相比少了70B的版本。
雖然Meta在論文中沒有解釋為什么會這樣,但技術(shù)大佬Sebastian提供了兩個(gè)可能的原因:
1. Code Llama在500B的token上訓(xùn)練而來,而Llama 2是在2T的token上訓(xùn)練而來。
由于Code Llama訓(xùn)練的數(shù)據(jù)和Llama 2相比只有1/4,可能因?yàn)闆]有足夠的訓(xùn)練數(shù)據(jù),再加上LLM的Scaling Laws的限制,導(dǎo)致CodeLlama70B性能不太行。
2. Code Llama模型支持100k的上下文大小,這個(gè)能力在處理代碼任務(wù)時(shí)非常有用。
相比之下,Llama 2只支持最多4k的輸入長度。如果要讓70B的模型支持100k token的輸入長度,可能會使得模型對于計(jì)算量的要求變得過于夸張了。
關(guān)鍵詞:
新聞發(fā)布平臺 |科極網(wǎng) |環(huán)球周刊網(wǎng) |tp錢包官網(wǎng)下載 |中國創(chuàng)投網(wǎng) |教體產(chǎn)業(yè)網(wǎng) |中國商界網(wǎng) |萬能百科 |薄荷網(wǎng) |資訊_時(shí)尚網(wǎng) |連州財(cái)經(jīng)網(wǎng) |劇情啦 |5元服裝包郵 |中華網(wǎng)河南 |網(wǎng)購省錢平臺 |海淘返利 |太平洋裝修網(wǎng) |勵(lì)普網(wǎng)校 |九十三度白茶網(wǎng) |商標(biāo)注冊 |專利申請 |啟哈號 |速挖投訴平臺 |深度財(cái)經(jīng)網(wǎng) |深圳熱線 |財(cái)報(bào)網(wǎng) |財(cái)報(bào)網(wǎng) |財(cái)報(bào)網(wǎng) |咕嚕財(cái)經(jīng) |太原熱線 |電路維修 |防水補(bǔ)漏 |水管維修 |墻面翻修 |舊房維修 |參考經(jīng)濟(jì)網(wǎng) |中原網(wǎng)視臺 |財(cái)經(jīng)產(chǎn)業(yè)網(wǎng) |全球經(jīng)濟(jì)網(wǎng) |消費(fèi)導(dǎo)報(bào)網(wǎng) |外貿(mào)網(wǎng) |重播網(wǎng) |國際財(cái)經(jīng)網(wǎng) |星島中文網(wǎng) |手機(jī)測評 |品牌推廣 |名律網(wǎng) |項(xiàng)目大全 |整形資訊 |整形新聞 |美麗網(wǎng) |佳人網(wǎng) |稅法網(wǎng) |法務(wù)網(wǎng) |法律服務(wù) |法律咨詢 |成報(bào)網(wǎng) |媒體采購網(wǎng) |聚焦網(wǎng) |參考網(wǎng)
亞洲資本網(wǎng) 版權(quán)所有
Copyright © 2011-2020 亞洲資本網(wǎng) All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com