新聞中心
- “最近,代碼的大型語(yǔ)言模型(LM)在完成代碼和從自然語(yǔ)言描述中合成代碼方面顯示出巨大的前景。然而,目前最先進(jìn)的代碼 LM(如 Codex)并沒(méi)有公開(kāi)提供,留下許多關(guān)于他們的模型和數(shù)據(jù)設(shè)計(jì)決策的疑問(wèn)。我們的目標(biāo)是通過(guò)對(duì)各種編程語(yǔ)言中最大的現(xiàn)有模型的系統(tǒng)評(píng)估來(lái)填補(bǔ)其中的一些空白:Codex、GPT-J、GPT-Neo、GPT-NeoX20B 和 CodeParrot。盡管 Codex 本身不是開(kāi)源的,但我們發(fā)現(xiàn)現(xiàn)有的開(kāi)源模型在一些編程語(yǔ)言中確實(shí)取得了接近的結(jié)果,雖然主要針對(duì)的是自然語(yǔ)言建模。我們進(jìn)一步確定了一個(gè)重要的缺失部分,即專門(mén)在多語(yǔ)言的代碼語(yǔ)料庫(kù)中訓(xùn)練的大型開(kāi)源模型?!?/li>
研究人員指出,OpenAI 的 Codex 于去年 8 月發(fā)布,可通過(guò)微軟擁有的 GitHub 的 Copilot 工具獲得;但它通過(guò)黑盒 API 調(diào)用提供對(duì)模型輸出的“non-free access”,模型的權(quán)重和訓(xùn)練數(shù)據(jù)并不可用。DeepMind 聲稱其最近發(fā)布的 AlphaCode 代碼生成器在人類參與的編程比賽中排名前 54.3%,但是訓(xùn)練這個(gè)模型需卻要在谷歌的數(shù)據(jù)中心進(jìn)行"hundreds of petaFLOPS days"的訓(xùn)練。

“盡管大型語(yǔ)言代碼模型取得了巨大成功,但最強(qiáng)的模型都尚未公開(kāi)。這阻止了這些模型在資源充足的公司之外的應(yīng)用,并限制了資源匱乏的組織在這一領(lǐng)域的研究?!?/p>
為了解決這一問(wèn)題,他們推出了 PolyCoder。該模型使用來(lái)自 GitHub 的多個(gè)存儲(chǔ)庫(kù)的數(shù)據(jù)進(jìn)行訓(xùn)練,涵蓋 12 種流行的編程語(yǔ)言:C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。未經(jīng)過(guò)濾的數(shù)據(jù)集總共有 631GB 的數(shù)據(jù)和 3890 萬(wàn)個(gè)文件。此外,為了訓(xùn)練 PolyCoder,研究人員選擇了 GPT-2(因?yàn)轭A(yù)算有限)。
不過(guò)雖然 PolyCoder 在 C 語(yǔ)言方面的表現(xiàn)優(yōu)于所有模型,但 Codex 在其他語(yǔ)言方面仍然要?jiǎng)龠^(guò) PolyCoder。
“值得注意的是,PolyCoder 在 C 語(yǔ)言方面優(yōu)于 Codex 和所有其他模型。在比較單獨(dú)的開(kāi)源模型時(shí),PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 方面的表現(xiàn)比類似規(guī)模的 GPT-Neo 2.7B 更好。在除 C 語(yǔ)言以外的其他 11 種語(yǔ)言中,所有其他開(kāi)源模型,包括我們的,都明顯比 Codex 差(higher perplexity)?!?/p>
??詳情可查看??
本文轉(zhuǎn)自O(shè)SCHINA
本文標(biāo)題:開(kāi)源 AI 代碼生成器 PolyCoder:擅長(zhǎng) C 語(yǔ)言,優(yōu)于 Codex
本文地址:https://www.oschina.net/news/185793/open-source-ai-code-generator-polycoder
名稱欄目:開(kāi)源 AI 代碼生成器 PolyCoder:擅長(zhǎng) C 語(yǔ)言,優(yōu)于 Codex
當(dāng)前地址:http://m.fisionsoft.com.cn/article/dhsehjd.html


咨詢
建站咨詢
