辰东,欢乐颂

新聞中心

這里有您想知道的互聯(lián)網(wǎng)營(yíng)銷解決方案

開(kāi)源 AI 代碼生成器 PolyCoder：擅長(zhǎng) C 語(yǔ)言，優(yōu)于 Codex

“最近，代碼的大型語(yǔ)言模型(LM)在完成代碼和從自然語(yǔ)言描述中合成代碼方面顯示出巨大的前景。然而，目前最先進(jìn)的代碼 LM(如 Codex)并沒(méi)有公開(kāi)提供，留下許多關(guān)于他們的模型和數(shù)據(jù)設(shè)計(jì)決策的疑問(wèn)。我們的目標(biāo)是通過(guò)對(duì)各種編程語(yǔ)言中最大的現(xiàn)有模型的系統(tǒng)評(píng)估來(lái)填補(bǔ)其中的一些空白：Codex、GPT-J、GPT-Neo、GPT-NeoX20B 和 CodeParrot。盡管 Codex 本身不是開(kāi)源的，但我們發(fā)現(xiàn)現(xiàn)有的開(kāi)源模型在一些編程語(yǔ)言中確實(shí)取得了接近的結(jié)果，雖然主要針對(duì)的是自然語(yǔ)言建模。我們進(jìn)一步確定了一個(gè)重要的缺失部分，即專門(mén)在多語(yǔ)言的代碼語(yǔ)料庫(kù)中訓(xùn)練的大型開(kāi)源模型?！?/li>

研究人員指出，OpenAI 的 Codex 于去年 8 月發(fā)布，可通過(guò)微軟擁有的 GitHub 的 Copilot 工具獲得;但它通過(guò)黑盒 API 調(diào)用提供對(duì)模型輸出的“non-free access”，模型的權(quán)重和訓(xùn)練數(shù)據(jù)并不可用。DeepMind 聲稱其最近發(fā)布的 AlphaCode 代碼生成器在人類參與的編程比賽中排名前 54.3%，但是訓(xùn)練這個(gè)模型需卻要在谷歌的數(shù)據(jù)中心進(jìn)行"hundreds of petaFLOPS days"的訓(xùn)練。

“盡管大型語(yǔ)言代碼模型取得了巨大成功，但最強(qiáng)的模型都尚未公開(kāi)。這阻止了這些模型在資源充足的公司之外的應(yīng)用，并限制了資源匱乏的組織在這一領(lǐng)域的研究?！?/p>

為了解決這一問(wèn)題，他們推出了 PolyCoder。該模型使用來(lái)自 GitHub 的多個(gè)存儲(chǔ)庫(kù)的數(shù)據(jù)進(jìn)行訓(xùn)練，涵蓋 12 種流行的編程語(yǔ)言：C、C#、C++、Go、Java、JavaScript、PHP、Python、Ruby、Rust、Scala 和 TypeScript。未經(jīng)過(guò)濾的數(shù)據(jù)集總共有 631GB 的數(shù)據(jù)和 3890 萬(wàn)個(gè)文件。此外，為了訓(xùn)練 PolyCoder，研究人員選擇了 GPT-2(因?yàn)轭A(yù)算有限)。

不過(guò)雖然 PolyCoder 在 C 語(yǔ)言方面的表現(xiàn)優(yōu)于所有模型，但 Codex 在其他語(yǔ)言方面仍然要?jiǎng)龠^(guò) PolyCoder。

“值得注意的是，PolyCoder 在 C 語(yǔ)言方面優(yōu)于 Codex 和所有其他模型。在比較單獨(dú)的開(kāi)源模型時(shí)，PolyCoder 在 C、JavaScript、Rust、Scala 和 TypeScript 方面的表現(xiàn)比類似規(guī)模的 GPT-Neo 2.7B 更好。在除 C 語(yǔ)言以外的其他 11 種語(yǔ)言中，所有其他開(kāi)源模型，包括我們的，都明顯比 Codex 差(higher perplexity)?！?/p>

??詳情可查看??

本文轉(zhuǎn)自O(shè)SCHINA

本文標(biāo)題：開(kāi)源 AI 代碼生成器 PolyCoder：擅長(zhǎng) C 語(yǔ)言，優(yōu)于 Codex

本文地址：https://www.oschina.net/news/185793/open-source-ai-code-generator-polycoder

名稱欄目：開(kāi)源 AI 代碼生成器 PolyCoder：擅長(zhǎng) C 語(yǔ)言，優(yōu)于 Codex
當(dāng)前地址：http://m.fisionsoft.com.cn/article/dhsehjd.html

新聞中心

其他資訊