在過去三年里,AI 領(lǐng)域取得了顯著進(jìn)步,這一飛躍主要得益于基礎(chǔ)模型的發(fā)展。這些模型在大規(guī)模多模態(tài)數(shù)據(jù)上進(jìn)行訓(xùn)練,并在公開發(fā)布后取得了巨大成功。
然而,基礎(chǔ)模型的研究需要大量的數(shù)據(jù)、算力和人力資源。這一問題引發(fā)了廣泛關(guān)注與討論,更大的資源獲取是否會(huì)直接帶來更有影響力的研究成果,例如更多的論文發(fā)表或更高的引用量。
這一問題的答案對(duì)于資源分配策略、研究方向的優(yōu)先級(jí)設(shè)定,以及如何保障基礎(chǔ)模型研究的公平與可持續(xù)參與,都具有重要意義。
然而,由于缺乏統(tǒng)一的資源披露標(biāo)準(zhǔn),研究成本往往難以量化。在缺乏全面公開的情況下,研究經(jīng)費(fèi)最直觀的衡量方式,通常是購(gòu)買或租用硬件(如計(jì)算集群或芯片)的具體成本。當(dāng)然,研究還包括軟件、云存儲(chǔ)服務(wù)以及專業(yè)平臺(tái)等其他開支。
在這些資源中,GPU 是一個(gè)尤其關(guān)鍵的指標(biāo),因?yàn)樗且环N供應(yīng)量有限、受嚴(yán)格控制的資源。
在本文中,來自 MIT、劍橋等機(jī)構(gòu)的研究者研究了硬件資源與 AI/ML 領(lǐng)域頂級(jí)會(huì)議論文發(fā)表之間的關(guān)系。他們重點(diǎn)考察了兩種計(jì)算能力指標(biāo):GPU 數(shù)量和 TFLOPs(每秒浮點(diǎn)運(yùn)算次數(shù)),并將這些數(shù)據(jù)與 2022 至 2024 年間共 34,828 篇錄用論文進(jìn)行關(guān)聯(lián)分析。
本文共識(shí)別出 5,889 篇基礎(chǔ)模型相關(guān)論文,并發(fā)現(xiàn) GPU 獲取能力越強(qiáng),其在八個(gè)頂級(jí)會(huì)議中的論文接收率和引用量也越高。
此外,本文還對(duì) 312 篇論文的 229 位作者進(jìn)行了問卷調(diào)查后發(fā)現(xiàn):
- 大多數(shù)基礎(chǔ)模型論文由學(xué)術(shù)界研究者撰寫(共 4,851 篇),而產(chǎn)業(yè)界研究者的論文數(shù)量相對(duì)較少(1,425 篇);
- 大多數(shù)論文使用的是開源模型(如 LLaMA),其次是閉源模型(如 GPT);
- GPU 使用信息在論文中很少被披露,這表明當(dāng)前亟需制定統(tǒng)一的計(jì)算資源報(bào)告規(guī)范,以提升研究的透明度與可復(fù)現(xiàn)性。
