每一個大模型都是一臺昂貴的“碎鈔機(jī)”,這已經(jīng)成為各路AI觀察家們津津樂道的常識。
大模型訓(xùn)練成本有一個簡單的比例:訓(xùn)練費(fèi)用跟參數(shù)量的平方成正比。比如OpenAI訓(xùn)練1750億參數(shù)的GPT-3費(fèi)用大概是1200萬美元,訓(xùn)練5000億參數(shù)(業(yè)界預(yù)估)的GPT-4成本就飆升至1億美元。
成本大都來自GPU使用時長。Meta訓(xùn)練650億個參數(shù)的LLaMA模型耗費(fèi)100萬個GPU小時;HuggingFace(號稱機(jī)器學(xué)習(xí)屆的Github)訓(xùn)練Bloom模型耗費(fèi)了超過兩個半月的時間,使用的算力相當(dāng)于一臺裝有500 個 GPU的超級計算機(jī)。
Google在訓(xùn)練5400億參數(shù)的PaLM模型時,在6144 塊 TPU v4 芯片上訓(xùn)練了 1200 小時,然后又在在 3072 塊 TPU v4 芯片上訓(xùn)練了336小時,總共消耗了2.56e24 FLOPs的算力,折合成Google云計算的報價,大概在900~1700 萬美元左右。
但是……幾百上千萬美金的訓(xùn)練費(fèi)用和幾億美金的硬件投入,相比AIGC開啟的浪潮,真的算貴嗎?
微軟2022年的凈利潤是727億美金,Google是600億美金,Meta則是230億美金,在OpenAI花費(fèi)460萬美金訓(xùn)練GPT-3之前,這些巨頭都投入了幾十甚至上百億美金用來尋找所謂的“新方向”。
微軟迄今為止向OpenAI投入了100多億美金,這個數(shù)字看起來很多,但要知道微軟當(dāng)年收購LinkedIn就花了262億美金,而在更早的時候收購諾基亞手機(jī)業(yè)務(wù)花了71.7億美金,基本等于打了水漂。
Meta則花了更多“冤枉錢”來尋找第二曲線。2021年扎克伯格把Facebook的名字改成了“Meta”,投入巨資All in元宇宙,2022年元宇宙部門虧損137億美元。在ChatGPT問世之前,Meta甚至一度準(zhǔn)備把2023年的20%預(yù)算投入到元宇宙中去。
Google對AI一向重視,不僅收購了“前GPT時代”的明星DeepMind,還是Transformer這一革命性模型的提出者,但Google并沒有像OpenAI那樣孤注一擲地“死磕”大語言模型,而是在多個方向上“撒胡椒面”——總投入并不少,但效果加起來都不如一個ChatGPT。
拉開視野來看,全球科技巨頭——包括國內(nèi)的大型互聯(lián)網(wǎng)企業(yè)在移動互聯(lián)網(wǎng)滲透率見頂之后,展開了慘烈的“存量博弈”,卷算法推薦、卷短視頻、卷Web3、卷本地生活……投入的資金遠(yuǎn)遠(yuǎn)超過OpenAI在ChatGPT誕生前燒掉的10億美金。
發(fā)現(xiàn)新大陸的費(fèi)用,跟舊大陸的內(nèi)耗向來不在一個數(shù)量級。歐洲人在哥倫布發(fā)現(xiàn)新大陸之前內(nèi)卷了1000年,而發(fā)現(xiàn)新大陸只花了西班牙王室投資的200萬馬拉維迪(大約14000美元)——跟新大陸給世界帶來的變化相比,這點(diǎn)兒錢其實(shí)微不足道。
事實(shí)上,“資金”從來都不是啟動本輪AI浪潮的核心因素。真正核心的因素是另外兩個字:信仰。
蠻力的神跡
ChatGPT走紅后,好事兒的媒體跑去采訪了Google旗下的DeepMind創(chuàng)始人Demis Hassabis。
被OpenAI搶去了所有風(fēng)頭的Hassabis言辭有點(diǎn)兒不客氣:“面對自然語言這一挑戰(zhàn),ChatGPT的解決方案如此不優(yōu)雅——僅僅是更多的計算能力和數(shù)據(jù)的蠻力,我的研究靈魂對此倍感失望。”
這句話聽起來很“酸”,然而他接著話鋒一轉(zhuǎn):“但這的確是獲得*結(jié)果的方式,所以我們(的大模型)也以此為基礎(chǔ)。”意思就是雖然不太認(rèn)同,但OpenAI的“蠻力”真的很香,我們也不得不去學(xué)。
Hassabis身段靈活,但早期對“蠻力”這件事的態(tài)度,讓Google和OpenAI有了致命的分野。
2017年,谷歌在論文中公開了革命性的Transformer模型,業(yè)界逐漸意識到這個模型對于構(gòu)建AGI(通用人工智能)的意義。然而,基于同樣的Transformer,谷歌與OpenAI卻走上了兩條不同的兩條路。
OpenAI旗幟鮮明地從Transformer構(gòu)建大語言模型,瘋狂堆參數(shù),2018年6月發(fā)布GPT-1,參數(shù)1.17億;2019年2月發(fā)布GPT-2,參數(shù)15億;2020年5月發(fā)布GPT-3,參數(shù)1750億,在蠻力的道路上“一條路走到黑”。
而Google雖然也地祭出BERT(3億參數(shù))、T5(110億參數(shù))和Switch Transformer(1.6萬億參數(shù)),表面上跟OpenAI斗的有來有回,但光從模型的名字就能看出來:Google總在更換模型搭建的策略,而OpenAI的策略更單一更專注。
比如GPT-2和GPT-1相比,OpenAI沒有重新設(shè)計底層結(jié)構(gòu),而是將Transformer堆疊的層數(shù)從12層增加到48層,并使用了更大的訓(xùn)練數(shù)據(jù)集,而GPT-3進(jìn)一步把層數(shù)增加到了96層,使用比GPT-2還要大的數(shù)據(jù)集,但模型框架基本上沒有改變。
另外,基于Transformer的大模型演化有三個分支:Encoder Only,Encode-Decoder,Decoder Only。OpenAI一直堅持只用Decoder Only方案,而Google則變來變?nèi)ィ築ERT模型使用Encoder Only,T5模型又改成了Encode-Decoder。
等到OpenAI突破后,Google匆忙轉(zhuǎn)向Decoder Only方案(PaLM模型),時間已經(jīng)錯失了至少一年半。
在跟OpenAI的軍備競賽中,Google卻總沉浸在一些貌似炫酷,但實(shí)則對AI缺乏信心的產(chǎn)品上——比如2022年發(fā)布的Gato。Gato的思路是先做一個大模型底座,然后再灌不同的數(shù)據(jù),以此生成出大量小模型——每個小模型都有特定的能力。
這么做的目的是讓單個AI具備盡可能多的功能,更加通用。做一個簡單的類比:谷歌路線相當(dāng)于讓一個上完九年義務(wù)教育的12歲小孩兒,去參加鋼琴、寫作、編程、舞蹈等一系列專業(yè)技能培訓(xùn)班,靠著“1+1+1...”培養(yǎng)出一個多才多藝的“全才”。
Gato能執(zhí)行604種不同的任務(wù),包括給圖片配文、玩雅達(dá)利游戲、操作機(jī)械臂搭積木。不過,Gato雖做到了“通才”,但實(shí)用性卻相當(dāng)堪憂:其中近一半功能,還不如便宜小巧的“專才AI”好使,有媒體評價:一個平庸的人工智能。
“*”但又不那么*的Gato
相比之下,OpenA更熱衷于讓AI“做好一件事”,即像人類一樣理解自然語言——這是通向AGI的必經(jīng)之路。
在所有站在Transformer模型肩膀上的團(tuán)隊中,OpenAI是把“蠻力”發(fā)揮到最淋漓盡致的一個,算力不夠就買算力,數(shù)據(jù)不夠就找數(shù)據(jù),別人的牛逼技術(shù)我直接拿來用,反正就是要把規(guī)模堆上去。終于,在“暴力美學(xué)”的指引下,奇跡出現(xiàn)了。
從成立*天起,OpenAI就把創(chuàng)造接近甚至超越人類的AGI(通用人工智能)作為幾乎*的目標(biāo)。而且相比Google的遲疑不定,OpenAI發(fā)起人們(包括馬斯克)是真的相信AI可以成為一個18歲的成年人,而不是永遠(yuǎn)停留在12歲上打轉(zhuǎn)。
黃仁勛在今年3月對談OpenAI聯(lián)合創(chuàng)始人Ilya Sutskever時,問了一個問題:“在這個(GPT研發(fā)的)過程中,你一直相信,擴(kuò)大規(guī)模會改善這些模型的性能嗎?” Ilya回答道:“這是一個直覺。我有一個很強(qiáng)烈的信念,更大意味著更好。”
這是一場蠻力的勝利,但更是一種信仰的勝利。大模型回報給“信仰”的禮物,也遠(yuǎn)超想象——隨著參數(shù)量的暴力提升,研究人員突然有一天發(fā)現(xiàn)大模型出現(xiàn)了令人驚喜,但又難以解釋的能力飆升。
他們找了一個老詞來形容這種現(xiàn)象:Emergence(涌現(xiàn))。
虔誠的回報
Emergence(涌現(xiàn))這個詞,常見于哲學(xué)、系統(tǒng)學(xué)、生物學(xué)等領(lǐng)域,其經(jīng)典的定義是:當(dāng)一個實(shí)體被觀察到具有各個部分單獨(dú)存在時不具備的屬性和能力時,這種現(xiàn)象就被稱之為“涌現(xiàn)”,早在古希臘時代,這種現(xiàn)象就被亞里士多德研究過。
后來,英國哲學(xué)家George Lewes在1875年*次發(fā)明了Emergence這個詞,用來專門形容上述現(xiàn)象。1972年,諾貝爾物理學(xué)獎得主Philip Anderson撰寫了一篇名叫“More is Different”的文章,用一句經(jīng)典的金句來給“涌現(xiàn)”做了解釋:
當(dāng)一個系統(tǒng)的量變導(dǎo)致質(zhì)變時,就稱之為“涌現(xiàn)”。
“涌現(xiàn)”被引入到大模型中,可以說是相當(dāng)貼切:AI工程師們觀察到一個現(xiàn)象,隨著模型的參數(shù)量越來越大,當(dāng)超過某個閾值或者“臨界點(diǎn)”的時候——比如參數(shù)量達(dá)到100億,模型會出現(xiàn)一些讓開發(fā)者完全意想不到的復(fù)雜能力——比如類似人類的思維和推理能力。
比如,Google大模型測試基準(zhǔn)BIG-Bench里有一項(xiàng)任務(wù):給出4個emoj表情符號,讓模型回答代表什么電影。簡單和中等復(fù)雜度的模型都回答錯了,只有參數(shù)超過100億的大模型會告訴測試者[4]:這是電影Finding Nemo(海底總動員)。
2022年,來自Google、DeepMind、斯坦福和北卡萊羅納大學(xué)的學(xué)者分析了GPT-3、PaLM、LaMDA等多個大模型[3],發(fā)現(xiàn)隨著訓(xùn)練時間(FLOPs)、參數(shù)量和訓(xùn)練數(shù)據(jù)規(guī)模的增加,模型的某些能力會“突然”出現(xiàn)拐點(diǎn),性能肉眼可見地驟然提升。
這些“涌現(xiàn)”能力超過了137多種[5],包括多步算術(shù)、詞義消歧、邏輯推導(dǎo)、概念組合、上下文理解等。這項(xiàng)研究給大模型的“涌現(xiàn)”下了一個定義:如果一項(xiàng)能力只有在大模型中存在,在小模型中觀測不到,這項(xiàng)能力就是“涌現(xiàn)”出來的。
微博博主tombkeeper做過這樣一個測試:在ChatGPT剛誕生時,他將發(fā)表于2018年的一篇充滿隱喻的微博——“對微博上的佩奇來說,今天是黑暗的一天——她們的摩西殺死了她們的加百列”,交給ChatGPT理解,但ChatGPT回答失敗了。
來源:微博tombkeeper
而等到2023年3月OpenAI推出了GPT-4,tombkeeper再次將這個問題扔給AI,回答基本接近滿分。
來源:微博tombkeeper
Google在訓(xùn)練大模型PaLM時,也發(fā)現(xiàn)隨著參數(shù)規(guī)模的增加,模型會不斷“涌現(xiàn)”出新的能力。
當(dāng)最終把PaLM的參數(shù)堆到5400億時,模型就具備了區(qū)分因果關(guān)系、理解上下文概念、解釋冷笑話等能力。比如像前文一樣根據(jù)4個emoj表情符號來猜電影名字。
對于大模型“涌現(xiàn)”的背后邏輯,現(xiàn)在幾乎沒有科學(xué)家能徹底講清楚。這讓人想起了1950年阿蘭·圖靈在《計算機(jī)器與智能》這篇論文中論述過一個觀點(diǎn):“學(xué)習(xí)機(jī)器有一個重要的特征,即它的老師往往對機(jī)器內(nèi)部運(yùn)行情況一無所知。”
當(dāng)然,有人對此欣喜若狂,有人則會覺得毛骨悚然。不過無論是哪一派,都不得不承認(rèn)那句老話:大力真的能出奇跡。“大力”背后就是信仰——人類一定可以用硅基來模仿大腦結(jié)構(gòu),最終實(shí)現(xiàn)超越人類的智能。而“涌現(xiàn)”告訴我們:這一刻越來越近了。
信仰的充值
有信仰,就要對信仰充值。中世紀(jì)基督徒用的是贖罪券,新世紀(jì)AI信徒用的則是晶體管。
文心一言面世之后,李彥宏的一段采訪曾沖上熱搜——李廠長直言“中國基本不會再誕生一家OpenAI”,這似乎有點(diǎn)兒不太給王慧文面子[9]。但這一觀點(diǎn)確實(shí)有理有據(jù):大模型軍備競賽,大概率會比曾經(jīng)燒掉數(shù)十億美金的網(wǎng)約車戰(zhàn)爭還要慘烈。
如果按照業(yè)界預(yù)估的成本,GPT-4訓(xùn)練成本大約在1億美金左右,GPT-3的訓(xùn)練費(fèi)用也要1200萬美元。先不說昂貴的人才團(tuán)隊費(fèi)用,王慧文的5000萬美元光是投入到GPU購買或租賃上,都顯得捉襟見肘。
大模型發(fā)展的三要素:算法、算力、數(shù)據(jù)。其中算力是數(shù)字時代的“石油”,未來的缺口一定會越來越大。自2012年開啟黃金時代后,AI對算力的需求開始呈現(xiàn)指數(shù)級增長。從2012年的AlexNet,到2017年的AlphaGo Zero,算力消耗足足翻了30萬倍。
訓(xùn)練大模型需要專門的GPU集群,傳統(tǒng)數(shù)據(jù)中心的用場不大。微軟為了“迎娶”OpenAI,曾特地配備了一臺擁有數(shù)萬塊A100與*** GPU的超級計算機(jī),光硬件入場費(fèi)就花了近10億美金[1]。
即便如此,據(jù)相關(guān)機(jī)構(gòu)測算,由于ChatGPT與GPT-4的訪問量仍在增長,10億美金的超級計算機(jī)馬上又要不夠用了。要么進(jìn)一步擴(kuò)大算力,要么只能盡力控制成本,繼續(xù)采用限流等手段[12]。
對此,貼心的賣鏟人英偉達(dá)推出了AI超算云服務(wù):租賃8塊旗艦版A100,每月只需37000美元,童叟無欺。若要達(dá)到訓(xùn)練GPT-4的算力(一萬塊A100)月租金需4600萬美元左右——每月凈利潤不足一個小目標(biāo)的企業(yè),的確可以洗洗睡了。
跟用神經(jīng)網(wǎng)絡(luò)來模仿大腦一樣,AI算力的昂貴也跟人腦的屬性保持一致。
一個人的大腦大約有860億個神經(jīng)元,每個神經(jīng)元平均跟其它7000個神經(jīng)元相連接,所以大約有6000萬億個連接。盡管大腦的重量只占人體的2%左右,但當(dāng)無數(shù)神經(jīng)元連接工作的時候,它們每天需要消耗人體總能量的20%~30%。
因此,即使是碳基生物的“智能”,也是一種暴力堆砌神經(jīng)元后的“涌現(xiàn)”,對能量的消耗巨大。而相比經(jīng)過上億年進(jìn)化的碳基神經(jīng)元,晶體管構(gòu)建的神經(jīng)網(wǎng)絡(luò)離“低功耗”相距甚遠(yuǎn)——比如柯潔功率是20w,而跟他下棋的AlphaGo功耗是他的5萬倍。
因此,人類要想做出真正的AGI,還需要繼續(xù)給信仰來充值。
對全人類來說,這種充值顯然是無比劃算的。仔細(xì)算一算,OpenAI燒掉的10億美金,不僅給全球的科技公司找到了一片“新大陸”,還給愈發(fā)內(nèi)卷的全球經(jīng)濟(jì)點(diǎn)亮了增量邏輯。在美元泛濫的當(dāng)下,還有比這10億美元性價比更高的項(xiàng)目嗎?
當(dāng)“新大陸”被發(fā)現(xiàn)后,全世界都會蜂擁而至。比爾·蓋茨雖然現(xiàn)在是AI的狂熱鼓吹者,但早在微軟*次投資OpenAI時,他是強(qiáng)烈的懷疑者,直到去年年底看到GPT-4的內(nèi)部演示才對外表示:It’s a shock,this thing is amazing。
比爾·蓋茨在未來可能擁有人工智能領(lǐng)域最雄偉大廈的冠名權(quán),但OpenAI的創(chuàng)始人們、以及更多連接主義學(xué)派的人工智能先驅(qū),值得人們在廣場上樹立雕像。大模型的煉丹之路,信則靈,不信則妄,跟風(fēng)的投機(jī)主義者不配留下姓名。
最后,人類通往地獄或者天堂的道路,一定是由AI虔誠的信徒用一顆顆晶體管鋪就的。
參考資料
[1] ChatGPT and generative AI are booming, but the costs can be extraordinary, CNBC
[2]Microsoft spent hundreds of millions of dollars on a ChatGPT supercomputer,The Verge
[3]Emergent Abilities of Large Language Models, Jason Wei等,TMLR
[4]The Unpredictable Abilities Emerging From Large AI Models
[5]137 emergent abilities of large language models, Jason Wei
[6]Harnessing the Power of LLMs in Practice
[7]Alphabet’s Google and DeepMind Pause Grudges, Join Forces to Chase OpenAI,The Information
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...