就在剛剛過去不久的九月底,有“ChatGPT最強(qiáng)平替”之稱的Anthropic拿到了亞馬遜的一筆總價(jià)40億美元的投資,之后不久他們就發(fā)表了一篇論文《朝向單義性:通過詞典學(xué)習(xí)分解語言模型》(Towards Monosemanticity: Decomposing Language Models With Dictionary Learning),在這篇論文里詳細(xì)闡述了他們解釋神經(jīng)網(wǎng)絡(luò)與大語言模型(經(jīng)常被簡稱為LLM)行為的方法。
Anthropic之所以能有“ChatGPT最強(qiáng)平替”的別名,主要是因?yàn)槠鋭?chuàng)始成員幾乎都參與開發(fā)過GPT系列的早期版本,特別是GPT-2和GPT-3。而眾所周知GPT系列真正引人關(guān)注是從GPT-3之后的3.5開始的,老話說“羅馬不是一天建成的”。而且Anthropic的AIGC產(chǎn)品Claude與ChatGPT相比也不遜色多少,今年夏天推出了最新版Claude 2,英國《衛(wèi)報(bào)》對(duì)此評(píng)論稱“訓(xùn)練時(shí)以安全性為首要考慮,可以稱為‘合憲式AI’或‘合憲式機(jī)器人’”,一個(gè)全新的AI或機(jī)器人分類與研究也可能就將由此開啟。
現(xiàn)在市面上流行的LLM基本都是基于海量的神經(jīng)網(wǎng)絡(luò)而打造,而神經(jīng)網(wǎng)絡(luò)又是基于海量數(shù)據(jù)訓(xùn)練而來。在此基礎(chǔ)上的AIGC,如文本、圖片、視頻等多模態(tài)或跨模態(tài)內(nèi)容,雖然也可以保證可觀的準(zhǔn)確性且數(shù)量上也日益豐富,但可解釋性始終是難以突破的難關(guān)。
舉個(gè)例子,現(xiàn)在隨便找個(gè)AI問1+1=?它們都會(huì)說1+1=2,但都無法解釋這個(gè)過程是如何產(chǎn)生的。即便能進(jìn)行簡單解釋,也只是基于語義上的膚淺理解。就像我們?nèi)祟愃X時(shí)的夢(mèng)境一樣,人人都會(huì)做夢(mèng)也都能大致說出夢(mèng)境內(nèi)容,但對(duì)夢(mèng)境的成因幾千年來始終都沒有合理和統(tǒng)一的解釋。
ChatGPT等LLM經(jīng)常出現(xiàn)無序、混亂、虛假信息等情況,這種行為被稱為“AI幻覺”,也就是常說的一本正經(jīng)的胡說八道,主要是因?yàn)?/strong>人類無法控制AI與大模型內(nèi)的神經(jīng)網(wǎng)絡(luò)行為。所以Anthropic的研究對(duì)于增強(qiáng)LLM,甚至AI與大模型整體的準(zhǔn)確率、安全性,降低有害內(nèi)容輸出的幫助都非常大,這篇論文還是很有參考和借鑒意義的。
論文鏈接:https://transformer-circuits.pub/2023/monosemantic-features/index.html#phenomenology-feature-splitting
01關(guān)于神經(jīng)元與神經(jīng)網(wǎng)絡(luò)
為了更好地理解Anthropic研究的意義,這里先簡要介紹幾個(gè)基本概念。神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成部分,主要對(duì)數(shù)據(jù)進(jìn)行輸入、計(jì)算和輸出。它的工作原理是對(duì)大腦神經(jīng)元工作方式的模擬,接收一個(gè)或多個(gè)輸入,每個(gè)輸入都有一個(gè)對(duì)應(yīng)的權(quán)重。這些輸入和權(quán)重的乘積被加總,然后加上一個(gè)偏置項(xiàng)。得到的總和被送入一個(gè)激活函數(shù),激活函數(shù)的輸出就是這個(gè)神經(jīng)單元的輸出。
神經(jīng)元工作流程示意圖,其中a1-an為輸入向量的各個(gè)分量,w1-wn為神經(jīng)元各個(gè)突觸的權(quán)重值,b為偏置項(xiàng),f為傳遞函數(shù),通常為非線性函數(shù),t為神經(jīng)元的最終輸出結(jié)果
前面說過神經(jīng)元是神經(jīng)網(wǎng)絡(luò)的基本組成形式,一定數(shù)目的神經(jīng)元就可以組成一個(gè)神經(jīng)網(wǎng)絡(luò)。這種系統(tǒng)源于對(duì)人類中樞神經(jīng)系統(tǒng)的觀察研究與逆向應(yīng)用,最初的概念早在上世紀(jì)40年代早期就提出了,1956年在一臺(tái)IBM 704電腦上進(jìn)行了首次實(shí)踐,但此后就陷入沉寂,直到1975年“反向傳播算法”的發(fā)明,80年代中期“分布式并行處理”的思想(當(dāng)時(shí)稱之為“聯(lián)結(jié)主義”)開始流行,又促使社會(huì)各界再次開始重視神經(jīng)網(wǎng)絡(luò)。進(jìn)入新世紀(jì)后,特別是2014年出現(xiàn)的“殘差神經(jīng)網(wǎng)絡(luò)”概念,極大的突破了神經(jīng)網(wǎng)絡(luò)的深度限制,隨著“深度學(xué)習(xí)”概念的提出和流行,神經(jīng)元與神經(jīng)網(wǎng)絡(luò)也水漲船高的愈發(fā)引人注目。
02對(duì)LLM等大模型的重要性
前面說過現(xiàn)在的LLM和大模型、AIGC等,基本都要依賴神經(jīng)元與神經(jīng)網(wǎng)絡(luò)才能發(fā)展壯大,能說會(huì)道的ChatGPT也正是依靠Transformer的神經(jīng)網(wǎng)絡(luò)架構(gòu)開發(fā)而來。LLM使用神經(jīng)網(wǎng)絡(luò)來處理和生成文本,在訓(xùn)練過程中,它們會(huì)學(xué)習(xí)如何預(yù)測文本序列中的下一個(gè)詞,或者給定一部分文本后續(xù)的可能內(nèi)容。為了做到這一點(diǎn),LLM需要理解語言的語法、語義、以及在一定程度上的上下文。
概括來說,神經(jīng)元與神經(jīng)網(wǎng)絡(luò)提供了處理和生成自然語言的計(jì)算框架,而LLM則通過這個(gè)框架來理解和生成文本。這也是很多人對(duì)目前的LLM,AIGC,甚至整個(gè)AI的原理都概括為“概率論+魔法”的主要原因之一。
客觀看來,這種說法有些偏激但的確也有道理,因?yàn)槟壳暗拇蟛糠执竽P停℅PT系列在內(nèi),它們的生成原理的確可以這么歸納。
前面說過AI的工作方式可以視為對(duì)人類大腦工作方式的逆運(yùn)用與模仿,而GPT之類使用的黑盒系統(tǒng)也在結(jié)構(gòu)上模仿大腦,由海量的神經(jīng)元組成。因此要想說明“可解釋性”就必須要了解每個(gè)神經(jīng)元在做什么。
03Anthropic的研究
Anthropic的研究是基于Transformer模型進(jìn)行的一次小規(guī)模實(shí)驗(yàn),將512個(gè)神經(jīng)元分解成4000多個(gè)特征,并逐個(gè)分類排序,比如DNA序列、法律專業(yè)術(shù)語、HTTP請(qǐng)求、營養(yǎng)說明等。經(jīng)過試驗(yàn)和研究后發(fā)現(xiàn),單個(gè)特征的行為比神經(jīng)元行為更容易解釋且可控,同時(shí)每個(gè)特征在不同的大模型中基本上都是通用的。
為了驗(yàn)證這一研究結(jié)果,Anthropic還創(chuàng)建了一個(gè)盲評(píng)系統(tǒng),來比較單個(gè)特征和神經(jīng)元的可解釋性,由圖中可見特征(紫紅色)的可解釋性得分要比神經(jīng)元部分高了不少(青藍(lán)色)。
此外Anthropic還采用了自動(dòng)解釋性方法,最終的結(jié)果也是特征得分高于神經(jīng)元得分,不過這種方法較為復(fù)雜,此處不展開,詳見其論文。
Anthropic的這項(xiàng)研究的確意義非凡,不過早在幾個(gè)月前,OpenAI也曾做過類似的事情。在今年五月初,OpenAI在官網(wǎng)發(fā)布博客文章《語言模型可以解釋語言模型中的神經(jīng)元》(Language models can explain neurons in language models),其中說到:“我們使用GPT-4自動(dòng)編寫LLM中神經(jīng)元行為的解釋,并為這些解釋評(píng)分,現(xiàn)在將GPT-2中每個(gè)神經(jīng)元的這些(不*的)解釋和分?jǐn)?shù)的數(shù)據(jù)集公布出來。”當(dāng)時(shí)讀過這篇論文的人,幾乎都為OpenAI的奇思異想而感到震撼,頭皮發(fā)麻。
當(dāng)時(shí)之所以有這項(xiàng)研究,主要是為了回答ChatGPT火遍全球的同時(shí)引起的一個(gè)問題:“發(fā)展到今天這一步,AI是怎樣實(shí)現(xiàn)這么強(qiáng)大的功能的?”
為了回答這個(gè)問題,OpenAI當(dāng)時(shí)的做法可以簡單的概括為“用黑盒解釋黑盒”。而且OpenAI的這次研究成果,倒也不失為后續(xù)AI與大模型等相關(guān)企業(yè)進(jìn)行研究探索了新的方向,自然意義非凡。前面說過AI可以視為是對(duì)大腦工作原理的逆運(yùn)用,而LLM等大模型都使用的黑盒結(jié)構(gòu)也都由海量神經(jīng)元組成,也是在模仿大腦。
當(dāng)時(shí)OpenAI給出的解釋過程分三步:
給GPT-4一個(gè)GPT-2已有的神經(jīng)元,由GPT-4展示相關(guān)的文本序列和激活情況,產(chǎn)生一個(gè)對(duì)此類行為的解釋;
再次使用GPT-4,模擬被解釋的神經(jīng)元會(huì)做什么;
比較二者的結(jié)果,根據(jù)匹配程度對(duì)GPT-4的解釋進(jìn)行評(píng)分。
最終OpenAI表示GPT-4解釋了GPT-2中的全部約30萬個(gè)神經(jīng)元,但是絕大多數(shù)的實(shí)際得分都偏低,只有勉強(qiáng)一千多個(gè)的得分高于0.8,這意味著神經(jīng)元的大部分*激活行為都是這一千多個(gè)神經(jīng)元引起的。
看來AI或許也在有意無意間遵循“二八定律”。當(dāng)時(shí)這項(xiàng)研究成果很快在全球各大技術(shù)平臺(tái)也引起了廣泛關(guān)注。有人感慨AI進(jìn)化的方式愈發(fā)先進(jìn):“未來就是用AI完善AI與大模型,會(huì)加速進(jìn)化。”也有人批評(píng)其得分甚低:“對(duì)GPT-2的解釋尚且如此,那如何了解GPT-3.5和GPT-4內(nèi)部結(jié)構(gòu)呢?但這才是許多人現(xiàn)在更關(guān)注的答案。”
雖然電腦是模仿人腦的原理而發(fā)明,但人腦的結(jié)構(gòu)其實(shí)并不高效,比如沒有存儲(chǔ)設(shè)備,神經(jīng)元的通訊也是通過激素或荷爾蒙等化學(xué)方式來進(jìn)行,相當(dāng)?shù)膭e扭。這種“落后”的“元器件”竟然能給人類如此高的智慧,說明人腦的強(qiáng)大主要在于架構(gòu)。
當(dāng)前探索智能的本質(zhì)也是腦科學(xué)研究的中心任務(wù)之一,是了解人類自身、解密思維與智能成因的科學(xué)探索需要。腦科學(xué)與AI息息相關(guān),既可以提升我們?nèi)祟悓?duì)自身奧秘的理解,也可以改善對(duì)腦部疾病的認(rèn)知水平,同時(shí)相關(guān)科研成果也可以為發(fā)展類腦計(jì)算,突破傳統(tǒng)電腦架構(gòu)的束縛提供依據(jù)。
但在當(dāng)下,類腦計(jì)算還具有著巨大的空間,等待著科研力量填補(bǔ)。當(dāng)下千億量級(jí)參數(shù)的大模型已經(jīng)屢見不鮮了,如果把參數(shù)看成神經(jīng)的突觸,大模型對(duì)應(yīng)人腦的神經(jīng)元,只有1億個(gè)。而1億個(gè)神經(jīng)元與人腦千億級(jí)別的神經(jīng)元,中間的差距有千倍之多,而這一差距或許也是走向AGI人類科學(xué)必須跨越的鴻溝。
OpenAI和Anthropic做的這些研究,也在無形中給我們的科學(xué)技術(shù)進(jìn)步展示了一種可能性:當(dāng)未來對(duì)的AI變得越發(fā)強(qiáng)大,甚至有一天真的超越人類,它也能在后續(xù)更多的前沿科技上為人類提供幫助;而對(duì)智能的研究,在生物大腦之外也有了AI系統(tǒng)作為新的研究對(duì)象,這也為破解智能之謎帶來了新的希望。
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...