2021 年的時(shí)候,一位基金經(jīng)理在 Discord 上找到了人在德國(guó)的高中老師克里斯托夫·舒曼。
基金經(jīng)理愿意承擔(dān)舒曼開源項(xiàng)目的所有云計(jì)算成本,沒有任何附加條件。
一開始舒曼不敢相信會(huì)有這樣的好事,直到幾周之后,他獲得了 AWS 云端 GPU 的訪問權(quán)。
他的項(xiàng)目是 LAION,世界上*的免費(fèi) AI 訓(xùn)練數(shù)據(jù)集。
那位基金經(jīng)理名叫 Emad,他創(chuàng)辦了 Stability.AI,開啟了 AIGC 的時(shí)代。
開源萬歲。
以下內(nèi)容來源 Bloomberg,GPT 翻譯的,F(xiàn)ounder Park 做了些微小的校對(duì)。
在德國(guó)漢堡郊區(qū)的一所郊區(qū)房子前,單詞「LAION」用鉛筆潦草地寫在郵箱上。
這是一個(gè)龐大的數(shù)據(jù)收集工作的背后人物,這個(gè)工作是人工智能潮流的核心,并引發(fā)了一個(gè)越來越激烈的關(guān)于如何監(jiān)管它的爭(zhēng)議。
這個(gè)人是高中教師克里斯托夫·舒曼(Christoph Schuhmann),而 LAION 是他的熱情項(xiàng)目。當(dāng)舒曼不是在向德國(guó)青少年教授物理和計(jì)算機(jī)科學(xué)時(shí),他與一小隊(duì)志愿者一起建立了世界上*的免費(fèi) AI 訓(xùn)練數(shù)據(jù)集,已經(jīng)被用 AIGC,如谷歌的 Imagen 和 Stable Diffusion。
像 LAION 這樣的數(shù)據(jù)庫對(duì)于 text2image 的 生成式 AI 模型非常重要,它們依賴于它們來解構(gòu)和創(chuàng)建新圖像所需的大量視覺材料。這些產(chǎn)品的首次亮相是一個(gè)范式轉(zhuǎn)移事件:它將科技行業(yè)的人工智能競(jìng)賽推向了*,但也引發(fā)了許多道德和法律問題。
在幾個(gè)月內(nèi),針對(duì)生成式 AI 公司 Stability AI 和 Midjourney 的版權(quán)侵權(quán)訴訟頻發(fā),批評(píng)者對(duì)其中暴力、性化和其他問題圖像的數(shù)據(jù)集發(fā)出警報(bào),他們指責(zé)這些數(shù)據(jù)集包含了幾乎不可能解決的偏見。
但這并不是舒曼的關(guān)注點(diǎn),他只想讓數(shù)據(jù)自由。
01
40 億美元 → 零收益
這位 40 歲的老師和受過演員訓(xùn)練的人,兩年前在一個(gè) AI 愛好者的 Discord 服務(wù)器上創(chuàng)建了 LAION。OpenAI 的*版 DALL·E 是一個(gè)深度學(xué)習(xí)模型,用于響應(yīng)文字 prompt 生成圖片,例如,按要求創(chuàng)建一個(gè)粉色雞坐在沙發(fā)上的圖像。
舒曼受到啟發(fā),但也擔(dān)心它會(huì)鼓勵(lì)大型科技公司使更多數(shù)據(jù)專有化。
「我立刻明白,如果這個(gè)只集中在一個(gè)、兩個(gè)或三個(gè)公司,對(duì)社會(huì)的影響將非常糟糕,」舒曼說。
作為回應(yīng),他和服務(wù)器上的其他成員決定創(chuàng)建一個(gè)開源數(shù)據(jù)集來幫助訓(xùn)練 t2i 擴(kuò)散模型,這是一個(gè)類似于用數(shù)百萬張閃卡向某人教授一種外語的幾個(gè)月的過程。該組使用由加利福尼亞州非營(yíng)利組織 Common Crawl 收集的原始 HTML 代碼來定位網(wǎng)絡(luò)上的圖像并將其與描述性文本相關(guān)聯(lián)。它不使用任何手動(dòng)或人工策劃。
幾周后,舒曼和他的同事?lián)碛辛?300 萬張圖像文本對(duì)。三個(gè)月后,他們發(fā)布了一個(gè)含有 4 億文本標(biāo)注圖片的數(shù)據(jù)集,F(xiàn)在,這個(gè)數(shù)字已經(jīng)超過了 50 億,使 LAION 成為*的免費(fèi)圖像和標(biāo)注數(shù)據(jù)集。
隨著 LAION 的聲譽(yù)不斷提高,團(tuán)隊(duì)一直在無償工作,2021 年獲得了機(jī)器學(xué)習(xí)公司 Hugging Face 的一次捐贈(zèng)。然后有一天,一位前對(duì)沖基金經(jīng)理進(jìn)入了 Discord 聊天室。
Emad Mostaque 主動(dòng)提出承擔(dān)計(jì)算能力的費(fèi)用,沒有任何附帶條件。他想要啟動(dòng)自己的開源生成式 AI 業(yè)務(wù),并渴望利用 LAION 來訓(xùn)練他的產(chǎn)品。團(tuán)隊(duì)最初嘲笑這個(gè)提議,認(rèn)為他是一個(gè)瘋子。
舒曼說:「我們一開始非常懷疑,但經(jīng)過四周左右,我們獲得了云端的 GPU 資源,這些資源通常的費(fèi)用約為 9000 美元或 10000 美元!
當(dāng) Mostaque 在 2022 年創(chuàng)辦 Stability AI 時(shí),他使用了 LAION 的數(shù)據(jù)集來訓(xùn)練 Stable Diffusion,并雇用了該組織的兩名研究人員。一年后,Stability AI 目前正在尋求 40 億美元的估值,這在很大程度上得益于 LAION 提供的數(shù)據(jù)。
舒曼沒有從 LAION 中獲利,他對(duì)此不感興趣。「我仍然是一名高中老師。我拒絕了各種公司的工作邀請(qǐng),因?yàn)槲蚁M3知?dú)立!
02
數(shù)據(jù)集就是
AI 時(shí)代的石油
像 LAION 這樣的數(shù)據(jù)庫中的許多圖像和鏈接,一直以來都明目張膽地存在于網(wǎng)絡(luò)上,有些甚至已經(jīng)存在數(shù)十年之久。
它需要 AI 的興起才揭示出它的真正價(jià)值,因?yàn)閿?shù)據(jù)集越大且越多樣化,其中的圖像質(zhì)量越高,AI 生成的圖像就會(huì)越清晰、更精確。
這一認(rèn)知反過來又引發(fā)了許多法律和倫理問題,即公開可用的材料能否用于填充數(shù)據(jù)庫——如果答案是肯定的,那么創(chuàng)作者是否應(yīng)該得到報(bào)酬。
為了建立 LAION,創(chuàng)始人們從 Pinterest、Shopify 和 AWS 等公司中獲取了視覺數(shù)據(jù)——這些公司并未就 LAION 使用它們的內(nèi)容是否違反了其服務(wù)條款發(fā)表評(píng)論。還包括來自 YouTube 縮略圖、DeviantArt 和 EyeEm 等作品集平臺(tái)的圖像、來自包括美國(guó)國(guó)防部在內(nèi)的政府網(wǎng)站的照片,以及來自新聞網(wǎng)站如《每日郵報(bào)》和《太陽報(bào)》的內(nèi)容。
如果你問舒曼,他會(huì)說任何在網(wǎng)上免費(fèi)提供的東西都是公平競(jìng)爭(zhēng)的。但目前歐盟還沒有 AI 監(jiān)管,即將公布的 AI Act,其語言將在今年夏天早些時(shí)候確定,也不會(huì)規(guī)定版權(quán)材料是否可以包含在大型數(shù)據(jù)集中。
相反,立法者正在討論是否包括一項(xiàng)規(guī)定,要求 AIGC 背后的公司披露其產(chǎn)品訓(xùn)練所使用的數(shù)據(jù)集中包含了哪些材料,從而給這些材料的創(chuàng)作者提供采取行動(dòng)的選擇。
歐洲議會(huì)議員 Dragos Tudorache 告訴彭博社,這一規(guī)定背后的基本思想很簡(jiǎn)單:「作為生成式 AI 的開發(fā)者,你有義務(wù)記錄和透明地披露你在算法訓(xùn)練中使用的版權(quán)材料!
這種規(guī)定對(duì)于 Stability AI 不是問題,但對(duì)于其他 t2i 模型可能會(huì)帶來問題「沒有人知道 Open AI 實(shí)際上用來訓(xùn)練 DALL·E 2 的是什么,」舒曼說,以此作為技術(shù)公司封鎖公共數(shù)據(jù)的例子。這也將顛覆現(xiàn)有的數(shù)據(jù)收集現(xiàn)狀。
「在這個(gè)領(lǐng)域中,慣例是假定您不需要同意或不需要通知人們,或者他們甚至不需要知道這一點(diǎn)。人們有一種自認(rèn)為擁有權(quán)利的感覺,即無論網(wǎng)上有什么,您都可以爬取并將其放入數(shù)據(jù)集中,」Mozilla 基金會(huì)值得信賴的 AI 高級(jí)研究員 Abeba Birhane 說道,他已經(jīng)研究了 LAION。
盡管 LAION 沒有直接被起訴,但它已被列為兩起訴訟的被告:一起指控 Stability 和 Midjourney 違反 DMCA 版權(quán)法和公眾權(quán)利法,違法競(jìng)爭(zhēng)和違反 TOS,使用藝術(shù)家的版權(quán)圖片來訓(xùn)練其模型,另一起是由蓋蒂影像公司針對(duì) Stability 提出的,指稱 LAION 爬取了其 1200 萬張圖片用于訓(xùn)練 Stable Diffusion。
由于 LAION 是開源的,因此不可能知道有多少其他公司使用了該數(shù)據(jù)集。谷歌已經(jīng)承認(rèn)它利用 LAION 幫助訓(xùn)練其 Imagen 和 Parti AI 文本到圖像模型。舒曼認(rèn)為其他大公司正在悄悄地這樣做,只是不會(huì)披露。
03
互聯(lián)網(wǎng)的黑暗面
當(dāng)他的兒子玩《Minecraft》時(shí),舒曼坐在客廳里,將 LAION 比作「大信息技術(shù)海嘯」上的「小型研究船」,采集下面的樣本并展示給世界看。
「這只是互聯(lián)網(wǎng)上公開的資源的一小部分,」他說到 LAION 的數(shù)據(jù)庫,「因?yàn)榧词故俏覀冞@樣的人,只有來自捐贈(zèng)者的 1 萬美元的預(yù)算,也能夠得到它。」
但是,公開的并不總是公眾想要的,或者是合法允許看到的。除了貓和消防車的安全圖片,LAION 的數(shù)據(jù)集還包含了數(shù)百萬張色情、暴力、兒童裸體、種族主義梗、仇恨符號(hào)、版權(quán)藝術(shù)和從私人公司網(wǎng)站上抓取的作品。
舒曼表示,他不知道 LAION 的數(shù)據(jù)集中是否有兒童裸體照片,盡管他承認(rèn)他沒有深入審查數(shù)據(jù)。如果得到這樣的內(nèi)容通知,他說,他將立即刪除與之相關(guān)的鏈接。
在開始組裝數(shù)據(jù)庫之前,舒曼咨詢了律師并運(yùn)行了自動(dòng)化工具來過濾非法內(nèi)容,但他對(duì)于清洗 LAION 的數(shù)據(jù)并不感興趣,而是希望從中學(xué)習(xí)。
「我們可以從發(fā)布的數(shù)據(jù)中過濾出暴力內(nèi)容,」他說,「但我們決定不這樣做,因?yàn)樗鼘⒓铀俦┝z測(cè)軟件的開發(fā)。」LAION 提供了一個(gè)撤下表格以請(qǐng)求刪除照片,但是該數(shù)據(jù)集已經(jīng)被下載了數(shù)千次。
從 LAION 中提取的攻擊性內(nèi)容似乎已經(jīng)整合到了 Stable Diffusion 中,盡管最近已經(jīng)加強(qiáng)了過濾器,但很容易生成假的伊斯蘭國(guó)斬首照片或大屠殺圖像。
一些專家認(rèn)為,這樣的材料也可能在 AI 模型本身內(nèi)部產(chǎn)生偏見:即使文本提示沒有暗示主題的種族,像 Dall·E-2 和 Stable Diffusion 這樣的工具也因復(fù)制種族刻板印象而受到批評(píng)。
這些偏見是谷歌決定不發(fā)布經(jīng)過 LAION 訓(xùn)練的 Imagen 的原因。
當(dāng)被要求發(fā)表評(píng)論時(shí),Stability AI 表示,它在 LAION 數(shù)據(jù)庫的一個(gè)策劃子集上對(duì) Stable Diffusion 進(jìn)行了訓(xùn)練。該公司在一封電子郵件中寫道,它試圖「為該模型提供比原始 SD 更多樣化和廣泛的數(shù)據(jù)集」,并嘗試使用「LAION 的 NSFW 過濾器」刪除「成人內(nèi)容」。
即使是基于開源的人工智能的支持者也警告說,在未加篩選的數(shù)據(jù)集上訓(xùn)練人工智能的影響。
根據(jù) Hugging Face 的機(jī)器學(xué)習(xí)和社會(huì)團(tuán)隊(duì)負(fù)責(zé)人 Yacine Jernite 的說法,基于有污點(diǎn)的數(shù)據(jù)的生成式 AI 工具將反映其偏見!改P褪撬(xùn)練的內(nèi)容的非常直接的反映!
Jernite 補(bǔ)充說,在產(chǎn)品運(yùn)行后引入防護(hù)欄是不足夠的,因?yàn)橛脩艨偸菚?huì)找到規(guī)避安全措施的方法。他們說:「當(dāng)你拿一個(gè)訓(xùn)練有素的模型來模擬人們?cè)诨ヂ?lián)網(wǎng)上的行為,并說:『好的,但不要這樣做!蝗藗儠(huì)找到一種方法來讓它仍然這樣做!
數(shù)據(jù)非營(yíng)利組織 Common Crawl 的創(chuàng)始人吉爾·埃爾巴茲(Gil Elbaz)懷疑「不能從訓(xùn)練集到生產(chǎn)之間畫一條直線」,并將該過程比作一個(gè)去博物館尋找靈感但被阻止復(fù)制藝術(shù)品的藝術(shù)家。他說,「重要的是社會(huì)決定哪些用例是合法的,哪些用例是不合法的。」
這不僅僅是由社會(huì)決定。隨著歐洲監(jiān)管機(jī)構(gòu)制定人工智能使用法規(guī),他們正在努力應(yīng)對(duì)的事實(shí)是,目前人工智能熱潮正在挖掘的數(shù)據(jù)多年來一直處于法律灰色地帶,而這一現(xiàn)狀現(xiàn)在才受到嚴(yán)重審查。歐洲議會(huì)成員圖多拉切 (Tudorache) 說:「沒有多年的數(shù)據(jù)積累,人工智能不可能達(dá)到這種復(fù)雜程度!
但在舒曼的眼中,應(yīng)該監(jiān)控的不是數(shù)據(jù)集。在他看來,人工智能的最壞情況是大型科技公司通過為監(jiān)管框架定制工具來排擠開發(fā)人員!溉绻覀?cè)噲D放慢速度并過度監(jiān)管,」他警告說,「最終的風(fēng)險(xiǎn)是只有少數(shù)大型企業(yè)玩家能夠承擔(dān)所有正式要求!
榜單收錄、高管收錄、融資收錄、活動(dòng)收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報(bào)生成中...