最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

首頁 > 資訊 > 商學院

「AI畫畫神器」引爆行業(yè),這家AIGC公司背后有何秘訣?

2022/11/10 11:33      GGV紀源資本 編輯 | 張穎


  受訪嘉賓:ZMO.AI 創(chuàng)始人&CEO 張詩瑩

  AI具有想象力與創(chuàng)造力嗎?

  “Yuan初”創(chuàng)始人張詩瑩的回答是“Yes.”

  “Yuan初”的母公司,張詩瑩所創(chuàng)辦的ZMO一直致力于利用AI來進行圖片、視頻等內(nèi)容的直接生成——是的,幾個關鍵詞就足以讓AI自動生成圖片或視頻,除ZMO剛剛上線的中文版產(chǎn)品“Yuan初”(https://yuan.zmoai.cn/)之外,這種嶄新的內(nèi)容創(chuàng)造機制已經(jīng)在歐美流行起來。

  AI的創(chuàng)造力,是一點點被ZMO團隊“發(fā)掘”的,它可以創(chuàng)造出“不合常理”的事物,例如像豹子一樣的兔子,狗狗和面包的結(jié)合,也可以創(chuàng)造出超脫于當今創(chuàng)作者的新風格。

  “Yuan初”的初心并非僅僅是想象與創(chuàng)造,而是希望實實在在地解決用戶的需求,從大V、博主與UP主到新媒體小編,以及所有需要海報、包裝設計、產(chǎn)品展示的從業(yè)者。對他們來說,一些設計圖的初始版本已經(jīng)可以交給AI來完成,設計師可以從事更加重要的創(chuàng)意工作,互聯(lián)網(wǎng)的內(nèi)容生產(chǎn)也許不再是一件門檻過高的事情。

  1- Diffusion model技術突破帶來的革命

  在推出“Yuan初”之前,張詩瑩的團隊一直在生成式AI(Generative AI)這片領域探索,并且小有成就。轉(zhuǎn)折點發(fā)生在2022年4月,當時行業(yè)掀起了一場不小的風暴,“AI生成”技術嶄新的算法框架出現(xiàn)了。

  Diffusion model框架的理論基礎在2015年已經(jīng)被提出【1】,直到最近1-2年開始在圖像生成的效果上有了很大突破【2】,開始被大家關注,成為學界的新寵。同時,在“文本-圖像”跨模態(tài)大模型的加持下,Diffusion model更是在文字生成圖片這一應用中大放異彩,受到業(yè)界與資本的追捧。生成模型領域在過去近8年時間里,大多數(shù)任務的SOTA一直都是GAN(生成對抗網(wǎng)絡)框架霸榜。GAN通過對抗學習的方式,同時訓練一個判別器和生成器,兩者互相對抗互相促進提升,最終目的是讓生成器生成出以假亂真的真實圖像,讓判別器難以判斷是真是假,以達到納什均衡。

  文字生成圖片這一應用在GAN框架中也有被廣泛研究,不過從生成質(zhì)量以及圖文匹配度來說,都還離實用化還有很大距離。其原因主要在于三點:

  1)GAN在生成圖像時直接一次性完成從噪聲/條件到最終結(jié)果的生成,這種一步到位的方式難度很大;

  2)GAN本身基于的對抗學習訓練方式并不是*的,容易陷入局部優(yōu)化的困境,并且在學習復雜數(shù)據(jù)分布時容易訓練失;

  3)缺乏大模型的加持,文本與圖像多模態(tài)之間的關聯(lián)性難以充分學習,導致在非限定場景中的效果較差。

  張詩瑩這樣解釋Diffusion model的算法框架優(yōu)勢:Diffusion不是直接在噪聲和圖像直接進行映射,而是通過逐級前向加噪和逆向去噪的過程實現(xiàn)噪聲和圖像直接的映射。這種AI學習之后,就可以生成非常精美的圖片,讓生成效果提升一個臺階。此外在跨模態(tài)大模型的幫助下,AI能夠和用戶通過自然語言進行簡單的交互,生成用戶心中所想的高質(zhì)量圖像。

  Diffusion model的算法框架在北美火爆了一把,很多人通過其中的開源框架來推出自己的新一代“生成工具”。ZMO團隊也看到AI生成可能會改變未來的很多事情,因此上線了“Yuan初”(yuan.zmoai.cn)。

  讓機器來畫圖、做視頻,聽起來是一件有些神奇的事,但長遠來看它將解決重要的剛需——這是張詩瑩的理解。她認為人們在虛擬世界里流連的時間越來越多了,一個在真實世界里盯著電腦或手機的人,消費的是虛擬世界的文字、圖片或視頻,而理所當然的結(jié)果就是虛擬世界之中文字、圖片或視頻的需求量正在指數(shù)級增加。不僅需求量提升,對質(zhì)量的要求也非常高,只有新鮮的、吸引人的才是好的。

  那么這些文字、圖片或視頻內(nèi)容還能從哪里供給呢,張詩瑩認為,如果只有小部分人是專業(yè)創(chuàng)作者,那么生產(chǎn)速度是永遠趕不上需求速度的。但每個普通人都可以依靠AI生成內(nèi)容。在嘗試AI生成階段,她還發(fā)現(xiàn)AI這個“靈魂畫手”具有讓人驚艷的創(chuàng)造力,也許大家低估了AI的能力邊界。

  在圖片這個切入口之后,張詩瑩的ZMO團隊最近也在研究海外的AI文字生成器,這些生成器在國外已算是風靡,迅速走向了商業(yè)化,Airbnb等企業(yè)也是它們的客戶。

  AI不僅是“靈魂畫手”,也可以是“靈魂寫手”,給一個標題和幾個關鍵字,生成的AI文字甚至可以“以假亂真”。張詩瑩覺得很有意思的地方在于,如果給AI一個命題,AI甚至可以在文章開頭“自問自答”這個概念的含義,而它寫出的含義是在Google上搜不到的。換句話說,這是AI自己所“理解”的概念,通過理解再進行與其他概念的關聯(lián)而感受到概念與概念之間的關系,再去自動生成。

  既然AI可以自行創(chuàng)作,那么這個話題往深處展開,很容易讓人疑惑:它是否會替代創(chuàng)作者?張詩瑩給出的解釋是,AI能夠?qū)?chuàng)作門檻降到*,甚至由于機器學習可以了解人們最感興趣的信息與最喜歡的圖像,而使得AI作品更抓人眼球,做出真正高流量的爆款作品。但AI沒有自己的觀點,因此它只能做一個幫手,而不是創(chuàng)作的主角。

  ZMO團隊持續(xù)嘗試AI生成的驅(qū)動力是讓每個人成為創(chuàng)作者。因此,他們正在打造使用難度低的產(chǎn)品,而想要降低圖片素材的門檻,不僅可以生成,還可以直接更換元素。例如“Yuan初”的新功能photo  editing可以支持用戶直接擦除圖片的部分,無論是背景或是人像,都可以迅速換上自己想要的元素。“Yuan初”正在成為一個“AI版Photoshop”。

  2- “Yuan初”的用戶是誰:

  所有與傳播和市場相關的工作者

  張詩瑩曾經(jīng)在曾是Apple Air Pods產(chǎn)品線創(chuàng)始團隊核心人員,主要負責產(chǎn)品線的系統(tǒng)構(gòu)架研發(fā),設計,生產(chǎn)整個流程,之后加入Google 擔任AR系統(tǒng)構(gòu)架師,負責Glass, Reflector等項目的算法和構(gòu)架。

  盡管自己擁有技術與產(chǎn)品的雙重背景,她把ZMO的技術積累歸功于團隊:Liqian Ma在北大研究生畢業(yè)后前往魯汶大學讀了人工智能的博士學位,導師是CVPR最高獎馬爾獎的獲得者,盡管已經(jīng)拿到了Google、Facebook、Adobe等巨頭的offer,仍然選擇創(chuàng)立一家基于AI技術的公司;Han專攻圖像生成算法,很早便在 CVPR上發(fā)表了AI相關的文章,并將Diffusion model上一代的GAN技術使用到1024高清版并且可以商用的級別,在騰訊工作時,他所在的AI部門也獲得了不少獎項;另外一位聯(lián)合創(chuàng)始人Roger Yin雖然負責營銷,但同樣擁有擁有UBC計算機工程學位。

  美國疫情剛爆發(fā)時,張詩瑩偶爾與Google ads的同事交流,她發(fā)現(xiàn)僅僅在線廣告上面,內(nèi)容的需求量就已經(jīng)激增起來。尤其在新冠疫情后,人們把更多時間花在線上,對于內(nèi)容的新鮮度更加挑剔了。線上辦公引發(fā)了內(nèi)容狂潮,每位博主大V都在費盡心思地做好內(nèi)容,吸引讀者與消費者。

  當然,想到創(chuàng)業(yè),張詩瑩首先思考的還是AI生成的商業(yè)前景。能夠立刻想到的是兩個產(chǎn)業(yè):廣告與娛樂。廣告對內(nèi)容的需求程度極高,她的前東家Google 更是一家主要收入為廣告的巨頭,因此張詩瑩自然而然地考慮到廣告商對內(nèi)容生成產(chǎn)品的付費意愿。

  不過,對內(nèi)容生產(chǎn)有強烈需求的不僅是娛樂行業(yè),“Yuan初”的定位是給所有需要進行市場推廣、自我展示的從業(yè)者。這種需求是十分剛性的:首先,國內(nèi)外對版權都很重視,當大家不得不配圖的時候,AI設計圖片不會面臨圖庫圖片的版權紛爭。

  其次,線上圖片實際上存在“供不應求”的問題,如果大家因為使用圖庫的圖片而遭遇圖片“撞車”,以國外為例,Google會把內(nèi)容創(chuàng)作的權重降低,因為圖片不夠原創(chuàng)性。

  ZMO目前旗下有兩款產(chǎn)品,一款主打跨境電商,另一款是如今上線的“Yuan初”。雖然上線不久,但后者的客戶群已經(jīng)拓展得很寬:圖書編輯會使用它形成插畫,游戲開發(fā)者通過對游戲當中角色的的描述生成角色形象再加以雕琢,網(wǎng)站設計師通過AI作圖來設計底稿并請客戶提出修改意見。ZMO的一位客戶是一家巧克力棒廠商,它的新品包裝還未設計出來,但產(chǎn)品又著急上線,就用AI一口氣生成了10個包裝提前進行展示。

  AI生成器甚至就像是想象力豐富的乙方,“甲方爸爸”提出的需求可以瞬間生成樣片。偶爾甲方的需求是一只賽博朋克的猴子,在埃菲爾鐵塔旁邊喝酒的考拉,這些天馬行空的想法對設計師來說這或許有些魔幻,但AI會結(jié)合不同風格,例如漫畫風、油畫風、藝術風、3D渲染風等風格來給出讓人想不到的圖片。

  除了幫客戶解決生成問題,AI在機器學習之后結(jié)合流量分析形成了優(yōu)化推薦機制,ZMO因此與幾家客戶測試了效果。他們計算了CTR(Click-Through-Rate)即點擊通過率,觀察消費者是否喜歡這些AI生成的圖片,目前來看,幾家客戶的CTR都被提升了2-3倍。

  下一步,“Yuan初”的發(fā)力方向?qū)⑹?D模型與視頻。3D模型被認為是最花時間的設計之一,由于要模擬真實的場景與人體,既耗費資金又耗時間。不過,ZMO團隊認為AI算法足以生成低模3D模型,可以為客戶直接省錢提效。

  另一個重要的功能是AI視頻生成。張詩瑩提到,無論是文字、圖片還是3D、視頻,歸根結(jié)底都是要 形成好的內(nèi)容,能給到創(chuàng)作者去吸引流量,產(chǎn)生點贊、評論與轉(zhuǎn)發(fā),因此視頻制作的功能也會做得更豐富一些,可以讓客戶只輸入幾個關鍵詞與標題,就能生成一整段文案,并且配上對應的圖片,變成一個簡單的、擁有配音的視頻。而“Yuan初”的用戶只需要把用戶主流的需求收集并整理好,就能根據(jù)自己的受眾喜好去調(diào)試AI視頻內(nèi)容。

  可以看出,ZMO的每項動作,張詩瑩都將其導向商業(yè),即能否幫客戶省錢省時與賺錢。在她看來,所有與傳播和市場沾邊的工種都會是“Yuan初”的潛在用戶,而所有與傳播和市場相關的工作也都是企業(yè)需要砸錢完成的。就像電商行業(yè),一條裙子100元的售價之中,也許50元都要花去打廣告。

  在流量最貴的當今,AI應當扮演怎樣的角色?她認為AI不應該是一個高大上的概念,而應當是商業(yè)的解決方案。如果說“AI生成”是AI產(chǎn)業(yè)繼聲音、影像識別后的熱點,那么這個熱點必須與商業(yè)緊密結(jié)合才會長久。

  在蘋果與Google的經(jīng)歷塑造了張詩瑩的想法。她把蘋果發(fā)新品笑稱為“發(fā)布火箭”,因為果粉們每次都期待蘋果每年的發(fā)布會上可以發(fā)布像火箭一樣酷炫的潮品,但每次發(fā)布的卻都是與之前差不多的產(chǎn)品,會感到失望。

  而這種情況在她看來又極其合理。蘋果的決策取決于對用戶的分析,她記得蘋果的同事們最開始對AirPods的策劃包含了不是奇特的想法,例如做一款透明的耳機,或者讓耳機可以打火。但最后這些想法都被用戶的需求否定了。在那段經(jīng)歷中,她學到的是,只有對用戶有價值他們才會購買,只有產(chǎn)品賣得好一個部門才有更大的價值。她從蘋果學到了產(chǎn)品與技術的平衡:產(chǎn)品去駕馭技術,技術為產(chǎn)品所用。

  所以,創(chuàng)業(yè)后的張詩瑩也給ZMO提出了一句slogan:消費即生成,讓AI生成用戶愿意閱讀、點贊甚至消費的內(nèi)容,才是落地的意義。

  參考文獻:

  【1】Deep Unsupervised Learning using Nonequilibrium Thermodynamics, ICML'15

  【2】Denoising Diffusion Probabilistic Model, DDPM'20

 

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞