2020年底的一天,吳強與幾個同事加完班,一同去沙縣小吃吃夜宵。餛飩的蒸汽氤氳,吳強問同事:“如果你們可以自己選一個領域做芯片,你希望用芯片做出解決什么問題的產(chǎn)品?”
幾位同事紛紛說起自己的現(xiàn)狀。有人每天要駕車橫穿大半個城市去上班,希望自動駕駛能讓自己在途中休息一下;有人希望用教育機器人幫自己教孩子;還有的人希望用機器人陪伴自己的父母。
同事的回答更堅定了吳強的創(chuàng)業(yè)決心:用底層的技術創(chuàng)新,做一款“更好的AI芯片”——一款可以幫助萬物皆智能的AI芯片。
兩年半之后的5月10日,吳強和后摩智能團隊交上了*塊大算力AI芯片——鴻途H30。這款芯片專注于自動駕駛領域,最高物理算力256TOPS,典型功耗35W。
后摩智能鴻途H30的獨特之處在于“存算一體”的新型架構設計。在吳強看來,鴻途H30證明了大算力存算一體技術的可用性,標志著存算一體芯片商業(yè)化元年的到來。同時,存算一體也讓車企客戶多了一個優(yōu)質國產(chǎn)芯片的選擇,并證明了不依賴先進工藝,依舊能做出算力、功耗都優(yōu)秀的芯片。
借著新產(chǎn)品發(fā)布會,「甲子光年」采訪了后摩智能創(chuàng)始人兼CEO吳強,以及投資后摩智能三輪的投資人、經(jīng)緯創(chuàng)投投資董事童倜,聊聊這款大算力存算一體芯片是怎么做出來的。
1. 用“存算一體”來做自動駕駛芯片
2014年,已經(jīng)發(fā)布了自動駕駛乘用車的特斯拉,宣布與Mobileye合作,在后續(xù)的產(chǎn)品中使用EYE Q3芯片。該款芯片在當時是算力*,為0.256TOPS,也即每秒可計算0.256萬億次。短短兩年之后的2016年,特斯拉拋棄Mobileye,換上英偉達8TOPS的芯片Drive PX 2。
2019年,特斯拉結束與英偉達的合作,發(fā)布了自研的芯片,目前特斯拉最高算力的芯片已經(jīng)達到144TOPS,而英偉達去年11月發(fā)布的Thor芯片更是一路讓算力飆升到了2000TOPS。
但算力之外,距離規(guī);占皯茫詣玉{駛芯片還有一些鴻溝需要跨越——功耗與成本。
過往,芯片設計主要通過工藝制程的精進來提升能效比,但隨著摩爾定律逐漸趨緩,通過工藝節(jié)點來優(yōu)化功耗的效果收效甚微。同時,工藝節(jié)點的優(yōu)化也會指數(shù)級地增加芯片生產(chǎn)的成本。算力、功耗和成本成了“不可能三角”。
但著名芯片設計師Jim Keller卻說,“如果通過常規(guī)方法無法改良一款芯片,那就去做底層的架構創(chuàng)新”。也是受到這句話的鼓舞,一直想做一款高能效比且大算力計算芯片的吳強,下定決心要用更前沿的“存算一體”架構來重新設計芯片。
什么是存算一體?
從字面意思來理解,就是芯片內(nèi)部的存儲模塊和計算模塊融合在了一起,數(shù)據(jù)在存儲模塊中完成了部分或全部的計算。
如果把一塊芯片的計算功能想象成廚師做菜,那計算模塊就是廚房,而存儲模塊是倉庫。過去,廚師需要根據(jù)指令,每次都去倉庫拿出一件東西來到廚房,再接著讀下一條指令拿另一件東西,或讀完指令來餐廳進行一個步驟。這樣不僅傳輸繁瑣,也浪費了很多時間。
應用存算一體技術,也即直接把廚房移到倉庫中,數(shù)據(jù)可以在存算模塊內(nèi)部完成大部分的計算,再傳輸出去進行進一步的運算。
“存算一體”技術屬于底層架構的創(chuàng)新,有一些顯著的優(yōu)勢。由于計算不再需要每一步分別讀寫,所以整體的計算速度會變快,計算延時也更低。
存算一體的另一個優(yōu)勢是功耗顯著降低。同樣由于數(shù)據(jù)傳輸路徑的優(yōu)化,存算一體技術不僅節(jié)省了時間,還節(jié)省了數(shù)據(jù)傳輸?shù)?ldquo;內(nèi)耗”,帶來更好的能效比。
更重要的是,當芯片在保證算力的同時又能兼顧能效比,它也有機會用更成熟的工藝節(jié)點來制造。這不僅會帶來成本上的優(yōu)勢,在國產(chǎn)化的趨勢下,也更有可能保證供應鏈穩(wěn)定,被客戶優(yōu)先選擇。
在吳強看來,由于摩爾定律趨緩,需要更新的技術創(chuàng)新。而那些能夠在不依賴先進工藝而實現(xiàn)瓶頸突破的底層技術創(chuàng)新,就是后摩爾時代的技術方向。
也正因此,團隊一致同意給公司起名“后摩智能”。
2.存算一體芯片“最后七公里”
盡管存算一體在技術層面能夠支撐芯片產(chǎn)業(yè)出現(xiàn)新機會,但要真正創(chuàng)業(yè)做新業(yè)務卻沒有那么容易。在吳強看來,存算一體還有“最后七公里”要走。
“學術上實現(xiàn)的是從無到有的過程,但要應用在商業(yè),還需要先補齊技術的可實現(xiàn)性這兩公里,再補上應用到具體場景的工程性問題這五公里。”
具體而言,在這款芯片的定義、設計過程中,也經(jīng)過了不少討論和取舍。
例如,存算一體技術依托的存儲類型非常豐富,包括以SRAM、DRAM為代表的易失性存儲器,以Flash為代表的非易失性存儲器,還有以MRAM和RRAM為代表的新型非易失性存儲器。后摩當前選擇了制作工藝更為成熟的SRAM。
又如,從電路技術來看,存內(nèi)計算有數(shù)字計算和模擬計算兩種,后摩首先選擇了運算精度更高、可靠性更好的數(shù)字存算。
但對吳強來說,這都是綜合市場需求和技術可行性之后的更優(yōu)選擇,后摩當下戰(zhàn)略聚焦于智能駕駛芯片,更大的有效算力、更高的可靠性都是為目標芯片服務的。
只不過,摸著石頭過河,確實要面臨比同行更多的挑戰(zhàn)。
比如在電路的仿真驗證中,一般用EDA軟件進行在線的設計,而后用可編程的FPGA進行電路設計的驗證。但是,后摩智能的芯片設計規(guī)模已經(jīng)超過了市面上任何一個可以找到的FPGA,要怎么做芯片驗證呢?
后摩智能想到把芯片的不同功能進行切割,在不同的FPGA上進行驗證。關于如何把芯片做合理的剪裁以適應部分的驗證,后摩團隊反復討論、多次嘗試,最終找到了最恰當?shù)姆椒ā?/p>
最終,后摩智能交上了鴻途H30這份答卷,相比業(yè)界先進的7nm工藝,后摩采用了更成熟的12nm工藝,但功耗比前者減少了50%,性能有兩倍以上的提升。
經(jīng)緯創(chuàng)投投資董事童倜認為,除了存算一體技術上有巨大的優(yōu)勢之外,“后摩團隊的優(yōu)勢還在于團隊的人員構成非常完善,在很早就擁有了存算一體相關領域的學術專家、曾經(jīng)量產(chǎn)過大算力AI芯片的人,和設計過車規(guī)芯片的人”。
在童倜看來,尤為難得的是,在創(chuàng)立之初,后摩團隊就已經(jīng)對所在的賽道、市場需求有了清醒的認知,也對整個芯片研發(fā)及企業(yè)經(jīng)營中可能會遇到的問題有了一定的預期和規(guī)劃。
這或許要歸功于吳強及后摩團隊過往在芯片行業(yè)豐富的從業(yè)經(jīng)驗,有十年以上芯片行業(yè)的工作經(jīng)驗的研發(fā)人員占比很高,經(jīng)歷過車規(guī)芯片量產(chǎn)和導入的初創(chuàng)企業(yè)奮斗全過程的員工也不在少數(shù),他們能夠深刻理解研發(fā)組織、客戶溝通等的重要性。
3. “科學家”創(chuàng)業(yè),挑戰(zhàn)在技術之外
技術之外,創(chuàng)業(yè)更大的挑戰(zhàn)正在等待著吳強——技術商業(yè)化。
縱觀后摩創(chuàng)始團隊的背景,技術出身占比更多,吳強在先前AI芯片公司做CTO的時候也主要是專注于技術領域。但他并不覺得這是一個難以跨越的挑戰(zhàn),“雖然這些我以前沒有做過,但這都是身為CEO應該做的。創(chuàng)業(yè)本來就是快速學習、快速成長的過程,因為你不夠快就會被淘汰”。
在后摩成立半年左右的2021年中,公司還在芯片定義階段,吳強已經(jīng)開始拜訪客戶。他認為,未來產(chǎn)品落地過程中必須要關注客戶真實的場景和訴求,所以何不在最開始就讓客戶的訴求加入到“芯片定義”環(huán)節(jié)呢?
讓吳強印象最深的是一次去一家傳統(tǒng)車企,當時接待他的采購負責人畢業(yè)就在這里工作,已經(jīng)有十多年。他和吳強解釋他們高、中、低款車型對自動駕駛芯片不同的預算、功能訴求,又拉著吳強感嘆“如果你們有芯片,我們現(xiàn)在就能上車測試”。
詢問其中原因后才發(fā)現(xiàn),中小車企其實“苦國外車規(guī)芯片久矣”。
一方面,由于自動駕駛芯片技術難度不低,很多車企只能成為大型芯片公司的客戶。那些公司的芯片不僅價格高昂,而且總是先供應更頭部的車廠,中小企業(yè)總是會被遲發(fā)、少發(fā)芯片。并且,這些公司售后技術團隊在國內(nèi)的員工較少,也很難保證每一家車企都提供完整的售后技術支持。
更重要的是,在地緣政治等全球不穩(wěn)定的因素下,中國的中小車企也希望能夠保證自己產(chǎn)線的供應鏈安全,而自動駕駛芯片作為核心零部件之一,國產(chǎn)化的趨勢勢不可擋。
于是,后摩團隊*款芯片在驗證階段就根據(jù)客戶痛點規(guī)劃了許多功能,并在去年完成了核心功能驗證。
除了鴻途H30之外,本次發(fā)布會還一下子發(fā)布了智能駕駛計算使能平臺Sailing平臺、智能駕駛硬件平臺力馭、軟件開發(fā)工具鏈后摩大道。后摩智能聯(lián)合創(chuàng)始人、產(chǎn)品副總裁信曉旭提到,后摩一家芯片公司這么早就投入人力物力來做軟件平臺,是因為團隊成員里不少過去曾因為軟件的事情吃過虧。
“我曾在一家知名芯片公司負責某標桿客戶的項目落地。原本項目進展很順利,但三個月之后,對方的負責人忽然打電話來終止了合作,原因是團隊覺得軟件平臺太難用、學習成本太高。”信曉旭表示。
于是在后摩產(chǎn)品的設計之初,就把軟件作為重要的產(chǎn)品線,與硬件設計同步推進。
目前,后摩團隊正在做給客戶送樣前的最后測試,預計6月,客戶就會收到樣片進行測試。
4. 大模型時代,存算一體不止于自動駕駛
存算一體只能用在自動駕駛領域嗎?
后摩智能聯(lián)合創(chuàng)始人、芯片研發(fā)副總裁陳亮在發(fā)布會上的回答是“存算一體還有更廣闊的應用場景”。
陳亮表示,鴻途H30 以存算一體創(chuàng)新架構實現(xiàn)了六大技術突破,即大算力、全精度、低功耗、車規(guī)級、可量產(chǎn)、通用性。
鴻途H30 基于 SRAM 存儲介質,采用數(shù)字存算一體架構,擁有極低的訪存功耗和超高的計算密度,在 Int8 數(shù)據(jù)精度條件下,其 AI 核心 IPU 能效比高達15Tops/W,是傳統(tǒng)架構芯片的7倍以上。在實際性能測試中,鴻途H30 基于Resnet 50 模型的 Benchmark,在 Batch Size 等于1 和 8 的條件下分別達到了8700 幀/秒和10300 幀/秒的性能。
而為了充分發(fā)揮存算一體帶來的高計算效率,后摩智能面向智能駕駛場景打造了專用 IPU(處理器架構)——天樞架構,采用多核、多硬件線程的方式擴展算力,實現(xiàn)了計算效率與算力靈活擴展的*均衡,AI 計算可以在核內(nèi)完成端到端處理,保證通用性。
天樞架構的設計理念源自于庭院式的中國傳統(tǒng)住宅,以大布局設計保障計算資源利用效率的同時,再進一步結合現(xiàn)代住宅多層/高層的設計優(yōu)勢,以多核/多硬件線程的方式靈活擴展算力。
后摩智能的存算一體芯片在大算力、低功耗、通用性上的優(yōu)勢,為未來芯片應用在更多領域帶來了可能。
不過,作為一個在“能效比”上更有優(yōu)勢的底層架構,后摩智能更希望未來的芯片專注于那些較大算力且對功耗較為敏感的場景。例如一些邊緣側的重點場景,如智慧工業(yè)中的數(shù)據(jù)分析+設備控制、擁有較多功能的服務機器人、用來探測和計算的商用無人機、更多功能性能更強的ARVR等。
吳強認為,能效比每提升1000倍都會延伸出一個新的計算形態(tài)。例如從小型機時代到PC時代,以及從PC時代到手機時代,都提升了接近1000倍。而后摩智能的未來的愿景,則是希望通過不斷迭代,產(chǎn)生出千倍于手機時代的能效比,創(chuàng)造可能的新計算形態(tài)。
不過更近一點,后摩智能還是希望在未來1~3年里,聚焦智能駕駛場景,關注乘用車和商用車的使用情況,打通商業(yè)閉環(huán),“做透”一個場景。
經(jīng)緯創(chuàng)投投資董事童倜在評價投資后摩智能的時候曾這樣對「甲子光年」說,“我們關注一項新技術,不會等到80%或90%的技術成熟度或要求有商業(yè)落地案例才投資,因為那時候已經(jīng)太晚了”。而類似后摩智能這樣的先行者,已經(jīng)早早出發(fā),成為新技術落地過程的核心推動者,并在技術爆發(fā)之后“坐看云起”。
榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。
海報生成中...