最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

首頁 > 資訊 > 數(shù)字化

“7個月140個智算中心項目”,引業(yè)界擔(dān)憂

2024/10/08 17:19      中國科學(xué)報


  作者:趙廣立 來源:中國科學(xué)報

  近期,一條話題圍繞“7個月涌現(xiàn)140個智算中心項目”的消息在計算圈內(nèi)不斷流傳,引起行業(yè)關(guān)注,并引發(fā)學(xué)者對其潛在的“算力閑置”等擔(dān)憂。

  在9月24日的中國高性能計算學(xué)術(shù)年會(HPC China 2024)上,計算領(lǐng)域?qū)<乙膊患s而同地關(guān)注到這個問題。《中國科學(xué)報》了解到,大家擔(dān)憂的問題主要集中于一點:中國智算應(yīng)該如何健康發(fā)展,從而更高效支撐人工智能(AI)應(yīng)用大潮?

  “其實我更擔(dān)心的是,一些地方以攀比心態(tài)上馬的智算中心項目,能否保障為真實用戶提供優(yōu)質(zhì)可靠的智能計算服務(wù)?”中國計算機學(xué)會(CCF)副理事長、北京并行科技股份有限公司董事長陳健在接受《中國科學(xué)報》專訪時說,若只有資源盲目擴張卻不能發(fā)揮其應(yīng)有效能、讓需求端便捷獲取優(yōu)質(zhì)算力服務(wù),無疑意味著資源和資金的無謂浪費。

  陳健在受訪中。并行科技 供圖

  現(xiàn)狀:國內(nèi)已建和在建智算中心已超250個

  《中國科學(xué)報》了解到,該消息最早出自IT行業(yè)媒體“數(shù)智前線”。報道顯示,數(shù)智前線通過對中國政府采購網(wǎng)、中國招投標公共服務(wù)平臺、天眼查、企查查、尋標寶等渠道的梳理和不完全統(tǒng)計,僅2024年前7個月,圍繞土建基礎(chǔ)設(shè)施和IT基礎(chǔ)架構(gòu)等方方面面的建設(shè)內(nèi)容,智算中心相關(guān)項目中標公告已發(fā)布超140個。

  記者隨即取得了與“數(shù)智前線”的聯(lián)系,并獲得了其梳理編制的《2024年前7個月智算中心項目》詳細信息。

  信息顯示,這140多個項目中,分布于至少23個省市的諸多市、區(qū)、縣內(nèi),其中尤以安徽、江蘇、北京、山東、浙江等省市出單最多。這些項目的中標金額從數(shù)萬元到超億元不等,其中尤以數(shù)百萬元、數(shù)千萬元的項目居多;超過1億元的項目有25個,占比約18%。有分析認為,智算中心單個項目過億元,或代表著一些單體智算中心建設(shè)正在逐漸向更大規(guī)模演進。

  而據(jù)賽迪顧問人工智能與大數(shù)據(jù)研究中心高級分析師白潤軒提供的數(shù)據(jù)顯示:截至2024年上半年,國內(nèi)已經(jīng)建設(shè)和正在建設(shè)的智算中心已超過250個。參照當前市場算力服務(wù)器價格,一個千卡規(guī)模(約須128臺算力服務(wù)器)的智算中心僅硬件設(shè)備的投資額就達約4億元。

  智算中心資源會不會過剩、閑置?

  看到上述智算中心建設(shè)數(shù)量的數(shù)字,上海交通大學(xué)網(wǎng)絡(luò)信息中心副主任林新華不無擔(dān)憂地發(fā)問:“現(xiàn)有的和許多正在規(guī)劃中的智算中心,將會對電網(wǎng)產(chǎn)生多大的壓力?如果未來5年生成式人工智能或大模型不能維持高熱度,這數(shù)百億的投資該如何處理?”

  顧名思義,智算中心以處理人工智能計算任務(wù)為主,目前主要承接人工智能(AI)大模型的訓(xùn)練和推理任務(wù)。一般而言,大模型訓(xùn)練要求單體算力集群規(guī)模越大越好,而推理任務(wù)則一般不會有此要求,F(xiàn)階段在生成式AI熱潮之下,市場上呈現(xiàn)出對智能計算(尤其是大規(guī)模訓(xùn)練集群)較高的需求態(tài)勢,但能否長期維持這種高需求狀態(tài),市場態(tài)度并不完全一致。

  另外一件值得探討的事情是,國內(nèi)已有智算中心的利用率有多高?

  “這可能是個謎。”林新華說:“這也許是商業(yè)機密,但如果是政府投資,就應(yīng)該信息公開。”他表示,他所負責(zé)的上海交通大學(xué)校級計算公共服務(wù)平臺“交我算”,在國內(nèi)高校中第一個踐行開放運維理念,堅持把實時利用率公開到網(wǎng)上,“接受用戶和社會監(jiān)督”。

  “交我算”系統(tǒng)2024年某時段利用率情況。截圖自上海交通大學(xué)交我算平臺

  關(guān)于智算中心是否過剩,在一線從事算力服務(wù)工作近20年的陳健認為,應(yīng)該認真地從供需視角來分析。

  “如果市場對智算中心的需求是300、500個,那么現(xiàn)在建設(shè)250個,一點都不多;問題是需求量真的有這么大嗎?大家喊的‘缺算力’到底是缺哪一類算力?這需要弄清楚。”陳健從他在一線觀察向《中國科學(xué)報》分析說,其實市場上真正稀缺的是單集群規(guī)模超2000卡的訓(xùn)練算力;當然,“萬卡以上集群更加珍稀”。

  他言下之意,除了相對稀缺的單體大規(guī)模算力集群之外,其他諸如用于AI推理的算力供應(yīng)相對而言是能滿足需求或夠用的,問題是如何開發(fā)好、利用好;投建新的智算中心也要算好“供需賬”,因為一旦算力供過于求,新建乃至一些已建智算中心恐有可能從“全村希望”變成“閑棋冷子”。

  建好、用好都有挑戰(zhàn),人才是關(guān)鍵

  事實上,要建好一個智算集群并非易事。中國工程院資深院士倪光南指出,智算集群不是簡單的軟硬件的堆砌,它是一個復(fù)雜工程系統(tǒng),要求“3+1”算力體系(即算、存、運和服務(wù))的緊密協(xié)同。

  “就好比構(gòu)建一個足球冠軍團隊,不僅需要有各個優(yōu)秀球員,還需要球員之間的協(xié)同和配合以達到最高效能。”倪光南說,也正是基于復(fù)雜工程系統(tǒng)思維,智算集群在算力規(guī)模、算力利用率、集群可靠性等關(guān)鍵指標上,可以持續(xù)“挑戰(zhàn)”和“對抗”源于單模塊、單機、單系統(tǒng)的各種物理極限和失效問題。

  但是復(fù)雜系統(tǒng)有其脆弱性。陳健告訴記者,智算集群和超算類似,本質(zhì)上都是并行計算程序,其特點是所有計算單元要同步運行,如果其中一個計算節(jié)點或通信模塊出現(xiàn)故障,整個程序就會失靈,訓(xùn)練任務(wù)就中斷了。

  “這就要求在系統(tǒng)搭建之初不能有任何軟件或技術(shù)上的問題。換句話說,必須把每一件事都做到極致,才有可能做到盡可能高的系統(tǒng)穩(wěn)定性。”陳健說。

  林新華告訴《中國科學(xué)報》,字節(jié)跳動和DeepSeek近期都發(fā)表了介紹關(guān)于萬卡GPU集群如何建設(shè)與運維的論文,就主要從性能優(yōu)化和可靠性兩方面展開。

  “如果沒有解決甚至沒有意識到這些問題,那么這些智算中心中的一部分很有可能是在非常低效運轉(zhuǎn)。”林新華說,而且規(guī)模越大,問題越多:“我相信在實際運維和管理中遇到的問題會遠比字節(jié)跳動論文中指出的要多得多。”

  這些技術(shù)細節(jié)決定了,算力集群的建設(shè)、運維和應(yīng)用等環(huán)節(jié),都非常依賴專業(yè)運維和技術(shù)隊伍。然而,熱火朝天部署智算中心的另一面,恰是專業(yè)人才的短缺。

  “如果數(shù)字準確的話,國內(nèi)已建和在建的智算中心超250座,但我不認為國內(nèi)有250支專業(yè)的隊伍來維護它們。”陳健直言不諱。在他看來,全國范圍內(nèi)能稱得上頂尖的一站式計算服務(wù)團隊的數(shù)量,“兩只手數(shù)得過來”。

  林新華也提出,算力服務(wù)器等軟硬件可以“說買就買”,但好的技術(shù)人員不是能馬上就批量培養(yǎng)出來的,“這么多智算中心,真的都能找到那么多專業(yè)的算力技術(shù)人員嗎?”

  記者了解到,國外的智算中心更偏向于公有云部署或在已有超算中心建設(shè)AI算力提供服務(wù),因為有現(xiàn)成的專業(yè)運維團隊和技術(shù)人員保障。比如美國國家科學(xué)基金會就在德州大學(xué)高級計算中心的基礎(chǔ)上,建設(shè)了相應(yīng)的智算集群。

  建議:讓有形的手和無形的手共同作用

  “無論是質(zhì)疑超建還是擔(dān)憂水平,大家本質(zhì)關(guān)心的,是一個面向需求、如何最優(yōu)匹配供給的問題。”陳健對《中國科學(xué)報》表示,厘清這一點至關(guān)重要。

  與水電不同,算力并不均質(zhì)化,各行各業(yè)所需的算力模式亦不盡相同,各類用戶會根據(jù)其需求尋找市場上最匹配的算力。“如果市場上有當然好,沒有,那就新建。”陳健說,其實新建算力中心并不可怕,關(guān)鍵要看是不是有“真金白銀的需求”。

  陳健認為,面對需求,寄望于國家沿用“計劃經(jīng)濟”方式、統(tǒng)籌各地方建設(shè)規(guī)劃的做法,顯然已經(jīng)過時且難度極大,極有可能由于規(guī)劃周期太長造成“建完發(fā)現(xiàn)需求變了”的尷尬。他建議,國家可適度調(diào)控政策這只“有形的手”,讓市場這只“無形的手”發(fā)揮作用。

  “比如,地方上如果有建設(shè)智算中心的計劃,初期可以通過調(diào)研粗略估計需求規(guī)模,之后可以根據(jù)需求變化來決定是否繼續(xù)‘加碼’和決定‘加碼’力度的大小,需求增長快就多加、增長慢就不加或少加。”他說,這種“動態(tài)持續(xù)增長式建設(shè)”方法,并行科技已有具體實踐,OpenAI訓(xùn)練GPT系列大模型的算力規(guī)模也是慢慢加上去的,事實證明,隨著需求變化來調(diào)整算力資源建設(shè)規(guī)模“基本上不會出大問題”。

  另外,陳健也想到,從頂層設(shè)計的角度,政策上還可以考慮從補貼需求側(cè)入手、驅(qū)動供給側(cè)以自我進化的方式打造智算產(chǎn)業(yè)。例如,國家政策層面可以要求地方政府拿出規(guī)劃智算中心建設(shè)所需財政支出的30%或50%(非指定具體數(shù)字,僅為參考),貼補給大模型企業(yè)等需求方,監(jiān)督他們在市場上自由購買算力服務(wù)。他認為,市場會“用腳投票”遴選出有競爭力的算力供給者,優(yōu)勝劣汰,讓“盲目上馬智算中心”沒有生存土壤。

  “但這樣做的話,其中也會涉及許多具體問題,比如如何做到公平分配、相關(guān)決策要做到合理合法合規(guī)等。”陳健說,如何破題,對于還處在智能時代初期的我們,未來還需要更多的研究和探索。

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復(fù)制
標題鏈接已成功復(fù)制

最新新聞

熱門新聞