最新四色米奇影视777在线看_暴躁少女csgo视频一_中文字幕乱码中文乱码_有什么好看的小说推荐_亚洲一卡2卡三卡4卡高清_国产成人精品无码免费看_成人免费120分钟啪啪_两性午夜刺激爽爽视频_国产成人av在线免播放app

首頁 > 資訊 > 數(shù)字化

國產(chǎn)高性能存儲,悄悄爆發(fā)

2025/04/10 09:01      數(shù)智前線 趙艷秋 周享玥


   AI存力卡位戰(zhàn),國產(chǎn)存儲如何破局?

  文|趙艷秋 周享玥

  編|石兆

  今年開年后,當DeepSeek等攪動的大模型應用熱潮在各行業(yè)迅速蔓延時,一場更底層的競賽,已在AI基礎設施領域悄然爆發(fā)。國產(chǎn)存儲企業(yè),正在高性能存儲市場上發(fā)起攻勢。

  “DeepSeek等在應用側產(chǎn)生的效果,徹底點燃了企業(yè)應用AI的信心。”京東云相關負責人告訴數(shù)智前線,大中型企業(yè)今年普遍在AI基礎設施上投入更多資源和預算。但第三方調研顯示,超過76%的企業(yè)AI項目,因存儲性能利用率不足,直接造成15%-30%的算力損耗。

  存儲,這個此前被經(jīng)常“忽視”的賽道,在今天正變得舉足輕重。高性能存儲已成為智算中心標配,占AI Infra的15%左右,而今年新增市場將是之前的數(shù)倍。

  僅第一季度,京東云就已基本完成兩個超大智算中心項目實施?蛻魧Υ鎯Φ囊篌@人地一致,就是高性能,以滿足他們大模型訓練和應用的需求。京東云提供存儲系統(tǒng),適配了業(yè)界最高的400G IB網(wǎng)絡,并成功將存儲帶寬利用率推升至84%。

  此前,高性能存儲幾乎是國際廠商的天下。而在新一輪AI變局中,市場爭奪和重塑的背后,是國內(nèi)企業(yè)在技術商業(yè)以及人才團隊上,長達10多年的積累。

  01

  新一輪AI趨勢下,存力變化幾何?

  新一輪人工智能,對高性能存儲的技術商業(yè)影響極大。

  DeepSeek推出后,推理市場正在爆發(fā)。IDC預測,2025年推理工作負載的占比,將達到近7成。人們可能認為,推理對AI基礎設施的性能要求要低于訓練,但事實并非如此。

  “從DeepSeek發(fā)布的產(chǎn)品特征來看,對于存儲性能的需求,還會再上一個臺階。理論上,推理對存儲的讀取性能要求,會遠超訓練。”京東云資深人士說,以DeepSeek的671B模型為例,要求存儲讀取速度突破每秒TB級,才能支撐GPU推理集群的秒級擴展。而只有這樣的彈性擴展能力,才能達到人們縮短首次token輸出時間的期望。

  隨著AI應用落地,很多企業(yè)也開始重視推理成本。DeepSeek已采用如PD分離技術,將推理的預填充(Prefill)和解碼(Decode)階段分開部署,分配不同硬件資源,來提升推理性價比。在一些真實場景中,PD分離讓長文本生成速度提升5倍以上。京東云人士則告訴數(shù)智前線,PD分離結合存儲、kv緩存,可進一步大幅提升推理性價比,該團隊已在這一方向上展開技術攻關。

  除了推理市場給高性能存儲帶來的挑戰(zhàn),后訓練的增加,對存力市場的影響也不小。業(yè)界的共識是,全球只有少數(shù)幾家企業(yè)將繼續(xù)做預訓練,在大模型技術上持續(xù)摸高。而大多數(shù)大中型企業(yè),做后訓練的頻率將增加。

  相比于預訓練,后訓練對語料數(shù)量要求更少,訓練周期也會縮短,但與預訓練一樣,對存儲在時延、吞吐和帶寬等性能以及可靠性上,同樣提出極致高要求。這就像“數(shù)據(jù)輸油管”,如果輸送得不夠快、不夠穩(wěn)定,耗資巨大的GPU集群就無法工作。

  在行業(yè)市場,汽車智駕、AI醫(yī)療等賽道,成為存儲性能的角斗場。

  某醫(yī)療AI企業(yè)影像診斷系統(tǒng),因小文件處理延遲,導致急診響應超時率升高至12%。2024年,國家醫(yī)保局在放射檢查類相關指南中,首次將人工智能輔助診斷列入立項指南,在一些三甲醫(yī)院,AI輔助閱片已落地應用。AI輔助閱片要求在10多分鐘內(nèi),就要完成1T數(shù)據(jù)的讀取、加載和訓練,醫(yī)療市場的原有存儲系統(tǒng)正受到挑戰(zhàn)。

  在汽車行業(yè),多家車企在智駕系統(tǒng)上展開了“軍備競賽”。頻繁的模型訓練,對有強大并行處理能力的文件存儲系統(tǒng),提出強烈需求。一臺L3級別的自動駕駛測試車,平均每天產(chǎn)生60TB的數(shù)據(jù),完整測試產(chǎn)生的數(shù)百PB數(shù)據(jù),需要存儲30年以上。車企也對低成本海量存儲提出明確需求。

  此前,高性能存儲市場,基本被海外產(chǎn)品覆蓋。最近兩年,國產(chǎn)存儲企業(yè)嶄露頭角,競賽已在日夜吞吐數(shù)據(jù)的存儲系統(tǒng)中,悄然打響。

  02

  國產(chǎn)高性能存儲在激烈爭奪市場

  早期,國內(nèi)企業(yè)如新能源車企,在構建AI Infra時,從算力、網(wǎng)絡到存儲,幾乎都要花天價,采購海外廠商的全套技術棧。當時,國內(nèi)沒有相應的自研高性能存儲技術,主要以海外企業(yè)DDN、IBM GPFS為主。

  不過,市場已發(fā)生快速轉變。國產(chǎn)高性能存儲在近幾年介入市場,并展現(xiàn)出強勁勢頭。2024年,京東云高性能存儲平臺“云海”,營收增長就高達10倍。云海是京東云在2022推出的國產(chǎn)全自研并行文件存儲系統(tǒng)。他們期望抓住當下新一輪AI發(fā)展中,頭部用戶構建、升級AI Infra的時機,重塑市場格局。

  某頭部銀行訓練金融大模型時,原有存儲系統(tǒng)性能無法滿足需求,在訓練過程中出現(xiàn)了數(shù)據(jù)流動低效、帶寬不夠大、吞吐性能不足、算力閑置等痛點,大模型訓練跑不起來。在替換成云海高性能存儲后,通過存算分離技術架構,實現(xiàn)了超50GiB/S吞吐帶寬,文件響應延遲低至100微秒,大幅減少GPU等待時間,讓模型訓練周期縮短40%。

  在一些新能源車企,在數(shù)千卡規(guī)模模型訓練集群中,結合云海,比使用海外技術,成本降低了大約一半以上。

  但國產(chǎn)高性能存儲,并不是橫空出世,需要企業(yè)突破性能、可靠性、成本以及自主可控四大難關。

  在這個過程中,云海經(jīng)歷了三大發(fā)展階段:存算分離階段、AI及大模型訓練階段、推理潮階段,并聚焦研發(fā)了高性能并行文件存儲系統(tǒng)、統(tǒng)一引擎等相關核心技術,以自研、高性能、低成本的系統(tǒng)角逐市場。

  以高性能的并行文件系統(tǒng)為例,它更適合人工智能場景下,頻繁小文件隨機讀寫和低延遲場景。比如,在AI輔助診斷系統(tǒng),可將數(shù)十萬個CT切片,多個節(jié)點同時對數(shù)據(jù)進行讀寫操作、并行分析。

  為了提升大模型訓練速度,需要對大規(guī)模數(shù)據(jù)集進行快速加載,且一般采用數(shù)百甚至上萬張GPU構成計算集群進行高效的并行計算,需要高并發(fā)輸入/輸出(I/O)處理,而訓練數(shù)據(jù)集呈現(xiàn)海量小文件的特點,文件量在幾億到幾十億量級,對應的帶寬需求可能每秒要達到上TB,這就要求存儲系統(tǒng)具備強大的數(shù)據(jù)管理能力。

  目前,業(yè)界有一些開源技術,而自研高性能并行文件的企業(yè)僅寥寥幾家。京東云是其中之一,將系統(tǒng)性能“壓榨”到極致。一家客戶在選型時,將云海與海外產(chǎn)品PK,最終得出的結論是,云海性能與海外產(chǎn)品相當,但網(wǎng)絡帶寬利用率,高出近3個百分點。以單節(jié)點95GB/s的讀帶寬、60GB/s的寫帶寬,進一步拉低了國產(chǎn)存儲與國際老牌廠商的差距。

  在另一個創(chuàng)新點——統(tǒng)一存儲引擎上,傳統(tǒng)上有不同存儲類型,導致企業(yè)內(nèi)部的存儲系統(tǒng)五花八門。之前有客戶買了五套存儲系統(tǒng),導致數(shù)據(jù)很難統(tǒng)籌,成了大模型訓練應用的掣肘。得益于京東云團隊在存儲技術上多年的積累、在多業(yè)務場景下的實戰(zhàn),云海在設計時,得以實現(xiàn)高度的抽象化,從而讓一個引擎,滿足企業(yè)內(nèi)部多元場景的需求。

  存儲系統(tǒng)的可靠性,幾乎是企業(yè)構建底座的底線。存儲一旦出問題,數(shù)據(jù)丟失,將帶來災難性問題。而可靠性的追求永無止境,關鍵要找到它與性能、成本之間的最佳平衡點。京東云的創(chuàng)新涉及算法、架構,并獲得了國家相關專利。“京東云云海未出現(xiàn)任何導致客戶服務中斷的故障。”上述資深人士說。

  根據(jù)信通院測試,云海代碼自研率達到98.9%+,并全面支持國產(chǎn)硬件環(huán)境,這需要與國產(chǎn)多元芯片、操作系統(tǒng),做大量對接、優(yōu)化和相互認證。而在支持國產(chǎn)化的情況下,云海能做到在一些主流算力平臺上,在CPU主頻相同的情況下,性能與X86平臺近乎等同,而性價比更高。這讓客戶能落地大模型,并獲得正向收益。

  03

  商業(yè)化兩年,從懷疑到認可

  在替代國外存儲產(chǎn)品時,國產(chǎn)存儲經(jīng)歷了客戶態(tài)度從懷疑到認可的轉變過程。

  “起初,客戶難免會有所顧慮,國產(chǎn)全自研的云海高性能存儲,是否能穩(wěn)定可靠地支持AI Infra的要求?”京東云相關負責人對數(shù)智前線說。但隨著與客戶的持續(xù)溝通、PoC測試,以及越來越多頭部客戶案例的出現(xiàn),“大家逐漸認識到云海不僅能夠替代,甚至在成本和性能上可能優(yōu)于國外存儲產(chǎn)品”。

  這個過程中,京東云云海也逐漸形成一套自己的落地方法論和典型案例集。

  例如,客戶在做存儲產(chǎn)品選擇時,一般會重點關注兩大因素:第一,是否有品牌背書,以避免產(chǎn)品廠商突然消失或停止運維的風險。第二,技術和服務能力如何。

  云海在這兩方面都進行了強化,借助于京東云品牌,以技術能力打動客戶。

  京東云資深人士告訴數(shù)智前線,在品牌背書方面,云海不僅歷經(jīng)了京東集團10多年大規(guī)模高流量場景驗證,也是國內(nèi)互聯(lián)網(wǎng)廠商中,唯一一家支持存儲系統(tǒng)與云平臺解耦,以獨立產(chǎn)品組件實現(xiàn)輕量化向線下輸出的。

  而在技術能力方面,云海80%以上的項目都通過了用戶的PoC測試。在PoC過程中,客戶能夠清晰了解存儲產(chǎn)品的性能、穩(wěn)定性、故障處理等能力。

  另外,是否有在頭部企業(yè)的成熟應用案例,并能快速復制到其他企業(yè),也是打動客戶的關鍵。上述人士透露,商業(yè)化兩年間,云海已在智能駕駛、銀行、券商、泛互聯(lián)網(wǎng)等行業(yè)的頭部企業(yè)中,實現(xiàn)了成功落地。

  在解決傳統(tǒng)基礎設施存算分離問題的階段,云海曾協(xié)助中信證券、中信建投等頭部券商和銀行完成了存算分離的工作。在泛互聯(lián)網(wǎng)行業(yè),云海幫助荔枝FM和墨跡天氣實現(xiàn)了綜合存儲成本直降30%……

  這些云海的第一階段的客戶,在最新這波大模型浪潮中,基于之前建立的信任基礎,實現(xiàn)了延續(xù)。“只要之前用我們存算分離存儲系統(tǒng)的,現(xiàn)在在AI Infra層面,有并行文件高性能存儲需求的,幾乎100%都選擇了云海。 ”上述人士告訴數(shù)智前線。

  某頭部券商的傳統(tǒng)存儲架構,隨著其金融業(yè)務擴大,逐漸暴露出資源利用率低、存儲架構不夠靈活、存儲性能不足、故障難恢復等問題,為支撐業(yè)務發(fā)展,該券商基于云海構建了統(tǒng)一云原生存儲架構體系,實現(xiàn)數(shù)據(jù)高效存儲與流動,滿足了“小微化、高頻化”的業(yè)務新模式,支撐證券業(yè)務系統(tǒng)頻繁變更。同時,存儲平臺兼容多存儲接口類型,與用戶業(yè)務系統(tǒng)無縫鏈接。

  國內(nèi)某汽車廠商在做大模型訓練時,面臨GPU集群閑置的問題,希望存儲廠商能幫忙提升集群使用效率。“我們之前給它做了估算,GPU集群閑置5%左右的時間,成本就已經(jīng)與重建一套分布式存儲集群相當。”京東云資深人士告訴數(shù)智前線,為了將GPU的等待時間降下來,云海做了一套高性能并行文件系統(tǒng)解決方案,來支撐它約100T的數(shù)據(jù)集訓練,實現(xiàn)秒級讀寫。

  隨著大模型應用的爆發(fā)式增長,AI基礎設施領域正經(jīng)歷一場前所未有的變革。從金融到汽車,從互聯(lián)網(wǎng)到醫(yī)療,各行業(yè)對高性能AI基礎設施都提出迫切需求。而在激烈角逐中,高性能存儲作為關鍵環(huán)節(jié),正見證國產(chǎn)力量的強勢崛起。

  榜單收錄、高管收錄、融資收錄、活動收錄可發(fā)送郵件至news#citmt.cn(把#換成@)。

海報生成中...

分享到微博

掃描二維碼分享到微信

分享到微信
一鍵復制
標題鏈接已成功復制

最新新聞

熱門新聞