
这两天DeepSeek开源3FS并行文献系统的音尘,犹如向AI基础智商领域投下一枚深水炸弹。3FS每秒能搬运6.6TB数据,尽头于1秒钟传输完700部4K高清电影。还能自动调资源,国产芯片用了它开云(中国)KAIYUN·官方网站,跟外洋大牌的差距平直缩到15%。
这并非浅陋的本领迭代——当Llama3 70B模子单次考试需吞掉15PB数据(尽头于相接播放250万小时4K视频)时,公共AI履行室蓦然意志到:决定大模子考试着力的不仅是GPU算力,存储系统正成为影响历程的一大瓶颈。
当AI算力狂飙时,存储正在成为隐形战场
2024年,某头部AI公司曾因存储带宽不及,导致2000张A100显卡的算力诈欺率永久低于40%,单日经济耗损超百万好意思元。这清楚了AI时期的"木桶效应"——当GPU计较速率插足微秒级时,一次突发的存储抖动就可能导致整个这个词考试任务崩溃,让数周的计较后果一霎挥发。这大致亦然DeepSeek自研存储的原因。
数据骄傲,存储优化可平直将175B参数模子的考试周期压缩30%,对应百万好意思元级的资本被填平。而在推理端,当10%的极度苦求碰到存储蔓延波动时,P99反映时候会一霎冲破SLA红线,这恰是某自动驾驶公司在线职业突发左迁的根底诱因。
DeepSeek之是以选拔自研3FS的骨子,恰是发现了存储架构在AI应用中的进击性。《金融行业先进AI存力论说》》论说中提到,在相通的GPU算力界限下,存储性能的上下可能形成模子考试周期3倍的各异。在算力武备竞赛的背后,一场对于存储性能密度的暗战悄然升级,自研存储显得尤为进击。
5家头部厂商角逐AI存储,国产能否拔得头筹
比较于传统AI的需求,大模子对存力需求场景具罕有据量大、参数界限大、考试周期长等特色。
为了进步大模子考试速率,需要对大界限数据集进行快速加载,且一般采用数百以致上万张GPU组成计较集群进行高效的并行计较,需要高并发输入/输出(I/O)处理,而考试数据集呈现海量小文献的特色,文献量在几亿到几十亿量级,对应的带宽需求可能每秒要达到上TB,这就条目存储系统具备纷乱的数据处分材干,业界能达到该材干的仅寥寥几家。
小编征集了国表里优秀的并行存储居品,对具体材干进行对比
IBM行动老牌存储品牌,其居品从HPC场景奏效向AI场景演进。在公共AI场景获得庸俗应用的DDN,多个读、写带宽等要道性能野心上施展隆起,但DDN由于本领封锁性、特有化硬件等原因,导致用户迷惑资本过高。
国产厂商DeepSeek 3FS天然是开源的新址品,但相对老牌存储也有可以的施展,在读带宽材干上施展优异,单集群6.6TB/s,平均单节点36.7GB/s的读带宽。
咱们还惊喜发现,另一家国产厂商京东云云海,在这个专科领域相通施展出色,以单节点95GB/s的读带宽、60GB/s的写带宽,进一步拉低了国产存储与外洋老牌厂商的差距。相较于DeepSeek的3FS,京东云云海在提供高性能的同期适用性更广,可以同期忻悦DeepSeek、ChatGPT、LLaMA等20余种主流大模子的存力需求。
综上来看,跟着大模子快速向纵深场景演进,对存储的条目也越来越高,以DeepSeek、京东云云海等国产存储开云(中国)KAIYUN·官方网站,骄傲出在处理大界限数据集时的优厚性能,畴前国产存储能否拔得头筹,让咱们拭目而待。
Powered by 开云(中国)Kaiyun·官方网站-科技股份有限公司 @2013-2022 RSS地图 HTML地图
