刚收场的2025全国东说念主工智能大会暨东说念主工智能公共不断高档别会议(WAIC)上,华为展台展出一整面昇腾384超节点的“墙”。记者看到,不竭有不雅众与之合影。
超节点(SuperPod)成为本届WAIC的热门。除了华为,WAIC期间,上海仪电还长入曦智科技、壁仞科技、中兴通讯发布国内首个光互连光交换GPU超节点光跃LightSphere X,新华三推出H3C UniPoD S80000超节点,超聚变也展出了超节点有贪图。业内东说念主士展望这波超节点热度会延续下去。
超节点是一种粗疏大算力集群芯片协同问题的有贪图。通过整划算力芯片资源,在一个超节点内构建低蔓延、高带宽的算力实体,让单个超节点尽可能地面开释算力,幸免芯片舒坦,提高算力垄断效果,撑抓千亿乃至万亿参数模子的磨练和推理。
即即是在单颗算力芯片制程受限的情况下,超节点时期也能让集群性能陆续擢升。壁仞科技OCS超节点名目关联肃穆东说念主董朝锋告诉记者,在国内,作念超节点也曾是个显着的趋势,跟着算力集群迈入“万卡协同”时间,探讨已往算力的构建范式演进相当迫切。
超节点为什么火了?
从千卡集群到万卡集群、十万卡集群,算力芯片集群越来越大,是因为大模子越来越大,参数目也曾迈向万亿。要奈何作念好算力撑抓,业内不得不想考这个问题。
英伟达是较早布局超节点时期的代表厂商。英伟达GB300 NVLink72不错将72个GPU和36个CPU整合到单一平台。近期在布局超节点的国内厂商则包括AI芯片厂商和就业器厂商。
有芯片业内东说念主士向记者例如,一个万亿参数模子磨练可能是这么的:大致估算需要1万张GPU,但为了具备容错智力,要有高出1万张GPU。此外,要具备多个超节点,每个超节点内有几十张GPU,超节点里面也有冗余、容错智力,包括秒级容错和分钟级故障归附智力、鼎新智力。鼎新智力是指将万亿参数模子的磨练散布到每个GPU上作念并行计较。
在这个万卡算力芯片集群中,超节点是一个很中枢的意见。董朝锋告诉记者,若是单机8卡不错跑一个70亿参数的模子,当模子参数达到千亿、万亿,就需要更多GPU就业器。然而,传统AI就业器的scale out(横向拓展)互连由于线性度相干会导致算力性能的耗费。在莫得超节点的情况下,机柜之间由于线性度的影响会有算力性能耗费,导致“1+1”无法等于“2”。但若是有超节点,则能保证单个节点内的性能最优。
有从业者告诉记者,若是莫得超节点,一个机箱单机8卡,只可作念到每2卡之间的带宽、通讯蔓延一致。董朝锋告诉记者,超节点有两条道路,一是scale out横向拓展,二是scale up纵向拓展。纵向拓展即在一个节点内尽可能多地增多GPU,例如一个千卡集群中,每64卡是一个超节点,在这个超节点中,不错作念到卡间、机间的通讯带宽、通讯基本一致。
更多实用资讯技巧,请查看 配资平台推荐。
超节点时期中,光互连是主流方针之一,属于光通讯规模。光互连有全光交换、全光互连、光互连电交换道路。业内东说念主士告诉记者,与光互连电交换比较,光互连光交换不错依托于光芯片,将电交换智力转换成光交换智力,光的切换是纳秒级,因此不错活泼切换拓扑且带宽较高。光通讯可保证集群与集群之间高带宽、低蔓延。
这次上海仪电长入曦智科技、壁仞科技、中兴通讯发布的超节点有贪图就给与散布式光互连光交换时期,该有贪图使用曦智科技的光互连光交换芯片和壁仞科技的GPU液冷模组,搭载中兴通讯的AI就业器。新华三推出的超节点居品则基于以太左券和PCIe左券,可适用多种算力芯片,适用万亿级参数大模子磨练和推理。此外,WAIC上展出的华为昇腾384超节点可通过总线时期达成384个NPU(神经收罗处理器)之间的大带宽低时延互连。
超节点在国内越来越受到眷注,其背后,是因为超节点时期成为擢升芯片制程除外,另一条能提高芯片集群性能的旅途。跟着摩尔定律濒临“失灵”风险,鼓动芯片制程演进的难度增大,擢升单颗芯片的计较性能濒临挑战,业界需要寻找新的步骤来陆续擢升算力。
董朝锋告诉记者,在芯片擢升制程除外,超节点时期是能让集群性能擢升的步骤之一。短期内,国产AI芯片在制程工艺上与全国顶尖水平存在客不雅差距,国内厂商不错通过超节点有贪图部署更大规模的芯片集群来弥补单点性能的不及,以量补质,也能通过超节点时期让集群性能陆续擢升。其中光芯片也不错不依赖于高制程。
有业内东说念主士告诉记者,英伟达的互连有贪图相对阻塞,自有GPU、配套软硬件,国内一些厂商则在作念绽开生态。相较英伟达全套自研的道路,国内还莫得访佛英伟达这么成系统的时期体系。近期国内好多厂商包括就业器厂商皆在实施超节点,各家道路各不透顶一样,还需要时辰来发挥时期优劣。总体而言,国内光通讯时期在公共比较最初,与国外先进水平比较莫得显着代差。
粗疏阛阓竞争
本年国产芯片在AI就业器中的占比已在擢升。TrendForce集邦盘问数据清晰,客岁国内AI就业器芯片中,外购部分(包括英伟达、AMD)所占阛阓份额为63%。该机构最新展望,外购部分本年的占比将降至49%。
即便如斯,国外芯片厂商仍爱好中国阛阓。英伟达CEO黄仁勋在本月早些时候暗意,英伟达将推露面向中国阛阓的全新GPU。
除了通过互连时期优化擢升芯片集群的效果,国内芯片厂商在芯片遐想、阛阓战略上也在寻找步骤,粗疏阛阓竞争。
墨芯东说念主工智能这次在WAIC上展出了S40等计较卡。该公司关联肃穆东说念主告诉记者,与英伟达的竞争不可只在居品质能高下功夫,还不错选定间接竞争的战略。英伟达的GPU是通用型GPU,可用于磨练和推理,不会针对一些垂直行业极度作出改换,但国产芯片不错有一些改换。该公司的居品针对推理作念了优化,吞并面向AI推理场景,例如边际计较一体机,在特定场景下不错有更快计较速率和更低功耗。
上述公司关联肃穆东说念主告诉记者,好多芯片厂商主要面向广阔计较需求,该公司则给与软硬件结合的战略,在软件算法上给与寥落计较时期。与广阔计较的卡不同,面向寥落计较的卡对制程的条目不高,不错给与12nm制程。现在公司的居品比较适用于特定场景的小模子运算,后续将推出的新址品则界说为广义寥落的居品,适用于大模子计较。
其他一些国产芯片厂商也闪避了与国外AI芯片巨头的告成竞争。
云天励飞不异采纳了AI推理场景。该公司在WAIC期间书记将全面聚焦AI芯片,已往将要点围绕边际计较、云表大模子推理和具身智能畛域布局。云天励飞董事长兼CEO陈宁暗意,云侧推理更多商量多用户并行情况下的芯片硬件采购本钱、集群电费等运营本钱,边际计较则对芯片硬件采购本钱更敏锐,且更驻扎芯片与场景结合时的有用算力。他判断,以AI大模子和各样AI算法、推理芯片为中枢的AI时期,将在已往五年再行界说东说念主类所有的电子居品。
后摩智能近日则推出新一代芯片,面向端边场景。该公司新一代端边大模子AI芯片后摩漫界M50在INT8精度下的算力为160TOPS,在bFP16精度下的算力为100TFLOPS。现在该公司的芯单方面向平板、PC等耗尽末端,以及智能语音会议系统、运营商边际计较场景。该公司还给与存算一体时期,科罚传统芯片数据传输慢、功耗较高的问题。
后摩智能独创东说念主、CEO吴强暗意,定位端边大模子计较,一定进度上闪避了和巨头竞争高壁垒居品和已固化的阛阓,此外,还不错证实存算一体时期的上风,在新兴的AI PC、智能语音成就、具身智能等新兴赛说念找到位置。
泓川证券提示:文章来自网络,不代表本站观点。