开云kaiyun体育:AIGC海潮之下锐捷怎么为算力搜集注入“智能”

  wnsr     |      2024-07-10 17:29

  此刻,AI时间正正在继续赋能财产革新。继文本和图像之后,Sora的横空降生让AI海潮囊括至视频周围,促使AI众模态周围的奔腾式发扬。以AIGC为代外的交易操纵正正在重塑人类的研习途径、事业形式以致生存节律,引颈咱们进入一个更为智能、便捷的新时期。

  AIGC时期,大模子参数目继续飙升,算力需求也随之发生式拉长,这就央求汇集或许承载更大领域的GPU集群。以GPT-4为例,其参数目已跃升至惊人的1.8万亿,教练所需的算力更是高达4680P,惟有万卡集群或许供给足够的算力声援,知足大模子教练的需求。

  因为GPT-4扩展MoE引入了大方的All to All通讯,使机内和机间通讯的比例简直抵达了1:1,机间All to All通讯是依赖交流机转发实行传输,是以汇集通讯对GPU操纵率的影响尤其彰着。这意味着,交流机须要升级到800G和1.6T的规格,以知足大模子教练进程中的超大带宽需求。

  其余,正在修建大领域教练集群时,往往装备罕睹以万计的高职能GPU,旨正在声援并行管制众个繁复的模子教练工作。这种众工作并行情况极大地减少了流量的繁复性和动态性,对汇集体系的负载平衡才具提出了史无前例的挑衅。是以,汇集架构须要具备肯定的乖巧性和可扩展性,以应对延续变更的流量需求。

  面向下一代AI云效劳的智算核心汇集开发,锐捷汇集正在客岁推出了AI-Fabric智算核心汇集管理计划和AI-FlexiForce智算核心汇集管理计划,以其高模糊、大带宽、高可用的性情,可操纵于大数据管制、呆板研习、AIGC众种交易场景,助力客户修建万卡级其它智算核心汇集,撑持AI交易神速发扬。

  锐捷汇集AI-FlexiForce智算核心汇集管理计划采用NCP+NCF为根底模块横向扩展的三级汇集架构,并基于高职能芯片时间,通过将数据流切分成等长的Cell并负载到一共链道,提拔汇集带宽操纵率;基于VOQ+Credit的端到端流控机制竣工与交易无闭的无损自闭环汇集,助力交易算力提拔。

  AI-FlexiForce计划通过改进性地操纵链道负载和堵塞独揽时间,基本性管理汇集中的堵塞冲突题目,提拔GPU之间通讯和筹划服从,加快企业大模子操纵的推出。同时,锐捷汇集打制了散布式OS,意正在竣工散布式计划架构的团结统制根底上,最大水平低重体系性危急,提拔AI教练汇集的持久不变运转。

开云kaiyun体育:AIGC海潮之下锐捷怎么为算力搜集注入“智能”(图1)

  为了适宜客户的普适性场景,锐捷汇集正在本年改进性地推出了AILB负载平衡管理计划,并从1.0版本继续迭代升级至2.0版本。依附其卓绝的职能与乖巧性,AILB计划竣工了众工作情况下差别模子间的数据通信。权熙哲指出,“借助AILB计划,客户能够更好地竣事端到端的链道遴选,竣工端到端的高模糊。”

  基于GPU间有法则的传输流量特质及Leaf/Spine之间1:1收敛的特质,汇集装备以Leaf分组,为Leaf接入地一共网卡,自愿预经营全体负载平衡途径;主道由与其它等价途径变成1主众备,AILB计划的疾切时间,竣工10ms内竣事途径切换。

  据悉,AILB计划能够叠加单级PFC(防御“众打一”)修建无损Fabric,无需ECN端网对接,竣工GPU网卡与外部汇集解耦。AILB计划正在16节点PerfTest测试中,带宽操纵率高达97.6%,其神速的Failover切换时分,保护教练交易的接续性。该计划声援智算核心众租户摆设形式,实用于非Mellanox系列网卡。

  目前,锐捷汇集智算核心汇集管理计划为跨行业通用型,不特定于某个简单行业,而是普通实用于AI大模子公司、政府行业、电力能源行业(如光伏企业)、IDC公司等等,为客户供给特别专业的时间效劳,助力他们应对商场挑衅,竣工可继续发扬。

  正在MWC2024展区,锐捷汇集展出了RG-S6990-128QC数据核心交流机,以及高密度、低功耗的400G/800G LPO自研光模块,实用于数据核心、高职能筹划汇集、企业中心散布层,为数据核心效劳器和交流机供给经济高效的高速互联。

开云kaiyun体育:AIGC海潮之下锐捷怎么为算力搜集注入“智能”(图2)

  RG-S6990-128QC交流机是锐捷汇集面向高端数据核心和AIGC智算场景推出的新一代高职能、高密度盒式交流机。它采用优秀的硬件架构打算,供给128个400GE端口,一共端口均声援线Tbps,声援冗余可插拔电源和电扇,声援AI-Fabric计划RALB和AILB负载平衡时间,提拔AIGC智算场景卑鄙量带宽,缩短AI教练时长。

  权熙哲指出,“以51.2T芯片为根底,这款交流机或许供给128个400GE端口,声援高达1000张GPU卡的通讯领域。同时开云kaiyun体育:,高密度的接口打算使得单个交流机或许联贯更众效劳器,声援更大领域的效劳器集群,知足来日延续拉长的数据管制需求。”

  400G-QDD-DR4-SM1310模块打算用于400G光模块,采用QSFP-DD封装,MPO-12 APC接头接口,利用波长1310nm,需配套单模光纤利用,最大传输间隔为500m,能够竣工功耗低重50%,LPO时延低重90%,本钱低重15%,无需1分2跳线,领域减少一倍,仍可支持古板布线计划。

  正在本钱方面,跟着400G LPO光模块的DSP芯片量产,其本钱占比已从早期的30%以上降至此刻的10%掌握,明显提拔了产物的性价比。看待更高速度的800G及1.6T光模块,锐捷虽面对DSP芯片本钱占比拟高的挑衅,但仍极力于通过期间改进与领域效应来低重本钱。

  权熙哲以为,“咱们已正式宣告了400G与800G的LPO光模块,竣工了完全功耗低重领先60%的明显效力。实在而言,古板光模块也许破费高达15瓦的电力,而咱们的LPO光模块仅需4~5瓦,极大提拔了能效比。愿望通过锐捷的交流机加线性光模块,给客户供给一个极优的性价比。”

  下半年,锐捷汇集将推出800G及更高密度的交流机产物,同时,1.6T交流机及配套的线性光模块也正在紧锣密饱的研发中,估计正在来日两年内面世。咱们信任,通过不懈戮力,锐捷或许克制时间挑衅,促使光通讯周围向更高速度、更低功耗、更低本钱的偏向发扬。