霸凌 拳交 中国电信天翼云完成首个国产GPU万卡检修!4000亿参数大模子

发布日期:2024-10-07 13:26    点击次数:134

霸凌 拳交 中国电信天翼云完成首个国产GPU万卡检修!4000亿参数大模子

快科技9月20日音书,中国电信布告,天翼云自研的国内首个单集群万卡国产化全功能预检修云就业平台,照旧进展发布上线,基于华为昇腾芯片霸凌 拳交,并完成了万卡限制Llama3.1-405B大模子检修。

Llama3.1-405B看成4000亿参数限制的大模子,在息壤训推就业平台的维持下,经过多轮优化,MFU(算力诳骗率)达到国内特等水平。

另外,700亿参数大模子Llama2-70B在万卡限制下完成检修,MFU也处于业界特等水平。

中国电信天翼云完成首个国产GPU万卡检修!4000亿参数大模子

据悉,天翼云的这套平台具备万卡纳管和并行检修才调,基于HPFS PB级并行文献系统、CTCCL RDMA高速卡间互联技艺、Gang政策与拓扑感知的智算容器相同,以及慧聚自研漫衍式检修框架TeleFormers和平台,已毕万卡资源纳管、万卡限制并行检修。

其中,天翼云自研了AI框架Teleformers,对算子、通讯、数据处理进行优化,还有并行政策的自稳健调治,显赫进步了大模子检修的检修恶果。

在现在业内最大参数限制开源单体稠密模子Llama3.1-405B大模子检修测试中,性能确认达到海外同等水平。

算子优化方面,针对昇腾芯片的特质,在网罗结构层面临诸多高频算子进行了定制化翻新,构建了高性能算子集。

比如matmul算子,诳骗昇腾芯片的计较亲和性,将算子输入padding到特定的维度,大幅进步实施恶果,从而昭着裁汰了检修时候。

数据处理和活水线方面,通过设置合理的数据分片政策和HPFS条带化优化,连结数据预取与数据下千里技艺,大幅进步数据流的处理恶果和显露性;对预处理后的数据集进行了二次分片并提供就近缓存才调,减少GPU清闲时候。

中国电信天翼云完成首个国产GPU万卡检修!4000亿参数大模子

自稳健并行政策方面,基于对3D并行中各类计较单位的分析,天翼云狡计了多种自稳健的3D并行政策,依据模子限制和硬件资源的不同不错自动选拔得当的并行政策,充分诳骗计较资源和显存资源,裁汰模子检修中每轮的迭代时候。

中国电信天翼云完成首个国产GPU万卡检修!4000亿参数大模子

天翼云国产化万卡智算中心还有多项技艺破裂——

天翼云息壤检修就业平台基于软硬件协同狡计,提供全链路故障监控、基于主动感知的全链路故障监控和定位、CheckPoint秒级多级高速存储系统、容错优雅相同和模子编译缓存等系统,将万卡限制故障发现和惩处问题裁汰到业内前沿的分钟级,大幅进步灵验检修时候。

国产在线观看香蕉视频

自动断点续训系统:

开发丰富的故障库,基于此构建了多维故障感知系统,八成快速主动感知筹办故障事件和潜在的故障风险;

通过精确的故障休止和相同技巧,快速休止处理故障节点并重新相同新节点接办任务陆续检修,已毕无东说念骨干扰式断点续训,灵验减少GPU闲置时候。

中国电信天翼云完成首个国产GPU万卡检修!4000亿参数大模子

高速多级CheckPoint系统:

天翼云狡计基于多级存储的高速CheckPoint系统,通过两阶段异步存储,已毕高速写入内存,并最终异步写入远端系统;

针对断点收复场景,提供程度级故障原地快恢和远端快速收复才调,最终已毕对CheckPoint的秒级读写才调,大幅训斥断点收复时候、进步检修恶果。

中国电信天翼云完成首个国产GPU万卡检修!4000亿参数大模子

全链路检测器具链:

天翼云开发了全链路故障监控器具链,八成基于主动感知已毕全链路的故障监控和定位。

该器具链不错主动发现征战故障霸凌 拳交,并训斥检修中断的频次,确保检修历程的连结性和显露性。