大模型训练实践
支持数千卡分布式训练,为其提供高效稳定的训练环境。大规模训练资源效能提升:等效算力50% 、数据并行加速比90% 。
我们能提供
高性能基础设施适配
支持rdma容器网络,单机可达1.6tbps
支持高性能容器存储,可实现百万iops、百gb吞吐
高效调度
节点间tor交换机架构感知
通信、框架、调度高效协同
容错(节点故障时框架感知并要求调度器重分配)
端到端自动并行
支持自研通信库eccl
容英伟达、昆仑等多家芯片
云原生ai在资源弹性、跨节点架构感知,训练推理效率等多方面的能力显著提升,可最大化地帮助企业实现ai应用的快速交付与落地。
提供了用户态和内核态双引擎:用户态性能最优,内核态隔离性强。用户可以根据自己的需求灵活选择。
01
调度支持共享混部、独立调度,用户可根据需求灵活选择;支持拓扑感知以及亲和调度。
02
使用百度自研 ai 加速套件 aiak-traning,通信功能优化,tcp 场景提升43.7%,rdma提升11.4%。
03
百度自研推理加速引擎aiak-inference,推理效率极速提升,resnet 等可以加速15%-80%。
04
支持fluid operator与pfs/rapidfs等,能实现分布式缓存引擎加速与协同调度,训练效果提升5倍以上。
05