-
概述
百度太行提供了基于自研gpu硬件架构x-man的高性能实例,充分满足ai单机训练、分布式集群训练、ai推理部署等对算、存、传的性能诉求。
-
能力描述
- 异构计算 : 支持百度自研昆仑ai芯片,多规格商业gpu、fpga。 - x-man ai超级服务器 : gpu多卡nvlink互联,集群rdma网络通信。 - 百度太行弹性裸金属:统一计算架构,云产品无缝接入,性能零损耗。
方案架构
三大核心产品
ai计算
ai存储
ai容器
-
概述
百度沧海是百度智能云的存储产品体系,基于ai存储架构,从数据上云、数据存储、数据处理和数据加速为计算提供全链条的支撑。
-
能力描述
- 高效管理 : 5级存储 最全生命周期,统一数据湖、智能生命周期管理。 - 海量高性能 : 统一海量数据平台,高性能存储、高速缓存极致性能。 - 智能处理 : 三大类30 种智能处理能力,存算一体为数据和业务增效。
-
概述
ai容器提供gpu显存和算力的共享与隔离,集成paddlepaddle、tensorflow、pytorch等主流深度学习框架,支持ai任务编排、管理等。
-
能力描述
- gpu容器虚拟化 : 提供gpu资源共享、隔离,支持算力、显存编解码。 - ai容器调度 : 支持gang、spread、binpack调度,gpu架构感知调度。 - 加速引擎:支持千卡规模自研通信库;算子加速可提升数倍推理效率。
方案优势
高效率
提供ai超级服务器、rdma网络、大吞吐低延时的并行文件系统、ai增强的容器调度等软硬协同方案,大大提升训练速度和推理效率。
高密度
支持gpu资源共享与隔离、架构感知调度,让容器以更细颗粒度调度使用gpu资源,提升异构资源的容器化部署密度,提升资源利用率。
良好易用性
内置paddlepaddle、tensorflow、pytorch等多种主流深度学习框架,满足不同使用需求和习惯。
多场景部署
可根据业务需求在不同场景部署落地,公有云、idc等场景均可输出ai异构计算平台的奇异果体育app竞彩官网下载的解决方案。
乐高式拼接
ai计算、ai存储、ai容器三大核心产品均可各自独立提供服务,并能够无缝兼容存量的基础设施。
应用场景
营销广告
商品推荐、视频推荐、广告精准投放等场景的开发、训练和推理
无人驾驶
环境感知、路径规划、行为决策与控制等场景中的开发、训练等
生物科技
生物基因、药品研发等高性能、密集型计算场景的开发、训练、推理
语音语义
问答系统、文本分析、智能翻译等场景的开发、训练和推理
计算机视觉
人脸识别、静态图像识别、视频/监控识别、医疗影像诊断等场景的开发、训练、推理
场景实践
营销推荐
无人驾驶
-
场景描述
以推荐、广告ctr为核心场景的电商、短视频等业务,面对千亿维稀疏特征、tb级参数模型,模型开发、训练、推理过程中有大量gpu使用场景,训练场景下有大量数据并行和模型并行,gpu之间通信非常频繁、存储吞吐量较高。
-
业务价值
- 相比于cpu训练集群,性价比提升5~40倍 - 多个模型,ctr提升显著
-
场景描述
无人驾驶训练包括感知、决策规划、定位等场景,其中感知场景gpu使用量较多,感知场景的点云与cv场景模型结构本身比较简单,但有千万到亿条海量训练数据,需要数据并行训练。感知环节输出样本,输入给预测 决策模型进行训练
-
业务价值
- gpu资源利用率提升50%以上 - 极大减少自建基础设施维护成本
相关产品
-
弹性裸金属服务器bbc
百度太行提供了基于自研gpu硬件架构x-man的高性能实例,算力百分百用于真实业务,零损耗高性能,充分满足ai单机训练、分布式集群训练、ai推理部署等对算、存、传的性能诉求,极大提升企业端到端ai业务的部署效率。
-
并行文件存储pfs
百度沧海存储产品体系基于ai存储架构,从数据上云、数据存储、数据处理和数据加速为计算提供全链条的支撑。并行文件存储pfs,支持对象存储数据连接,实现冷热数据真正联通,成本降低60%以上,具备超高性能、超低延迟。
-
容器引擎服务cce
容器引擎服务cce(ai容器)提供gpu显存和算力的共享与隔离,集成paddlepaddle、tensorflow、pytorch等主流深度学习框架,支持ai任务编排、管理等。帮助企业提高gpu资源利用率、提升ai训练速度,实现降本增效。
高性能低成本的异构计算平台,企业上云智能化创新最佳选择
未登录
需要实名认证