技术参数及配置要求 | CPU :2* AMD EPYC Genoa 9354 32 Core/64 Thread 3.25G/280W/256MB 内存:24*32G DDR5 4800MHZ ECC REG(共计:768GB) 固态: SSD 7.68TB PCIe4.0 NVMe U.2 网络:双千兆以太网端口 PCIE插槽: 9 x PCIe5.0 x16 slots(FHFL)、1 x PCIe5.0 x8 slot(FHFL) GPU: 8*RTX 4090D涡轮 48G 电源: 大于或等于2000W(2+2)白金级高效冗余电源 操作系统:Linux 24.04 LTS 测试:5stageQA至少包括24小时负载99%的耐高温测试,75小时不宕机测试等。 配套支持:单机版AIMax 表盘式工作界面,从首页可以看到,AI Max 里所有的资源,已分配的资源,任务信息等。菜单界面平滑直观,所有功能一目了然。 系统预置种类丰富的任务镜像,支持各种机器学习框架,如:Caffe、TensorFlow、MxNET、Pytorch等。 用户使用时只需自定义资源配额( CPU、内存、GPU 等),选择训练框架并根据需求做出相应调整。 镜像制作允许用户自定义 python package,可支持本地环境 pull 和 push 镜像模型训练 基于 Kubernetes 的容器调度引擎,支持离线训练,成熟稳定;支持 TensorFlow 框架的多机多卡分布式训练,可通过 key-value 对的形式设置超参数;任务训练时,支持可视化及显示 loss 和 accuracy 变化曲线,可实时查看任务训练过程中的 log 输出;可动态调度任务到最优的节点上,保证资源使用的效率;同时支持 Jupyter,JupyterLab,PyCharm,Terminal 等多种交互式开发方式和调试。 模型训练、超参数调节、模型可视化、日志查看等一系列环节和工具,使用户可以聚焦在核心的算法设计上面,极大提高了工作效率。通过资源配额、任务调度和容错,使模型训练任务高效可靠;分布式任务使大规模网络模型的训练性能大大提高 |