| 技术参数及配置要求 | 业务服务器CPU:12*3.5英寸/EXP扩展/L6平台/2*(鲲鹏****,48Cre@2.6GHZ16DIMM)/4*GE/;内存:4*32G/DDR4-3200/ECC REGS;:硬盘1:2*960G/SATA-3/SSD/2.5”企业级;硬盘2:8*4T/SATA/HDD/2.5”企业级;Raid:9460-8V8口/2G/12Gb/支持RAID0、网络1:双口10G光口1、5、6、10等;(含模块),网络2:带外管理千兆RJ45;板载4*GE;电源:2*900W;电源线:配置和电源数量相等的国标电源线;导轨:配置上架导轨;三年维保和介质保留服务;硬件安装:硬件设备进场上架安装服务;操作系统:操作系统安装实施服务。 设备需搭载云平台管理系统,方便集群管理,应满足以下功能要求: (1)底层架构:集群软件底层必须采用自主研发的调度系统,不能使用k8s或基于k8s等开源调度系统二次开发的软件; (2)框架支持:预装主流学习框架,例如:tensorflow、caffe、mxnet、pytorch、paddlepaddle等主流的学习框架。 (3)在线开发:支持在线模型开发功能,提供JupyterLab、JupyterNoteBook、VS Code,Terminal等在线编程环境。 (4)资源虚拟化:采用轻量级容器虚拟化技术,实现对CPU、内存、磁盘等资源的虚拟化和统一管理。针对人工智能领域的特定需求,提供GPU等异构计算资源管理接口,实现对GPU等异构计算资源的虚拟化统一管理,支持为容器以直通方式挂载GPU等异构计算资源。 (5)无卡模式:当GPU数量不足时,允许用户可以使用无GPU卡模式启动原有任务,任务ID以及任务中的所有数据不丢失。 (6)显存切分:支持对运算卡显存切分,显存切分最小单位达到1MB。 (7)容器管理:支持快速创建多种深度学习开发调试环境的容器,支持web Terminal 访问容器(无需安装ssh服务),支持将创建的容器在线进行镜像打包,并支持将打包好的镜像上传镜像仓库,实现镜像版本的持续更新。 (8)任务重启:支持任务重启功能,任务重启过程中,任务中的所有数据不丢失,容器ID保持不变; (9)重置系统/更换镜像:对任务环境或者系统盘进行更换,更换完毕后,缓存盘与数据盘中的数据不丢失; (10)便携工具箱:支持Web Terminal,Jupyter,CodeServer,Tensorboard,Desktop,网盘存储等功能,并对容器中的服务进行转发鉴权。 (11)资源监控:自研底层监控服务,分钟级监控主机、容器资源使用率,支持监控运算卡使用率、显存使用率、温度、功率。 (12)运算卡配置:支持对运算卡进行配置,包含独享、切分配置以及故障隔离等操作。 (13)登录方式:支持微信扫码登录,短信登录,账号密码登录等多种登录方式。 (14)“后台式”文件上传:web页面上传大文件优化、提高用户上传大文件时的效率和稳定性,上传过程后台化,上传过程中用户可以操作其他功能,而不会因上传过程中占用太多系统资源而影响使用体验 (15)存储设备管理:支持添加NFS、GlusterFS、Ceph、Lustre、GPFS、Minio等存储,同时可以配置存储绑定的计算节点设备 (16)镜像上传:支持用户push、pull自定义镜像,推送过程中增加权限校验,用户名与密码与整体平台用户一致 (17)报价供应商需确保满足以上功能,交货前附相关证明材料。 |