基本要求 商业版的集群管理与调度系统软件套装产品,包含: 3个服务器节点的正版软件授权许可证 可兼容市面上不同品牌的主流服务器。响应单位须承诺,若再次购买该软件,每节点收费不得高于本次软件中标的每节点价格。 集群软硬件需对接我单位以下两个设备: 1. 华为存储 OceanStor IP SAN,接口为IP SAN; 2. 万兆光交换机DELL N4032; 软件的第三个节点授权需要安装至以下设备,并与本次招标设备组成集群: 联想SR860服务器(配2块TESLA V100 GPU卡) 集群软硬件需由专业工程师实施,完成部署、安装、调试服务器硬件、网络、操作系统和集群管理软件等工作,完成高性能计算集群基本测试,并提供相关的测试报告。提供集群系统管理员手册、用户手册、功能测试报告、性能测试报告等文档。部署培训,包括软硬配置培训、使用及功能培训。3年7*24原厂远程支持服务。
集群管理功能 一、WEB功能 统一的集中式监控平台,管理软件基于B/S架构,能使用主流浏览器进行管理,中文管理界面;
二、节点监控 1.支持按节点查看服务器CPU利用率、GPU利用率、内存、网络I/O、负载、归属资源组、CPU核数在用/空闲、GPU在用/空闲和任务列表; 2.支持按节点查看各GPU卡的型号、GPU利用率、显存利用率、温度、功率和运行在上面的任务; 3.支持按节点查看实时性能详情:CPU温度、节点网络、GPU、节点磁盘分区、节点负载、节点内存、本地磁盘、Infiniband卡的性能监控; 4.支持按节点查看I/O状态、cpuIoWait百分比、网络IO、infinibandIO; 5.支持按节点查看服务器静态信息:OS-type、本地磁盘总量、CPU类型、CPU核数、GPU类型、GPU卡数; 6.支持监控集群整体的存储的已用、剩余和总量统计情况
三、GPU监控 1.集群GPU资源使用监控:开发环境使用数量、训练任务使用数量和空闲数量 2.集群GPU资源性能监控:集群GPU平均利用率和平均显存利用率监控 3.节点GPU使用及性能监控:针对节点上各GPU卡,支持按颜色标识GPU卡的当前使用状态及性能情况; 4.GPU卡性能详情监控:GPU利用率、显存使用情况、温度、功率、时钟频率、PCIe带宽等实时性能信息;
四、统计功能 1.资源统计:支持从集群、资源组、节点三个维度进行资源的性能及使用统计情况,包括CPU利用率、GPU利用率、显存利用率、内存利用率、CPU使用核数、GPU使用卡数等信息; 2.任务统计:支持统计一段时间内集群整体的任务总量、人均任务量、任务平均时长、任务平均GPU时长等信息;支持按任务规模和任务时长进行数量统计;支持按天展示集群处理任务数量; 3.用户/用户组统计:支持集群活跃用户统计;支持按用户和用户组统计某段时间内的任务数量、GPU卡时、CPU核数等资源使用情况;
五、报警功能 1.支持计算节点监控项的报警设置和报警策略,达到报警阈值时自动报警,支持包括GPU利用率、GPU温度、GPU掉卡、CPU利用率、磁盘空间、磁盘I/O、网络I/O、节点掉线等报警项,支持故障报警/一般报警/严重报警三种报警等级设置; 2.支持通过站内信、邮件等方式进行报警信息推送; 3.支持报警信息列表信息的查看、筛选和导出等操作;
六、节点管理 1.支持节点资源的动态添加、移除操作,支持通过模板进行节点的批量添加/删除操作; 2.支持节点列表信息查看,包括节点名称、状态、型号、IP、交换机名称等物理信息,支持节点上线/下线操作,支持节点IPMI跳转; 3.支持节点上缓存数据的列表信息查看,包括目录、大小、最近使用时间、是否在用,支持管理员手动选择数据进行清理操作;
作业调度功能 一、WEB功能 1.提供基于WEB界面的调度系统设置、队列设置、权限设置、作业提交、报表功能等; 2.支持WEB界面的资源申请、作业查询、删除、挂起和释放等操作;
二、用户管理功能 1.创建用户组,删除用户组和修改用户组相关信息,在用户组中批量导入用户的功能。 2.支持用户目录安全隔离,可以存储自己的文件和数据,并可进行管理。 3.支持创建及管理不同权限不同组别的用户/组,支持用户在线注册及管理员审批 4.可以修改用户组、组内成员删除和增加、GPU卡数、CPU核数、资源组等配额信息。
三、配额管理 1.提供任务配额管理:支持对用户/组配置最大作业数、最大处理器数、内存和硬盘等限制,支持用户按GPU显存申请资源分配; 2.提供常用高性能计算软件的应用模板,支持用户自定义应用模板;
四、作业管理 1.支持tensorflow、mxnet、pytorch、caffe等主流AI框架在作业调度系统上运行。 2.支持用户按需申请训练所需计算资源,包括CPU、GPU、内存等资源,支持自动适配计算节点或人工指定计算节点; 3.提供多种作业提交方式: WEB界面、E-shell命令行、作业脚本和可执行文件等 4.支持集群资源统一调度,支持多用户,多作业同时运行,通过调度器来给作业动态分配资源,支持单节点单GPU, 单节点多GPU,多节点多GPU以及多节点GPU,以及CPU/GPU混合等多种调度方式。 5.支持作业的列表查看,支持具体任务的资源使用、日志输出、容器实例、资源性能等任务信息的查看 6.支持tensorflow,pytorch, mxnet, caffe框架通过MPI的方式扩展分布式训练;通过简单的GPU计算资源、训练脚本配置即可提交单机多卡,多机多卡的MPI训练任务支持作业生命周期管理,包括任务查看、停止、恢复、删除等;
五、调度功能 1.提供主流的调度策略,公平竞争、QoS、抢占、轮询、回填、资源预留等;软件支持以优先级为准则的调度策略; 2.支持以资源限额为准则的调度策略;支持以负载均衡为准则的调度策略;数据交换支持预约机制; 3.支持对于因为系统临时错误导致的异常数据交换任务进行自动重新调度; 4.支持对于宕机(或网络不通的)节点上数据交换任务进行自动重新调度; 5.支持对数据交换任务的残留进程和非法任务进程的自动清理;
|