职位详情
岗位职责
1、负责智算中心GPU服务器及集群、高性能存储、IB/RoCE等高速网络核心基础设施的7x24小时稳定运行监控与日常维护。
2、制定并落实标准化的智算中心运维操作规范(SOP)、应急响应预案(EOP)以及灾备恢复机制,保障系统可用性达到99.99%。
3、持续跟踪集群关键性能指标(如GPU利用率、网络带宽、存储IOPS等),识别性能瓶颈,提出并执行优化措施,提升资源使用效率。
4、为内部业务团队及重点客户提供高水平技术支持,协助解决复杂技术问题。
5、推进智算中心运维体系向标准化、自动化、智能化方向演进,持续优化运维服务管理流程。
任职要求
1、计算机科学、通信工程或相关专业本科及以上学历。
2、具备5年以上数据中心运维经验,其中至少2年专注于AI/HPCC(高性能计算)或智算中心领域运维工作。
3、掌握网络原理,深入理解TCP/IP协议栈,必须拥有InfiniBand、RoCE等高速网络实际运维及故障排查经验。
4、精通集群管理,熟练掌握至少一种主流集群管理或作业调度系统,如Slurm、Kubernetes(k8s)、OpenPBS/Torque等,熟悉其在AI训练与推理场景中的应用实践。
5、了解存储技术,熟悉至少一种分布式存储系统(如Ceph、Lustre、GPFS等)的架构设计与运维操作。
6、熟悉GPU相关技术,了解NVIDIA GPU架构,能完成驱动、CUDA环境、容器化方案(如NVIDIA Docker)的部署配置,并掌握DCGM、nvidia-smi等性能监控工具的使用。
7、熟练使用至少一种脚本语言(如Shell、Python、Go),可独立开发自动化脚本和工具;有Ansible、SaltStack、Terraform等自动化配置管理工具的实际应用经验。
8、持有华为HCIE-AI、RHCE/RHCA、CKA、NVIDIA相关认证者优先;具备大模型训练集群、混合云智算平台运维经验者优先。
1、负责智算中心GPU服务器及集群、高性能存储、IB/RoCE等高速网络核心基础设施的7x24小时稳定运行监控与日常维护。
2、制定并落实标准化的智算中心运维操作规范(SOP)、应急响应预案(EOP)以及灾备恢复机制,保障系统可用性达到99.99%。
3、持续跟踪集群关键性能指标(如GPU利用率、网络带宽、存储IOPS等),识别性能瓶颈,提出并执行优化措施,提升资源使用效率。
4、为内部业务团队及重点客户提供高水平技术支持,协助解决复杂技术问题。
5、推进智算中心运维体系向标准化、自动化、智能化方向演进,持续优化运维服务管理流程。
任职要求
1、计算机科学、通信工程或相关专业本科及以上学历。
2、具备5年以上数据中心运维经验,其中至少2年专注于AI/HPCC(高性能计算)或智算中心领域运维工作。
3、掌握网络原理,深入理解TCP/IP协议栈,必须拥有InfiniBand、RoCE等高速网络实际运维及故障排查经验。
4、精通集群管理,熟练掌握至少一种主流集群管理或作业调度系统,如Slurm、Kubernetes(k8s)、OpenPBS/Torque等,熟悉其在AI训练与推理场景中的应用实践。
5、了解存储技术,熟悉至少一种分布式存储系统(如Ceph、Lustre、GPFS等)的架构设计与运维操作。
6、熟悉GPU相关技术,了解NVIDIA GPU架构,能完成驱动、CUDA环境、容器化方案(如NVIDIA Docker)的部署配置,并掌握DCGM、nvidia-smi等性能监控工具的使用。
7、熟练使用至少一种脚本语言(如Shell、Python、Go),可独立开发自动化脚本和工具;有Ansible、SaltStack、Terraform等自动化配置管理工具的实际应用经验。
8、持有华为HCIE-AI、RHCE/RHCA、CKA、NVIDIA相关认证者优先;具备大模型训练集群、混合云智算平台运维经验者优先。
2026-06-16 14:52
IP属地:四川成都
职位福利
本科5-10年

新华三技术有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
医院运维,底薪+另计算(值班费+餐补+奖金),六险一金
4000-6000元/月
运维工程师经验不限本科桌面运维网络运维系统运维计算机相关专业打印机/复印机维修经验
成都 武侯区 小天竺
系统运维工程师
9000-12000元/月
运维工程师3-5年本科网络运维DBAMySQL/OracleDocker系统运维运维开发/DevOps运维开发经验RedisPython/Shell计算机相关专业运维经验Kubernetes
成都 武侯区












