搜索
登录注册

职位详情

岗位职责
1、负责智算中心GPU服务器及集群、高性能存储、IB/RoCE等高速网络等核心基础设施的7x24小时稳定运行监控与日常维护。
2、制定并落实标准化的智算中心运维操作规范(SOP)、应急响应预案(EOP)以及灾备恢复机制,保障系统可用性达到99.99%。
3、持续跟踪集群关键性能指标(如GPU利用率、网络带宽、存储IOPS等),识别性能瓶颈,提出并落地优化措施,提升资源使用效率。
4、为内部业务团队及重点客户提供高水平技术支持,协助解决复杂技术问题。
5、推进智算中心运维体系向标准化、自动化、智能化方向演进,持续优化运维服务管理流程。

岗位要求
1、计算机科学、通信工程或相关专业本科及以上学历。
2、5年以上数据中心运维经验,其中至少2年从事AI/HPC(高性能计算)或智算中心相关领域的运维工作。
3、掌握网络原理,深入理解TCP/IP协议栈,具备InfiniBand、RoCE等高性能网络的实际运维和故障定位能力。
4、了解GPU技术,熟悉NVIDIA GPU架构,熟练配置和管理GPU驱动、CUDA环境、容器化方案(如NVIDIA Docker),掌握DCGM、nvidia-smi等性能监控工具。
5、了解存储技术,熟悉至少一种分布式存储系统(如Ceph、Lustre、GPFS等)的架构设计与运维管理。
6、熟悉AI硬件及网络性能测试方法,具备NCCL测试实践经验,掌握智算集群常见性能调优策略。
7、精通集群管理,熟练使用至少一种主流集群管理或作业调度系统,如Slurm、Kubernetes(k8s)、OpenPBS/Torque等,了解其在AI训练/推理场景中的应用实践。
8、熟练运用至少一种脚本语言(如Shell、Python、Go),能独立编写自动化脚本与工具;有Ansible、SaltStack、Terraform等自动化配置管理工具使用经验。
9、获得华为HCIE-AI、RHCE/RHCA、CKA、NVIDIA等相关认证者优先;具备AI大模型训练集群或混合云智算平台运维经验者优先。
2026-05-22 12:33
IP属地:浙江杭州

职位福利

本科5-10年数据中心运维AIHPC智算中心GPU服务器、无损网络
企业发布信息图
新华三技术有限公司
不需要融资 · 10000人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

桌面系统维护工程师
9000-15000元/月
运维工程师3-5年本科视频会议运维桌面运维
杭州 滨江区
新能源项目实施及运维技术支持工程师(充电桩)
1-2万元/月
运维工程师3-5年本科
杭州 滨江区
新能源储能项目实施及运维支持实习工程师
140-160元/天
运维工程师经验不限本科
杭州 滨江区
运维工程师
5000-6000元/月
运维工程师经验不限大专MySQL/Oracle系统运维
杭州 滨江区
储能系统实施及运维技术支持工程师
1-2万元/月
运维工程师3-5年本科
杭州 滨江区
新能源运维与实施支持实习工程师(充电桩)
140-160元/天
运维工程师经验不限本科
杭州 滨江区
运维
4000-7000元/月
运维工程师1-3年大专业务运维,系统运维,电力,电网,国网
杭州 滨江区
实验室运维工程师
1-2万元/月
运维工程师3-5年本科
杭州 滨江区
网络运维技术人员
1.1-1.2万元/月
运维工程师3-5年大专系统运维TCP/IP协议华为华三思科网络故障应急处理网络安全策略实施网络性能优化
杭州 滨江区
网络运维技术人员
1.1-1.2万元/月
运维工程师3-5年大专系统运维TCP/IP协议华为华三思科网络故障应急处理网络安全策略实施网络性能优化
杭州 滨江区