职位详情
岗位职责:
1、负责算力设备的日常维护,快速响应并处理各类异常情况;
2、承担AI训练与推理集群的运维工作,持续进行系统优化;
3、监控集群资源使用状态,确保训练任务稳定高效执行;
4、配合算法团队完成训练过程中问题排查及性能提升支持;
5、推进训练与推理混合调度能力的实施,提升资源利用效率。
任职要求:
1、计算机相关专业本科及以上学历,具备3年以上相关领域工作经验;
2、熟练掌握Kubernetes、Slurm等集群调度平台;
3、精通GPU/NPU等异构计算资源的管理与性能优化;
4、熟悉PyTorch、TensorFlow等主流框架的分布式运行机制;
5、有NCCL、RDMA等高性能网络调优实践者优先考虑;
6、具备较强的故障分析能力及良好的跨团队沟通协作能力。
1、负责算力设备的日常维护,快速响应并处理各类异常情况;
2、承担AI训练与推理集群的运维工作,持续进行系统优化;
3、监控集群资源使用状态,确保训练任务稳定高效执行;
4、配合算法团队完成训练过程中问题排查及性能提升支持;
5、推进训练与推理混合调度能力的实施,提升资源利用效率。
任职要求:
1、计算机相关专业本科及以上学历,具备3年以上相关领域工作经验;
2、熟练掌握Kubernetes、Slurm等集群调度平台;
3、精通GPU/NPU等异构计算资源的管理与性能优化;
4、熟悉PyTorch、TensorFlow等主流框架的分布式运行机制;
5、有NCCL、RDMA等高性能网络调优实践者优先考虑;
6、具备较强的故障分析能力及良好的跨团队沟通协作能力。
2026-06-16 13:00
IP属地:浙江杭州
职位福利
本科3-5年AI系统KubernetesK8S

中控技术股份有限公司
已上市 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
系统运维工程师(双休)
7000-12000元/月
运维工程师1年以下大专Python/ShellGolangAnsible/Salt/Puppet桌面运维网络运维系统运维计算机相关专业运维经验运维开发经验网络安全相关经验
杭州 滨江区

吕先生 · 顺久发今日活跃
高级运维工程师
1.5-2.5万元/月
运维工程师3-5年本科JavaDocker大数据运维经验系统运维运维开发/DevOps运维开发经验Python/Shell计算机相关专业运维经验Kubernetes
杭州 滨江区









