职位详情
岗位职责:
(1)负责HPC集群(CPU/GPU/异构计算节点)的部署与日常运维,管理Slurm/PBS/LSF等作业调度系统。
(2)开展并行计算任务(MPI/OpenMP)的资源优化与性能调优,提高系统整体运算效能。
(3)制定自动化运维策略,涵盖节点状态监控、故障自动恢复、日志集中分析等功能模块。
(4)构建监控与告警平台(Prometheus/Grafana/),持续追踪集群运行状态及关键性能参数。
任职要求:
(1)全日制本科及以上学历,掌握HPC系统架构,具备Slurm/PBS类调度器实际操作经验,理解MPI/OpenMP并行编程机制。
(2)熟练进行Linux系统维护,掌握Shell/Python/Go中至少一种脚本语言,可开发自动化运维脚本。
(3)熟悉DevOps技术体系(Ansible/Terraform/Jenkins/GitLab CI),了解容器化及云原生相关技术。
(4)具有Prometheus/Zabbix等监控平台部署经验,能够快速识别和解决集群性能问题。
(5)具备高度的责任意识与故障排查能力,拥有良好的沟通协作素养。
(6)有GPU集群(NVIDIA/CUDA)运维或RDMA高速网络性能优化实践经历。
(7)了解Lustre/GPFS等并行文件系统,或具备大规模存储架构调优经验。
(8)知晓HPC与公有云平台(AWS/Azure Batch/阿里云)混合部署的技术路径。
(1)负责HPC集群(CPU/GPU/异构计算节点)的部署与日常运维,管理Slurm/PBS/LSF等作业调度系统。
(2)开展并行计算任务(MPI/OpenMP)的资源优化与性能调优,提高系统整体运算效能。
(3)制定自动化运维策略,涵盖节点状态监控、故障自动恢复、日志集中分析等功能模块。
(4)构建监控与告警平台(Prometheus/Grafana/),持续追踪集群运行状态及关键性能参数。
任职要求:
(1)全日制本科及以上学历,掌握HPC系统架构,具备Slurm/PBS类调度器实际操作经验,理解MPI/OpenMP并行编程机制。
(2)熟练进行Linux系统维护,掌握Shell/Python/Go中至少一种脚本语言,可开发自动化运维脚本。
(3)熟悉DevOps技术体系(Ansible/Terraform/Jenkins/GitLab CI),了解容器化及云原生相关技术。
(4)具有Prometheus/Zabbix等监控平台部署经验,能够快速识别和解决集群性能问题。
(5)具备高度的责任意识与故障排查能力,拥有良好的沟通协作素养。
(6)有GPU集群(NVIDIA/CUDA)运维或RDMA高速网络性能优化实践经历。
(7)了解Lustre/GPFS等并行文件系统,或具备大规模存储架构调优经验。
(8)知晓HPC与公有云平台(AWS/Azure Batch/阿里云)混合部署的技术路径。
2026-06-06 12:15
IP属地:上海
职位福利
本科1-3年

上海开赟数字技术有限公司
未融资 · 20-99人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
sre运维工程师
2-3.5万元/月
运维开发工程师3-5年本科GolangJava英文读写能力良好Ansible/Salt/PuppetZabbix/Prometheus运维开发经验Python/ShellAWS
上海 普陀区

曹女士 · 品阔5日内活跃
运维开发工程师(基金证券行业+双休)
1-1.2万元/月
运维开发工程师1-3年本科系统运维PythonShellJenkinsNginxgitSQL网络运维C++
上海 徐汇区

李先生 · 德科信息有限公司昨日活跃
Devops运维开发(AWS)
2.5-2.8万元/月
运维开发工程师10年以上本科AWS cloudPython/ShellAnsible/Salt/PuppetJenkinsDockerKubernetes运维开发经验英文读写能力良好
上海 长宁区







