搜索
登录注册

职位详情

岗位职责:
(1)负责HPC集群(CPU/GPU/异构计算节点)的部署与日常运维,管理Slurm/PBS/LSF等作业调度系统。
(2)开展并行计算任务(MPI/OpenMP)的资源优化与性能调优,提高系统整体运算效能。
(3)制定自动化运维策略,涵盖节点状态监控、故障自动恢复、日志集中分析等功能模块。
(4)构建监控与告警平台(Prometheus/Grafana/),持续追踪集群运行状态及关键性能参数。

任职要求:
(1)全日制本科及以上学历,掌握HPC系统架构,具备Slurm/PBS类调度器实际操作经验,理解MPI/OpenMP并行编程机制。
(2)熟练进行Linux系统维护,掌握Shell/Python/Go中至少一种脚本语言,可开发自动化运维脚本。
(3)熟悉DevOps技术体系(Ansible/Terraform/Jenkins/GitLab CI),了解容器化及云原生相关技术。
(4)具有Prometheus/Zabbix等监控平台部署经验,能够快速识别和解决集群性能问题。
(5)具备高度的责任意识与故障排查能力,拥有良好的沟通协作素养。
(6)有GPU集群(NVIDIA/CUDA)运维或RDMA高速网络性能优化实践经历。
(7)了解Lustre/GPFS等并行文件系统,或具备大规模存储架构调优经验。
(8)知晓HPC与公有云平台(AWS/Azure Batch/阿里云)混合部署的技术路径。
2026-06-06 12:15
IP属地:上海

职位福利

本科1-3年
企业发布信息图
上海开赟数字技术有限公司
未融资 · 20-99人
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

sre运维工程师
2-3.5万元/月
运维开发工程师3-5年本科GolangJava英文读写能力良好Ansible/Salt/PuppetZabbix/Prometheus运维开发经验Python/ShellAWS
上海 普陀区
曹女士 · 品阔5日内活跃
高级SRE工程师
2-4万元/月
运维开发工程师5-10年本科
上海 普陀区
DevOps运维工程师
1.2-2.4万元/月
运维开发工程师1-3年本科
上海 普陀区
运维开发
290-350元/天
运维开发工程师经验不限本科
上海 徐汇区
运维开发工程师(基金证券行业+双休)
1-1.2万元/月
运维开发工程师1-3年本科系统运维PythonShellJenkinsNginxgitSQL网络运维C++
上海 徐汇区
高级运维开发工程师
1-2万元/月
运维开发工程师3-5年本科
上海 徐汇区
Devops运维开发(AWS)
2.5-2.8万元/月
运维开发工程师10年以上本科AWS cloudPython/ShellAnsible/Salt/PuppetJenkinsDockerKubernetes运维开发经验英文读写能力良好
上海 长宁区
ERP系统开发
1.2-1.5万元/月
运维开发工程师5-10年大专
上海 徐汇区
云运维开发工程师
1.6-2.4万元/月
运维开发工程师Java5-10年本科
上海 长宁区