职位详情
岗位职责:
(1)负责HPC集群(CPU/GPU/异构计算节点)的部署与日常运维,管理Slurm/PBS/LSF等作业调度系统。
(2)开展并行计算任务(MPI/OpenMP)的资源调度优化与性能调优,提高整体运算效能。
(3)制定自动化运维策略,涵盖节点状态监控、故障自动恢复、日志集中分析等内容。
(4)构建监控告警平台(Prometheus/Grafana/),持续追踪集群运行状态及关键性能指标。
任职要求:
(1)具备全日制本科及以上学历,熟悉高性能计算架构,掌握Slurm/PBS等调度器使用,了解MPI/OpenMP并行编程模型。
(2)熟练进行Linux系统运维,掌握Shell/Python/Go中至少一种脚本语言,可独立开发自动化运维脚本。
(3)熟悉DevOps工具体系(如Ansible/Terraform/Jenkins/GitLabCI),了解容器化及云原生相关技术。
(4)具有Prometheus/Zabbix等监控系统的部署经验,能够快速识别和解决集群性能问题。
(5)具备强烈的责任意识和出色的故障排查能力,拥有良好的团队合作与沟通技巧。
(6)有GPU集群(NVIDIA/CUDA)运维或RDMA高速网络调优实践经历者优先。
(7)熟悉Lustre/GPFS等并行文件系统,或具备大规模存储架构优化经验。
(8)了解HPC与主流云平台(AWS/AzureBatch/阿里云)混合部署的技术方案。
(1)负责HPC集群(CPU/GPU/异构计算节点)的部署与日常运维,管理Slurm/PBS/LSF等作业调度系统。
(2)开展并行计算任务(MPI/OpenMP)的资源调度优化与性能调优,提高整体运算效能。
(3)制定自动化运维策略,涵盖节点状态监控、故障自动恢复、日志集中分析等内容。
(4)构建监控告警平台(Prometheus/Grafana/),持续追踪集群运行状态及关键性能指标。
任职要求:
(1)具备全日制本科及以上学历,熟悉高性能计算架构,掌握Slurm/PBS等调度器使用,了解MPI/OpenMP并行编程模型。
(2)熟练进行Linux系统运维,掌握Shell/Python/Go中至少一种脚本语言,可独立开发自动化运维脚本。
(3)熟悉DevOps工具体系(如Ansible/Terraform/Jenkins/GitLabCI),了解容器化及云原生相关技术。
(4)具有Prometheus/Zabbix等监控系统的部署经验,能够快速识别和解决集群性能问题。
(5)具备强烈的责任意识和出色的故障排查能力,拥有良好的团队合作与沟通技巧。
(6)有GPU集群(NVIDIA/CUDA)运维或RDMA高速网络调优实践经历者优先。
(7)熟悉Lustre/GPFS等并行文件系统,或具备大规模存储架构优化经验。
(8)了解HPC与主流云平台(AWS/AzureBatch/阿里云)混合部署的技术方案。
2026-06-04 13:05
IP属地:上海
职位福利
本科1-3年

上海开赟数字技术有限公司
未融资 · 20-99人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
sre运维工程师
2-3.5万元/月
运维开发工程师3-5年本科GolangJava英文读写能力良好Ansible/Salt/PuppetZabbix/Prometheus运维开发经验Python/ShellAWS
上海 普陀区

曹女士 · 品阔5日内活跃
运维开发工程师(基金证券行业+双休)
1-1.2万元/月
运维开发工程师1-3年本科系统运维PythonShellJenkinsNginxgitSQL网络运维C++
上海 徐汇区

李先生 · 德科信息有限公司昨日活跃
Devops运维开发(AWS)
2.5-2.8万元/月
运维开发工程师10年以上本科AWS cloudPython/ShellAnsible/Salt/PuppetJenkinsDockerKubernetes运维开发经验英文读写能力良好
上海 长宁区







