搜索
登录注册

职位详情

岗位名称:HPC运维工程师
经验要求:5年以上
薪资范围:面议

【岗位职责】
1、负责高性能计算集群的部署、调优与日常维护,确保计算资源的高可用与稳定运行。
2、管理并优化Slurm作业调度系统,提升任务分配效率与资源利用率。
3、负责InfiniBand网络架构及RDMA技术的配置与性能调优,增强集群间通信效率。
4、集成Slurm与主流仿真工具(如Ansys、MATLAB、COMSOL、RStudio),支持图形化远程计算环境。
5、承担Lustre、BeeGFS、Ceph等存储系统的运维与优化,保障数据读写性能满足计算需求。
6、利用Prometheus结合Grafana实现集群状态监控,开展性能分析与故障定位。
7、对OpenMPI、MVAPICH、Intel MPI等并行计算环境进行参数调优,提升程序并行执行效率。
8、编写技术文档,持续改进运维流程,提高系统可靠性与整体运行效能。

【任职要求】
1、计算机、物理、数学、计算材料、计算化学或相关领域本科及以上学历,具备5年以上HPC系统运维经验。
2、熟练掌握Slurm调度系统的使用,理解多租户隔离、作业优先级控制和资源预留机制。
3、熟悉xCAT、OpenHPC等集群部署工具,可高效完成大批量计算节点的自动化安装与配置。
4、深入理解OpenMPI、MVAPICH、Intel MPI等并行框架,并有实际性能优化经验。
5、掌握GCC、Intel Compiler、AOCC等编译器工具链,能够完成HPC软件的编译与性能优化。
6、具备InfiniBand网络调优能力,熟悉RDMA、OFED、RoCE相关配置与性能提升方法。
7、熟练使用Docker、Apptainer(Singularity)容器技术,支持在HPC环境中部署容器化应用。
8、了解常见HPC仿真软件(如Ansys、Gaussian、VASP、CP2K、COMSOL)的安装、编译与调优流程。
9、精通Linux操作系统管理,能运用Shell / Python / Ansible 编写自动化运维脚本。
10、了解Lustre、BeeGFS、Ceph等分布式存储系统,具有实际性能调优经历。
11、具备HPC系统监控实践经验,熟悉Prometheus + Grafana监控方案的搭建与应用。

【加分项】
1、拥有超大规模HPC集群(>1000节点)运维背景
2、了解AI训练集群架构及GPU加速计算技术(CUDA、TensorRT、MPI-GPU)
3、具备编译器层级优化经验(GCC、Intel Compiler、AOCC、LLVM)
4、熟悉HTCondor、PBS Pro、LSF等其他HPC作业调度系统
5、曾参与HPC相关开源项目并有代码或文档贡献
2026-05-20 15:01
IP属地:四川成都

职位福利

本科5-10年高性能计算HPC集群运维开发经验智算中心并行计算HPC调度系统
企业发布信息图
成都天玑算科技有限公司
未融资 · 100-499人
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

技术支持工程师
5000-7000元/月
运维工程师经验不限大专售后运维运维技术支持实施交付运维通信相关专业计算机相关专业技术售后运维经验IDC机房运维
成都 郫都区
服务器设备维护与管理
6000-8000元/月
运维工程师3-5年大专实施交付运维HPC集群交付工程师服务器零部件计算机相关专业运维经验超算服务器IDC机房运维
成都 郫都区
存储运维工程师
7000-13000元/月
运维工程师经验不限本科RAID服务器存储硬件SAN网络网络运维系统运维实施交付运维计算机相关专业通信相关专业运维经验
成都 郫都区
电力配网运维技术员
1-1.1万元/月
运维工程师1-3年大专
成都 郫都区
软件运维技术员
4000-6000元/月
运维工程师3-5年大专网络运维实施交付运维通信相关专业MySQL/Oracl
成都 郫都区
运维工程师
8000-10000元/月
运维工程师3-5年大专实施交付运维DockerLinux系统运维软件运维HPC运维经验
成都 郫都区
HPC运维工程师
1.5-2万元/月
运维工程师5-10年本科高性能计算HPC集群运维开发经验智算中心并行计算HPC调度系统
成都 郫都区
驻场运维工程师
4000-5000元/月
运维工程师1年以下大专通信相关专业系统运维计算机相关专业运维经验
成都 郫都区
数通运维工程师(稳定不出差)
7000-13000元/月
运维工程师1-3年本科TCP/IPOSPF交换机WLAN路由器网络运维计算机相关专业通信相关专业运维经验
成都 郫都区