职位详情
岗位名称:HPC运维工程师
经验要求:5年以上
薪资范围:面议
【公司介绍】
天玑算·科研服务是国内领先的科研技术服务机构,专注于为高校、科研院所及企业提供全方位科研技术支持整体解决方案。核心业务涵盖模拟计算、科研算力、实验检测、学术培训等领域,目前已服务2000余家高校院所及企业,业务覆盖全国30余省市,累计服务用户超10万人。
“天玑智研”旗下“天玑算”平行公司"天玑智算",在成都、雅安、广西部署三大算力中心,构建了大规模HPC集群,总算力达20Pflops,硬件规模近亿元。中心采用Intel至强铂金五代处理器等业界领先架构,并具备服务器设计、研发、生产能力,月均出货量超500台,可满足各类科研深度定制需求。
公司汇聚 90 余名专业技术工程师,其中硕博计算工程师 50+,自主研发国内首个“算力+学习”综合应用平台——天玑智算云,为科研用户提供从底层计算资源到上层应用的全流程技术支持,有效助力科技创新与成果转化。
【岗位职责】
1、负责 HPC 高性能计算集群 的搭建、优化、运维,保障计算资源的高效稳定运行。
2、维护和优化 Slurm 任务调度系统,实现 HPC 作业的高效调度和资源管理。
3、负责 InfiniBand(IB)网络 及 RDMA 调优,提升集群网络通信性能。
4、通过 Slurm + 仿真软件(如 Ansys、MATLAB、COMSOL、RStudio)实现图形化远程计算应用支持。
5、负责 存储系统(Lustre、BeeGFS、Ceph) 的管理和优化,提升 HPC 计算存储性能。
6、监控 HPC 集群的运行状态,使用 Prometheus + Grafana 进行性能分析和故障排查。
7、对 OpenMPI、MVAPICH、Intel MPI 等进行优化调优,提高并行计算效率。
8、撰写相关技术文档,优化 HPC 集群运维流程,提升集群可靠性和效率。
【任职要求】
1、计算机、物理、数学、计算材料、计算化学或相关专业,本科学历及以上,5 年以上 HPC 运维经验。
2、熟练使用 Slurm 进行任务调度,掌握多租户管理、作业优先级、资源预留等机制。
3、熟悉 HPC 集群部署工具(xCAT、OpenHPC),能快速完成计算节点的批量部署和配置。
4、精通 OpenMPI、MVAPICH、Intel MPI 等并行计算框架,并具备调优经验。
5、熟悉 GCC、Intel Compiler、AOCC 等编译工具,能优化并编译HPC相关软件。
6、熟悉 InfiniBand(IB)网络调优,具备 RDMA、OFED、RoCE 配置和优化能力。
7、掌握 Docker、Apptainer(Singularity),并能够在 HPC 环境中运行容器化应用。
8、熟悉 HPC 领域常用仿真软件(如 Ansys、Gaussian、VASP、CP2K、COMSOL),具备编译、安装、调优经验。
9、熟悉 Linux 系统管理,能编写 Shell / Python / Ansible 脚本进行自动化运维。
10、了解 HPC 存储系统(Lustre、BeeGFS、Ceph),并具备存储性能优化经验。
11、具备 系统监控 经验,能使用 Prometheus + Grafana 进行 HPC 资源监控。
【加分项】
1、具备 大规模 HPC 超算运维经验(>1000 节点)
2、了解 AI 计算集群 和 GPU 加速计算(CUDA、TensorRT、MPI-GPU)
3、具备 编译优化经验(GCC、Intel Compiler、AOCC、LLVM)
4、熟悉 HTCondor、PBS Pro、LSF 等 HPC 调度系统
5、参与过 HPC 相关开源项目贡献
经验要求:5年以上
薪资范围:面议
【公司介绍】
天玑算·科研服务是国内领先的科研技术服务机构,专注于为高校、科研院所及企业提供全方位科研技术支持整体解决方案。核心业务涵盖模拟计算、科研算力、实验检测、学术培训等领域,目前已服务2000余家高校院所及企业,业务覆盖全国30余省市,累计服务用户超10万人。
“天玑智研”旗下“天玑算”平行公司"天玑智算",在成都、雅安、广西部署三大算力中心,构建了大规模HPC集群,总算力达20Pflops,硬件规模近亿元。中心采用Intel至强铂金五代处理器等业界领先架构,并具备服务器设计、研发、生产能力,月均出货量超500台,可满足各类科研深度定制需求。
公司汇聚 90 余名专业技术工程师,其中硕博计算工程师 50+,自主研发国内首个“算力+学习”综合应用平台——天玑智算云,为科研用户提供从底层计算资源到上层应用的全流程技术支持,有效助力科技创新与成果转化。
【岗位职责】
1、负责 HPC 高性能计算集群 的搭建、优化、运维,保障计算资源的高效稳定运行。
2、维护和优化 Slurm 任务调度系统,实现 HPC 作业的高效调度和资源管理。
3、负责 InfiniBand(IB)网络 及 RDMA 调优,提升集群网络通信性能。
4、通过 Slurm + 仿真软件(如 Ansys、MATLAB、COMSOL、RStudio)实现图形化远程计算应用支持。
5、负责 存储系统(Lustre、BeeGFS、Ceph) 的管理和优化,提升 HPC 计算存储性能。
6、监控 HPC 集群的运行状态,使用 Prometheus + Grafana 进行性能分析和故障排查。
7、对 OpenMPI、MVAPICH、Intel MPI 等进行优化调优,提高并行计算效率。
8、撰写相关技术文档,优化 HPC 集群运维流程,提升集群可靠性和效率。
【任职要求】
1、计算机、物理、数学、计算材料、计算化学或相关专业,本科学历及以上,5 年以上 HPC 运维经验。
2、熟练使用 Slurm 进行任务调度,掌握多租户管理、作业优先级、资源预留等机制。
3、熟悉 HPC 集群部署工具(xCAT、OpenHPC),能快速完成计算节点的批量部署和配置。
4、精通 OpenMPI、MVAPICH、Intel MPI 等并行计算框架,并具备调优经验。
5、熟悉 GCC、Intel Compiler、AOCC 等编译工具,能优化并编译HPC相关软件。
6、熟悉 InfiniBand(IB)网络调优,具备 RDMA、OFED、RoCE 配置和优化能力。
7、掌握 Docker、Apptainer(Singularity),并能够在 HPC 环境中运行容器化应用。
8、熟悉 HPC 领域常用仿真软件(如 Ansys、Gaussian、VASP、CP2K、COMSOL),具备编译、安装、调优经验。
9、熟悉 Linux 系统管理,能编写 Shell / Python / Ansible 脚本进行自动化运维。
10、了解 HPC 存储系统(Lustre、BeeGFS、Ceph),并具备存储性能优化经验。
11、具备 系统监控 经验,能使用 Prometheus + Grafana 进行 HPC 资源监控。
【加分项】
1、具备 大规模 HPC 超算运维经验(>1000 节点)
2、了解 AI 计算集群 和 GPU 加速计算(CUDA、TensorRT、MPI-GPU)
3、具备 编译优化经验(GCC、Intel Compiler、AOCC、LLVM)
4、熟悉 HTCondor、PBS Pro、LSF 等 HPC 调度系统
5、参与过 HPC 相关开源项目贡献
2026-06-24 14:29
IP属地:四川成都
职位福利
本科5-10年高性能计算HPC集群运维开发经验智算中心并行计算HPC调度系统

成都天玑算科技有限公司
未融资 · 100-499人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
系统运维技术员
4000-7000元/月
运维工程师3-5年大专网络运维实施交付运维通信相关专业MySQL/Oracle大数据运维经验系统运维linux运维开发经验计算机相关专业运维经验IDC机房运维
成都 郫都区
服务器硬件运维技术员
8000-10000元/月
运维工程师3-5年大专Golang网络运维通信相关专业运维开发/DevOpsPython/Shell计算机相关专业运维经验服务器硬件实施交付运维Docker系统运维运维开发经验服务器服务器零部件
成都 郫都区









