职位详情
1. 具备5-8年IDC运维领域从业经历,包含不少于2年面向智算集群(GPU/NPU)的建设或运维实践(条件优异者可适度放宽学历及年限要求)。
2. 熟悉服务器、存储、网络与安全设备的集成建设流程,精通高端算力服务器(如NVIDIA DGX、国产昇腾/寒武纪等)的部署实施;深入掌握RDMA高速网络技术,具备RoCE或InfiniBand组网设计、流量优化及故障定位能力。
3. 掌握OpenStack、Docker等容器化技术,能够完成虚拟机与容器环境的日常运营管理。
4. 熟悉Linux系统(CentOS/RHEL/Ubuntu)及主流国产操作系统(如麒麟、UOS、OpenEuler),可独立执行系统安装、内核参数调优和常规维护操作。
5. 熟知传统数据通信设备(交换机/路由器)以及防火墙、VPN等安全产品,具备VLAN、OSPF/BGP、ACL等协议的规划与配置经验。
6. 熟练运用Shell、Python语言,能编写脚本实现运维任务自动化处理。
7. 能够搭建并持续维护集群监控、日志收集与告警机制,具备性能评估与资源容量规划能力。
8. 了解智算场景下常用分布式存储架构,有实际部署、性能优化及故障处置经验。
9. 具备良好的沟通协调能力和团队合作意识,能适应项目交付阶段的工作强度与节奏;拥有主动服务意识和系统性排障能力,可独立应对集群实施与运维过程中的复杂技术问题。
1. 配合项目经理开展算力集群项目的整体规划、技术方案制定与落地交付,承担项目建设中的关键技术决策与难点攻关职责。
2. 负责智算服务器(GPU/NPU)与通用算力服务器的集成部署、驱动配置、性能验证及日常运维保障。
3. 设计并实施分布式存储系统,完成容量预估、性能调优及数据高可用策略部署。
4. 承担RDMA高速网络与传统数通网络的组网设计、配置调优、拥塞控制(如PFC/ECN)及安全策略落实工作。
5. 搭建并维护集群可观测性体系(涵盖监控、日志、告警),持续提升资源使用效率与系统运行稳定性。
6. 基于Kubernetes平台进行算力资源调度管理,解决容器环境中GPU共享、网络连通性、存储挂载等关键技术难题。
7. 编写自动化运维脚本,支持集群快速部署、弹性扩缩容及灾难恢复演练。
8. 参与运维标准流程、故障应急预案及SLA指标的制定,承担重大故障的响应处置与根因分析工作。
2. 熟悉服务器、存储、网络与安全设备的集成建设流程,精通高端算力服务器(如NVIDIA DGX、国产昇腾/寒武纪等)的部署实施;深入掌握RDMA高速网络技术,具备RoCE或InfiniBand组网设计、流量优化及故障定位能力。
3. 掌握OpenStack、Docker等容器化技术,能够完成虚拟机与容器环境的日常运营管理。
4. 熟悉Linux系统(CentOS/RHEL/Ubuntu)及主流国产操作系统(如麒麟、UOS、OpenEuler),可独立执行系统安装、内核参数调优和常规维护操作。
5. 熟知传统数据通信设备(交换机/路由器)以及防火墙、VPN等安全产品,具备VLAN、OSPF/BGP、ACL等协议的规划与配置经验。
6. 熟练运用Shell、Python语言,能编写脚本实现运维任务自动化处理。
7. 能够搭建并持续维护集群监控、日志收集与告警机制,具备性能评估与资源容量规划能力。
8. 了解智算场景下常用分布式存储架构,有实际部署、性能优化及故障处置经验。
9. 具备良好的沟通协调能力和团队合作意识,能适应项目交付阶段的工作强度与节奏;拥有主动服务意识和系统性排障能力,可独立应对集群实施与运维过程中的复杂技术问题。
1. 配合项目经理开展算力集群项目的整体规划、技术方案制定与落地交付,承担项目建设中的关键技术决策与难点攻关职责。
2. 负责智算服务器(GPU/NPU)与通用算力服务器的集成部署、驱动配置、性能验证及日常运维保障。
3. 设计并实施分布式存储系统,完成容量预估、性能调优及数据高可用策略部署。
4. 承担RDMA高速网络与传统数通网络的组网设计、配置调优、拥塞控制(如PFC/ECN)及安全策略落实工作。
5. 搭建并维护集群可观测性体系(涵盖监控、日志、告警),持续提升资源使用效率与系统运行稳定性。
6. 基于Kubernetes平台进行算力资源调度管理,解决容器环境中GPU共享、网络连通性、存储挂载等关键技术难题。
7. 编写自动化运维脚本,支持集群快速部署、弹性扩缩容及灾难恢复演练。
8. 参与运维标准流程、故障应急预案及SLA指标的制定,承担重大故障的响应处置与根因分析工作。
2026-06-22 13:52
IP属地:河南郑州
职位福利
大专3-5年

深圳市讯方技术股份有限公司
已上市 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
linux系统运维技术员
9000-10000元/月
运维工程师3-5年本科系统运维服务器运维KubernetesDockerShellPython运维自动化开发系统安全加固监控告警体系搭建
郑州 惠济区









