搜索
登录注册

职位详情

岗位职责:
负责由8卡16台H100服务器构成的算力集群的现场日常巡检、运行监控与系统维护,确保集群持续稳定运转,保障算力服务的高可用性与输出稳定性。
实时掌握集群硬件运行状态,涵盖服务器主机、GPU模组、网络单元及存储设备等,及时识别并处置硬件异常,包括故障部件更换、兼容性问题诊断与处理。
承担集群操作系统的部署、驱动安装、虚拟化平台配置及相关软件环境的更新优化,保障软硬件协同工作的高效性与兼容性。
维护集群网络结构,确保各节点间通信畅通,及时排查网络故障,实施性能调优,提升数据交互的稳定性与传输效率。
定期开展集群性能评估与数据分析,采集关键性能参数,针对瓶颈环节提出改进方案并落地执行,持续提升整体计算效能。
制定并落实集群数据备份机制,保障信息资产安全,能够在数据丢失或系统异常时快速完成恢复操作。
建立完整的运维技术文档体系,包括设备清单、故障处理日志、标准操作流程等,确保运维过程规范、可查、可追溯。
参与集群扩容与版本升级项目,配合完成新设备上架、通电调试及现场技术支持工作。
对突发性系统故障具备快速响应能力,制定应急处理预案并组织实施,最大限度降低对业务连续性的影响。
关注行业前沿技术发展动态,结合实际运维经验,提出切实可行的技术优化与架构改进建议。

任职要求:
学历与专业:本科及以上学历,计算机科学与技术、电子信息工程、软件工程、自动化等相关专业背景。
工作经验:
具备2年以上服务器集群运维实践经验,有H100、A100等高性能GPU服务器运维经历者优先考虑。
具有大型算力中心或数据中心现场支持经验者优先。
专业技能:
熟悉服务器硬件组成,掌握CPU、内存、硬盘、GPU等核心部件的工作机制及常见故障排查方法。
熟练掌握Linux系统(如CentOS、Ubuntu)的安装配置、系统管理与性能优化,具备常用命令操作及脚本开发能力(如Shell、Python)。
熟悉GPU驱动程序、CUDA环境的部署与调试流程,了解GPU虚拟化相关技术者优先。
具备基础网络知识,理解TCP/IP协议栈,能完成交换机、路由器等网络设备的基本配置与故障定位。
具有一定存储系统认知,了解SAN、NAS等典型存储架构者优先。
熟练使用主流监控工具(如Zabbix、Prometheus)及日志分析工具,实现系统状态可视化管理。
个人素质:责任心强,具备良好的职业操守,能适应高强度工作节奏和7×24小时应急值守要求。
具备出色的故障分析与解决能力,能够独立判断并高效处理复杂系统问题。
拥有良好的沟通协作意识,能与研发、技术支持等多方团队紧密配合。
工作严谨细致,重视操作规范,具备较强的文档整理与撰写能力。
持有RHCE、CCNA等相关专业技术认证者优先。
2026-06-07 14:36
IP属地:广东广州

职位福利

学历不限经验不限网络运维系统运维运维经验
企业发布信息图
中通服建设有限公司
不需要融资 · 1000-9999人
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

桌面运维工程师
3000-5000元/月
运维工程师经验不限大专
广州 花都区 新华
运维工程师-线上面试
运维工程师本科
广州 花都区 新华
桌面运维工程师
3000-5000元/月
运维工程师经验不限大专
广州 花都区 新华
ai运维工程师
1-1.5万元/月
运维工程师3-5年本科
广州 花都区
售后运维工程师
4000-6000元/月
运维工程师经验不限大专网络运维实施交付运维系统运维IDC机房运维
广州 花都区
MES系统运维/实施工程师
7000-8000元/月
运维工程师1-3年大专MES系统实施交付运维
广州 花都区
售后运维工程师
5000-6000元/月
运维工程师经验不限大专系统集成安防巡检系统运维自动化运维维护
广州 花都区
云计算工程师
1-1.1万元/月
运维工程师3-5年大专
广州 越秀区
运维人员
5000-6000元/月
运维工程师1-3年中专/中技会开车运维经验
广州 番禺区