职位详情
岗位职责:
1、负责部门服务器、存储、GPU算力设备及网络设备等硬件资源的全周期管理,涵盖需求分析、选型采购、上架部署、容量规划以及迭代升级等工作
2、承担GPU算力集群的搭建、配置、性能优化与日常维护,确保AI训练任务和推理服务的高效稳定运行
3、统筹中间件(如 MySQL、Redis、Elasticsearch、Nginx、Doris 等)的部署实施、集群构建、调优维护、数据备份恢复及故障应对,保障业务系统的高可用性
4、建设并持续优化覆盖全栈的监控体系(包括硬件、网络、AI算力、中间件及应用层),合理选用监控工具(如 Prometheus、Grafana、Zabbix、ELK 等),实现监控可视化与智能告警
5、主导DevOps体系构建,设计并推进符合公司实际业务需求的CI/CD流水线(基于 GitLab CI、Jenkins、GitHub Actions 等工具),支持研发团队实现自动化编译、测试与发布,提升交付效率
岗位要求:
1、计算机或信息技术相关专业,本科及以上学历;
2、具备5年以上IT运维工作经验,其中至少2年运维团队管理经历,有GPU算力集群运维背景或大型互联网/科技企业运维管理经验者优先;
3、熟练掌握Linux/Unix操作系统,具备扎实的Shell/Python/Go等至少一种编程语言能力,可独立开发自动化脚本或运维工具;
4、了解服务器、存储、GPU(NVIDIA A100/H100 等)、网络设备的硬件架构与运维标准;具备GPU集群部署、分布式训练环境配置(如 TensorFlow/PyTorch 分布式)、算力调度工具(如 Kubernetes GPU 调度、Slurm)使用经验者优先;
5、熟悉主流中间件(Redis、Kafka、Elasticsearch、Nginx、Doris)的集群部署、性能调优与故障处理流程;了解MySQL/PostgreSQL等数据库的基本运维操作(如备份恢复、主从复制);
6、熟练使用至少一种主流监控方案(Prometheus+Grafana/Zabbix/ELK),具备监控平台搭建与告警策略优化经验;有重大故障应急响应、根因定位与复盘总结经历,能制定有效的应急预案;
7、熟悉CI/CD流程的设计与实施,具备GitLab CI/Jenkins等工具的实际应用经验;掌握IaC工具(Terraform/Ansible),可实现基础设施的自动化部署与配置管理;具备容器化(Docker)、编排技术(Kubernetes)实践经验者优先;
8、具备基本的网络安全与数据安全意识,熟悉常见安全防护手段(如漏洞扫描、权限控制、数据加密与备份);了解相关IT合规规范与监管要求;
9、目标明确,具备良好的沟通表达能力和执行力,工作态度认真严谨,责任心强
1、负责部门服务器、存储、GPU算力设备及网络设备等硬件资源的全周期管理,涵盖需求分析、选型采购、上架部署、容量规划以及迭代升级等工作
2、承担GPU算力集群的搭建、配置、性能优化与日常维护,确保AI训练任务和推理服务的高效稳定运行
3、统筹中间件(如 MySQL、Redis、Elasticsearch、Nginx、Doris 等)的部署实施、集群构建、调优维护、数据备份恢复及故障应对,保障业务系统的高可用性
4、建设并持续优化覆盖全栈的监控体系(包括硬件、网络、AI算力、中间件及应用层),合理选用监控工具(如 Prometheus、Grafana、Zabbix、ELK 等),实现监控可视化与智能告警
5、主导DevOps体系构建,设计并推进符合公司实际业务需求的CI/CD流水线(基于 GitLab CI、Jenkins、GitHub Actions 等工具),支持研发团队实现自动化编译、测试与发布,提升交付效率
岗位要求:
1、计算机或信息技术相关专业,本科及以上学历;
2、具备5年以上IT运维工作经验,其中至少2年运维团队管理经历,有GPU算力集群运维背景或大型互联网/科技企业运维管理经验者优先;
3、熟练掌握Linux/Unix操作系统,具备扎实的Shell/Python/Go等至少一种编程语言能力,可独立开发自动化脚本或运维工具;
4、了解服务器、存储、GPU(NVIDIA A100/H100 等)、网络设备的硬件架构与运维标准;具备GPU集群部署、分布式训练环境配置(如 TensorFlow/PyTorch 分布式)、算力调度工具(如 Kubernetes GPU 调度、Slurm)使用经验者优先;
5、熟悉主流中间件(Redis、Kafka、Elasticsearch、Nginx、Doris)的集群部署、性能调优与故障处理流程;了解MySQL/PostgreSQL等数据库的基本运维操作(如备份恢复、主从复制);
6、熟练使用至少一种主流监控方案(Prometheus+Grafana/Zabbix/ELK),具备监控平台搭建与告警策略优化经验;有重大故障应急响应、根因定位与复盘总结经历,能制定有效的应急预案;
7、熟悉CI/CD流程的设计与实施,具备GitLab CI/Jenkins等工具的实际应用经验;掌握IaC工具(Terraform/Ansible),可实现基础设施的自动化部署与配置管理;具备容器化(Docker)、编排技术(Kubernetes)实践经验者优先;
8、具备基本的网络安全与数据安全意识,熟悉常见安全防护手段(如漏洞扫描、权限控制、数据加密与备份);了解相关IT合规规范与监管要求;
9、目标明确,具备良好的沟通表达能力和执行力,工作态度认真严谨,责任心强
2026-05-20 12:50
IP属地:浙江杭州
职位福利
硕士5-10年Golang网络运维Java通信相关专业运维开发/DevOpsAIPython/Shell计算机相关专业实施交付运维Ansible/Salt/Puppet大数据运维经验系统运维

浙江希优信息科技有限公司
不需要融资 · 100-499人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
算法运维工程师
2-3万元/月
运维工程师5-10年硕士Golang网络运维Java通信相关专业运维开发/DevOpsAIPython/Shell计算机相关专业实施交付运维Ansible/Salt/Puppet大数据运维经验系统运维
杭州 余杭区

石女士 · 希优科技5日内活跃









