职位详情
阿里云智能-容器SRE平台技术专家-杭州/北京/深圳
职位描述
1、主导阿里云容器服务SRE平台的技术构建,承担K8S全生命周期管理,开展自愈、弹性伸缩、限流控制、节点驱逐等稳定性相关operator的开发与维护,保障集群SLA指标达成;
2、构建完善的K8S运维支撑体系,研发SRE场景下的AI Agent工具,提升自动化运维水平,推动运维能力长期高效演进;
3、建设并参与K8S集群日常oncall机制,具备端到端排查集群功能与性能问题的能力,快速响应并解决线上故障;
4、牵头推进跨团队复杂项目(如业务容器化落地),协调资源,确保技术和业务目标顺利实现。
职位要求
1、具备5年以上相关工作经验,有大规模容器集群研发、运维、稳定性体系搭建及研发流程体系建设背景者优先;
2、熟练运用AI类工具与平台,在提升研发效率、优化代码质量、加快问题定位与产品迭代方面有实践经验者优先;
3、精通Golang编程语言,深入理解k8s生态及其核心组件(如apiserver/kcm/Scheduler/etcd等),具备扎实的Operator开发与运维能力;
4、熟悉Linux操作系统及常用shell指令,具备良好的沟通表达能力、团队协作精神和自我调适能力;
5、具有强烈的风险敏感度,能够及时识别并暴露潜在风险,推动问题闭环解决。
职位描述
1、主导阿里云容器服务SRE平台的技术构建,承担K8S全生命周期管理,开展自愈、弹性伸缩、限流控制、节点驱逐等稳定性相关operator的开发与维护,保障集群SLA指标达成;
2、构建完善的K8S运维支撑体系,研发SRE场景下的AI Agent工具,提升自动化运维水平,推动运维能力长期高效演进;
3、建设并参与K8S集群日常oncall机制,具备端到端排查集群功能与性能问题的能力,快速响应并解决线上故障;
4、牵头推进跨团队复杂项目(如业务容器化落地),协调资源,确保技术和业务目标顺利实现。
职位要求
1、具备5年以上相关工作经验,有大规模容器集群研发、运维、稳定性体系搭建及研发流程体系建设背景者优先;
2、熟练运用AI类工具与平台,在提升研发效率、优化代码质量、加快问题定位与产品迭代方面有实践经验者优先;
3、精通Golang编程语言,深入理解k8s生态及其核心组件(如apiserver/kcm/Scheduler/etcd等),具备扎实的Operator开发与运维能力;
4、熟悉Linux操作系统及常用shell指令,具备良好的沟通表达能力、团队协作精神和自我调适能力;
5、具有强烈的风险敏感度,能够及时识别并暴露潜在风险,推动问题闭环解决。
2026-06-20 12:33
IP属地:广东深圳
职位福利
本科5-10年

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >











