职位详情
1. 稳定性保障与体系构建:承担大模型服务平台及AI类产品的稳定性建设职责,通过指标体系搭建、应急预案制定、容量管理、监控系统优化及标准化操作流程(SOP)的建立,持续提升系统的可用性与运行可靠性。
2. 高并发流量管控:主导大规模分布式架构在高并发场景下的流量治理策略设计与落地,涵盖弹性伸缩机制、熔断、限流与服务降级等容灾方案,保障系统在高压环境下的持续服务能力与稳定性。
3. 架构高可用性提升:参与业务系统架构的设计与技术评审,推动高可用架构的实施与落地,识别并规避潜在的系统性故障风险。
4. 运维流程精简与自动化推进:优化部署、监控与日常维护流程,推进运维工作的自动化与平台化发展,提升研发交付效率与系统可观测能力;负责监控、日志、网络、存储等底层基础设施的稳定运行及相关工具的研发支持。
5. 容量管理与资源效能优化:牵头开展业务系统的容量评估与资源配置优化,依托链路追踪、压力测试及性能调优等手段,确保资源使用效率与成本处于可控范围。
6. 值班响应与故障处理:参与一线OnCall轮值,高效定位并处置线上问题,主导重大故障的应急响应与事后复盘;建立快速恢复机制,推动根本原因分析及长期改进措施的执行落地。
职位要求
1. 计算机或相关专业背景,具备3年以上SRE或DevOps领域工作经验,有大型互联网企业运维实践经历者优先考虑。
2. 熟悉阿里云、火山引擎、AWS等至少一种主流公有云平台,熟练运用常见云服务组件(如VPC、ECS、SLB、RDS等),具有云原生环境下的运维实战经验。
3. 深入掌握Linux系统内核机制与运维体系,了解分布式系统架构原理;精通Kubernetes与Docker的技术架构,具备大规模生产环境中集群的部署、性能调优与故障排查能力。
4. 熟悉Prometheus、Grafana、ELK、SkyWalking、OpenTelemetry等可观测性技术栈的应用与集成。
5. 熟练使用GitLab、Jenkins、Argo等CI/CD工具链,具备流水线设计与持续优化的实际经验。
6. 至少熟练掌握Python、Go或Shell中的一种编程语言,了解主流Web开发框架,具备运维类工具开发经验者优先。
7. 具备出色的逻辑思维与系统分析能力,对新技术有敏锐洞察力,责任心强,抗压能力佳,能适应快节奏的业务发展需求;具备良好的沟通协作能力、执行力和团队意识。
2. 高并发流量管控:主导大规模分布式架构在高并发场景下的流量治理策略设计与落地,涵盖弹性伸缩机制、熔断、限流与服务降级等容灾方案,保障系统在高压环境下的持续服务能力与稳定性。
3. 架构高可用性提升:参与业务系统架构的设计与技术评审,推动高可用架构的实施与落地,识别并规避潜在的系统性故障风险。
4. 运维流程精简与自动化推进:优化部署、监控与日常维护流程,推进运维工作的自动化与平台化发展,提升研发交付效率与系统可观测能力;负责监控、日志、网络、存储等底层基础设施的稳定运行及相关工具的研发支持。
5. 容量管理与资源效能优化:牵头开展业务系统的容量评估与资源配置优化,依托链路追踪、压力测试及性能调优等手段,确保资源使用效率与成本处于可控范围。
6. 值班响应与故障处理:参与一线OnCall轮值,高效定位并处置线上问题,主导重大故障的应急响应与事后复盘;建立快速恢复机制,推动根本原因分析及长期改进措施的执行落地。
职位要求
1. 计算机或相关专业背景,具备3年以上SRE或DevOps领域工作经验,有大型互联网企业运维实践经历者优先考虑。
2. 熟悉阿里云、火山引擎、AWS等至少一种主流公有云平台,熟练运用常见云服务组件(如VPC、ECS、SLB、RDS等),具有云原生环境下的运维实战经验。
3. 深入掌握Linux系统内核机制与运维体系,了解分布式系统架构原理;精通Kubernetes与Docker的技术架构,具备大规模生产环境中集群的部署、性能调优与故障排查能力。
4. 熟悉Prometheus、Grafana、ELK、SkyWalking、OpenTelemetry等可观测性技术栈的应用与集成。
5. 熟练使用GitLab、Jenkins、Argo等CI/CD工具链,具备流水线设计与持续优化的实际经验。
6. 至少熟练掌握Python、Go或Shell中的一种编程语言,了解主流Web开发框架,具备运维类工具开发经验者优先。
7. 具备出色的逻辑思维与系统分析能力,对新技术有敏锐洞察力,责任心强,抗压能力佳,能适应快节奏的业务发展需求;具备良好的沟通协作能力、执行力和团队意识。
2026-05-17 13:20
IP属地:北京
职位福利
本科3-5年运维开发经验

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
IT运维工程师(含部分自动化开发职责)
1.1-1.8万元/月
运维开发工程师3-5年本科DockerZabbix/Prometheus运维开发经验Python/Shell计算机相关专业
北京 朝阳区

沙女士 · 储新未来5日内活跃
AI智能计算运维
3-6万元/月
运维开发工程师经验不限本科GolangGPU运维大数据SREK8S运维运维开发经验Python/Shell计算机相关专业AI运维大数据运维Kubernetes
北京 朝阳区

方先生 · 阿里云5日内活跃
大数据运维工程师SRE
3-6万元/月
运维开发工程师经验不限本科Elasticsearch大数据运维经验HadoopK8S运维SREFlink运维Spark大数据运维Hadoop运维Kubernetes
北京 朝阳区

张先生 · 阿里云5日内活跃
运维开发工程师
1.1-1.8万元/月
运维开发工程师3-5年本科DockerZabbix/Prometheus运维开发经验Python/Shell计算机相关专业
北京 朝阳区

沙女士 · 储新未来5日内活跃




