职位详情
岗位职责
*主导构建kuaiziSaas平台的SLI/SLO/SLA标准体系,精准衡量链路延迟、调用成功率、可用性指标及基础设施健康状态等关键性能参数
*识别系统服务短板,优化服务稳定性表现,合理管控底层资源成本,规划并落地服务降级与容灾策略
*搭建覆盖全链路的业务级压测机制,提前识别系统性能瓶颈,有效管理稳定性潜在风险
*基于OpenTelemetry打造统一可观测性平台,集成Prometheus/Elasticsearch/Grafana实现毫秒级异常感知能力
*设计并实施自动化故障响应流程,确保重大故障平均恢复时间(MTTR)控制在5分钟以内
*推进多云环境下的成本精细化运营,具备腾讯云、火山引擎等平台成本优化实践经验者优先考虑
*牵头组织重大故障复盘工作,输出具备量化分析的Postmortem报告,确保同类问题重复发生率低于5%
*构建变更防护机制,通过自动化测试卡点拦截80%以上的高风险发布操作
*具备快速应急响应能力,能高效定位并处理平台运维异常,及时遏制问题扩散
任职要求
*拥有5年以上SRE或DevOps相关工作经验,具备Saas类平台运维背景者优先
*深入掌握Kubernetes平台治理能力,具备千级节点规模集群的运维与性能调优实战经验
*熟练使用Python/Go/React等语言开发运维工具链,参与过开源项目核心模块贡献者优先
*主导构建kuaiziSaas平台的SLI/SLO/SLA标准体系,精准衡量链路延迟、调用成功率、可用性指标及基础设施健康状态等关键性能参数
*识别系统服务短板,优化服务稳定性表现,合理管控底层资源成本,规划并落地服务降级与容灾策略
*搭建覆盖全链路的业务级压测机制,提前识别系统性能瓶颈,有效管理稳定性潜在风险
*基于OpenTelemetry打造统一可观测性平台,集成Prometheus/Elasticsearch/Grafana实现毫秒级异常感知能力
*设计并实施自动化故障响应流程,确保重大故障平均恢复时间(MTTR)控制在5分钟以内
*推进多云环境下的成本精细化运营,具备腾讯云、火山引擎等平台成本优化实践经验者优先考虑
*牵头组织重大故障复盘工作,输出具备量化分析的Postmortem报告,确保同类问题重复发生率低于5%
*构建变更防护机制,通过自动化测试卡点拦截80%以上的高风险发布操作
*具备快速应急响应能力,能高效定位并处理平台运维异常,及时遏制问题扩散
任职要求
*拥有5年以上SRE或DevOps相关工作经验,具备Saas类平台运维背景者优先
*深入掌握Kubernetes平台治理能力,具备千级节点规模集群的运维与性能调优实战经验
*熟练使用Python/Go/React等语言开发运维工具链,参与过开源项目核心模块贡献者优先
2026-06-24 13:14
IP属地:广东广州
职位福利
本科5-10年Elasticsearch运维开发经验Python/ShellKubernetes

广州筷子信息科技有限公司
B轮 · 100-499人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
DevOps工程师
1.8-2.1万元/月
运维开发工程师5-10年本科Java英文读写能力良好阿里云汇丰K8SPython/Shell计算机相关专业JenkinsDevOpsDockerGCP运维开发经验Kubernetes
广州
Devops工程师
1.6-2.4万元/月
运维开发工程师5-10年大专JenkinsJava英文读写能力良好阿里云DockerGCPPython/ShellAWSKubernetes
广州









