职位详情
岗位职责
* 主导构建kuaizi Saas平台的SLI/SLO/SLA框架,量化链路延迟、调用成功率、可用性及基础设施健康度等关键指标
* 识别服务瓶颈,优化系统稳定性,降低基础设施开销,制定有效的服务降级与容灾策略
* 搭建业务层级的全链路压测机制,预判系统性能拐点,管控稳定性潜在风险
* 打造基于OpenTelemetry的可观测性系统,集成Prometheus/Elasticsearch/Grafana实现毫秒级异常发现
* 设计自动化故障响应流程,确保重大故障平均恢复时间(MTTR)不超过5分钟
* 推进多云环境下的成本管控,具备腾讯云、火山引擎成本优化经验者优先考虑
* 牵头重大故障复盘工作,输出可衡量的Postmortem分析报告,保障同类问题复发率低于5%
* 构建变更防护机制,通过自动化测试卡点拦截80%以上高风险发布操作
* 快速响应并精准定位平台运维异常,及时采取措施防止影响扩散
任职要求
* 具备5年以上SRE或DevOps实战经验,有Saas平台运维背景者优先
* 精通Kubernetes架构治理,拥有千节点以上集群运维与性能调优实践
* 熟练使用Python/Go/React等语言开发运维工具链,参与过开源项目核心贡献者优先
* 主导构建kuaizi Saas平台的SLI/SLO/SLA框架,量化链路延迟、调用成功率、可用性及基础设施健康度等关键指标
* 识别服务瓶颈,优化系统稳定性,降低基础设施开销,制定有效的服务降级与容灾策略
* 搭建业务层级的全链路压测机制,预判系统性能拐点,管控稳定性潜在风险
* 打造基于OpenTelemetry的可观测性系统,集成Prometheus/Elasticsearch/Grafana实现毫秒级异常发现
* 设计自动化故障响应流程,确保重大故障平均恢复时间(MTTR)不超过5分钟
* 推进多云环境下的成本管控,具备腾讯云、火山引擎成本优化经验者优先考虑
* 牵头重大故障复盘工作,输出可衡量的Postmortem分析报告,保障同类问题复发率低于5%
* 构建变更防护机制,通过自动化测试卡点拦截80%以上高风险发布操作
* 快速响应并精准定位平台运维异常,及时采取措施防止影响扩散
任职要求
* 具备5年以上SRE或DevOps实战经验,有Saas平台运维背景者优先
* 精通Kubernetes架构治理,拥有千节点以上集群运维与性能调优实践
* 熟练使用Python/Go/React等语言开发运维工具链,参与过开源项目核心贡献者优先
2026-05-12 14:43
IP属地:广东广州
职位福利
本科5-10年Elasticsearch运维开发经验Python/ShellKubernetes

广州筷子信息科技有限公司
B轮 · 100-499人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
高级运维开发工程师
1.5-2.3万元/月
运维开发工程师5-10年本科JenkinsCCNA/CCNP英文读写能力良好AzureDockerAnsible/Salt/Puppet运维开发经验计算机相关专业ITILDevopsAWS
广州

杨先生 · 中电金信今日活跃
DevOps工程师
1.8-2.1万元/月
运维开发工程师5-10年本科Java英文读写能力良好阿里云汇丰K8SPython/Shell计算机相关专业JenkinsDevOpsDockerGCP运维开发经验Kubernetes
广州

杨先生 · 中电金信今日活跃
devops工程师
1.7-2万元/月
运维开发工程师5-10年本科Jenkins外企Java英文读写能力良好Ansible/Salt/PuppetLinuxGCP运维开发经验HCNA/HCNP英语DevopsKubernetes
广州

杨先生 · 中电金信今日活跃
高级DevOps开发工程师
1.5-2.3万元/月
运维开发工程师5-10年本科JenkinsCCNA/CCNP英文读写能力良好AzureDockerAnsible/Salt/Puppet运维开发经验计算机相关专业ITILDevopsAWS
广州 天河区

杨先生 · 中电金信今日活跃
AWS运维开发工程师
1.5-2万元/月
运维开发工程师5-10年本科云运维系统运维PythonShellJavaAnsibleTERRAFORMIAC
广州 天河区





