站点运维开发工程师（SRE）

2.5-3.5万元/月

深圳·南山区

郑女士

已实名

企业认证

深圳市威尔计算机系统有限公司

职位详情

运维工程师

职位名称：站点可靠性工程师（SRE）
职位类型：全职
工作地点：深圳市南山区

职位描述：
我们正在招募一名站点可靠性工程师（SRE），致力于保障公司核心业务系统的高可用性、高效能与低成本运行。若您热衷于降低系统故障频率、缩短故障恢复周期、优化性能开销，并在运维自动化、可量化的系统稳定性提升方面有强烈兴趣，欢迎加入我们的技术团队。

主要职责：
•稳定性保障：主导7x24小时高可用架构的设计、落地与持续优化，深度参与系统架构评审，从运维角度输出关于系统稳定性和可维护性的专业建议。
•故障管理：快速响应并处理线上突发事件，牵头组织故障复盘，推动长期未解问题的根本解决及自动恢复机制的建设，有效压缩平均修复时长（MTTR）。
•效率提升：搭建、完善并迭代自动化运维平台和工具链，覆盖发布部署、监控预警、异常自愈等关键场景，全面减少人工干预依赖。
•成本与性能优化：持续跟踪系统资源使用情况，定位性能瓶颈与资源浪费环节，通过架构优化、参数调整、调度策略改进等方式实现效能提升与成本节约。
•度量驱动：建立并维护服务等级指标（SLI）与目标（SLO）体系，依托监控数据、链路追踪和日志分析进行决策支持，清晰呈现系统健康度与故障影响范围。
•文档和知识共享：撰写技术文档、操作手册及最佳实践指南，主动分享经验与成果，助力团队整体能力成长。

职位要求：
•学历经验：大专及以上学历，计算机相关专业背景。
具备5年以上SRE/DevOps或高级运维岗位实战经历，
拥有至少一个完整项目的DevOps全流程落地经验。
•技术技能：
熟练掌握Linux操作系统原理，具备扎实的系统调试与问题排查能力。
精通至少一种编程语言（Python/Shell/Go），能够独立开发运维类工具或平台。
深入理解CI/CD理念，熟悉Jenkins、GitLabCI等工具的流水线设计与维护。
熟练使用至少一种配置管理工具（Ansible/SaltStack/Puppet）及容器化技术（Docker/K8s）。
具备丰富的监控体系建设经验（如Prometheus、Zabbix、Grafana），可独立完成端到端监控告警方案。
对系统级性能调优（网络、数据库、中间件、JVM等）有实际项目经验并保持高度关注。

加分项：
拥有大型云环境（AWS/CloudFlare/GCP）运维及成本治理经验者优先考虑。
具备完整项目性能优化案例或运维指标体系搭建经验者优先。
曾主导重大故障复盘及系统性改进项目者优先。
了解混沌工程理念并有实践经验者优先。
对自动化有极致追求，有开源社区贡献或运营个人技术博客者优先。

我们提供：
深圳全额缴纳五险一金，配备补充重疾保险。
标准双休制度，支持加班调休并提供相应补贴。
岗位属于稳定业务线的扩展需求，将有机会参与科技金融领域高并发、高可靠场景的运维挑战，具备良好的职业发展空间。

2026-06-29 13:44

IP属地：广东深圳

职位福利

大专5-10年GolangDockerSRE性能优化运维开发/DevOpsPython/Shell