职位详情
岗位概述 面向企业级全球网络基础设施环境,负责可观测性平台(Monitoring / Alerting / Logging)的工程化建设与运营,聚焦稳定性与可运营性目标,通过告警治理、日志平台能力建设、可靠性工程(SRE/NRE)与工程化交付(IaC/GitOps/CI-CD)提升故障发现与定位效率、降低告警噪声、提升变更质量与可追溯性。 岗位职责 1)企业网络可观测性体系(Observability Engineering) - 建设并维护覆盖全球节点/网络资源的生产级监控体系,打通从网络设备/链路到系统与服务的关键指标采集、展示与告警运营。 - 基于 Prometheus、Zabbix、Grafana 等工具,设计网络侧与系统侧指标体系与 Dashboard(可用性、时延/抖动/丢包、链路质量、设备资源、会话/连接、接口错误、路由邻居状态等)。 - 推动“可观测性工程化”:监控采集配置、告警规则、Dashboard 模板化/参数化与版本化管理(Observability as Code),支撑多地域/多环境快速复用与一致性。 2)大规模日志平台(ES/OpenSearch)建设与治理(Log Platform Engineering) - 负责分布式日志平台架构设计与运维,基于 Elasticsearch / OpenSearch 建设统一的日志采集、索引、检索与权限治理能力,支撑网络运营分析与故障定位。 - 面向海量网络与系统日志(设备/防火墙/VPN/认证/DNS 等),持续优化: - 集群容量与成本治理(资源水位、扩缩容策略、冷热分层/生命周期管理) - 查询与写入性能(索引设计、分片策略、Mapping、查询优化) - 稳定性保障(变更验证、故障恢复、风险控制) - 建立日志数据治理规范:字段标准、采集规范、索引命名与生命周期策略、权限与审计策略(如适用),提升日志“可用性、可检索性与可运营性”。 3)告警治理(Alert Quality & Alert Operations) - 构建可运营的告警体系:告警分级、路由、升级、静默/抑制、去重/聚合策略,持续降低误报与重复告警,提升告警命中率与响应效率。 - 建立告警运营机制:告警质量度量、原因分类与趋势分析,推动从“被动响应”到“体系化治理”。 - 参与/主导重大事件响应(Incident Response),推动 RCA/Postmortem 复盘与行动项闭环,减少重复性故障,提升系统性可靠性。 4)可靠性工程与变更治理(SRE/NRE Practices) - 建立并推动稳定性目标与度量(如 SLI/SLO、MTTR、告警有效性、变更失败率、平台可用性等),形成稳定性治理闭环。 - 推动变更风险控制:关键变更可追溯、可审计、可回滚;变更前验证、变更后核验与回归;减少人为失误造成的事故。 5)工程化交付(IaC / GitOps / CI/CD) - 推动网络与平台相关配置、可观测性配置(采集/告警/看板)与关键基础设施能力“代码化、版本化、可审计、可回滚”(IaC/GitOps 思维)。 - 与 CI/CD 或作业编排平台结合,将配置变更纳入流水线:Lint/校验、Review、审批、灰度、回滚、验证等质量门禁。 - 建设可复用工程资产:脚本库、Ansible Role、Terraform Module、标准模板与最佳实践,提升交付效率与一致性。 任职要求 1)企业网络运维与排障能力(核心) - 具备企业网络/基础设施运维经验,理解常见企业网络架构与运营方式(园区网/数据中心网络/WAN/分支互联/多地域网络等)。 - 扎实掌握 TCP/IP、路由与交换基础,具备系统化排障能力;理解常见网络机制与协议(VLAN、OSPF/BGP(任一)、NAT、ACL、链路冗余、QoS 等)。 - 熟悉企业网络安全与边界基础:防火墙策略、VPN(IPSec/SSL 任一)、访问控制与审计意识;具备跨团队协作定位能力。 - 有主流网络设备/安全设备运维经验者优先(品牌不限):Cisco/Juniper/Huawei/H3C/Arista、Fortinet/Palo Alto 等。 2)日志平台深度能力 - 精通 Elasticsearch 或 OpenSearch:独立部署、扩缩容、集群调优、索引与生命周期管理、稳定性保障能力扎实。 - 能解决大规模分布式场景性能问题:写入吞吐、查询延迟、分片策略、Mapping、资源水位与热点、集群不稳定等。 - 熟悉网络运营常见日志链路者优先:Syslog、设备日志/防火墙日志/VPN/认证日志/DNS 日志等(不要求全会)。 3)监控与告警体系能力(Observability & Alerting) - 熟练使用 Prometheus/Grafana/Zabbix 等监控体系,能够设计指标体系、Dashboard 与告警策略,支撑复杂企业网络环境的监测与运营。 - 具备告警治理实战经验:分级/路由/升级/抑制/静默/聚合/去重;能够通过数据分析持续提升告警质量与响应效率。 4)自动化与工程能力 - 精通 Ansible 配置管理;熟练使用 Python 或 Shell 编写高质量自动化脚本(结构化、可维护、幂等、日志与异常处理完善)。 - 具备将运维工作工程化/产品化的能力:可复用模块、规范化输出、版本管理与文档沉淀;有平台化交付经验者优先。 5)IaC / GitOps / CI/CD(思维必备,工具优先) - 具备 IaC / GitOps 思维:配置/规则/基础设施版本化、PR/Review、变更审计、可回滚与可追溯。 - 熟悉 Terraform 者优先:可编写复用模块,理解状态管理与变更风险控制。 - 熟悉 CI/CD(GitLab CI/Jenkins/Argo 等同类)者优先:能将运维交付纳入流水线与质量门禁。 6)综合素质 - 强责任心、主动性与结果导向;能在复杂跨域问题中独立推进闭环;沟通协作能力强,能推动标准与治理落地。 SLA要求 - 告警治理:持续降低误报与重复告警,提升告警命中率与响应效率,提升跨团队事件协同与处置效率。 - 故障定位效率:通过“指标 + 日志”的联合分析缩短定位链路与 MTTR,提升重大事件处置质量与复盘闭环落地率。 - 日志平台价值交付:提升日志可用性与可检索性(字段规范、索引策略、生命周期治理),优化查询性能与稳定性,支撑网络运营分析与 RCA(可追溯、可复盘)。 - 工程化交付:关键配置与可观测性资产实现版本化与审计闭环,降低变更失败率与人为误操作风险,提升交付一致性与可回滚能力。
2026-05-16 14:03
IP属地:四川成都
职位福利
本科3-5年系统运维KubernetesDocker

成都迈思信息技术有限公司
不需要融资 · 1000-9999人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
成都-应用运维
1.2-1.8万元/月
运维工程师3-5年本科联想通信相关专业MySQL/Oracle英语流利系统运维运维开发经验Python/Shell计算机相关专业运维经验供应链系统SQL应用运维
成都 武侯区

方先生 · 中科软5日内活跃











