职位详情
岗位职责:
1、持续评估并优化现有监控体系的覆盖范围,提升告警的有效性与准确率,降低误报和漏报情况,推动告警机制向精准化、智能化方向演进。
2、统筹外包团队开展7×24小时监控值守工作,制定值班制度及标准操作流程(SOP),并监督落实执行。
3、定期牵头组织告警评审会议,协同开发与运维团队优化告警策略、阈值设置及触发逻辑。
4、在重大线上故障中担任应急指挥角色,协调多方资源,确保业务快速恢复;主导或深度参与各级别故障复盘,深入挖掘根本原因,杜绝形式化归因。
5、编写结构清晰、内容详实的故障复盘文档,明确整改任务、责任人及完成时限;严格跟进整改措施执行进度,形成问题闭环管理机制。
6、构建并完善涵盖监控管理、故障响应、事后复盘的全周期运维管理体系;设计并推广标准化运维流程、应急预案及知识沉淀机制,提升整体应急处置效率。
7、通过关键指标数据分析(如MTTR、故障频次等)评估改进成效,并据此持续迭代优化运维流程。
8、负责外包团队日常工作的质量监督与绩效考核,提供技术指导与培训支持,全面提升团队专业能力。
9、发挥桥梁作用,高效协同产品、研发、测试、运维等多方角色,共同保障系统稳定运行。
岗位要求:
1、计算机相关专业本科及以上学历;具备5年以上互联网或软件行业运维/SRE/技术支持工作经验,其中至少2年团队管理或外包团队协作经验,有大规模系统运维背景者优先。
2、拥有丰富的大型系统线上故障排查与处理经验,曾担任故障应急指挥角色者优先考虑。
3、熟练掌握Zabbix、Prometheus、Grafana、Open-Falcon、Nightingale等至少一种主流监控工具的核心原理,具备告警策略调优能力。
4、熟悉容器化技术(Docker/K8s)及常用中间件(Nginx/Redis/Kafka/MQ),掌握Shell/Python/Go等至少一门脚本语言,可独立编写自动化脚本应对常规运维场景。
5、思维敏捷,条理清晰,具备较强的问题抽象与逻辑分析能力,同时拥有良好的沟通协作能力和文档撰写、数据整理能力。
6、具备强烈的自我驱动力和责任心,目标导向明确,善于跨团队协调推进工作,能够在高压环境下保持高效执行。
1、持续评估并优化现有监控体系的覆盖范围,提升告警的有效性与准确率,降低误报和漏报情况,推动告警机制向精准化、智能化方向演进。
2、统筹外包团队开展7×24小时监控值守工作,制定值班制度及标准操作流程(SOP),并监督落实执行。
3、定期牵头组织告警评审会议,协同开发与运维团队优化告警策略、阈值设置及触发逻辑。
4、在重大线上故障中担任应急指挥角色,协调多方资源,确保业务快速恢复;主导或深度参与各级别故障复盘,深入挖掘根本原因,杜绝形式化归因。
5、编写结构清晰、内容详实的故障复盘文档,明确整改任务、责任人及完成时限;严格跟进整改措施执行进度,形成问题闭环管理机制。
6、构建并完善涵盖监控管理、故障响应、事后复盘的全周期运维管理体系;设计并推广标准化运维流程、应急预案及知识沉淀机制,提升整体应急处置效率。
7、通过关键指标数据分析(如MTTR、故障频次等)评估改进成效,并据此持续迭代优化运维流程。
8、负责外包团队日常工作的质量监督与绩效考核,提供技术指导与培训支持,全面提升团队专业能力。
9、发挥桥梁作用,高效协同产品、研发、测试、运维等多方角色,共同保障系统稳定运行。
岗位要求:
1、计算机相关专业本科及以上学历;具备5年以上互联网或软件行业运维/SRE/技术支持工作经验,其中至少2年团队管理或外包团队协作经验,有大规模系统运维背景者优先。
2、拥有丰富的大型系统线上故障排查与处理经验,曾担任故障应急指挥角色者优先考虑。
3、熟练掌握Zabbix、Prometheus、Grafana、Open-Falcon、Nightingale等至少一种主流监控工具的核心原理,具备告警策略调优能力。
4、熟悉容器化技术(Docker/K8s)及常用中间件(Nginx/Redis/Kafka/MQ),掌握Shell/Python/Go等至少一门脚本语言,可独立编写自动化脚本应对常规运维场景。
5、思维敏捷,条理清晰,具备较强的问题抽象与逻辑分析能力,同时拥有良好的沟通协作能力和文档撰写、数据整理能力。
6、具备强烈的自我驱动力和责任心,目标导向明确,善于跨团队协调推进工作,能够在高压环境下保持高效执行。
2026-05-15 14:38
IP属地:北京
职位福利
本科5-10年

中电信人工智能科技(北京)有限公司
不需要融资 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >











