职位详情
岗位职责:
负责数据平台部门的故障运营管理相关工作,主要包括:牵头组织故障复盘会议、审核把关故障报告质量、跟踪故障后续整改事项的落地执行、基于故障报告构建故障分析数据体系,以及推动稳定性文化的建设与运营(如变更管理规范、故障定级标准、红黄线规则等制度的落地与优化)。
任职要求:
1、具有2年以上在互联网或科技企业从事运维、SRE、技术运营或相关岗位的工作经历。
2、掌握互联网行业故障全生命周期的管理流程,涵盖故障发现、应急响应、升级汇报、复盘总结、整改措施推进及闭环管理等环节。
3、有独立主导或深度参与重大故障复盘的实际经验,熟练运用5Why、根因分析等分析方法。
数据分析与报告能力:
1、具备出色的数据分析与归纳能力,能从大量故障记录中识别关键问题、共性特征和发展趋势。
2、可独立完成、审阅并把控高质量故障分析报告的质量,确保内容逻辑严密、根因准确、改进方案具体且可落地。
3、有使用数据分析工具(如 SQL、Excel/Google Sheets,或 BI 工具如 Tableau)搭建和维护故障数据看板的实践经验。
技术理解与流程认知:
1、对数据平台常用组件(如 Hadoop、Spark、Kafka、Flink、OLAP 引擎等)具备基础认知,能够理解技术团队在复盘过程中提出的技术细节。
2、熟悉软件开发流程与运维体系,对变更控制、监控告警、容量管理、高可用设计等稳定性保障机制有较深理解。
3、具备良好的流程与规范制定能力,能够主导或协作完成《变更管理规范》《故障定级标准》《运维红黄线》等制度的编制与优化。
综合素质要求(软技能):具备良好的沟通协调能力、推动力与执行力,拥有严谨的逻辑思维和较强的风险意识,具备故障管理与运营的实际经验
负责数据平台部门的故障运营管理相关工作,主要包括:牵头组织故障复盘会议、审核把关故障报告质量、跟踪故障后续整改事项的落地执行、基于故障报告构建故障分析数据体系,以及推动稳定性文化的建设与运营(如变更管理规范、故障定级标准、红黄线规则等制度的落地与优化)。
任职要求:
1、具有2年以上在互联网或科技企业从事运维、SRE、技术运营或相关岗位的工作经历。
2、掌握互联网行业故障全生命周期的管理流程,涵盖故障发现、应急响应、升级汇报、复盘总结、整改措施推进及闭环管理等环节。
3、有独立主导或深度参与重大故障复盘的实际经验,熟练运用5Why、根因分析等分析方法。
数据分析与报告能力:
1、具备出色的数据分析与归纳能力,能从大量故障记录中识别关键问题、共性特征和发展趋势。
2、可独立完成、审阅并把控高质量故障分析报告的质量,确保内容逻辑严密、根因准确、改进方案具体且可落地。
3、有使用数据分析工具(如 SQL、Excel/Google Sheets,或 BI 工具如 Tableau)搭建和维护故障数据看板的实践经验。
技术理解与流程认知:
1、对数据平台常用组件(如 Hadoop、Spark、Kafka、Flink、OLAP 引擎等)具备基础认知,能够理解技术团队在复盘过程中提出的技术细节。
2、熟悉软件开发流程与运维体系,对变更控制、监控告警、容量管理、高可用设计等稳定性保障机制有较深理解。
3、具备良好的流程与规范制定能力,能够主导或协作完成《变更管理规范》《故障定级标准》《运维红黄线》等制度的编制与优化。
综合素质要求(软技能):具备良好的沟通协调能力、推动力与执行力,拥有严谨的逻辑思维和较强的风险意识,具备故障管理与运营的实际经验
2026-05-17 13:37
IP属地:北京
职位福利
学历不限1-3年大数据运维经验

北京联和利泰科技股份有限公司
不需要融资 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >









