职位详情
岗位定位 负责企业级 AI / Agent 平台的服务器管理、部署运维、稳定性保障、可观测体系、安全审计和成本治理。你需要保障 Agent 服务、知识库服务、模型服务、评估服务、MCP 工具服务和相关业务工具服务在生产环境中稳定运行,并能在出问题时快速定位、告警、降级、回滚和恢复。 这个岗位不是传统服务器值守,而是面向 AI 基础设施的 DevOps 工程师,需要同时理解基础设施、服务治理和 AI 系统的运行特点。工作职责 1.基础环境管理:负责服务器、网络、域名、证书、密钥、环境变量、配置中心和运行环境的规划、管理与日常运维。 2.部署发布体系建设:建设并维护 Docker、Kubernetes、内部服务部署、CI / CD、镜像管理、配置管理、灰度发布、回滚、备份和恢复流程。 3.AI 服务稳定性保障:保障 Agent 服务、知识库服务、模型调用服务、评估服务、MCP 工具服务、业务工具服务和相关中间件稳定运行。 4.可观测体系建设:建设日志、指标、链路追踪、审计记录、看板、告警规则、值班机制、故障复盘和 SLO 管理体系。 5.AI 运行指标监控:监控模型调用延迟、模型服务错误率、token 使用量、成本、配额、工具调用成功率、MCP 服务健康状态、知识库查询延迟、队列积压、并发量和资源使用率。 6.基础组件运维:负责关系型数据库、缓存、搜索引擎、向量库、消息队列、对象存储和列式存储等基础组件的部署与运维。 7.安全与治理机制建设:建立访问控制、权限审计、敏感信息保护、API Key / Token 管理、密钥轮换、高风险操作审计和日志归档机制。 8.生产保障与应急响应:支持服务上线、压测、容量规划、性能优化、成本治理、故障演练、应急预案和生产问题排查。 9.研发协作与运维标准化:与 Agent 开发工程师协作,推动服务可部署、可监控、可扩缩容、可回滚、可持续运维。 任职要求 1.Linux 系统运维:熟练掌握系统安装、服务管理、Shell 脚本编写及日志分析,能够独立完成环境问题的定位与排查,不依赖图形界面操作。 2.工具代码开发能力:具备 Bash / Python 脚本或工具开发能力,能独立编写自动化脚本和运维工具,提升部署、巡检、排障和配置管理效率。 3.CI / CD 丰富经验:熟悉 Docker 容器化打包、镜像管理、Jenkins / GitLab CI 等流水线配置与维护,有较丰富的 CI / CD 实践经验,能够独立完成服务部署、升级和版本回滚。 4.监控与告警:了解 Prometheus / Grafana / ELK / OpenTelemetry / Langfuse 等常见监控与可观测工具,能搭建基础监控告警体系,具备日志分析、链路追踪和故障定位能力。 5.网络与远程运维:能够处理 IP、DNS、防火墙、证书、反向代理、访问控制等常见网络问题,具备独立远程运维能力。 6.基础组件运维:理解 Web 服务、API 网关、数据库、缓存、消息队列、对象存储、权限认证、密钥管理等基础组件,能参与部署、巡检、备份、恢复和问题排查。 7.本地 LLM 与 AI 系统基础:了解本地大模型运行原理和常见部署方式,能协助判断硬件配置、推理服务、模型调用延迟、错误率、token 使用量、成本和配额等问题。 8.AI 工具使用:能够使用 Claude Code / Codex 辅助完成日常运维、脚本开发、故障排查、配置整理和文档编写,并将 AI 工具融入日常工作流程。 9.安全与审计意识:能处理 API Key、Token、Secret、敏感数据、权限边界、操作日志和访问审计,具备基本安全基线和风险控制意识。 素质要求 1.具备持续学习能力,能够快速适应新技术与新场景。 2.具备较强抗压能力,适应快节奏、多线程的工作环境。 3.具备良好的团队协作意识,主动暴露问题,及时沟通同步。 加分项 •有大模型部署经验,包括私有化模型服务、推理服务、GPU 资源管理、模型网关、模型 API 服务或 OpenAI-compatible 服务部署。 •维护过 LLM 应用、Agent 平台、RAG 服务、MCP Server、模型 API 网关、企业内部 AI 工具或 AI Coding 平台。 •熟悉主流大模型推理框架、GPU 运行环境或模型推理性能调优。 •熟悉 Kafka / RabbitMQ / RocketMQ、Redis、PostgreSQL / MySQL、Elastic Search、MinIO / OSS、Doris / ClickHouse、Spark / Flink。 •有自建机房、腾讯云、阿里云、AWS 等环境的部署和运维经验。 •有内外网隔离、私有化部署、企业 OA、钉钉开放平台、制造业 IT 环境或混合云环境经验。 •做过成本监控、配额系统、预算告警、容量规划、SLO 设计、故障演练或发布变更管理。
2026-05-27 16:53
IP属地:山东青岛
职位福利
本科经验不限PythonShellJenkinsGrafanaPrometheuslinuxDocker

华晟(青岛)智能装备科技有限公司
A轮 · 100-499人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
青岛-python-远程面试-全日制本科学信网
9000-13000元/月
Python3-5年本科KubernetesK8sRedisCelery
青岛 崂山区

陈先生 · 信华信技术(昆山)有限公司5日内活跃
Python开发工程师
1.6-2.6万元/月
Python5-10年本科国内院校优先Linux开发/部署经验微服务经验机器学习经验云计算经验接受无前端经验/技能DockerKubernetesMySQL
青岛 黄岛区

张女士 · 极视角5日内活跃
Python
1-1.3万元/月
Python3-5年本科CeleryRabbitMQRedisKubernetesCRDPrometheusGrafana算力调度APIsdk
青岛 崂山区

陈先生 · 信华信技术(昆山)有限公司5日内活跃






