职位详情
我们要解决的问题
AI Agent 部署完成后,真正的挑战才刚刚开始。我们要把 AI 从“昂贵且难以预测”,变成:
• 成本可控(Token 每一分钱都花在刀刃上)
• 性能稳定(拒绝 30 秒以上的加载转圈)
• 黑盒透明(每一行 AI 推理路径都清晰可见)
• 持续进化(Prompt 迭代不再靠“盲猜”) 的 工业级系统。
如果你厌倦了传统的服务器运维,想在 AI 时代定义“可观测性”的新标准,这里有你的战场。
_______
你将面对的挑战
• 模型会变慢,你要设计缓存、异步队列和负载均衡。
• Token 会超支,你要建立精准的监控看板和预算熔断机制。
• AI 会胡言乱语,你要构建自动化测评(Eval)流水线,在发布前抓住它。
• 链路会断裂,你要从复杂的 RAG 和 API 调用中,秒级定位故障点。 这不是简单的脚本维护,而是链路工程 (Trace Engineering)。
_______
你每天会做的事
• 编排: 利用 Azure DevOps / GitHub Actions 构建 Prompt 和工具的 CI/CD 流水线。
• 监控: 基于 Application Insights 和 OpenTelemetry,构建 Agent 全链路追踪看板。
• 调优: 实验不同的检索策略和模型分流方案,在延迟与质量之间找到最优平衡点。
• 测评: 设计自动化的评估集(Test Suite),让 AI 的每一次改动都有据可查。
• 安全: 管理 AI Foundry 的终结点安全、密钥轮转与敏感数据脱敏。
______
技术环境
• 全栈 Azure 监控: Azure Monitor, Log Analytics, Application Insights。
• LLMOps 工具: Prompt Flow Evaluation, Azure AI Project SDK, MLflow。
• 自动化: Infrastructure as Code (Bicep/Terraform), Python 自动化脚本。
______
我们希望你具备的底色
• 2 年以上 DevOps 或 SRE 经验,管理过高并发或高可用的云端系统。
• 对“监控指标”有强迫症,能从异常波动中嗅出系统风险。
• Python 高手,能信手拈来地编写自动化工具,处理海量日志数据。
• 分布式思维,理解 API 网关、重试机制、熔断降级以及缓存一致性。
如果你做过这些,很可能会非常适合:
• 高并发 API 运维(处理过百万级调用量)。
• 金融/审计类系统的稳定性建设。
• 可观测性平台搭建(ELK, Prometheus, Grafana)。
• 自动化测试/流水线专家。
______
你能得到什么
• 掌握 2026 年最顶尖的 AIOps 体系(成为第一批掌握 LLMOps 的运维专家)。
• 从“救火队员”成长为“AI 系统架构护航者”。
• 直接参与 AI 核心业务的发布决策,你手中的数据就是系统上线的准绳。
• 成就感: 看到系统在高频调用下依然稳如泰山,Token 成本持续下降。
______
给候选人的最后一句话
如果你只是想部署几个模型试试,这里不适合你; 如果你想让 AI 在真实业务中“稳健奔跑”,欢迎你。
AI Agent 部署完成后,真正的挑战才刚刚开始。我们要把 AI 从“昂贵且难以预测”,变成:
• 成本可控(Token 每一分钱都花在刀刃上)
• 性能稳定(拒绝 30 秒以上的加载转圈)
• 黑盒透明(每一行 AI 推理路径都清晰可见)
• 持续进化(Prompt 迭代不再靠“盲猜”) 的 工业级系统。
如果你厌倦了传统的服务器运维,想在 AI 时代定义“可观测性”的新标准,这里有你的战场。
_______
你将面对的挑战
• 模型会变慢,你要设计缓存、异步队列和负载均衡。
• Token 会超支,你要建立精准的监控看板和预算熔断机制。
• AI 会胡言乱语,你要构建自动化测评(Eval)流水线,在发布前抓住它。
• 链路会断裂,你要从复杂的 RAG 和 API 调用中,秒级定位故障点。 这不是简单的脚本维护,而是链路工程 (Trace Engineering)。
_______
你每天会做的事
• 编排: 利用 Azure DevOps / GitHub Actions 构建 Prompt 和工具的 CI/CD 流水线。
• 监控: 基于 Application Insights 和 OpenTelemetry,构建 Agent 全链路追踪看板。
• 调优: 实验不同的检索策略和模型分流方案,在延迟与质量之间找到最优平衡点。
• 测评: 设计自动化的评估集(Test Suite),让 AI 的每一次改动都有据可查。
• 安全: 管理 AI Foundry 的终结点安全、密钥轮转与敏感数据脱敏。
______
技术环境
• 全栈 Azure 监控: Azure Monitor, Log Analytics, Application Insights。
• LLMOps 工具: Prompt Flow Evaluation, Azure AI Project SDK, MLflow。
• 自动化: Infrastructure as Code (Bicep/Terraform), Python 自动化脚本。
______
我们希望你具备的底色
• 2 年以上 DevOps 或 SRE 经验,管理过高并发或高可用的云端系统。
• 对“监控指标”有强迫症,能从异常波动中嗅出系统风险。
• Python 高手,能信手拈来地编写自动化工具,处理海量日志数据。
• 分布式思维,理解 API 网关、重试机制、熔断降级以及缓存一致性。
如果你做过这些,很可能会非常适合:
• 高并发 API 运维(处理过百万级调用量)。
• 金融/审计类系统的稳定性建设。
• 可观测性平台搭建(ELK, Prometheus, Grafana)。
• 自动化测试/流水线专家。
______
你能得到什么
• 掌握 2026 年最顶尖的 AIOps 体系(成为第一批掌握 LLMOps 的运维专家)。
• 从“救火队员”成长为“AI 系统架构护航者”。
• 直接参与 AI 核心业务的发布决策,你手中的数据就是系统上线的准绳。
• 成就感: 看到系统在高频调用下依然稳如泰山,Token 成本持续下降。
______
给候选人的最后一句话
如果你只是想部署几个模型试试,这里不适合你; 如果你想让 AI 在真实业务中“稳健奔跑”,欢迎你。
2026-04-13 16:52
IP属地:广东广州
职位福利
硕士3-5年13薪

广州德捷科技有限公司
不需要融资 · 20-99人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >











