职位详情
岗位职责
1、搭建AI运维平台的核心架构,支持大模型训练与推理任务的资源调度及性能监控
2、基于Genkit框架研发AI工作流引擎,融合RAG增强能力与多模态数据处理功能
3、设计可观测性数据采集方案,集成OpenTelemetry实现对LLM推理过程的多维度指标追踪
4、优化分布式任务间的通信机制,保障千卡规模集群的加速比不低于90%
5、开发智能故障预测组件,利用时序数据分析技术提前识别硬件异常风险
6、构建高效对接矢量数据库(如Pinecone等)的交互层,满足知识库实时检索需求
岗位要求
1、具备3年以上Go/Python开发经验,掌握Beego/Gin等框架的源码级定制与扩展
2、深入理解微服务治理机制,拥有生产环境中Kubernetes集群的实际运维经验
3、熟悉Genkit/Firebase等AI框架的集成开发,了解Dotprompt模板的设计规范
4、有AI系统可观测性建设经验,熟练运用Prometheus与AlertManager构建监控告警体系
5、掌握大模型训练技术栈(如PyTorch分布式训练),具备通信同步性能调优能力
6、理解向量数据库底层原理,具备RAG场景下的工程落地实践经验
优先条件
1、参与过LLM训练集群运维系统的开发工作(如资源弹性调度、故障自愈等功能)
2、熟悉GPU相关监控指标(如显存占用率、SM利用率等)
3、具备AI工作流可视化编排工具的研发背景
4、了解LangChain等大模型应用开发框架的监控集成方式
1、搭建AI运维平台的核心架构,支持大模型训练与推理任务的资源调度及性能监控
2、基于Genkit框架研发AI工作流引擎,融合RAG增强能力与多模态数据处理功能
3、设计可观测性数据采集方案,集成OpenTelemetry实现对LLM推理过程的多维度指标追踪
4、优化分布式任务间的通信机制,保障千卡规模集群的加速比不低于90%
5、开发智能故障预测组件,利用时序数据分析技术提前识别硬件异常风险
6、构建高效对接矢量数据库(如Pinecone等)的交互层,满足知识库实时检索需求
岗位要求
1、具备3年以上Go/Python开发经验,掌握Beego/Gin等框架的源码级定制与扩展
2、深入理解微服务治理机制,拥有生产环境中Kubernetes集群的实际运维经验
3、熟悉Genkit/Firebase等AI框架的集成开发,了解Dotprompt模板的设计规范
4、有AI系统可观测性建设经验,熟练运用Prometheus与AlertManager构建监控告警体系
5、掌握大模型训练技术栈(如PyTorch分布式训练),具备通信同步性能调优能力
6、理解向量数据库底层原理,具备RAG场景下的工程落地实践经验
优先条件
1、参与过LLM训练集群运维系统的开发工作(如资源弹性调度、故障自愈等功能)
2、熟悉GPU相关监控指标(如显存占用率、SM利用率等)
3、具备AI工作流可视化编排工具的研发背景
4、了解LangChain等大模型应用开发框架的监控集成方式
2026-06-18 12:05
IP属地:湖北武汉
职位福利
本科3-5年GolangJavaPython

浩鲸云计算科技股份有限公司
未融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >






