职位详情
工作职责:
1、负责AI模型服务器的全周期运维管理,涵盖模型上线部署、运行监控、日常维护及性能调优;
2、基于Kubernetes搭建高可用的AI推理服务架构,完成Docker容器化封装与集群资源调度;
3、主导在异构计算环境下的模型部署任务,熟练运用NVIDIA GPU与昇腾芯片实现大模型加速运行;
4、推进AI基础设施建设,包括训练平台部署、分布式存储配置及网络性能优化;
5、开发自动化运维脚本,使用Python实现模型健康监测、资源动态扩缩容及日志解析功能;
6、深入参与模型性能优化工作,借助Profiling工具分析性能瓶颈并优化计算图结构;
7、与产品和算法团队紧密协作,推动模型工程化落地,提升大语言模型交互响应效率;
8、搭建CI/CD发布流水线,实现模型版本管理与持续集成交付。
基础要求
1、计算机科学、人工智能或相关专业本科及以上学历,具备1年以上AI系统运维经验;
2、熟练掌握Python编程语言,具有较强的脚本开发与自动化运维实践能力;
3、理解Kubernetes核心机制,可独立完成集群搭建与常见故障处理;
4、熟悉Docker镜像制作流程,了解容器网络与存储工作原理;
5、具有大模型(如Transformer系列)部署经历,掌握VLLM/SGlang等主流推理框架;
6、精通NVIDIA CUDA与昇腾MindSpore运行环境的部署与调试;
7、熟悉Prometheus结合Grafana构建监控体系,掌握ELK技术栈进行日志分析。
1、负责AI模型服务器的全周期运维管理,涵盖模型上线部署、运行监控、日常维护及性能调优;
2、基于Kubernetes搭建高可用的AI推理服务架构,完成Docker容器化封装与集群资源调度;
3、主导在异构计算环境下的模型部署任务,熟练运用NVIDIA GPU与昇腾芯片实现大模型加速运行;
4、推进AI基础设施建设,包括训练平台部署、分布式存储配置及网络性能优化;
5、开发自动化运维脚本,使用Python实现模型健康监测、资源动态扩缩容及日志解析功能;
6、深入参与模型性能优化工作,借助Profiling工具分析性能瓶颈并优化计算图结构;
7、与产品和算法团队紧密协作,推动模型工程化落地,提升大语言模型交互响应效率;
8、搭建CI/CD发布流水线,实现模型版本管理与持续集成交付。
基础要求
1、计算机科学、人工智能或相关专业本科及以上学历,具备1年以上AI系统运维经验;
2、熟练掌握Python编程语言,具有较强的脚本开发与自动化运维实践能力;
3、理解Kubernetes核心机制,可独立完成集群搭建与常见故障处理;
4、熟悉Docker镜像制作流程,了解容器网络与存储工作原理;
5、具有大模型(如Transformer系列)部署经历,掌握VLLM/SGlang等主流推理框架;
6、精通NVIDIA CUDA与昇腾MindSpore运行环境的部署与调试;
7、熟悉Prometheus结合Grafana构建监控体系,掌握ELK技术栈进行日志分析。
2026-06-24 12:20
IP属地:广东广州
职位福利
本科1-3年

广东盈峰正和数字科技有限公司
不需要融资 · 100-499人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >











