职位详情
岗位职责:
1、负责AI推理服务器、GPU推理集群及模型服务平台的软件环境搭建、维护与故障处置。
2、负责Linux系统、NVIDIA GPU驱动、CUDA、cuDNN、NCCL等底层运行环境的安装配置、版本升级、定期巡检及问题诊断。
3、负责推理服务框架的部署与日常运维,涵盖vLLM、Triton Inference Server、TensorRT-LLM、TGI、FastAPI等主流框架。
4、负责大模型或AI模型推理服务的全生命周期管理,包括上线、启停、重启、扩容、灰度发布、版本迭代与回滚操作。
5、负责Docker、containerd、Kubernetes等容器化平台的部署与运维,确保推理服务高可用运行。
6、负责处理推理服务常见异常,如模型加载错误、接口调用失败、服务启动异常、GPU识别异常、显存溢出、响应延迟、并发瓶颈等问题。
7、负责推理服务性能与稳定性监控,重点关注QPS、并发连接数、响应时长、P95/P99延迟、GPU使用率、显存占用、温度及功耗等核心指标。
8、负责Prometheus、Grafana、Alertmanager、DCGM Exporter等监控告警系统的部署与维护,实现问题及时发现与预警。
9、编写Shell、Python等自动化脚本,提升环境部署、服务巡检、日志解析和故障响应效率。
10、协同研发、算法、产品、交付及客户团队,推进推理服务上线、客户现场交付及技术支持工作。
11、整理并归档模型部署文档、运维操作手册、故障处理记录及标准化流程规范。
任职要求:
1、大专及以上学历,计算机、软件工程、人工智能、电子信息等相关专业优先考虑。
2、具有Linux运维、云平台运维、DevOps、SRE或AI平台/模型服务运维相关工作经验。
3、熟练掌握Linux系统管理,能独立处理系统服务、磁盘、网络、权限、日志、进程等常见运维问题。
4、熟悉NVIDIA GPU驱动、CUDA等GPU运行环境,具备GPU服务器运维经验者优先。
5、掌握Docker、containerd、Kubernetes等容器技术,具备线上服务部署与故障排查经验。
6、了解至少一种推理服务框架,如vLLM、Triton、TensorRT-LLM、TGI、FastAPI等。
7、熟悉Prometheus、Grafana等监控工具,能够结合监控数据与日志进行问题定位。
8、具备Shell脚本编写能力,掌握Python者优先。
9、具备良好的问题分析能力、服务意识、沟通协作能力及突发事件应对能力。
1、负责AI推理服务器、GPU推理集群及模型服务平台的软件环境搭建、维护与故障处置。
2、负责Linux系统、NVIDIA GPU驱动、CUDA、cuDNN、NCCL等底层运行环境的安装配置、版本升级、定期巡检及问题诊断。
3、负责推理服务框架的部署与日常运维,涵盖vLLM、Triton Inference Server、TensorRT-LLM、TGI、FastAPI等主流框架。
4、负责大模型或AI模型推理服务的全生命周期管理,包括上线、启停、重启、扩容、灰度发布、版本迭代与回滚操作。
5、负责Docker、containerd、Kubernetes等容器化平台的部署与运维,确保推理服务高可用运行。
6、负责处理推理服务常见异常,如模型加载错误、接口调用失败、服务启动异常、GPU识别异常、显存溢出、响应延迟、并发瓶颈等问题。
7、负责推理服务性能与稳定性监控,重点关注QPS、并发连接数、响应时长、P95/P99延迟、GPU使用率、显存占用、温度及功耗等核心指标。
8、负责Prometheus、Grafana、Alertmanager、DCGM Exporter等监控告警系统的部署与维护,实现问题及时发现与预警。
9、编写Shell、Python等自动化脚本,提升环境部署、服务巡检、日志解析和故障响应效率。
10、协同研发、算法、产品、交付及客户团队,推进推理服务上线、客户现场交付及技术支持工作。
11、整理并归档模型部署文档、运维操作手册、故障处理记录及标准化流程规范。
任职要求:
1、大专及以上学历,计算机、软件工程、人工智能、电子信息等相关专业优先考虑。
2、具有Linux运维、云平台运维、DevOps、SRE或AI平台/模型服务运维相关工作经验。
3、熟练掌握Linux系统管理,能独立处理系统服务、磁盘、网络、权限、日志、进程等常见运维问题。
4、熟悉NVIDIA GPU驱动、CUDA等GPU运行环境,具备GPU服务器运维经验者优先。
5、掌握Docker、containerd、Kubernetes等容器技术,具备线上服务部署与故障排查经验。
6、了解至少一种推理服务框架,如vLLM、Triton、TensorRT-LLM、TGI、FastAPI等。
7、熟悉Prometheus、Grafana等监控工具,能够结合监控数据与日志进行问题定位。
8、具备Shell脚本编写能力,掌握Python者优先。
9、具备良好的问题分析能力、服务意识、沟通协作能力及突发事件应对能力。
2026-05-16 08:20
IP属地:广东深圳
职位福利
大专经验不限系统运维服务器运维云运维DockerKubernetesNginxPythonShellGoLang大规模集群运维AI推理/训练服务部署与运维自动化部署

深圳奥尼电子股份有限公司
未融资 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
GPU服务器硬件运维工程师
8000-15000元/月
运维工程师1-3年大专服务器运维系统运维IDC/机房运维DockerVmwareKubernetesPythonGoLangShell
深圳 宝安区

冯女士 · 奥尼电子昨日活跃








