职位详情
职责描述:
1、参与AI算力平台运行环境的搭建与维护,协助完成Kubernetes集群的部署、配置及日常运维工作,确保系统持续稳定高效运行;
2、在团队指导下,通过编写和修改Kubernetes YAML配置文件(如Deployment、Service、ConfigMap、Secret、PersistentVolume等),实现AI应用的部署、弹性扩缩容及版本升级;
3、参与NVIDIA GPU或NPU等异构计算资源的驱动安装、运行环境调试与基础性能验证,保障AI训练与推理任务顺利执行;
4、协助实施系统监控(Prometheus/Grafana)、日志采集(ELK/Fluentd)、数据备份机制,并参与常见故障定位与处理,提升平台可靠性与可维护性;
5、撰写标准化部署流程文档、运维操作手册及问题应对指南,积极参与技术知识库建设,促进团队协作与经验共享;
6、协同研发团队优化CI/CD发布流程,支撑AI模型的高频迭代与自动化上线。
职位要求:
1、本科及以上学历,计算机、软件工程、网络工程、自动化等相关专业,具备3-5年相关工作经验者优先考虑。
2、熟练掌握Linux系统基本操作(包括文件管理、权限控制、进程管理、网络设置),可独立完成命令行下的系统操作任务。
3、理解Docker核心概念,能够使用docker run、docker-compose up等常用命令启动和管理容器化服务。
4、了解Kubernetes基础架构(如Pod、Deployment、Service等组件),具备阅读和调整简单YAML配置文件的能力。
5、熟悉Nginx或Traefik等反向代理工具的基本配置,能完成常规的域名绑定、端口映射等操作。
6、有NVIDIA GPU驱动、CUDA环境或Docker部署经验者优先(例如课程实践、实验室项目等场景)。
7、具备Git版本控制、Shell脚本编写、系统日志分析等实践经验,具有初步的运维自动化意识。
8、具备较强的学习能力与责任意识,沟通良好,富有团队合作精神,愿意面对并解决复杂技术问题
1、参与AI算力平台运行环境的搭建与维护,协助完成Kubernetes集群的部署、配置及日常运维工作,确保系统持续稳定高效运行;
2、在团队指导下,通过编写和修改Kubernetes YAML配置文件(如Deployment、Service、ConfigMap、Secret、PersistentVolume等),实现AI应用的部署、弹性扩缩容及版本升级;
3、参与NVIDIA GPU或NPU等异构计算资源的驱动安装、运行环境调试与基础性能验证,保障AI训练与推理任务顺利执行;
4、协助实施系统监控(Prometheus/Grafana)、日志采集(ELK/Fluentd)、数据备份机制,并参与常见故障定位与处理,提升平台可靠性与可维护性;
5、撰写标准化部署流程文档、运维操作手册及问题应对指南,积极参与技术知识库建设,促进团队协作与经验共享;
6、协同研发团队优化CI/CD发布流程,支撑AI模型的高频迭代与自动化上线。
职位要求:
1、本科及以上学历,计算机、软件工程、网络工程、自动化等相关专业,具备3-5年相关工作经验者优先考虑。
2、熟练掌握Linux系统基本操作(包括文件管理、权限控制、进程管理、网络设置),可独立完成命令行下的系统操作任务。
3、理解Docker核心概念,能够使用docker run、docker-compose up等常用命令启动和管理容器化服务。
4、了解Kubernetes基础架构(如Pod、Deployment、Service等组件),具备阅读和调整简单YAML配置文件的能力。
5、熟悉Nginx或Traefik等反向代理工具的基本配置,能完成常规的域名绑定、端口映射等操作。
6、有NVIDIA GPU驱动、CUDA环境或Docker部署经验者优先(例如课程实践、实验室项目等场景)。
7、具备Git版本控制、Shell脚本编写、系统日志分析等实践经验,具有初步的运维自动化意识。
8、具备较强的学习能力与责任意识,沟通良好,富有团队合作精神,愿意面对并解决复杂技术问题
2026-06-09 12:26
IP属地:天津
职位福利
本科3-5年KubernetesDocker云运维

深圳市恒双展业科技有限公司
不需要融资 · 100-499人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >











