职位详情
职位描述
我们正在寻找一位资深的大模型部署专家,作为核心成员,负责将前沿的大型语言模型
(LLM)及多模态模型安全、高效、稳定地部署至公司本地环境,并构建高可用的模型服务平
台,为全公司的业务产品提供强大的AI能力支撑。
主要职责
主导开源大模型(如Llama、Qwen、ChatGLM、Yi等)在本地服务器/GPU
集群上的部署、配置和调试
搭建和运维大模型推理服务框架,如vLLM,TensorRT-LLM,TritonInference
Server等,以提供高性能的模型服务
实现模型服务的API化,设计与内部业务系统对接的标准化接口
对模型进行量化(INT4/INT8/GPTQ/AWQ)、蒸馏、剪枝等优化,以降低资源消
耗并提升推理速度
开发模型服务的管理后台,实现模型的版本管理、动态加载、滚动升级和监控告警
确保本地部署模型的数据安全性与私密性,所有数据不出域
任职要求
必备条件:
学历与专业:计算机科学、软件工程或相关专业,本科及以上学历
技术基础:精通Python,具备优秀的编程能力和代码风格;熟练掌握Linux操
作系统,能够编写高效的Shell脚本;熟悉Docker容器化技术
核心经验:具有大模型本地部署的实际经验,熟悉至少一种主流开源大模型的部署
流程;熟悉GPU的使用和性能调优,了解CUDA编程;具备扎实的后端开发能力
个人素质:强大的问题排查和解决能力,能够应对复杂的系统环境挑战;具备强烈
的责任心和团队协作精神
优先考虑:
有使用vLLM,TensorRT-LLM等高性能推理框架经验者
有模型量化、推理加速实战经验者
熟悉MLOps工具链(如MLflow,Kubeflow)和CI/CD流程者
有构建企业内部AI平台或PasS平台经验者
了解大模型微调(Fine-tuning)技术(如LoRA,QLoRA)者
我们正在寻找一位资深的大模型部署专家,作为核心成员,负责将前沿的大型语言模型
(LLM)及多模态模型安全、高效、稳定地部署至公司本地环境,并构建高可用的模型服务平
台,为全公司的业务产品提供强大的AI能力支撑。
主要职责
主导开源大模型(如Llama、Qwen、ChatGLM、Yi等)在本地服务器/GPU
集群上的部署、配置和调试
搭建和运维大模型推理服务框架,如vLLM,TensorRT-LLM,TritonInference
Server等,以提供高性能的模型服务
实现模型服务的API化,设计与内部业务系统对接的标准化接口
对模型进行量化(INT4/INT8/GPTQ/AWQ)、蒸馏、剪枝等优化,以降低资源消
耗并提升推理速度
开发模型服务的管理后台,实现模型的版本管理、动态加载、滚动升级和监控告警
确保本地部署模型的数据安全性与私密性,所有数据不出域
任职要求
必备条件:
学历与专业:计算机科学、软件工程或相关专业,本科及以上学历
技术基础:精通Python,具备优秀的编程能力和代码风格;熟练掌握Linux操
作系统,能够编写高效的Shell脚本;熟悉Docker容器化技术
核心经验:具有大模型本地部署的实际经验,熟悉至少一种主流开源大模型的部署
流程;熟悉GPU的使用和性能调优,了解CUDA编程;具备扎实的后端开发能力
个人素质:强大的问题排查和解决能力,能够应对复杂的系统环境挑战;具备强烈
的责任心和团队协作精神
优先考虑:
有使用vLLM,TensorRT-LLM等高性能推理框架经验者
有模型量化、推理加速实战经验者
熟悉MLOps工具链(如MLflow,Kubeflow)和CI/CD流程者
有构建企业内部AI平台或PasS平台经验者
了解大模型微调(Fine-tuning)技术(如LoRA,QLoRA)者
2026-06-11 12:48
IP属地:北京
职位福利
本科经验不限

中领低空经济发展(北京)有限公司

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










