AI 基础设施 / 大模型部署工程师

1.5-3万元/月

宁波

苏女士

已实名

企业认证

青钱私募基金管理（山东）有限公司

职位详情

大模型算法

岗位职责
1. 大模型本地化部署
- 搭建并维护本地大语言模型（LLM）运行环境，基于 Ollama、vLLM、LocalAI 等开源框架完成模型部署；
- 根据业务场景选择适配的开源模型（如 claudecode、Qwen、DeepSeek、Mistral、chatgpt等），实施本地化适配与性能调优；

2. 算力基础设施规划
- 分析本地算力需求（GPU 型号、显存容量、服务器配置等），提供高性价比的硬件采购或云资源租赁建议；
- 搭建和运维 GPU 服务器集群，保障模型推理服务的稳定性与高效性；

3. 商业大模型 API 对接
- 实现与 OpenAI、Anthropic、百度文心、阿里通义等商业大模型 API 的集成；
- 设计科学的调用策略，涵盖成本控制、请求限流及异常情况下的容灾切换机制；

4. AI 应用落地
- 将大模型能力融入金融领域的实际业务流程；
- 构建 RAG（检索增强生成）系统，支持基于企业内部数据的智能问答；
- 开发内部 AI 工具平台，提升团队使用人工智能技术的便捷性；

5. 持续优化
- 跟进人工智能领域前沿动态，持续评估并引入更先进的模型与工具；
- 优化模型推理效率，降低响应延迟与运行成本；

任职要求
必须具备
- 具备真实的大模型本地部署经验（非仅调用 API，需独立完成过本地环境搭建与模型运行）；
- 熟悉 Linux 服务器运维流程，可独立完成从系统安装、驱动配置到模型服务上线的全链路操作；
- 熟练掌握 Python，能开发模型服务接口及自动化运维脚本；
- 掌握 Docker / Docker Compose 技术，具备 AI 服务容器化部署能力；
- 熟悉至少一种主流模型推理框架（vLLM / Ollama / llama.cpp / TGI 等）；
- 具备自主学习能力，能快速吸收 AI 领域新技术并应用于实践；

加分项
- 有模型微调（Fine-tuning / LoRA）实践经验；
- 熟悉 RAG 架构，使用过 Milvus、Chroma、Weaviate 等向量数据库；
- 具备 NVIDIA GPU 集群管理经验（CUDA 调优、多卡并行推理）；
- 了解 Kubernetes（K8s）进行容器编排管理；
- 使用过 LangChain / LlamaIndex 等 AI 应用开发框架；
- 具备成本意识，能在系统性能与资源开销之间做出合理平衡；

软性要求
- 注重实效，以结果为导向，拒绝形式主义；
- 能用通俗语言向非技术人员清晰传达技术方案；
- 自驱力强，具备独立解决问题的能力，无需过多指导；

双休，薪资待遇面议，工作地点宁波慈溪

2026-07-06 12:24

IP属地：浙江宁波

职位福利

本科3-5年大模型算法Python深度学习自然语言处理（NLP）GPTT5BERT自然语言处理知识图谱PyTorchC++VLLM / OLLAMALANGCHAINShell