视觉算法工程师(J10829)

4-6万元/月

顺义区

李女士

已实名

企业认证

北京楠社科技有限公司

职位详情

图像算法

岗位职责：
1、主导基于YOLO系列算法（YOLOv5/v8等）的目标检测模型的研发，包括模型选型、训练、微调（fine-tuning）和性能优化。
2、负责解决复杂场景下的图像识别与分类问题，构建高效、精准的识别模型。
3、精通图像处理技术（使用OpenCV等），负责数据集的预处理、数据增强及后处理逻辑开发，以提升模型鲁棒性。
4、负责文档、截图及自然场景下的文字检测与识别（OCR）任务，能够熟练应用或优化主流OCR框架，提取结构化信息。
5、负责将训练好的模型（尤其是YOLO模型）进行剪枝、量化、蒸馏等优化，并使用TensorRT等工具进行加速，以满足业务对低延迟、高吞吐量的要求。
6、深度参与智能Agent的开发，将您的视觉能力与大语言模型（LLM）进行融合。
7、研究和实践多模态大模型（如LLaVA,MiniGPT-4等），探索其在视觉问答（VQA）、图像描述、视觉定位（VisualGrounding）等场景的应用。
8、与Agent团队协作，开发基于视觉的GUI理解与自动化操作能力，让Agent能够“看懂”并操作软件界面。
任职要求：
1、计算机科学、人工智能、自动化或相关专业硕士及以上学历。
2、3年以上计算机视觉算法研发及项目落地经验。
3、核心技术能力（必须具备）：
·YOLO专家：精通YOLO系列算法，拥有丰富的YOLO模型训练、调优和部署经验，熟悉其网络结构和训练技巧，能够解决训练中遇到的各类实际问题。
·扎实的CV基础：对图像分类、目标检测、图像分割等任务有深入的理论理解和丰富的实践经验。
·熟练掌握OCR技术：有实际的OCR项目经验，了解文本检测和识别的主流方法。
·强大的工程能力：精通Python，熟练掌握PyTorch深度学习框架；熟悉Linux开发环境和Docker容器化技术。

加分项（我们尤其期待）：
1、熟悉多模态大模型：对Vision-LanguagePre-training(VLP)有深入了解，有实际使用或微调过多模态大模型（如CLIP,BLIP,LLaVA等）的经验。
2、熟悉模型优化与部署：有使用ONNX,TensorRT,TVM等工具进行模型推理加速的实际经验。
3、对Agent开发充满热情：对AIAgent、大语言模型（LLM）有浓厚兴趣，并乐于学习和探索如何将CV技术赋能于Agent。

2026-06-25 13:17

IP属地：北京

职位福利

硕士3-5年图像搜索yolo大模型算法多模态算法融合感知算法图