职位详情
1. 参与多模态大模型推理系统研发,聚焦将多模态大模型用于图像理解、音频理解、视频理解、视觉多轮交互、实时对话等任务;
2. 深入优化推理性能,包括 KV Cache 管理、连续批处理(continuous batching)、量化压缩(INT8/FP8)、显存优化及异构硬件适配,显著降低端到端延迟并提升吞吐;
3. 支持多模态大模型在淘天、高德等高并发业务场景的落地,与算法和业务团队协同,打造高效、稳定、低延迟的多模态大模型推理引擎。
岗位要求
1. 有扎实的工程算法基础,精通数据结构和常用算法,熟练掌握各种编译、调试、性能分析工具;
2. 熟悉 PyTorch/Tensorflow 等深度学习框架开发,具有模型开发、调试与性能调优的实战经验,能熟练使用 profiling 工具;
3. 理解Transformer 架构及其在多模态大模型中的应用,熟悉注意力机制、位置编码、KV Cache 等的工作原理与优化方法;
4. 学习能力强,具有优秀的分析和解决实际问题的能力和态度,对技术有激情;
5. 符合以下条件之一者优先:
a. 熟悉HuggingFace Transformers、vLLM、SGLang等大模型推理框架者优先;
b. 有过 Qwen2.5-VL、 Qwen3-VL、Qwen3-Omni 等大模型优化经验者优先;
d. 有优秀开源项目开发经验优先,特别是业界主流的大模型训练/推理引擎。
2. 深入优化推理性能,包括 KV Cache 管理、连续批处理(continuous batching)、量化压缩(INT8/FP8)、显存优化及异构硬件适配,显著降低端到端延迟并提升吞吐;
3. 支持多模态大模型在淘天、高德等高并发业务场景的落地,与算法和业务团队协同,打造高效、稳定、低延迟的多模态大模型推理引擎。
岗位要求
1. 有扎实的工程算法基础,精通数据结构和常用算法,熟练掌握各种编译、调试、性能分析工具;
2. 熟悉 PyTorch/Tensorflow 等深度学习框架开发,具有模型开发、调试与性能调优的实战经验,能熟练使用 profiling 工具;
3. 理解Transformer 架构及其在多模态大模型中的应用,熟悉注意力机制、位置编码、KV Cache 等的工作原理与优化方法;
4. 学习能力强,具有优秀的分析和解决实际问题的能力和态度,对技术有激情;
5. 符合以下条件之一者优先:
a. 熟悉HuggingFace Transformers、vLLM、SGLang等大模型推理框架者优先;
b. 有过 Qwen2.5-VL、 Qwen3-VL、Qwen3-Omni 等大模型优化经验者优先;
d. 有优秀开源项目开发经验优先,特别是业界主流的大模型训练/推理引擎。
2026-07-01 14:23
IP属地:北京
职位福利
硕士5-10年

北京伯度咨询有限公司

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >









