职位详情
岗位职责
1、配合模型应用和模型训练同事,上线大模型推理服务,推动大模型相关算法的落地;
2、持续跟进前沿技术,优化大模型推理性能,提升线上模型服务吞吐量,降低模型推理延迟,控制推理机器成本;
3、开发和优化大模型推理系统,提升模型推理系统的性能,稳定性,可观测性,易用性等;
4、使用GPU编程和系统优化手段实现高性能的推理优化算法,并将其落地于大模型推理系统中。
岗位要求
1、计算机科学、人工智能等相关教育背景,本科以上学历;
2、熟悉Python,掌握常见的LLM推理加速框架,如vllm/onnx/TensorRT/TensorRT-LLM/sglang等,能够根据业务需求优化;
3、熟悉CPU/GPU下性能优化基本原理和方式方法,有服务端GPU程序加速经验;
4、熟悉分布式推理常用加速方法,有分布式系统开发经验或大模型分布式部署经验者优先;
5、有国产芯片适配经验优先;
6、具备严谨细致的工作态度,较强的团队协作能力。
1、配合模型应用和模型训练同事,上线大模型推理服务,推动大模型相关算法的落地;
2、持续跟进前沿技术,优化大模型推理性能,提升线上模型服务吞吐量,降低模型推理延迟,控制推理机器成本;
3、开发和优化大模型推理系统,提升模型推理系统的性能,稳定性,可观测性,易用性等;
4、使用GPU编程和系统优化手段实现高性能的推理优化算法,并将其落地于大模型推理系统中。
岗位要求
1、计算机科学、人工智能等相关教育背景,本科以上学历;
2、熟悉Python,掌握常见的LLM推理加速框架,如vllm/onnx/TensorRT/TensorRT-LLM/sglang等,能够根据业务需求优化;
3、熟悉CPU/GPU下性能优化基本原理和方式方法,有服务端GPU程序加速经验;
4、熟悉分布式推理常用加速方法,有分布式系统开发经验或大模型分布式部署经验者优先;
5、有国产芯片适配经验优先;
6、具备严谨细致的工作态度,较强的团队协作能力。
2026-04-24 12:22
IP属地:北京
职位福利
本科经验不限

百融云创科技股份有限公司
已上市 · 500-999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










