职位详情
1.负责算力接入前的测试工作,涵盖整机压力测试、部件性能评估,以及多机训练/推理场景下单集群内多品牌设备混布测试。
2.负责GPU软硬件协同中复杂故障与性能问题的定位、分析与解决。
3.负责GPU压测工具、监控系统及故障诊断工具的研发优化。
4.负责主流AI模型与应用在新型异构计算平台上的性能测评与深度分析。
5.负责识别大规模LLM在训练与推理过程中所面临的AI异构硬件瓶颈,提出面向未来的异构系统架构优化建议,支撑高效的大模型扩展需求。
职位描述
1.具备GPU异构组件引入相关经验,或曾在主流AI芯片企业从事GPU应用开发与性能调优工作,能够独立应对异构类产品的技术挑战,并提供业务层面的应用支持。实际工作中涉及方案设计、技术对接、项目落地及疑难问题处理等环节。
2.熟悉GPU/AI专用芯片的硬件结构、芯片体系架构及其配套服务器系统设计,掌握至少一种主流GPU架构(如NVIDIAGPU、AMDGPU等)者优先考虑。
3.精通Python、C++及Linux开发环境,熟练运用CUDA进行编程开发;具备Cutlass、Triton等框架的开发与性能调优经验者优先;熟悉常用性能分析工具的使用方法与数据解读。
4.熟练使用主流AI框架(PyTorch、TensorFlow),掌握大模型训练框架(如Megatron、DeepSpeed)和推理框架(如SGLang、vLLM)。
5.深入理解常见大模型的网络结构与算法原理,掌握训练与推理过程中的关键工程优化技术。
6.具备良好的学习能力与抗压能力,能适应快速迭代的技术环境;拥有出色的跨团队协作意识与沟通技巧。
2.负责GPU软硬件协同中复杂故障与性能问题的定位、分析与解决。
3.负责GPU压测工具、监控系统及故障诊断工具的研发优化。
4.负责主流AI模型与应用在新型异构计算平台上的性能测评与深度分析。
5.负责识别大规模LLM在训练与推理过程中所面临的AI异构硬件瓶颈,提出面向未来的异构系统架构优化建议,支撑高效的大模型扩展需求。
职位描述
1.具备GPU异构组件引入相关经验,或曾在主流AI芯片企业从事GPU应用开发与性能调优工作,能够独立应对异构类产品的技术挑战,并提供业务层面的应用支持。实际工作中涉及方案设计、技术对接、项目落地及疑难问题处理等环节。
2.熟悉GPU/AI专用芯片的硬件结构、芯片体系架构及其配套服务器系统设计,掌握至少一种主流GPU架构(如NVIDIAGPU、AMDGPU等)者优先考虑。
3.精通Python、C++及Linux开发环境,熟练运用CUDA进行编程开发;具备Cutlass、Triton等框架的开发与性能调优经验者优先;熟悉常用性能分析工具的使用方法与数据解读。
4.熟练使用主流AI框架(PyTorch、TensorFlow),掌握大模型训练框架(如Megatron、DeepSpeed)和推理框架(如SGLang、vLLM)。
5.深入理解常见大模型的网络结构与算法原理,掌握训练与推理过程中的关键工程优化技术。
6.具备良好的学习能力与抗压能力,能适应快速迭代的技术环境;拥有出色的跨团队协作意识与沟通技巧。
2026-06-27 14:38
IP属地:北京
职位福利
本科5-10年C语言Python算法基础异构计算大模型框架芯片

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >






