职位详情
工作职责:
1. 主导AI推理全流程性能调优,聚焦首token响应延迟、KV Cache资源调度、推理过程剪枝与量化等关键技术,提升GPU使用效率与整体推理吞吐。
2. 设计并实施token级网络传输优化策略,减少推理链路中的通信开销,推进vLLM、TensorRT-LLM等主流框架的技术选型及定制化开发。
3. 搭建大规模智能算力集群的持续供给体系,完成单机多卡架构设计与多机高速互联方案规划,构建通用算力弹性供应架构。
4. 推动AI系统可观测性平台建设,覆盖GPU利用率、显存消耗等核心监控维度,建立面向业务目标的关键指标评估体系。
5. 研究Skill/MCP集成路径,推动现有产品向AI原生形态升级,为业务团队提供涵盖模型部署、调优到效果验证的全周期技术支持。
6. 基于业务发展预测,统筹智能算力资源的中长期布局与供给节奏安排,支撑智算中心底层基础设施的演进与落地。
任职要求:
1. 具备扎实的计算机系统基础,熟练掌握Linux系统、虚拟化技术、容器化方案及K8s编排能力,熟悉云计算核心组件(ECS、ACK、OSS等)。
2. 深入理解AI基础设施技术栈,掌握GPU硬件架构、CUDA编程模型、NCCL通信机制以及主流推理框架(如vLLM/TensorRT-LLM)原理。
3. 拥有分布式系统设计背景,了解大模型推理场景下的通信优化、内存管理与任务调度策略。
4. 符合以下任意一项经历:主导过大型AI推理平台构建与性能优化(具备千卡规模集群经验者优先);在token网络优化、KV Cache管理等专项中有成功落地案例并产生可衡量收益;主导过AI Native产品升级或Skill/MCP生态整合项目。
5. P7层级需具备端到端技术方案设计与复杂项目推动力;P8层级需具备跨团队技术战略制定能力,能够定义AI Infra领域的中长期发展方向。
6. 以客户价值为导向,善于将先进AI技术转化为实际业务成果,具备技术传播与团队赋能能力,追求高性能与高扩展性的系统架构。
1. 主导AI推理全流程性能调优,聚焦首token响应延迟、KV Cache资源调度、推理过程剪枝与量化等关键技术,提升GPU使用效率与整体推理吞吐。
2. 设计并实施token级网络传输优化策略,减少推理链路中的通信开销,推进vLLM、TensorRT-LLM等主流框架的技术选型及定制化开发。
3. 搭建大规模智能算力集群的持续供给体系,完成单机多卡架构设计与多机高速互联方案规划,构建通用算力弹性供应架构。
4. 推动AI系统可观测性平台建设,覆盖GPU利用率、显存消耗等核心监控维度,建立面向业务目标的关键指标评估体系。
5. 研究Skill/MCP集成路径,推动现有产品向AI原生形态升级,为业务团队提供涵盖模型部署、调优到效果验证的全周期技术支持。
6. 基于业务发展预测,统筹智能算力资源的中长期布局与供给节奏安排,支撑智算中心底层基础设施的演进与落地。
任职要求:
1. 具备扎实的计算机系统基础,熟练掌握Linux系统、虚拟化技术、容器化方案及K8s编排能力,熟悉云计算核心组件(ECS、ACK、OSS等)。
2. 深入理解AI基础设施技术栈,掌握GPU硬件架构、CUDA编程模型、NCCL通信机制以及主流推理框架(如vLLM/TensorRT-LLM)原理。
3. 拥有分布式系统设计背景,了解大模型推理场景下的通信优化、内存管理与任务调度策略。
4. 符合以下任意一项经历:主导过大型AI推理平台构建与性能优化(具备千卡规模集群经验者优先);在token网络优化、KV Cache管理等专项中有成功落地案例并产生可衡量收益;主导过AI Native产品升级或Skill/MCP生态整合项目。
5. P7层级需具备端到端技术方案设计与复杂项目推动力;P8层级需具备跨团队技术战略制定能力,能够定义AI Infra领域的中长期发展方向。
6. 以客户价值为导向,善于将先进AI技术转化为实际业务成果,具备技术传播与团队赋能能力,追求高性能与高扩展性的系统架构。
2026-06-19 14:50
IP属地:浙江杭州
职位福利
本科5-10年容器技术分布式技术AI推理性能优化智算集群架构设计AI可观测体系建设

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >







