职位详情
职位描述
参与阿里云智算网络的建设、交付和性能优化等核心工作,⽀撑⼤模型并⾏训练和并行推理业务的线性加速,其中主要的核心职责包括:
1)负责AI训练&推理,存储&数据库等场景下⾼性能网络的性能分析和问题定位,以及相应工具和系统的研发
2)负责高性能网络系统中驱动&通信库、拥塞控制算法、虚拟化技术等组件的研发,以及相关组件在AI场景下的性能调优
3)AI 训练集群网络架构设计与运维
部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群);
优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。
4)网络性能调优与问题解决
解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等);
利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。
5)自动化与 CI/CD 实践
构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理;
开发自动化脚本与工具,提升网络运维效率与稳定性。
6)全生命周期网络管理
管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性;
设计并实施网络监控与告警体系,快速定位并修复潜在故障。
7)跨团队协作与技术落地
与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案;
深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。
职位要求
• 5 年以上Coding经验
• 5年以上IT、互联网、云计算开发相关工作经验
• 2年及以上相关产品/技术的开发经验
• 对所负责的领域能够作为owner,充分理解自己团队在生产关系大图中的定位,与业务和协作团队关系,形成良好协作,及时解决职责/认知冲突类问题并驱动合理方案落地;
• 具备较高复杂度项目的管理能力
• 熟悉技术领域相关的前沿信息渠道,定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享
• 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作
• 具备较好的架构设计能力,对涉及多个系统,有能力产出合理的上下游全链路技术方案/架构,并结合业务预判规划好模块架构1年内的演进
• 具备从业务需求、研发、管理、测试、部署、运维全链路的流程和水位有清晰的认证和持续改进能力
• 领域能力要求:
1) 在高性能网络方向有丰富的经验,在端到端性能分析和调优方面有经验者
2) 熟悉训练或推理框架,负载特征,NCCL,openshmem等相关软件栈优先。
3) 熟悉Mellanox网卡工作原理、配置和性能调优者优先
4) 熟悉RDMA协议细节,有RDMA网卡驱动或高性能网络协议开发经验者优先
5) 有开源社区贡献经验(如 RDMA/OFED 栈、NCCL、MPI 等);
6) 熟悉云原生技术(Kubernetes、CNI、Service Mesh)及容器化部署实践。
参与阿里云智算网络的建设、交付和性能优化等核心工作,⽀撑⼤模型并⾏训练和并行推理业务的线性加速,其中主要的核心职责包括:
1)负责AI训练&推理,存储&数据库等场景下⾼性能网络的性能分析和问题定位,以及相应工具和系统的研发
2)负责高性能网络系统中驱动&通信库、拥塞控制算法、虚拟化技术等组件的研发,以及相关组件在AI场景下的性能调优
3)AI 训练集群网络架构设计与运维
部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群);
优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。
4)网络性能调优与问题解决
解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等);
利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。
5)自动化与 CI/CD 实践
构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理;
开发自动化脚本与工具,提升网络运维效率与稳定性。
6)全生命周期网络管理
管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性;
设计并实施网络监控与告警体系,快速定位并修复潜在故障。
7)跨团队协作与技术落地
与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案;
深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。
职位要求
• 5 年以上Coding经验
• 5年以上IT、互联网、云计算开发相关工作经验
• 2年及以上相关产品/技术的开发经验
• 对所负责的领域能够作为owner,充分理解自己团队在生产关系大图中的定位,与业务和协作团队关系,形成良好协作,及时解决职责/认知冲突类问题并驱动合理方案落地;
• 具备较高复杂度项目的管理能力
• 熟悉技术领域相关的前沿信息渠道,定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享
• 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作
• 具备较好的架构设计能力,对涉及多个系统,有能力产出合理的上下游全链路技术方案/架构,并结合业务预判规划好模块架构1年内的演进
• 具备从业务需求、研发、管理、测试、部署、运维全链路的流程和水位有清晰的认证和持续改进能力
• 领域能力要求:
1) 在高性能网络方向有丰富的经验,在端到端性能分析和调优方面有经验者
2) 熟悉训练或推理框架,负载特征,NCCL,openshmem等相关软件栈优先。
3) 熟悉Mellanox网卡工作原理、配置和性能调优者优先
4) 熟悉RDMA协议细节,有RDMA网卡驱动或高性能网络协议开发经验者优先
5) 有开源社区贡献经验(如 RDMA/OFED 栈、NCCL、MPI 等);
6) 熟悉云原生技术(Kubernetes、CNI、Service Mesh)及容器化部署实践。
2026-05-15 13:29
IP属地:北京
职位福利
本科10年以上

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >









