搜索
登录注册

职位详情

职位描述
参与阿里云智算网络的建设、交付和性能优化等核心工作,⽀撑⼤模型并⾏训练和并行推理业务的线性加速,其中主要的核心职责包括:
1)负责AI训练&推理,存储&数据库等场景下⾼性能网络的性能分析和问题定位,以及相应工具和系统的研发
2)负责高性能网络系统中驱动&通信库、拥塞控制算法、虚拟化技术等组件的研发,以及相关组件在AI场景下的性能调优
3)AI 训练集群网络架构设计与运维
部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构,支撑大规模 AI 训练集群(如万卡级 GPU 集群);
优化分布式 AI 工作负载(如 NCCL、MPI)的网络性能,降低通信延迟,提升吞吐效率。
4)网络性能调优与问题解决
解决分布式训练中的复杂网络问题(如 NCCL/MPI 通信瓶颈、带宽利用率低等);
利用自动化工具进行网络资源分配、监控、诊断及性能分析(如延迟/吞吐量分析、端到端链路追踪)。
5)自动化与 CI/CD 实践
构建网络基础设施的 CI/CD 流水线(Infrastructure as Code),实现网络配置的自动化部署与版本管理;
开发自动化脚本与工具,提升网络运维效率与稳定性。
6)全生命周期网络管理
管理端到端网络生命周期(部署、配置、监控、升级),确保网络服务的高可用性与可扩展性;
设计并实施网络监控与告警体系,快速定位并修复潜在故障。
7)跨团队协作与技术落地
与 AI/ML 工程师紧密合作,排查训练/推理流水线中的网络瓶颈,提供针对性优化方案;
深度参与 AI 框架(如 TensorFlow、PyTorch)与底层网络基础设施的适配与性能调优。
职位要求
• 5 年以上Coding经验
• 5年以上IT、互联网、云计算开发相关工作经验
• 2年及以上相关产品/技术的开发经验
• 对所负责的领域能够作为owner,充分理解自己团队在生产关系大图中的定位,与业务和协作团队关系,形成良好协作,及时解决职责/认知冲突类问题并驱动合理方案落地;
• 具备较高复杂度项目的管理能力
• 熟悉技术领域相关的前沿信息渠道,定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享
• 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作
• 具备较好的架构设计能力,对涉及多个系统,有能力产出合理的上下游全链路技术方案/架构,并结合业务预判规划好模块架构1年内的演进
• 具备从业务需求、研发、管理、测试、部署、运维全链路的流程和水位有清晰的认证和持续改进能力
• 领域能力要求:
1) 在高性能网络方向有丰富的经验,在端到端性能分析和调优方面有经验者
2) 熟悉训练或推理框架,负载特征,NCCL,openshmem等相关软件栈优先。
3) 熟悉Mellanox网卡工作原理、配置和性能调优者优先
4) 熟悉RDMA协议细节,有RDMA网卡驱动或高性能网络协议开发经验者优先
5) 有开源社区贡献经验(如 RDMA/OFED 栈、NCCL、MPI 等);
6) 熟悉云原生技术(Kubernetes、CNI、Service Mesh)及容器化部署实践。
2026-05-15 13:29
IP属地:北京

职位福利

本科10年以上
企业发布信息图
阿里云计算有限公司
不需要融资 · 10000人以上
鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >
下载鱼泡直聘APP

附近适合您的职位

C++开发实习岗位
200-220元/天
C/C++经验不限本科音视频经验C++
北京 朝阳区
李女士 · 蔚领5日内活跃
Linux中级c++(也看精通qt方向)
1.7-1.8万元/月
C/C++3-5年大专Linux开发/部署经验QTC++
北京 朝阳区 北苑
QT桌面应用开发(双休/全额公积金)
1.6-1.8万元/月
C/C++5-10年大专C++QT桌面开发经验MFC
北京 朝阳区
C/C++ 中高级开发工程师
1.5-3万元/月
C/C++3-5年本科音视频经验C++QT嵌入式软件经验Python
北京 朝阳区
C++开发工程师
1.1-1.8万元/月
C/C++1-3年本科音视频经验C++Windows
北京 朝阳区
李女士 · 蔚领5日内活跃
阿里云智能-存储软硬件融合技术专家-北京
5-8万元/月
C/C++5-10年本科C++块存储分布式存储
北京 朝阳区
Linux C++ 高级开发工程师
1.8-3万元/月
C/C++3-5年大专架构设计经验Linux开发/部署经验STLBoostC++C
北京 朝阳区 北苑
C/C++
3-5.5万元/月
C/C++5-10年本科C++C分布式经验
北京 朝阳区
GPU系统软件工程师
4.5-6.5万元/月
C/C++5-10年本科GolangC++CLinux开发/部署经验Python
北京 朝阳区
C/C++(外派本科Linux开发)
1.4-1.8万元/月
C/C++1-3年本科linuxLinux开发/部署经验
北京 朝阳区