高性能网络研发专家-北京/杭州

7-10万元/月

朝阳区

王先生

已实名

企业认证

阿里云计算有限公司

职位详情

C/C++

职位描述
参与阿里云智算网络的建设、交付和性能优化等核心工作，⽀撑⼤模型并⾏训练和并行推理业务的线性加速，其中主要的核心职责包括：
1）负责AI训练&推理，存储&数据库等场景下⾼性能网络的性能分析和问题定位，以及相应工具和系统的研发
2）负责高性能网络系统中驱动&通信库、拥塞控制算法、虚拟化技术等组件的研发，以及相关组件在AI场景下的性能调优
3）AI 训练集群网络架构设计与运维
部署、运维和维护基于 RoCE/InfiniBand 的 RDMA 网络架构，支撑大规模 AI 训练集群（如万卡级 GPU 集群）；
优化分布式 AI 工作负载（如 NCCL、MPI）的网络性能，降低通信延迟，提升吞吐效率。
4）网络性能调优与问题解决
解决分布式训练中的复杂网络问题（如 NCCL/MPI 通信瓶颈、带宽利用率低等）；
利用自动化工具进行网络资源分配、监控、诊断及性能分析（如延迟/吞吐量分析、端到端链路追踪）。
5）自动化与 CI/CD 实践
构建网络基础设施的 CI/CD 流水线（Infrastructure as Code），实现网络配置的自动化部署与版本管理；
开发自动化脚本与工具，提升网络运维效率与稳定性。
6）全生命周期网络管理
管理端到端网络生命周期（部署、配置、监控、升级），确保网络服务的高可用性与可扩展性；
设计并实施网络监控与告警体系，快速定位并修复潜在故障。
7）跨团队协作与技术落地
与 AI/ML 工程师紧密合作，排查训练/推理流水线中的网络瓶颈，提供针对性优化方案；
深度参与 AI 框架（如 TensorFlow、PyTorch）与底层网络基础设施的适配与性能调优。
职位要求
• 5 年以上Coding经验
• 5年以上IT、互联网、云计算开发相关工作经验
• 2年及以上相关产品/技术的开发经验
• 对所负责的领域能够作为owner，充分理解自己团队在生产关系大图中的定位，与业务和协作团队关系，形成良好协作，及时解决职责/认知冲突类问题并驱动合理方案落地；
• 具备较高复杂度项目的管理能力
• 熟悉技术领域相关的前沿信息渠道，定期形成相关的前沿研究文档沉淀并能在团队中进行技术分享
• 能够独立的进行模块、子系统或子领域的复杂度治理工作和跨1-2个技术栈的方案设计工作
• 具备较好的架构设计能力，对涉及多个系统，有能力产出合理的上下游全链路技术方案/架构，并结合业务预判规划好模块架构1年内的演进
• 具备从业务需求、研发、管理、测试、部署、运维全链路的流程和水位有清晰的认证和持续改进能力
• 领域能力要求：
1) 在高性能网络方向有丰富的经验，在端到端性能分析和调优方面有经验者
2) 熟悉训练或推理框架，负载特征，NCCL，openshmem等相关软件栈优先。
3) 熟悉Mellanox网卡工作原理、配置和性能调优者优先
4) 熟悉RDMA协议细节，有RDMA网卡驱动或高性能网络协议开发经验者优先
5) 有开源社区贡献经验（如 RDMA/OFED 栈、NCCL、MPI 等）；
6) 熟悉云原生技术（Kubernetes、CNI、Service Mesh）及容器化部署实践。

2026-06-29 14:05

IP属地：北京

职位福利

本科10年以上