职位详情
工作职责
1、负责AI集群以太网组网方案设计,包括拓扑规划、交换机选型、路由策略、拥塞控制等
2、基于RoCEv2/DCB等以太网标准协议栈,进行性能调优(负载均衡、流控、ECN/PFC参数适配)
3、与AI框架团队(PyTorch/TensorFlow等)协同,优化分布式训练中的通信效率(AllReduce、All-to-All等)
4、定位并解决大规模集群网络中的丢包、拥塞、长尾延迟等问题
5、评估新交换芯片、网卡、光模块,推动方案快速验证与落地
任职要求
1、熟悉以太网协议栈(L2/L3、RoCEv2、DCB、PFC/ECN等),有实际集群调优经验
2、有大规模AI/云计算网络设计经验(≥256节点),理解分布式训练通信模式
3、熟悉至少一种主流交换机平台(Mellanox/NVIDIA、Cisco、Arista、Broadcom等)的命令行与调优工具
4、具备良好的问题定位能力,能结合抓包、流控统计、telemetry数据定位性能瓶颈
加分项:有Scale up总线(NVLink/CXL/私有互联)经验,并理解其在Scale out场景的迁移价值
1、负责AI集群以太网组网方案设计,包括拓扑规划、交换机选型、路由策略、拥塞控制等
2、基于RoCEv2/DCB等以太网标准协议栈,进行性能调优(负载均衡、流控、ECN/PFC参数适配)
3、与AI框架团队(PyTorch/TensorFlow等)协同,优化分布式训练中的通信效率(AllReduce、All-to-All等)
4、定位并解决大规模集群网络中的丢包、拥塞、长尾延迟等问题
5、评估新交换芯片、网卡、光模块,推动方案快速验证与落地
任职要求
1、熟悉以太网协议栈(L2/L3、RoCEv2、DCB、PFC/ECN等),有实际集群调优经验
2、有大规模AI/云计算网络设计经验(≥256节点),理解分布式训练通信模式
3、熟悉至少一种主流交换机平台(Mellanox/NVIDIA、Cisco、Arista、Broadcom等)的命令行与调优工具
4、具备良好的问题定位能力,能结合抓包、流控统计、telemetry数据定位性能瓶颈
加分项:有Scale up总线(NVLink/CXL/私有互联)经验,并理解其在Scale out场景的迁移价值
2026-05-23 11:29
IP属地:广东深圳
职位福利
本科5-10年

北京地平线信息技术有限公司
C轮 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
ai架构师
5-8.5万元/月
架构师经验不限学历不限VueReact前端架构平台架构网站架构PythonTypeScriptGo
深圳 南山区










