职位详情
职位描述:
1. 负责服务器GPU超节点软件系统方案,主导互连软件的架构设计、研发交付及应用优化(涵盖训练与推理场景下的SHMEM技术、KV Cache、共享内存、互连传输软件等),并参与核心模块实现与关键技术攻关;
2. 参与软件系统的交付过程,开展Linux环境下的系统调优、故障排查与性能优化工作;
3. 承担项目过程管理职责,确保跨团队协作顺畅及按时交付;
4. 参与相关接口与技术方案的行业标准制定,推动技术生态建设与落地实施。
职位要求:
1. 计算机、软件、电子科学或相关专业,本科及以上学历;
2. 具备5年以上软件研发或系统架构设计经验;
3. 精通C/C++/Python等编程语言,熟悉面向互连的编程技术如RDMA、NVSHMEM,或具备GPU编程及CUDA开发能力,或有分布式系统通信编程背景;
4. 拥有跨团队研发协同及业务对接的实际经验。
满足以下条件之一者优先:
1. 有RDMA软件方案经验或PCIe通信调优实践者优先;
2. 熟悉GPU性能优化,或参与过AI大模型训练、推理系统设计者优先;
3. 具备高速互连switch芯片配置管理系统开发经验,了解系统运维、热升级等相关知识者优先;
4. 熟悉Linux操作系统,掌握Docker等容器化技术,具有数据库使用经验。
1. 负责服务器GPU超节点软件系统方案,主导互连软件的架构设计、研发交付及应用优化(涵盖训练与推理场景下的SHMEM技术、KV Cache、共享内存、互连传输软件等),并参与核心模块实现与关键技术攻关;
2. 参与软件系统的交付过程,开展Linux环境下的系统调优、故障排查与性能优化工作;
3. 承担项目过程管理职责,确保跨团队协作顺畅及按时交付;
4. 参与相关接口与技术方案的行业标准制定,推动技术生态建设与落地实施。
职位要求:
1. 计算机、软件、电子科学或相关专业,本科及以上学历;
2. 具备5年以上软件研发或系统架构设计经验;
3. 精通C/C++/Python等编程语言,熟悉面向互连的编程技术如RDMA、NVSHMEM,或具备GPU编程及CUDA开发能力,或有分布式系统通信编程背景;
4. 拥有跨团队研发协同及业务对接的实际经验。
满足以下条件之一者优先:
1. 有RDMA软件方案经验或PCIe通信调优实践者优先;
2. 熟悉GPU性能优化,或参与过AI大模型训练、推理系统设计者优先;
3. 具备高速互连switch芯片配置管理系统开发经验,了解系统运维、热升级等相关知识者优先;
4. 熟悉Linux操作系统,掌握Docker等容器化技术,具有数据库使用经验。
2026-05-21 14:33
IP属地:上海
职位福利
本科5-10年GolangC++分布式经验Linux开发/部署经验Python

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
云原生可观测OneAgent高级研发工程师
3-6万元/月
C/C++3-5年本科可观测VectorFluentBitOpenTelemetry架构设计经验Linux开发/部署经验分布式经验STLBoostC++Golang
上海 徐汇区

余先生 · 阿里云5日内活跃









