职位详情
岗位职责:
1. 深入掌握主流AI芯片架构,剖析硬件系统设计,输出软硬件协同优化方案及调优实践指导;
2. 理解当前AI、大数据与HPC类应用在异构计算架构下面临的技术难点,结合AI加速芯片能力,构建高性能异构计算解决方案;
3. 专注异构资源的实时性能监控与分析,主导系统层级的性能评估与业务瓶颈识别,提升异构集群的高可用性与稳定性;
4. 推进异构计算基础平台向serverless架构演进,引领异构云原生技术体系升级;
5. 把握人工智能与深度学习领域的技术动向,参与规划下一代机器学习算力基础设施。
任职要求:
1. 具备扎实的编程基础,熟练掌握C/C++/Go/Rust等语言,具备良好的工程化开发规范意识;
2. 精通Linux操作系统原理,具备大规模生产环境软件开发与运维实践经验;
3. 具有大型GPU集群性能监控、性能剖析(profiling)及资源调度相关经验;
4. 熟悉异构计算编程模型,了解主流AI加速芯片(如NVIDIA、AMD等)的体系结构与计算特性;
5. 掌握Kubernetes架构与编程模式,具备容器技术实际落地经验;
6. 能够阅读英文技术资料,计算机相关专业毕业,拥有5年以上云计算或AI基础设施研发经历。
优先考虑:
1. 具备GPU驱动开发背景者优先;
2. 参与过GPU稳定性保障体系建设者优先;
3. 具有GPU热迁移功能开发经验者优先;
4. 具备大规模GPU集群监控、在线性能分析及稳定性维护经验者优先;
5. 有Kubernetes二次开发或异构资源调度管理经验者优先;
6. 熟悉docker/containerd/runc组件,具备OCI Hook开发经验者优先。
1. 深入掌握主流AI芯片架构,剖析硬件系统设计,输出软硬件协同优化方案及调优实践指导;
2. 理解当前AI、大数据与HPC类应用在异构计算架构下面临的技术难点,结合AI加速芯片能力,构建高性能异构计算解决方案;
3. 专注异构资源的实时性能监控与分析,主导系统层级的性能评估与业务瓶颈识别,提升异构集群的高可用性与稳定性;
4. 推进异构计算基础平台向serverless架构演进,引领异构云原生技术体系升级;
5. 把握人工智能与深度学习领域的技术动向,参与规划下一代机器学习算力基础设施。
任职要求:
1. 具备扎实的编程基础,熟练掌握C/C++/Go/Rust等语言,具备良好的工程化开发规范意识;
2. 精通Linux操作系统原理,具备大规模生产环境软件开发与运维实践经验;
3. 具有大型GPU集群性能监控、性能剖析(profiling)及资源调度相关经验;
4. 熟悉异构计算编程模型,了解主流AI加速芯片(如NVIDIA、AMD等)的体系结构与计算特性;
5. 掌握Kubernetes架构与编程模式,具备容器技术实际落地经验;
6. 能够阅读英文技术资料,计算机相关专业毕业,拥有5年以上云计算或AI基础设施研发经历。
优先考虑:
1. 具备GPU驱动开发背景者优先;
2. 参与过GPU稳定性保障体系建设者优先;
3. 具有GPU热迁移功能开发经验者优先;
4. 具备大规模GPU集群监控、在线性能分析及稳定性维护经验者优先;
5. 有Kubernetes二次开发或异构资源调度管理经验者优先;
6. 熟悉docker/containerd/runc组件,具备OCI Hook开发经验者优先。
2026-05-30 12:53
IP属地:浙江杭州
职位福利
本科5-10年C++C

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
研发专家-云内可观测平台-杭州/北京
2-4万元/月
C/C++5-10年本科GolangC++ClickHouseELKPrometheusOpenTelemetryPython
杭州 西湖区




