职位详情
【岗位职责】
1、参与GPU调度器/资源管理器的设计与开发。
2、实现GPU资源发现、健康检查、隔离(MIG/ComputeModes)、配额与回收策略。
3、设计并优化调度策略(优先级、抢占、亲和性、拓扑感知调度、NUMA/PCIe-aware)。
4、与容器编排(Kubernetes)集成:开发DevicePlugin、CSI、SchedulerExtender、AdmissionController等组件。
5、与底层驱动/运行时协同(nvidia-driver、nvidia-container-toolkit、ROCm、containerd/runc/crun)。
6、负责平台后端服务的开发与维护,使用Go语言构建高性能、可扩展的调度系统。
7、设计和实现RESTfulAPI、gRPC,与前端数据和中间件交互。
8、编写高质量单元/集成测试与自动化部署。
9、与产品经理、前端开发、设计师等团队紧密合作,确保项目按时交付。
10、编写技术文档,记录系统设计和实现细节,提供API文档,方便其他开发者使用。
【任职要求】
1、精通Golang,熟悉常用并发模型(goroutine、channel、context)与性能优化技巧。
2、有GPU相关开发经验,了解NVIDIA驱动、CUDA、nvidia-smi、nvidia-container-toolkit;了解MIG/多租户GPU隔离机制者优先。
3、熟悉容器与容器运行时(Docker、containerd、runc/crun)以及Kubernetes的工作原理(Controller、Scheduler、Admission)。
4、有分布式系统/调度算法的实践经验(调度公平性、优先级、抢占、负载均衡等)。
5、良好的代码能力、文档撰写能力、英文文档阅读能力与团队协作能力。
【加分项】
1、有实现KubernetesDevicePlugin、SchedulerExtender、CustomScheduler或自研调度器经验。
2、有Slurm、Torque、LSF、Volcano等HPC作业调度器经验。
3、熟悉ROCm/AMDGPU生态者优先。
4、有性能分析(pprof)、追踪(OpenTelemetry)、监控(Prometheus)实战经验。
5、熟悉云厂商GPU产品(例如AWS/GCP/Azure的GPU实例)和混合云/多租户策略。
6、有分布式对象存储、高性能存储的经验。
1、参与GPU调度器/资源管理器的设计与开发。
2、实现GPU资源发现、健康检查、隔离(MIG/ComputeModes)、配额与回收策略。
3、设计并优化调度策略(优先级、抢占、亲和性、拓扑感知调度、NUMA/PCIe-aware)。
4、与容器编排(Kubernetes)集成:开发DevicePlugin、CSI、SchedulerExtender、AdmissionController等组件。
5、与底层驱动/运行时协同(nvidia-driver、nvidia-container-toolkit、ROCm、containerd/runc/crun)。
6、负责平台后端服务的开发与维护,使用Go语言构建高性能、可扩展的调度系统。
7、设计和实现RESTfulAPI、gRPC,与前端数据和中间件交互。
8、编写高质量单元/集成测试与自动化部署。
9、与产品经理、前端开发、设计师等团队紧密合作,确保项目按时交付。
10、编写技术文档,记录系统设计和实现细节,提供API文档,方便其他开发者使用。
【任职要求】
1、精通Golang,熟悉常用并发模型(goroutine、channel、context)与性能优化技巧。
2、有GPU相关开发经验,了解NVIDIA驱动、CUDA、nvidia-smi、nvidia-container-toolkit;了解MIG/多租户GPU隔离机制者优先。
3、熟悉容器与容器运行时(Docker、containerd、runc/crun)以及Kubernetes的工作原理(Controller、Scheduler、Admission)。
4、有分布式系统/调度算法的实践经验(调度公平性、优先级、抢占、负载均衡等)。
5、良好的代码能力、文档撰写能力、英文文档阅读能力与团队协作能力。
【加分项】
1、有实现KubernetesDevicePlugin、SchedulerExtender、CustomScheduler或自研调度器经验。
2、有Slurm、Torque、LSF、Volcano等HPC作业调度器经验。
3、熟悉ROCm/AMDGPU生态者优先。
4、有性能分析(pprof)、追踪(OpenTelemetry)、监控(Prometheus)实战经验。
5、熟悉云厂商GPU产品(例如AWS/GCP/Azure的GPU实例)和混合云/多租户策略。
6、有分布式对象存储、高性能存储的经验。
2026-05-15 15:02
IP属地:四川
职位福利
本科

成都天玑算科技有限公司
未融资 · 100-499人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
高级图像算法工程师-轨道交通车辆巡检
2-2.5万元/月
算法工程师5-10年硕士机器人图像识别产品智慧交通OpenCVPCLDNNCLIPC++KerasROS / ROS2
成都 郫都区
信号识别算法工程师(低空安防领域)
2.5-3.5万元/月
算法工程师3-5年本科TransformerDNN通信算法PyTorchPythonC语言无线通信深度学习
成都 郫都区

叶先生 · ZZTC昨日活跃








