职位详情
岗位职责:
1. 负责智训平台后端架构设计与核心模块开发,涵盖数据接入、任务调度、训练/推理流程管理、模型全生命周期管控、权限控制及操作审计等功能。
2. 设计并实现支持自定义节点的Pipeline体系,覆盖数据清洗、特征工程、模型训练、效果评估、服务部署及离线/在线服务能力,具备良好的扩展性与可观测性。
3. 完成平台与底层环境的集成对接,包括容器化部署与K8s编排、GPU资源及多机多卡调度、对象存储与数据湖接入、消息中间件、服务网格以及服务治理与监控体系。
4. 构建高可用、可伸缩、易维护的微服务体系,完成接口定义、性能调优、熔断限流策略、日志追踪、指标采集与告警机制建设。
5. 与前端、算法、产品团队协同配合,沉淀统一的API接口、SDK工具包与命令行工具,制定标准化通信协议,提升研发协作效率与交付质量。
6. 参与客户侧需求分析与技术方案设计,支撑重点客户的系统对接与个性化功能开发。
7. 推动研发质量体系建设,落实单元测试、集成测试、性能压测、代码审查、CI/CD流程、技术文档完善及SLA保障机制。
任职要求:
1. 全日制本科及以上学历,具备5年以上后端开发经验,熟练掌握Java、Python或Go及其主流技术生态;对新技术有较强学习意愿和快速掌握能力。
2. 熟悉典型机器学习场景中的基础架构与常用组件,如任务调度系统(Airflow/Argo)、容器与K8s编排、GPU Operator、对象存储(S3/OSS/HDFS)、数据湖技术(Hudi/Iceberg/Delta)以及消息队列(Kafka/RabbitMQ)。
3. 具备API与SDK设计实践经验,熟悉gRPC/REST协议、OpenAPI规范、身份认证机制、多租户支持、基于角色的访问控制(RBAC)及操作审计功能。
4. 熟悉主流数据库与缓存技术,如MySQL/PostgreSQL、Redis、ClickHouse/ES等,具备实际的性能优化与索引设计能力。
5. 具备扎实的工程方法论,重视测试覆盖率、系统可观测性(Prometheus/Grafana/Jaeger)及持续交付能力(GitOps/ArgoCD)。
6. 具备良好的跨团队沟通能力和问题排查能力,能够在需求不明确的情况下推动项目有序落地。
加分项:
1. 具备ML平台、MLOps体系或模型服务化(如TensorRT/Triton/TF Serving)相关落地经验。
2. 熟悉大规模并行训练、分布式训练框架(如Horovod/DeepSpeed/Ray Train)的技术原理与应用实践。
3. 有构建多租户体系、计费配额管理、资源调度策略及自动扩缩容机制的实际经验。
4. 具备ToB产品交付经验,参与过插件化架构或支持二次开发的平台建设工作。
1. 负责智训平台后端架构设计与核心模块开发,涵盖数据接入、任务调度、训练/推理流程管理、模型全生命周期管控、权限控制及操作审计等功能。
2. 设计并实现支持自定义节点的Pipeline体系,覆盖数据清洗、特征工程、模型训练、效果评估、服务部署及离线/在线服务能力,具备良好的扩展性与可观测性。
3. 完成平台与底层环境的集成对接,包括容器化部署与K8s编排、GPU资源及多机多卡调度、对象存储与数据湖接入、消息中间件、服务网格以及服务治理与监控体系。
4. 构建高可用、可伸缩、易维护的微服务体系,完成接口定义、性能调优、熔断限流策略、日志追踪、指标采集与告警机制建设。
5. 与前端、算法、产品团队协同配合,沉淀统一的API接口、SDK工具包与命令行工具,制定标准化通信协议,提升研发协作效率与交付质量。
6. 参与客户侧需求分析与技术方案设计,支撑重点客户的系统对接与个性化功能开发。
7. 推动研发质量体系建设,落实单元测试、集成测试、性能压测、代码审查、CI/CD流程、技术文档完善及SLA保障机制。
任职要求:
1. 全日制本科及以上学历,具备5年以上后端开发经验,熟练掌握Java、Python或Go及其主流技术生态;对新技术有较强学习意愿和快速掌握能力。
2. 熟悉典型机器学习场景中的基础架构与常用组件,如任务调度系统(Airflow/Argo)、容器与K8s编排、GPU Operator、对象存储(S3/OSS/HDFS)、数据湖技术(Hudi/Iceberg/Delta)以及消息队列(Kafka/RabbitMQ)。
3. 具备API与SDK设计实践经验,熟悉gRPC/REST协议、OpenAPI规范、身份认证机制、多租户支持、基于角色的访问控制(RBAC)及操作审计功能。
4. 熟悉主流数据库与缓存技术,如MySQL/PostgreSQL、Redis、ClickHouse/ES等,具备实际的性能优化与索引设计能力。
5. 具备扎实的工程方法论,重视测试覆盖率、系统可观测性(Prometheus/Grafana/Jaeger)及持续交付能力(GitOps/ArgoCD)。
6. 具备良好的跨团队沟通能力和问题排查能力,能够在需求不明确的情况下推动项目有序落地。
加分项:
1. 具备ML平台、MLOps体系或模型服务化(如TensorRT/Triton/TF Serving)相关落地经验。
2. 熟悉大规模并行训练、分布式训练框架(如Horovod/DeepSpeed/Ray Train)的技术原理与应用实践。
3. 有构建多租户体系、计费配额管理、资源调度策略及自动扩缩容机制的实际经验。
4. 具备ToB产品交付经验,参与过插件化架构或支持二次开发的平台建设工作。
2026-06-05 12:36
IP属地:上海
职位福利
本科5-10年GolangC#JavaPyTorchDockerClickHouseMySQLPython

上海开赟数字技术有限公司
未融资 · 20-99人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
高级技术开发工程师-外派岗位
1.5-1.8万元/月
Python3-5年本科Python基础重要团队管理经验有前端经验/技能JavaMySQLMongoDB
上海 闵行区










