职位详情
岗位职责:
1.负责智训平台后端架构设计与核心模块开发,涵盖数据接入、任务调度、训练/推理流程管理、模型全生命周期管控、权限控制及操作审计等功能。
2.设计并实现支持自定义节点的Pipeline体系,覆盖数据清洗、特征生成、模型训练、效果评估、服务部署及离线/在线推理,具备良好的扩展性与可观测能力。
3.对接底层环境与基础设施,包括容器化部署、K8s集群编排、GPU资源调度、多机多卡分布式训练、对象存储与数据湖集成、消息中间件、服务网格及治理监控体系。
4.构建高可用、可扩展、易维护的微服务体系,完成接口定义、性能调优、熔断限流策略、日志采集、链路追踪、指标监控与告警机制建设。
5.与前端、算法及产品团队协同合作,沉淀统一的API接口、SDK工具包和命令行工具,制定标准化通信协议,提升研发协作效率与交付质量。
6.参与客户侧需求分析与技术方案设计,支撑重点客户的系统对接与个性化功能开发。
7.推动工程能力建设,落实单元测试、集成测试、压测验证、代码审查、持续集成与持续交付流程,完善文档体系与服务等级承诺。
任职要求:
1.全日制本科及以上学历,具备5年以上后端开发经验,熟练掌握Java、Python或Go及其主流技术生态;对新兴语言和技术有较强学习意愿与快速上手能力。
2.熟悉机器学习典型场景中的基础架构组件,如任务调度系统(Airflow/Argo)、容器与K8s编排、GPUOperator、对象存储(S3/OSS/HDFS)、数据湖格式(Hudi/Iceberg/Delta)以及消息队列(Kafka/RabbitMQ)。
3.具备API与SDK设计实践经验,熟悉gRPC/REST协议、OpenAPI规范、身份认证机制、多租户支持、基于角色的访问控制及操作留痕功能。
4.精通关系型数据库与缓存系统,如MySQL/PostgreSQL、Redis,了解ClickHouse/ES等查询引擎,具备索引优化与性能调优实战能力。
5.拥有扎实的软件工程素养,重视测试覆盖率、系统可观测性(Prometheus/Grafana/Jaeger)及自动化交付流程(GitOps/ArgoCD)。
6.具备良好的跨团队沟通能力和复杂问题定位能力,能在需求不明确的情况下推动项目进展并落地实施。
加分项:
1.具备ML平台、MLOps体系或模型服务部署(如TensorRT/Triton/TFServing)实际经验。
2.熟悉大规模并行训练技术,掌握分布式训练框架如Horovod/DeepSpeed/RayTrain者优先。
3.有构建多租户体系、计费配额管理、资源调度策略及自动扩缩容机制的设计经验。
4.具备面向企业客户交付经验,参与过插件化架构或二次开发平台建设。
1.负责智训平台后端架构设计与核心模块开发,涵盖数据接入、任务调度、训练/推理流程管理、模型全生命周期管控、权限控制及操作审计等功能。
2.设计并实现支持自定义节点的Pipeline体系,覆盖数据清洗、特征生成、模型训练、效果评估、服务部署及离线/在线推理,具备良好的扩展性与可观测能力。
3.对接底层环境与基础设施,包括容器化部署、K8s集群编排、GPU资源调度、多机多卡分布式训练、对象存储与数据湖集成、消息中间件、服务网格及治理监控体系。
4.构建高可用、可扩展、易维护的微服务体系,完成接口定义、性能调优、熔断限流策略、日志采集、链路追踪、指标监控与告警机制建设。
5.与前端、算法及产品团队协同合作,沉淀统一的API接口、SDK工具包和命令行工具,制定标准化通信协议,提升研发协作效率与交付质量。
6.参与客户侧需求分析与技术方案设计,支撑重点客户的系统对接与个性化功能开发。
7.推动工程能力建设,落实单元测试、集成测试、压测验证、代码审查、持续集成与持续交付流程,完善文档体系与服务等级承诺。
任职要求:
1.全日制本科及以上学历,具备5年以上后端开发经验,熟练掌握Java、Python或Go及其主流技术生态;对新兴语言和技术有较强学习意愿与快速上手能力。
2.熟悉机器学习典型场景中的基础架构组件,如任务调度系统(Airflow/Argo)、容器与K8s编排、GPUOperator、对象存储(S3/OSS/HDFS)、数据湖格式(Hudi/Iceberg/Delta)以及消息队列(Kafka/RabbitMQ)。
3.具备API与SDK设计实践经验,熟悉gRPC/REST协议、OpenAPI规范、身份认证机制、多租户支持、基于角色的访问控制及操作留痕功能。
4.精通关系型数据库与缓存系统,如MySQL/PostgreSQL、Redis,了解ClickHouse/ES等查询引擎,具备索引优化与性能调优实战能力。
5.拥有扎实的软件工程素养,重视测试覆盖率、系统可观测性(Prometheus/Grafana/Jaeger)及自动化交付流程(GitOps/ArgoCD)。
6.具备良好的跨团队沟通能力和复杂问题定位能力,能在需求不明确的情况下推动项目进展并落地实施。
加分项:
1.具备ML平台、MLOps体系或模型服务部署(如TensorRT/Triton/TFServing)实际经验。
2.熟悉大规模并行训练技术,掌握分布式训练框架如Horovod/DeepSpeed/RayTrain者优先。
3.有构建多租户体系、计费配额管理、资源调度策略及自动扩缩容机制的设计经验。
4.具备面向企业客户交付经验,参与过插件化架构或二次开发平台建设。
2026-06-04 13:21
IP属地:上海
职位福利
本科5-10年GolangC#JavaPyTorchDockerClickHouseMySQLPython

上海开赟数字技术有限公司
未融资 · 20-99人


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
高级技术开发工程师-外派岗位
1.5-1.8万元/月
Python3-5年本科Python基础重要团队管理经验有前端经验/技能JavaMySQLMongoDB
上海 闵行区










