职位详情
职位描述
负责云计算方向的预训练大模型研发,为行业应用提供通用基础模型支持。主要职责涵盖:
1. 构建预训练数据体系,涵盖通用文本语料的抽取与清洗、云计算专业数据的甄别与构造,以及特定任务场景下训练样本的采集与生成,研发高效的数据自动筛选与配比策略。
2. 开展模型评估工作,制定科学的评估指标框架,搭建通用与领域专用模型的测评数据集,确保评估结果能够精准全面地体现模型能力。
3. 提升训练过程的可观测性,构建完整的监控机制,实现训练流程可视化和异常预警,能够在训练早期有效预测模型表现。
4. 优化模型结构设计,研究适用于云计算场景的网络架构,涉及方向包括但不限于:MOE结构、预训练蒸馏方法、长序列建模技术、线性注意力机制及强化学习(RL)的融合应用。
5. 推进训练效率提升,基于主流训练框架进行性能调优,结合模型特性与任务目标优化训练流程,并开发工具以加快实验迭代周期。
职位要求
1. 计算机科学、软件工程、数学等相关专业硕士及以上学位,具备扎实的问题分析、定义与解决能力;
2. 密切跟踪前沿技术发展,热衷技术创新,具有主动应对复杂挑战的动力;
3. 具备百亿参数以上大模型预训练或再预训练实际经验;
4. 拥有在百卡级及以上GPU集群上开展训练的实践经验;
5. 熟悉Megatron-LLM、DeepSpeed、Colossal-AI等主流训练框架者优先考虑;
6. 在NIPS/NeurIPS、ICLR、ICML、ACL等国际顶级会议或期刊发表过相关论文者优先。
负责云计算方向的预训练大模型研发,为行业应用提供通用基础模型支持。主要职责涵盖:
1. 构建预训练数据体系,涵盖通用文本语料的抽取与清洗、云计算专业数据的甄别与构造,以及特定任务场景下训练样本的采集与生成,研发高效的数据自动筛选与配比策略。
2. 开展模型评估工作,制定科学的评估指标框架,搭建通用与领域专用模型的测评数据集,确保评估结果能够精准全面地体现模型能力。
3. 提升训练过程的可观测性,构建完整的监控机制,实现训练流程可视化和异常预警,能够在训练早期有效预测模型表现。
4. 优化模型结构设计,研究适用于云计算场景的网络架构,涉及方向包括但不限于:MOE结构、预训练蒸馏方法、长序列建模技术、线性注意力机制及强化学习(RL)的融合应用。
5. 推进训练效率提升,基于主流训练框架进行性能调优,结合模型特性与任务目标优化训练流程,并开发工具以加快实验迭代周期。
职位要求
1. 计算机科学、软件工程、数学等相关专业硕士及以上学位,具备扎实的问题分析、定义与解决能力;
2. 密切跟踪前沿技术发展,热衷技术创新,具有主动应对复杂挑战的动力;
3. 具备百亿参数以上大模型预训练或再预训练实际经验;
4. 拥有在百卡级及以上GPU集群上开展训练的实践经验;
5. 熟悉Megatron-LLM、DeepSpeed、Colossal-AI等主流训练框架者优先考虑;
6. 在NIPS/NeurIPS、ICLR、ICML、ACL等国际顶级会议或期刊发表过相关论文者优先。
2026-05-29 14:32
IP属地:北京
职位福利
硕士3-5年大模型算法预训练

阿里云计算有限公司
不需要融资 · 10000人以上


鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










