通义实验室-多模态生成算法-通义万相

4-7万元/月

杭州·西湖区

方先生

已实名

企业认证

阿里云计算有限公司

职位详情

大模型算法

【部门介绍】
随着大模型技术的迅猛进步，对多模态数据（如图像、视频、音频、3D内容等）的理解与生成能力持续提升。当前，构建支持多模态输入与输出的世界模型已成为前沿研究重点，也被视为通向通用人工智能（AGI）的关键路径之一。
通义万相将持续深耕世界模型、原生多模态预训练、理解与生成融合架构、统一Tokenizer设计、人类反馈与强化学习等核心技术方向，致力于在多模态世界模型领域保持领先探索地位，推动形成具有全球影响力的技术成果。

【工作内容】
1、开展原生多模态模型的研究与实现，整合文本、图像、语音等多模态输入能力，支撑复杂指令下的内容生成任务，涵盖文生图、图生图、文档合成、可控编辑等核心场景。
2、推进图像生成模型的性能优化，深入研究扩散模型、自回归架构及其结构与策略层面的改进方案。
3、开展人类反馈驱动的强化学习工作，聚焦精细化RL算法设计，结合万相用户行为数据提升图像生成质量与用户体验。

【职位要求】
1. 拥有计算机科学、人工智能、机器学习等相关专业硕士或博士学位，具备扎实的计算机视觉理论基础。
2. 熟悉机器学习与深度学习基本原理，掌握常见视觉生成算法，熟练使用Pytorch、Tensorflow等至少一种主流深度学习框架。
3. 具备突出的科研素养，有大规模视觉生成算法相关研究经验，发表过高影响力论文或参与知名开源项目者优先，成果见于CVPR、ICCV、NeurIPS、ICLR、TPAMI等顶级会议或期刊者尤佳。
4. 对生成式技术抱有强烈兴趣，具备视觉大模型开发背景，有对话系统、多模态内容生成等实际落地项目经验者优先考虑。
5. 具备敏锐的技术判断力和出色的业务分析能力，能应对复杂算法需求，善于与工程、产品等多职能团队协作，加速科研成果转化并产生实际价值。
6. 关注技术生态建设，认同开放共享理念，对基础模型的前沿问题保持长期关注与探索热情，志在打造具有广泛影响力的技术成果。

2026-07-09 13:45

IP属地：浙江杭州

职位福利

硕士3-5年