职位详情
【部门介绍】
随着大模型技术的迅猛进步,对多模态数据(如图像、视频、音频、3D内容等)的理解与生成能力持续提升。当前,构建支持多模态输入与输出的世界模型已成为前沿研究重点,也被视为通向通用人工智能(AGI)的关键路径之一。
通义万相将持续深耕世界模型、原生多模态预训练、理解与生成融合架构、统一Tokenizer设计、人类反馈与强化学习等核心技术方向,致力于在多模态世界模型领域保持领先探索地位,推动形成具有全球影响力的技术成果。
【工作内容】
1、开展原生多模态模型的研究与实现,整合文本、图像、语音等多模态输入能力,支撑复杂指令下的内容生成任务,涵盖文生图、图生图、文档合成、可控编辑等核心场景。
2、推进图像生成模型的性能优化,深入研究扩散模型、自回归架构及其结构与策略层面的改进方案。
3、开展人类反馈驱动的强化学习工作,聚焦精细化RL算法设计,结合万相用户行为数据提升图像生成质量与用户体验。
【职位要求】
1. 拥有计算机科学、人工智能、机器学习等相关专业硕士或博士学位,具备扎实的计算机视觉理论基础。
2. 熟悉机器学习与深度学习基本原理,掌握常见视觉生成算法,熟练使用Pytorch、Tensorflow等至少一种主流深度学习框架。
3. 具备突出的科研素养,有大规模视觉生成算法相关研究经验,发表过高影响力论文或参与知名开源项目者优先,成果见于CVPR、ICCV、NeurIPS、ICLR、TPAMI等顶级会议或期刊者尤佳。
4. 对生成式技术抱有强烈兴趣,具备视觉大模型开发背景,有对话系统、多模态内容生成等实际落地项目经验者优先考虑。
5. 具备敏锐的技术判断力和出色的业务分析能力,能应对复杂算法需求,善于与工程、产品等多职能团队协作,加速科研成果转化并产生实际价值。
6. 关注技术生态建设,认同开放共享理念,对基础模型的前沿问题保持长期关注与探索热情,志在打造具有广泛影响力的技术成果。
随着大模型技术的迅猛进步,对多模态数据(如图像、视频、音频、3D内容等)的理解与生成能力持续提升。当前,构建支持多模态输入与输出的世界模型已成为前沿研究重点,也被视为通向通用人工智能(AGI)的关键路径之一。
通义万相将持续深耕世界模型、原生多模态预训练、理解与生成融合架构、统一Tokenizer设计、人类反馈与强化学习等核心技术方向,致力于在多模态世界模型领域保持领先探索地位,推动形成具有全球影响力的技术成果。
【工作内容】
1、开展原生多模态模型的研究与实现,整合文本、图像、语音等多模态输入能力,支撑复杂指令下的内容生成任务,涵盖文生图、图生图、文档合成、可控编辑等核心场景。
2、推进图像生成模型的性能优化,深入研究扩散模型、自回归架构及其结构与策略层面的改进方案。
3、开展人类反馈驱动的强化学习工作,聚焦精细化RL算法设计,结合万相用户行为数据提升图像生成质量与用户体验。
【职位要求】
1. 拥有计算机科学、人工智能、机器学习等相关专业硕士或博士学位,具备扎实的计算机视觉理论基础。
2. 熟悉机器学习与深度学习基本原理,掌握常见视觉生成算法,熟练使用Pytorch、Tensorflow等至少一种主流深度学习框架。
3. 具备突出的科研素养,有大规模视觉生成算法相关研究经验,发表过高影响力论文或参与知名开源项目者优先,成果见于CVPR、ICCV、NeurIPS、ICLR、TPAMI等顶级会议或期刊者尤佳。
4. 对生成式技术抱有强烈兴趣,具备视觉大模型开发背景,有对话系统、多模态内容生成等实际落地项目经验者优先考虑。
5. 具备敏锐的技术判断力和出色的业务分析能力,能应对复杂算法需求,善于与工程、产品等多职能团队协作,加速科研成果转化并产生实际价值。
6. 关注技术生态建设,认同开放共享理念,对基础模型的前沿问题保持长期关注与探索热情,志在打造具有广泛影响力的技术成果。
2026-05-23 14:51
IP属地:浙江杭州
职位福利
硕士3-5年

阿里云计算有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










