职位详情
工作职责:
1. 单人/多说话人语音识别。
2. 语音合成与高质量音频合成。
3. 音频前端与音色转换。
4. 音色克隆(Zero-Shot TTS)。
5. 音乐生成 / 歌声生成。
6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。
7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
岗位要求
1. 计算机、机器学习等相关专业,博士及硕士优先。
2. 较强的代码能力,具有丰富的 TTS / Codec / 流ASR 研究经验,具有相关数据处理经验。
3. 精通 Python 以及 Pytorch 等深度学习框架。
4. 熟悉 Transformer 架构以及大语言模型基础知识。
5. 善于平衡研究目标及落地实现,且结果导向。
6. 良好的沟通和合作能力。
7. 关注技术影响力,具有开源开放精神。
加分项:
1. 曾发表顶级会议论文并具有一定的学术影响力,包括但不限于 NeurIPS、ICLR、ICML、ACL、CVPR、ECCV、InterSpeech 等,具有一些有深度的研究工作是较大加分项,欢迎其他方向的多模态同学看音频方向的机会。
2. 具有较强的工程能力,有开发音视频实时交互系统的经验。
3. 具有高表现力/鲁棒 TTS 生成模型研究/开发经验。
4. 具有持续打磨好每一个技术细节的钻研精神。
5. 拥有知名开源项目,在开源社区具有较好的影响力。
1. 单人/多说话人语音识别。
2. 语音合成与高质量音频合成。
3. 音频前端与音色转换。
4. 音色克隆(Zero-Shot TTS)。
5. 音乐生成 / 歌声生成。
6. 理解指令遵循能力提升与推理,包括 SFT, GRPO 等。
7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
岗位要求
1. 计算机、机器学习等相关专业,博士及硕士优先。
2. 较强的代码能力,具有丰富的 TTS / Codec / 流ASR 研究经验,具有相关数据处理经验。
3. 精通 Python 以及 Pytorch 等深度学习框架。
4. 熟悉 Transformer 架构以及大语言模型基础知识。
5. 善于平衡研究目标及落地实现,且结果导向。
6. 良好的沟通和合作能力。
7. 关注技术影响力,具有开源开放精神。
加分项:
1. 曾发表顶级会议论文并具有一定的学术影响力,包括但不限于 NeurIPS、ICLR、ICML、ACL、CVPR、ECCV、InterSpeech 等,具有一些有深度的研究工作是较大加分项,欢迎其他方向的多模态同学看音频方向的机会。
2. 具有较强的工程能力,有开发音视频实时交互系统的经验。
3. 具有高表现力/鲁棒 TTS 生成模型研究/开发经验。
4. 具有持续打磨好每一个技术细节的钻研精神。
5. 拥有知名开源项目,在开源社区具有较好的影响力。
2026-07-01 12:21
IP属地:北京
职位福利
硕士3-5年MATLAB计算机相关专业声学相关专业语音识别工作经验有国际期刊/会议论文发表985

北京伯度咨询有限公司

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >







