大模型语音算法

7.5-8万元/月

海淀区

魏先生

已实名

企业认证

北京伯度咨询有限公司

职位详情

语音算法

工作职责：
1. 单人/多说话人语音识别。
2. 语音合成与高质量音频合成。
3. 音频前端与音色转换。
4. 音色克隆(Zero-Shot TTS)。
5. 音乐生成 / 歌声生成。
6. 理解指令遵循能力提升与推理，包括 SFT, GRPO 等。
7. 流式音频交互模型的推理与加速 (熟悉RTC/WebSocket等)。
岗位要求
1. 计算机、机器学习等相关专业，博士及硕士优先。
2. 较强的代码能力，具有丰富的 TTS / Codec / 流ASR 研究经验，具有相关数据处理经验。
3. 精通 Python 以及 Pytorch 等深度学习框架。
4. 熟悉 Transformer 架构以及大语言模型基础知识。
5. 善于平衡研究目标及落地实现，且结果导向。
6. 良好的沟通和合作能力。
7. 关注技术影响力，具有开源开放精神。

加分项：
1. 曾发表顶级会议论文并具有一定的学术影响力，包括但不限于 NeurIPS、ICLR、ICML、ACL、CVPR、ECCV、InterSpeech 等，具有一些有深度的研究工作是较大加分项，欢迎其他方向的多模态同学看音频方向的机会。
2. 具有较强的工程能力，有开发音视频实时交互系统的经验。
3. 具有高表现力/鲁棒 TTS 生成模型研究/开发经验。
4. 具有持续打磨好每一个技术细节的钻研精神。
5. 拥有知名开源项目，在开源社区具有较好的影响力。

2026-07-01 12:21

IP属地：北京

职位福利

硕士3-5年MATLAB计算机相关专业声学相关专业语音识别工作经验有国际期刊/会议论文发表985