职位详情
岗位职责:
一、语音大模型研发与优化:
1、负责端到端 ASR (语音识别) 与 TTS (语音合成) 大模型的训练、微调与迭代。
2、利用 LoRA、Adapter、Prefix-Tuning 等参数高效微调技术,适配机器人室内外复杂声学场景(如强噪音、远场、混响)。
3、优化模型在低资源、多噪声环境下的鲁棒性,实现高精度的实时语音转录与自然流畅的语音合成。
二、多模态感知与识别系统:
1、研发并优化 LLM (大语言模型) 与 VLM (视觉-语言模型) 在机器人端的应用,实现语义理解与视觉感知的深度融合。
2、集成并优化 人脸识别、人脸检测、声纹识别 等生物特征识别技术,支持机器人对多用户身份、意图与情绪的实时理解。
3、负责多模态信息融合算法的设计,提升机器人在复杂动态环境下的交互成功率。
三、知识增强与实时对话系统:
1、利用 RAG (检索增强生成) 技术,结合向量数据库(如 Milvus, Pinecone),提升机器人对话系统的准确性、专业性与知识时效性。
2、设计并实现高效的知识库构建、索引、检索与重排序机制,确保机器人在垂直领域问答中的表现。
四、边缘端部署与算子级优化:
1、针对机器人硬件限制(如 NVIDIA Jetson, Orin),开展模型压缩(量化、剪枝、蒸馏)与推理加速(TensorRT, ONNX Runtime)。
2、在 ROS/ROS2 环境下实现算法模块的工程化落地,优化内存占用与 CPU/GPU 利用率,确保毫秒级的实时响应。
伍、全栈技术架构与工程化:
1、利用 Python 进行核心算法建模,并配合 Java/C++ 实现高性能的后台业务逻辑。
2、配合 Vue/React 实现直观的机器人交互配置界面,负责从算法研发到端到端部署的全生命周期管理。
任职要求:
一、学历背景:计算机、人工智能、自动化、电子信息、声学或数学等相关专业本科及以上学历(硕士及博士优先)。
二、核心算法能力:
1、精通 Python,熟练使用 PyTorch/TensorFlow,具备大规模模型分布式训练(DeepSpeed, Megatron-LM)经验。
2、深入理解 Transformer 架构及其变体,熟悉 Whisper、ChatTTS、GPT-4o-mini、Llama-3 等主流开源模型。
3、具备 ASR/TTS/LLM/VLM 至少两个方向的实战项目经验,能够独立复现前沿论文。
三、工程开发与部署:
1、精通 Python,具备 Java 后端开发或 Vue 前端交互开发经验,熟悉多线程、多进程编程。
2、熟悉 Linux 开发环境,熟练使用 Docker 容器化部署,掌握 Git 协同开发流程。
3、具备 ROS/ROS2 机器人操作系统使用经验,熟悉常用的机器人通信机制。
四、行业经验与素质:
1、3-5 年 AI 算法开发经验,有机器人语音交互、多模态感知或具身智能产品成功落地经验者优先。
2、具备优秀的系统架构设计能力,能够独立拆解复杂的技术难题并推动解决。
3、具备极强的学习能力与技术热情,能快速跟进并应用大模型领域的最新科研成果。
一、语音大模型研发与优化:
1、负责端到端 ASR (语音识别) 与 TTS (语音合成) 大模型的训练、微调与迭代。
2、利用 LoRA、Adapter、Prefix-Tuning 等参数高效微调技术,适配机器人室内外复杂声学场景(如强噪音、远场、混响)。
3、优化模型在低资源、多噪声环境下的鲁棒性,实现高精度的实时语音转录与自然流畅的语音合成。
二、多模态感知与识别系统:
1、研发并优化 LLM (大语言模型) 与 VLM (视觉-语言模型) 在机器人端的应用,实现语义理解与视觉感知的深度融合。
2、集成并优化 人脸识别、人脸检测、声纹识别 等生物特征识别技术,支持机器人对多用户身份、意图与情绪的实时理解。
3、负责多模态信息融合算法的设计,提升机器人在复杂动态环境下的交互成功率。
三、知识增强与实时对话系统:
1、利用 RAG (检索增强生成) 技术,结合向量数据库(如 Milvus, Pinecone),提升机器人对话系统的准确性、专业性与知识时效性。
2、设计并实现高效的知识库构建、索引、检索与重排序机制,确保机器人在垂直领域问答中的表现。
四、边缘端部署与算子级优化:
1、针对机器人硬件限制(如 NVIDIA Jetson, Orin),开展模型压缩(量化、剪枝、蒸馏)与推理加速(TensorRT, ONNX Runtime)。
2、在 ROS/ROS2 环境下实现算法模块的工程化落地,优化内存占用与 CPU/GPU 利用率,确保毫秒级的实时响应。
伍、全栈技术架构与工程化:
1、利用 Python 进行核心算法建模,并配合 Java/C++ 实现高性能的后台业务逻辑。
2、配合 Vue/React 实现直观的机器人交互配置界面,负责从算法研发到端到端部署的全生命周期管理。
任职要求:
一、学历背景:计算机、人工智能、自动化、电子信息、声学或数学等相关专业本科及以上学历(硕士及博士优先)。
二、核心算法能力:
1、精通 Python,熟练使用 PyTorch/TensorFlow,具备大规模模型分布式训练(DeepSpeed, Megatron-LM)经验。
2、深入理解 Transformer 架构及其变体,熟悉 Whisper、ChatTTS、GPT-4o-mini、Llama-3 等主流开源模型。
3、具备 ASR/TTS/LLM/VLM 至少两个方向的实战项目经验,能够独立复现前沿论文。
三、工程开发与部署:
1、精通 Python,具备 Java 后端开发或 Vue 前端交互开发经验,熟悉多线程、多进程编程。
2、熟悉 Linux 开发环境,熟练使用 Docker 容器化部署,掌握 Git 协同开发流程。
3、具备 ROS/ROS2 机器人操作系统使用经验,熟悉常用的机器人通信机制。
四、行业经验与素质:
1、3-5 年 AI 算法开发经验,有机器人语音交互、多模态感知或具身智能产品成功落地经验者优先。
2、具备优秀的系统架构设计能力,能够独立拆解复杂的技术难题并推动解决。
3、具备极强的学习能力与技术热情,能快速跟进并应用大模型领域的最新科研成果。
2026-02-28 18:29
IP属地:四川
职位福利
本科及以上3-5年语音识别、声纹识别、人脸识别、智能体开发

昆仑之数(成都)科技有限公司
天使轮 · 1人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >











