职位详情
【岗位职责】
1. 模型架构设计与调优:
主导大模型(LLM、多模态等)的结构创新、参数调整与性能增强
深入剖析模型训练过程中的性能瓶颈,制定高效的预训练、微调、蒸馏及增量学习方案,提升模型在特定场景下的适用性与泛化表现
2. 分布式训练工程开发:
搭建高吞吐、低延迟的大规模分布式训练系统,优化数据并行、张量并行与混合并行策略,解决超大规模参数带来的显存占用与通信开销问题
研究混合精度训练、梯度压缩、异步通信等技术手段,提升千亿级及以上模型的训练效率与运行稳定性
3. 算法优化与前沿技术探索:
针对模型训练效率、价值对齐等核心挑战,研发新型算法。持续跟进学术界与工业界的最新成果(如Agent架构、世界模型、推理加速技术),推动先进技术在实际业务中的快速应用
【任职要求】
1. 计算机科学、人工智能、数学、统计学或相关专业硕士/博士学历,有顶级科研机构或实验室经历者优先
2. 深入理解Transformer及其衍生模型(如GPT、BERT、T5等)的原理与实现机制
3. 熟练使用PyTorch框架,具备分布式训练(DeepSpeed/Megatron等)与高性能计算(CUDA/MPI)优化经验
4. 具备扎实的数学功底(优化理论、概率统计、线性代数),能够独立复现顶会论文并进行算法改进
5. 有大规模预训练模型的开发、调优或部署经验,熟悉预训练、指令微调(Instruction Tuning)、对齐技术(RLHF/DPO)等完整流程
6. 拥有分布式训练实战背景,掌握ZeRO、模型并行、流水线并行等关键技术,能熟练运用主流分布式训练框架
7. 熟悉参数高效微调方法(LoRA、Adapter、Prompt Tuning)以及模型压缩技术(量化、剪枝、知识蒸馏)
8. 能围绕训练效率、显存消耗、推理延迟等关键问题提出创新性解决方案
【加分项】
1. 具备大模型开发经验,主导过亿级参数模型的全流程训练,有千亿级模型优化实践经验者优先
2. 在NeurIPS/ICML/ACL等顶级会议发表过大模型相关论文,或主导过知名开源项目(如Hugging Face、LangChain等生态贡献)
3. 具备多模态大模型、AI Agent系统、或超大规模RLHF的实际项目经验
1. 模型架构设计与调优:
主导大模型(LLM、多模态等)的结构创新、参数调整与性能增强
深入剖析模型训练过程中的性能瓶颈,制定高效的预训练、微调、蒸馏及增量学习方案,提升模型在特定场景下的适用性与泛化表现
2. 分布式训练工程开发:
搭建高吞吐、低延迟的大规模分布式训练系统,优化数据并行、张量并行与混合并行策略,解决超大规模参数带来的显存占用与通信开销问题
研究混合精度训练、梯度压缩、异步通信等技术手段,提升千亿级及以上模型的训练效率与运行稳定性
3. 算法优化与前沿技术探索:
针对模型训练效率、价值对齐等核心挑战,研发新型算法。持续跟进学术界与工业界的最新成果(如Agent架构、世界模型、推理加速技术),推动先进技术在实际业务中的快速应用
【任职要求】
1. 计算机科学、人工智能、数学、统计学或相关专业硕士/博士学历,有顶级科研机构或实验室经历者优先
2. 深入理解Transformer及其衍生模型(如GPT、BERT、T5等)的原理与实现机制
3. 熟练使用PyTorch框架,具备分布式训练(DeepSpeed/Megatron等)与高性能计算(CUDA/MPI)优化经验
4. 具备扎实的数学功底(优化理论、概率统计、线性代数),能够独立复现顶会论文并进行算法改进
5. 有大规模预训练模型的开发、调优或部署经验,熟悉预训练、指令微调(Instruction Tuning)、对齐技术(RLHF/DPO)等完整流程
6. 拥有分布式训练实战背景,掌握ZeRO、模型并行、流水线并行等关键技术,能熟练运用主流分布式训练框架
7. 熟悉参数高效微调方法(LoRA、Adapter、Prompt Tuning)以及模型压缩技术(量化、剪枝、知识蒸馏)
8. 能围绕训练效率、显存消耗、推理延迟等关键问题提出创新性解决方案
【加分项】
1. 具备大模型开发经验,主导过亿级参数模型的全流程训练,有千亿级模型优化实践经验者优先
2. 在NeurIPS/ICML/ACL等顶级会议发表过大模型相关论文,或主导过知名开源项目(如Hugging Face、LangChain等生态贡献)
3. 具备多模态大模型、AI Agent系统、或超大规模RLHF的实际项目经验
2026-05-20 13:13
IP属地:北京
职位福利
本科1-3年大模型

新华三技术有限公司
不需要融资 · 10000人以上

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >

附近适合您的职位
大模型应用研发工程师
1.5-3万元/月
大模型算法1-3年本科RAGFlowLangChainPython & PyTorchDify / FlowiseMilvus大模型推理AgentPrompt 工程
北京 海淀区

谷女士 · 中科聚信5日内活跃






