职位详情
岗位职责:
1、参与基础大模型及 Agent 应用评测体系的构建与持续优化,建立高标准的评估机制,支撑大模型能力迭代升级;
2、参与评测数据集与 BenchMark 的设计与维护,搭建评测环境,开发评测工具,实现评测报告的自动化生成,全面提升评测流程效率;
任职要求:
● 计算机科学、软件工程或人工智能等相关专业背景。
● 精通 Python 和 JavaScript,具备扎实的编程功底和工程实践能力,能独立完成技术问题分析与解决。
● 了解主流模型评测数据集(HumanEval、SWE-Bench、τ²-Bench、GAIA 等)。
● 掌握模型评测指标的设计逻辑与结果分析方法(准确率、通过率、BLEU、******、代码执行率等)。
● 具备较强的数据分析意识,能从数据中提炼有效结论并指导优化方向。
● 具备良好的技术文档编写能力,可清晰表达模型性能变化趋势与评估结果。
1、参与基础大模型及 Agent 应用评测体系的构建与持续优化,建立高标准的评估机制,支撑大模型能力迭代升级;
2、参与评测数据集与 BenchMark 的设计与维护,搭建评测环境,开发评测工具,实现评测报告的自动化生成,全面提升评测流程效率;
任职要求:
● 计算机科学、软件工程或人工智能等相关专业背景。
● 精通 Python 和 JavaScript,具备扎实的编程功底和工程实践能力,能独立完成技术问题分析与解决。
● 了解主流模型评测数据集(HumanEval、SWE-Bench、τ²-Bench、GAIA 等)。
● 掌握模型评测指标的设计逻辑与结果分析方法(准确率、通过率、BLEU、******、代码执行率等)。
● 具备较强的数据分析意识,能从数据中提炼有效结论并指导优化方向。
● 具备良好的技术文档编写能力,可清晰表达模型性能变化趋势与评估结果。
2026-06-11 13:17
IP属地:北京
职位福利
本科1-3年pythonagentjsbenchmark

北京联和利泰科技股份有限公司
不需要融资 · 1000-9999人

工作地址

鱼泡安全保障
如遇到办证收费、刷单、传销、诱导买车等违规行为,请立即向鱼泡直聘投诉举报投诉举报 >










