职位描述

#2416

AI 研究，评测方向

上海

其他

你将负责 • 负责 AI 评测方向的核心研究与迭代，围绕角色对话、行为决策、长期互动与生成内容建立系统化评测方法 • 设计并推动 benchmark、judgemodel、评测数据与实验框架建设，持续提升评测的区分度、稳定性与可信度 • 提升离线评测与真实产品表现之间的相关性，使评测体系能够真正服务模型优化和产品决策 • 研究模型能力边界与关键失败模式，帮助团队更快定位问题并形成可靠研究方向 • 与AIresearch、data、infra、产品团队紧密协作，将评测结论转化为训练、后训练与模型选择中的有效信号我们希望你具备 • 扎实的机器学习、深度学习与统计基础，对大语言模型或多模态模型的训练、后训练与评估有系统理解 • 有LLMevaluation、benchmark construction、model-as-judge、reward modeling 或agent evaluation 相关经验 • 能够独立设计评测任务、评测标准与分析框架，理解评估指标与真实产品表现之间的关系 • 具备较强的 researchtaste，能够围绕开放问题定义研究目标并设计严谨实验 • 具备优秀的工程能力，能够独立完成从问题拆解到结果分析的完整闭环 • 具备较强的分析与归因能力，能够从复杂实验结果中提炼有效结论并推动决策 • 对游戏、互动叙事、角色系统或 AI 驱动内容系统有强烈兴趣加分项 • 在机器学习、NLP、强化学习、HCI 或相关方向有高质量研究经历 • 有agent、multi-agent systems、long-horizon planning 或 memory systems 相关项目经验 • 有从研究走向线上系统落地的经验，包括数据闭环与灰度迭代 • 有游戏、互动叙事、虚拟角色或线上 AI 产品相关经验

Contact Our Consultant

Yuri Liu

Surrienta Consulting Ltd. @2024