你将负责
• 负责 AI 评测方向的核心研究与迭代,围绕角色对话、行为决策、长期互动与生成内容建立系统化评测方法
• 设计并推动 benchmark、judgemodel、评测数据与实验框架建设,持续提升评测的区分度、稳定性与可信度
• 提升离线评测与真实产品表现之间的相关性,使评测体系能够真正服务模型优化和产品决策
• 研究模型能力边界与关键失败模式,帮助团队更快定位问题并形成可靠研究方向
• 与AIresearch、data、infra、产品团队紧密协作,将评测结论转化为训练、后训练与模型选择中的有效信号
我们希望你具备
• 扎实的机器学习、深度学习与统计基础,对大语言模型或多模态模型的训练、后训练与评估有系统理解
• 有LLMevaluation、benchmark construction、model-as-judge、reward modeling 或agent evaluation 相关经验
• 能够独立设计评测任务、评测标准与分析框架,理解评估指标与真实产品表现之间的关系
• 具备较强的 researchtaste,能够围绕开放问题定义研究目标并设计严谨实验
• 具备优秀的工程能力,能够独立完成从问题拆解到结果分析的完整闭环
• 具备较强的分析与归因能力,能够从复杂实验结果中提炼有效结论并推动决策
• 对游戏、互动叙事、角色系统或 AI 驱动内容系统有强烈兴趣
加分项
• 在机器学习、NLP、强化学习、HCI 或相关方向有高质量研究经历
• 有agent、multi-agent systems、long-horizon planning 或 memory systems 相关项目经验
• 有从研究走向线上系统落地的经验,包括数据闭环与灰度迭代
• 有游戏、互动叙事、虚拟角色或线上 AI 产品相关经验