大模型后训练 / Agent 算法研究员-至知创新研究院
岗位职责:
1、后训练全流程迭代: 深入参与千亿/万亿级参数大模型的后训练全流程迭代。主导并优化 SFT、RL、Reward Modeling 的算法设计与训练,攻克模型在长文本理解、深度逻辑推理以及多轮交互中的幻觉问题,显著提升复杂指令跟随能力;
2、Agent 核心能力研发: 构建复杂智能体系统(如 Deep Research、交互式 Agent、Coding Agent等方向)。深入优化 Agent 的任务拆解与规划(Planning)、自我反思与纠错(Reflection)、工具动态调用(Tool-use)及长效记忆机制,保障模型在多步骤、长程任务(Long-horizon tasks)中的极致稳定性与执行效果;
3、数据工程与评测体系: 设计并构建高质量的评测集,探索基于合成数据的自我进化(Self-improvement)与高效数据清洗方案;针对 Agent 复杂任务与深度推理,构建科学、自动化的评测 Benchmark,驱动模型优化。
任职要求:
1、计算机、人工智能、数学等相关专业,国内外顶尖高校硕士及以上学历(博士优先);
2、具备极强的代码落地能力,精通主流深度学习及大模型训练/微调框架;在 ACM/ICPC、NOI/IOI、TopCoder、Kaggle 等顶级编程或 AI 赛事中取得优异成绩者优先;
3、在 NeurIPS、ICLR、ICML、ACL 等 AI 顶会发表过高质量一作论文,或作为核心贡献者参与过业界高影响力开源大模型/大模型框架项目者优先;
4、对突破技术天花板有纯粹的热爱,具备卓越的逻辑思维、自驱力以及跨团队协作能力。