职位描述
1、大语言模型预训练与迭代:主导/参与千亿至万亿级参数LLM的预训练工作。深入探索Scaling Law,指导模型结构设计与超参调优,并针对复杂代码和逻辑推理等能力进行专项提升;
2、数据迭代与训练策略优化:协同构建并持续优化预训练数据 Pipeline 与 Training Recipe。深入剖析数据清洗策略及高质量合成数据对模型上限的增益,探索并落地高效的 Data Mixing 方案;
3、前沿架构跟进及探索:跟踪并验证大模型前沿架构进展,研究并实现能够在不同规模模型上通用的优化方法(包括但不限于训练范式、正则化、模型架构改进、优化器、loss设计、超参优化),验证其在大中小模型上的迁移性与效果;
4、训练框架与计算效率优化:与系统/平台团队深度合作,针对超大规模模型,进行系统级性能优化,包括分布式训练策略、访存优化、通信优化和推理加速;参与探索底层算子的优化开发(基于CUDA、Triton或FlashAttention),保障极端规模分布式训练的稳定性与极致的模型算力利用率(MFU)。
职位要求
1、计算机、人工智能、数学、物理等相关专业,国内外顶尖高校硕士及以上学历(博士优先);
2、具备扎实的代码能力,在ACM/ICPC、NOI/IOI、TopCoder、Kaggle等顶级编程或AI赛事中获奖者优先;
3、熟练掌握PyTorch及至少一种主流大规模分布式训练框架(Megatron-LM / DeepSpeed 等);具备底层算子(Triton/CUDA)的高效实现能力,或拥有高并发分布式系统优化经验者具有极高加分;
4、在NeurIPS、ICLR、ICML、ACL等人工智能顶级会议发表过有影响力的一作论文,或主导/深度参与过业界具有高影响力的开源大语言模型及框架项目;
5、坚信AGI与Scaling Law的潜力,具备追求极致系统优化的技术热情。拥有卓越的实验设计与分析能力,能在高强度的迭代节奏中保持极强的自我驱动力与协作精神。