职位描述

#2549

大模型预训练算法研究员-至知创新研究院

北京

上海

工程-算法

AI Reseaercher

职位描述 1、大语言模型预训练与迭代：主导/参与千亿至万亿级参数LLM的预训练工作。深入探索Scaling Law，指导模型结构设计与超参调优，并针对复杂代码和逻辑推理等能力进行专项提升； 2、数据迭代与训练策略优化：协同构建并持续优化预训练数据 Pipeline 与 Training Recipe。深入剖析数据清洗策略及高质量合成数据对模型上限的增益，探索并落地高效的 Data Mixing 方案； 3、前沿架构跟进及探索：跟踪并验证大模型前沿架构进展，研究并实现能够在不同规模模型上通用的优化方法（包括但不限于训练范式、正则化、模型架构改进、优化器、loss设计、超参优化），验证其在大中小模型上的迁移性与效果； 4、训练框架与计算效率优化：与系统/平台团队深度合作，针对超大规模模型，进行系统级性能优化，包括分布式训练策略、访存优化、通信优化和推理加速；参与探索底层算子的优化开发（基于CUDA、Triton或FlashAttention），保障极端规模分布式训练的稳定性与极致的模型算力利用率（MFU）。职位要求 1、计算机、人工智能、数学、物理等相关专业，国内外顶尖高校硕士及以上学历（博士优先）； 2、具备扎实的代码能力，在ACM/ICPC、NOI/IOI、TopCoder、Kaggle等顶级编程或AI赛事中获奖者优先； 3、熟练掌握PyTorch及至少一种主流大规模分布式训练框架（Megatron-LM / DeepSpeed 等）；具备底层算子（Triton/CUDA）的高效实现能力，或拥有高并发分布式系统优化经验者具有极高加分； 4、在NeurIPS、ICLR、ICML、ACL等人工智能顶级会议发表过有影响力的一作论文，或主导/深度参与过业界具有高影响力的开源大语言模型及框架项目； 5、坚信AGI与Scaling Law的潜力，具备追求极致系统优化的技术热情。拥有卓越的实验设计与分析能力，能在高强度的迭代节奏中保持极强的自我驱动力与协作精神。

Contact Our Consultant

Elon Liu

Surrienta Consulting Ltd. @2024