职位描述

#2355

AI Infra研发工程师

北京

上海

工程-开发

C++

Python

CUDA

团队介绍：AI System，跟踪AI新技术，为公司提供通用性和创新性训练、推理框架及性能优化等。核心方向：自研分布式训练框架 / 低延迟推理岗位使命：打造量化领域的核心“AI 引擎”。你将深入深度学习框架内核，自研并定制适配金融场景的分布式训练系统，突破千卡集群的通信与显存瓶颈；同时构建低延迟推理引擎，让量化研究员（Quant Researchers）能够专注于策略创新，而无需担心算力瓶颈或工程落地问题。核心职责： 1. 自研分布式训练框架（核心）：基于 PyTorch ，设计并实现高效的混合并行策略（Data/Context Parallelism），适配 MoE 及长序列模型。开发自定义 CUDA Kernel，通过算子融合、显存优化（Paged Attention, Offloading）突破显存墙。 2.低延迟推理引擎：面向高频交易场景，研发极致优化的模型推理能力。 3.前沿技术工程化：快速复现并落地学术界最新成果（如 Ring Attention, FlashAttention-2/3, Long-Context 优化），将其转化为投研团队的生产力工具。任职要求 1. 学历与基础计算机、电子、数学、物理等相关专业硕士及以上学历，或具备同等深度的工程实战经验。拥有扎实的 OS、计算机网络及并发编程功底，熟悉 Linux 内核调优。 2. 核心技术栈（必须精通）编程语言：C++ (高性能计算核心) 与 Python，具备手写高性能 CUDA Kernel 的能力。 3.框架深度：深入理解 PyTorch 内部机制（Autograd, Dispatcher, ATen），有修改框架源码解决实际问题的经验。精通 DeepSpeed 或 Megatron-LM 架构，有定制分布式训练策略（ZeRO, Pipeline Parallelism）的成功案例。 4.系统与网络：熟悉 RDMA (IB/RoCE) 网络编程，精通 NCCL 通信库优化。深入理解 GPU 硬件架构（NVLink/NVSwitch），能进行拓扑感知调度与优化。加分项（Preferred Qualifications） ? 大模型全链路：有从头预训练或微调十亿/百亿LLM 的全流程经验，熟悉 FlashAttention, Ring Attention 等前沿优化技术。 ? 新一代硬件：熟悉 NVIDIA H100/B200/GB200 新架构特性，或有其他厂商GPU使用经验。 ? 开源贡献：在 PyTorch, DeepSpeed, Megatron-LM, vLLM 等核心仓库有 Merged PR。 ? 极客精神：ACM/ICPC 金牌得主，或在 Kaggle/AI 系统挑战赛（如 MLSys）中斩获 Top 名次。

Contact Our Consultant

Elon Liu

Surrienta Consulting Ltd. @2024