company logo
#2355
AI Infra研发工程师
北京
上海
工程-开发
C++
Python
CUDA
团队介绍:AI System,跟踪AI新技术,为公司提供通用性和创新性训练、推理框架及性能优化等。 核心方向:自研分布式训练框架 / 低延迟推理 岗位使命:打造量化领域的核心“AI 引擎”。你将深入深度学习框架内核,自研并定制适配金融场景的分布式训练系统,突破千卡集群的通信与显存瓶颈;同时构建低延迟推理引擎,让量化研究员(Quant Researchers)能够专注于策略创新,而无需担心算力瓶颈或工程落地问题。 核心职责: 1. 自研分布式训练框架(核心): 基于 PyTorch ,设计并实现高效的混合并行策略(Data/Context Parallelism),适配 MoE 及长序列模型。 开发自定义 CUDA Kernel,通过算子融合、显存优化(Paged Attention, Offloading)突破显存墙。 2.低延迟推理引擎: 面向高频交易场景,研发极致优化的模型推理能力。 3.前沿技术工程化: 快速复现并落地学术界最新成果(如 Ring Attention, FlashAttention-2/3, Long-Context 优化),将其转化为投研团队的生产力工具。 任职要求 1. 学历与基础 计算机、电子、数学、物理等相关专业硕士及以上学历,或具备同等深度的工程实战经验。 拥有扎实的 OS、计算机网络及并发编程功底,熟悉 Linux 内核调优。 2. 核心技术栈(必须精通) 编程语言:C++ (高性能计算核心) 与 Python,具备手写高性能 CUDA Kernel 的能力。 3.框架深度: 深入理解 PyTorch 内部机制(Autograd, Dispatcher, ATen),有修改框架源码解决实际问题的经验。 精通 DeepSpeed 或 Megatron-LM 架构,有定制分布式训练策略(ZeRO, Pipeline Parallelism)的成功案例。 4.系统与网络: 熟悉 RDMA (IB/RoCE) 网络编程,精通 NCCL 通信库优化。 深入理解 GPU 硬件架构(NVLink/NVSwitch),能进行拓扑感知调度与优化。 加分项(Preferred Qualifications) ? 大模型全链路:有从头预训练或微调十亿/百亿LLM 的全流程经验,熟悉 FlashAttention, Ring Attention 等前沿优化技术。 ? 新一代硬件:熟悉 NVIDIA H100/B200/GB200 新架构特性,或有其他厂商GPU使用经验。 ? 开源贡献:在 PyTorch, DeepSpeed, Megatron-LM, vLLM 等核心仓库有 Merged PR。 ? 极客精神:ACM/ICPC 金牌得主,或在 Kaggle/AI 系统挑战赛(如 MLSys)中斩获 Top 名次。
Contact Our Consultant
avatar
Elon Liu
wechat