团队介绍:AI System,跟踪AI新技术,为公司提供通用性和创新性训练、推理框架及性能优化等。
核心方向:自研分布式训练框架 / 低延迟推理
岗位使命:打造量化领域的核心“AI 引擎”。你将深入深度学习框架内核,自研并定制适配金融场景的分布式训练系统,突破千卡集群的通信与显存瓶颈;同时构建低延迟推理引擎,让量化研究员(Quant Researchers)能够专注于策略创新,而无需担心算力瓶颈或工程落地问题。
核心职责:
1. 自研分布式训练框架(核心):
基于 PyTorch ,设计并实现高效的混合并行策略(Data/Context Parallelism),适配 MoE 及长序列模型。
开发自定义 CUDA Kernel,通过算子融合、显存优化(Paged Attention, Offloading)突破显存墙。
2.低延迟推理引擎:
面向高频交易场景,研发极致优化的模型推理能力。
3.前沿技术工程化:
快速复现并落地学术界最新成果(如 Ring Attention, FlashAttention-2/3, Long-Context 优化),将其转化为投研团队的生产力工具。
任职要求
1. 学历与基础
计算机、电子、数学、物理等相关专业硕士及以上学历,或具备同等深度的工程实战经验。
拥有扎实的 OS、计算机网络及并发编程功底,熟悉 Linux 内核调优。
2. 核心技术栈(必须精通)
编程语言:C++ (高性能计算核心) 与 Python,具备手写高性能 CUDA Kernel 的能力。
3.框架深度:
深入理解 PyTorch 内部机制(Autograd, Dispatcher, ATen),有修改框架源码解决实际问题的经验。
精通 DeepSpeed 或 Megatron-LM 架构,有定制分布式训练策略(ZeRO, Pipeline Parallelism)的成功案例。
4.系统与网络:
熟悉 RDMA (IB/RoCE) 网络编程,精通 NCCL 通信库优化。
深入理解 GPU 硬件架构(NVLink/NVSwitch),能进行拓扑感知调度与优化。
加分项(Preferred Qualifications)
? 大模型全链路:有从头预训练或微调十亿/百亿LLM 的全流程经验,熟悉 FlashAttention, Ring Attention 等前沿优化技术。
? 新一代硬件:熟悉 NVIDIA H100/B200/GB200 新架构特性,或有其他厂商GPU使用经验。
? 开源贡献:在 PyTorch, DeepSpeed, Megatron-LM, vLLM 等核心仓库有 Merged PR。
? 极客精神:ACM/ICPC 金牌得主,或在 Kaggle/AI 系统挑战赛(如 MLSys)中斩获 Top 名次。