职位描述
1、底层算子研发与极致优化:深度参与大模型推理框架核心Kernel的开发,与算法团队紧密协作进行算法设计到落地全链路的调优,探索并突破算子性能极限;
2、硬件级性能压榨:深入洞察硬件架构特性,针对不同计算与访存场景进行极致的算子性能调优,大幅提升模型推理的MFU与MBU。
职位要求
1、具备扎实的C++/Python基础,精通CUDA、CUTLASS等高性能开发语言及库;
2、熟悉Triton、TileLang、Cutile-python 等现代AI编译器与前沿工具链;
3、深入理解Flash Attention及其衍生技术的工作原理与主流优化方法;
4、具备过硬的计算机体系结构功底,深刻理解现代芯片(如主流 GPU)的计算流水线与存储层级架构。
加分项:
1、熟悉主流大语言模型的底层网络架构;
2、在FuseMoE、Ragged Flash Attention、Ring Attention等前沿高效算子优化方面有实际开发经验或深入研究探索;
3、参与过千亿/万亿级开源大模型或主流高性能推理引擎(如SGLang、vLLM、ensorRT-LLM)底层性能优化经验者优先。