职位描述

#2423

大模型高性能算子研发工程师

北京

上海

其他

职位描述 1、底层算子研发与极致优化：深度参与大模型推理框架核心Kernel的开发，与算法团队紧密协作进行算法设计到落地全链路的调优，探索并突破算子性能极限； 2、硬件级性能压榨：深入洞察硬件架构特性，针对不同计算与访存场景进行极致的算子性能调优，大幅提升模型推理的MFU与MBU。职位要求 1、具备扎实的C++/Python基础，精通CUDA、CUTLASS等高性能开发语言及库； 2、熟悉Triton、TileLang、Cutile-python 等现代AI编译器与前沿工具链； 3、深入理解Flash Attention及其衍生技术的工作原理与主流优化方法； 4、具备过硬的计算机体系结构功底，深刻理解现代芯片（如主流 GPU）的计算流水线与存储层级架构。加分项： 1、熟悉主流大语言模型的底层网络架构； 2、在FuseMoE、Ragged Flash Attention、Ring Attention等前沿高效算子优化方面有实际开发经验或深入研究探索； 3、参与过千亿/万亿级开源大模型或主流高性能推理引擎（如SGLang、vLLM、ensorRT-LLM）底层性能优化经验者优先。

Contact Our Consultant

Renee Yang

Surrienta Consulting Ltd. @2024