company logo
#2423
大模型高性能算子研发工程师
北京
上海
其他
职位描述 1、底层算子研发与极致优化:深度参与大模型推理框架核心Kernel的开发,与算法团队紧密协作进行算法设计到落地全链路的调优,探索并突破算子性能极限; 2、硬件级性能压榨:深入洞察硬件架构特性,针对不同计算与访存场景进行极致的算子性能调优,大幅提升模型推理的MFU与MBU。 职位要求 1、具备扎实的C++/Python基础,精通CUDA、CUTLASS等高性能开发语言及库; 2、熟悉Triton、TileLang、Cutile-python 等现代AI编译器与前沿工具链; 3、深入理解Flash Attention及其衍生技术的工作原理与主流优化方法; 4、具备过硬的计算机体系结构功底,深刻理解现代芯片(如主流 GPU)的计算流水线与存储层级架构。 加分项: 1、熟悉主流大语言模型的底层网络架构; 2、在FuseMoE、Ragged Flash Attention、Ring Attention等前沿高效算子优化方面有实际开发经验或深入研究探索; 3、参与过千亿/万亿级开源大模型或主流高性能推理引擎(如SGLang、vLLM、ensorRT-LLM)底层性能优化经验者优先。
Contact Our Consultant
avatar
Renee Yang
wechat