surrienta logo
#2139
推理加速工程师
上海
量化-开发
1、根据业务需求,设计、开发、维护模型推理部署全流程工具链 2、在低延时,高 QPS 的推理场景下对推理引擎的端到端性能进行极致优化,在服务器级别硬件上保证低延迟与稳定性 3、开发并扩展部署工具链,方便用户使用,兼容与扩展性强 职位要求 1、精通端到端性能分析,能精确找到实际阻碍性能的瓶颈,从业务流程设计、软件设计、系统资源使用、硬件资源使用等自顶向下多层次进行性能分析,按照收益多少、实现难易有优先级地迭代优化; 2、精通 C/C++ 编程(C++11 以上),算法与数据结构基础扎实,了解标准库使用上的最佳实践与其可能引入的开销,对单线程、多线程、多进程、内存使用等方面的性能开销有具体了解; 3、精通 NVIDIA GPU 的异构软件开发,精通各种 CUDA Runtime API 及其用法,熟悉 CUDA 编程模型(CUDA 12 及以后)、GPU 架构(Ampere 及以后),A10,L20 等推理卡特性,熟悉 CUDA kernel 编程,熟悉 TensorRT; 4、有极强的 debug 与解决问题的能力,熟练使用各种 CPU/GPU 上的 debug 工具与性能分析工具,如 gdb、nsys 等; 5、熟悉自动化脚本与常用的软件开发工具,如 Python、Shell、Git、Docker 等; 6、沟通能力强,能快速理解任务目标,纯粹结果导向,能够做到想法与实践结合,不局限于已有思路,同时考虑切实的实现路径。 加分项 1、具有 NOI/ACM/ICPC 等算法竞赛的获奖经历,或在 Codeforces/AtCoder 等算法竞赛平台拥有较高排名; 2、熟悉 MLSys 领域的一个或多个方向,包括深度学习框架(PyTorch/TensorFlow 等)、深度学习编译(TVM/MLIR/XLA 等)、高性能算子库(cuTLASS/cuTe 等)、分布式通信库(NCCL)、模型压缩(量化/稀疏/剪枝等)及其精度调优; 3、熟悉大模型推理加速常用优化技术(PD 分离、Continuous Batching 等),熟悉大模型推理框架(vLLM,TensorRT-LLM,SGLang 等),熟悉单机多卡、多机多卡分布式推理; 4、了解 Python 层面的算子编写技术(如 Triton)及其部署方案; 5、对某一种底层技术有深入研究,包括但不限于 Linux 内核、编译器、分布式系统、数据库、流计算引擎等。
Contact Our Consultant
Chloe Chang
wechat