职位描述

#2453

Machine Learning Engineer (Systems / Data / Platform)

北京

上海

工程-开发

职位描述在这，机器学习的进展不仅取决于模型本身，也取决于支撑模型高效迭代的系统能力。面对快速变化的市场环境，决定策略研发效率与质量的，往往是数据如何定义和流转，实验如何执行和评估，算力如何调度和利用，以及结果如何复现、部署并在真实环境中持续优化。作为机器学习工程师，你将参与这些关键系统的设计、建设和持续演进，工作将覆盖数据链路、训练与推理基础设施、实验框架以及机器学习平台。你将面对一类复杂而真实的问题：它们很少有现成答案，与生产环境紧密相关，也对性能、可靠性和工程判断提出很高要求。我们不要求每个人在所有方向上都同样深入，更期待你能在至少一个关键领域具备扎实的技术深度，同时拥有跨系统协作所需的判断力。工作职责：你的工作将覆盖机器学习模型从研究到实盘部署过程中的关键系统环节。结合你的技术专长，你将参与以下一个或多个方向 1. 设计和开发数据处理系统，将高吞吐、高噪声的交易数据转化为稳定、高效、适用于生产环境的模型输入 2. 构建并优化模型训练与推理基础设施 3. 开发实验与评测系统，提升模型迭代效率，并增强实验过程的可追踪性与结果的可信度 4. 持续完善机器学习平台的端到端流程，推动模型在实盘交易环境中的稳定部署与运行 5. 识别并解决贯穿整个技术栈的性能瓶颈，从计算、内存、调度和 I/O 等维度开展系统性优化职位要求任职要求 1. 具备扎实的计算机工程基础，以及理解和分析复杂系统的能力 2. 在以下一个或多个方向具备扎实的专业能力或实践经验： 1）大规模数据系统 2）分布式系统 3）机器学习平台与工作流系统 4）模型训练与推理系统 5）系统性能优化或GPU性能优化 3. 具备在真实约束条件下进行系统调试和持续迭代的能力 4. 具备较强的主人翁意识：不仅能够高质量完成既定任务，也能够主动发现并定义问题加分项 1. 在GPU、TPU等加速器，以及内存、通信等方向具备扎实的性能优化知识和实践经验 2. 熟悉大规模机器学习训练与推理系统，具备 Megatron-LM、DeepSpeed、vLLM 等主流框架的实践经验 3. 具备机器学习基础设施建设经验，涵盖实验跟踪、工作流编排、模型服务等关键环节 4. 熟悉 Kubernetes 生态系统，或具有 Ray、Kubeflow、Volcano 等分布式调度系统的开发或维护经验理想人选 1. 你期待从事对性能与正确性都有极高要求的系统工作 2. 你乐于钻研和解决需要跨领域思考的复杂问题 3. 你重视高质量基础设施的建设，并希望自己的工作成果能够成为工程与研究团队长期依赖的重要支撑

Contact Our Consultant

Shawn SHEN

Surrienta Consulting Ltd. @2024