岗位职责
与业务团队的研究框架工程师合作,针对围绕深度学习的研究管线,参与开发自研高性能分布式存储与缓存系统,满足多样化的研究任务对海量金融时序数据的读写需求,极致地优化整套系统的吞吐、延迟、稳定性、伸缩性;
与托管机房协作,搭建和管理公司的多套自建高性能集群,涉及硬件选型、硬件采购、高性能网络、监控与维护等。
任职要求
海内外重点院校本科及以上学历,计算机相关专业;
熟练使用C++,编程能力强,代码风格和质量意识优秀;
熟练掌握操作系统、网络原理和计算机体系结构的基本知识;
有在生产环境的RDMA的开发、部署、调优的经验;
加分项:
有实线或虚线的团队管理经验;
有在生产环境搭建和运维任意一种分布式存储或缓存系统的经验;
有大规模集群的搭建和管理经验;
有深度学习训练框架优化相关经验,尤其是 pytorch。