职位描述

#2434

数据采集工程师(大模型方向)-至知

北京

上海

工程-开发

1、设计并实现大规模网页数据的抓取、清洗及结构化、存储流程，保障数据质量与时效性;2、熟悉反爬机制及应对策略，开发高可用的数据采集与清洗方案; 3、构建基于分布式框架(如Scrapy-Redis、Celery)的爬虫系统，提升并发性能与容错能力;4、融合大数据组件(如Spark/PySpark)优化数据处理效率，支持实时、批量清洗与转换任务;5、协同数据团队完成数据交付，驱动下游分析与应用。任职要求: 必备能力 1、精通Python及Scrapy框架，深入理解HTTP协议与动态页面渲染机制; 2、熟悉java或c++，对计算机底层原理有较深入了解; 3、掌握主流数据库(MySQL/MongoDB/Redis/HBase)和消息队列(Kafka/Pulsar)4、具备分布式爬虫开发经验，熟悉任务调度与性能优化策略; 5、熟悉Spark进行大规模数据清洗，了解Ray/Dask等分布式计算框架。项目经验: 1、2年以上工作经验，1年以上爬虫开发经验，主导过至少1个中大型爬虫项目落地; 2、有复杂反爬机制破解案例; 3、有Spark/Ray等大数据组件在爬虫任务中的实际应用经验。加分项: 1、掌握JS逆向分析及浏览器自动化工具(如Selenium/Puppeteer) 2、熟悉容器化部署(Docker/Kubernetes) 3、在专有领域有数据采集经验。

Contact Our Consultant

Renee Yang

Surrienta Consulting Ltd. @2024