崗位職責:
- 數據爬取: 編寫高效的Python爬蟲腳本,從指定的公開網站、API接口、氣象數據平臺、農業政務網站等渠道,自動化抓取多源異構數據(如氣象數據、土壤墑情、遙感影像、作物價格、病蟲害情報、學術論文等);
- 數據清洗與處理: 對爬取到的原始數據進行清洗、去重、格式化、轉換和集成,確保數據的準確性和一致性,使其滿足作物模型研究的輸入要求;
- 反爬策略應對: 研究并實施合理的策略以應對常見的反爬蟲機制(如IP限制、驗證碼、動態加載等),確保數據采集任務的穩定運行;
- 文檔與協作: 撰寫清晰的技術文檔,記錄爬蟲設計思路、數據源結構和數據處理流程,并與研究員保持密切溝通,理解數據需求;
- 完成領導交辦的其他工作。
任職資格:
1. 2026/2027屆在校本科生或研究生,計算機科學、軟件工程、數據科學、農業信息技術或相關專業;
2. 熟練掌握 Python 編程語言,有良好的編碼習慣;
3. 熟悉常用的網絡爬蟲框架,如 Scrapy、Requests、BeautifulSoup、lxml 等;
4. 了解網頁前端基礎(HTML, CSS, JavaScript),能分析網頁結構并提取數據;
5. 有處理 Ajax動態加載、Selenium 或 Playwright 模擬瀏覽器操作的經驗;
6. 接觸過數據庫操作(SQL或NoSQL),了解正則表達式、Pandas 等數據處理庫,對多線程/異步IO爬蟲有一定了解,有實際爬蟲項目經驗(課程設計、個人項目均可),對農業、氣象、地理或環境科學有濃厚興趣;
7. 具備出色的學習能力和解決問題的能力,面對技術挑戰樂于鉆研,做事細心嚴謹,對數據質量有要求,良好的溝通能力和團隊協作精神;
8. 服從管理。