崗位職責
1.整理和預處理多模態語料庫和結構化知識源。
2.構建、擴展和維護領域本體 / 知識圖譜庫。
3.確保數據質量、版本控制和沿襲追蹤。
4.搭建強大的 ETL 管道,確保原始源(如網絡爬蟲、數據庫、PDF)被系統地攝取、清理、規范化和格式化,以用于神經訓練和符號規則編碼。
5.將異構數據集(非結構化文本語料庫、結構化事實、用戶日志)集中到一個集成存儲庫中,支持對訓練數據和符號事實的高效查詢、切片和歷史跟蹤,啟用數據集的版本控制。
6.進行知識圖譜構建工作,將領域語義(實體、關系、本體)編碼為圖形形式,促進文本衍生概念與結構化符號的鏈接,通過在添加或更新事實時應用模式驗證和推理檢查,確保知識庫的一致性和連貫性。
任職要求
1.專業背景:計算機、數據科學、軟件工程等相關專業。
2.學歷要求:碩士學歷及以上;本科學歷如有優秀項目經驗也可接受。
3.工作經驗:至少 2 年相關項目經驗,有重要項目突破經歷可放寬至 1 年。
4.技能要求:具備 ETL(提取、轉換、加載)、數據倉庫、知識圖譜構建經驗,掌握 SQL/NoSQL、Apache Spark、Neo4j 或類似的圖形數據庫、數據清理、模式設計。
工作地點:天津、杭州、珠海