工作地點:深圳天安云谷
服務部門:AI數據
業務對象:pangu大模型、行業模型
工作內容:多模態數據處理(文本、語音、圖像[崗位已滿]),數據平臺開發(后端)
成長平臺:駐場HW、對接HW技術、HW集群和資源平臺和、自研大模型
【崗位一 Python后端開發】(招聘2人)
1、python技能必須熟練,接受手撕python代碼,熟悉Python后端開發;
2、本科一年以上工作經驗,計算機/軟件相關碩士可以應屆;
3、院校好,相關專業優先考慮,有NLP大模型相關經驗的優先考慮;
【崗位二 python文本數據/NLP算法】(招聘4人)
1、python技能必須熟練,接受手撕python代碼,有Python文本或NLP算法開發經驗;
2、本科兩年以上相關工作經驗,計算機/軟件類碩士可以應屆;
3、院校好,相關專業優先考慮,有NLP大模型相關經驗的優先考慮;
【崗位三 Python語音數據/流媒體開發】(招聘1人)
1、python技能必須熟練,接受手撕python代碼;
2、本科一年以上語音數據處理經驗,音頻技能關鍵詞有ffmpeg,torchaudio,librosa,pydub;
3、院校好,相關專業優先考慮,有NLP大模型相關經驗的優先考慮;
【工作職責】
1、負責多模態大模型數據語料生產和處理,包括但不限于數據生成增強、分布研究、數據獲取、數據規范化、數據質量檢測、打標等,確保訓練數據的有效性,可用性;
2、負責優化和改進現有的數據清洗和質檢打標流程,提高效率和準確性;
3、負責大模型相關數據工具鏈的開發實現及應用維護等;