一、職位描述
致力于打造高性能AI計算平臺,招募一名兼具AI基礎設施運維能力與全棧開發潛力的工程師。您將深度參與AI算力集群管理、遠程運維體系構建及研發協作全流程,推動AI技術的高效落地。我們提供給您參與AI基礎設施從0到1建設的核心機會,以及與頂尖算法團隊協作,深入AI工業化落地場景。
二、崗位職責
1. 負責英偉達GPU集群及華為昇騰910系列AI服務器的運維管理,包括硬件監控、驅動適配、性能調優及故障診斷;
2. 搭建基于混合云架構的遠程運維平臺,實現跨地域AI算力資源的統一調度與自動化運維;
3. 配合研發團隊完成AI訓練/推理系統的開發測試,設計CI/CD流水線,優化模型部署效率;
4. 構建運維監控鏈,構建從硬件層到應用層的全棧可觀測性體系;
5. 研究AI算力集群的能效優化方案,制定服務器資源彈性伸縮策略。
三、任職要求
(一)必備條件
1. 碩士及以上學歷,計算機/電子工程/數學等相關專業;
2. 3年以上Linux系統運維/DevOps經驗,精通Shell/Python/Go至少一門語言;
3. 熟悉Docker/K8s生態,有大規模集群管理經驗;
4. 掌握監控工具鏈(Prometheus/Grafana/ELK等),具備全鏈路問題定位能力;
5. 了解主流AI框架(TensorFlow/PyTorch)及計算資源管理工具(Kubeflow/Slurm);
6. 對網絡、存儲、分布式系統有深入理解,能獨立設計高可用架構。
(二)加分項
1. 有AI大模型部署優化建設經驗;
2. 熟悉云計算平臺(AWS/Azure/阿里云)AI服務架構;
3. 持有K8s/CKA/Ceph等認證證書;
4. 發表過運維/系統優化相關技術文章或開源項目貢獻者。