【崗位職責】
1.全面負責人工智能平臺的日常運維工作,包括平臺的部署、配置、監控、調優及故障處理等,確保平臺穩定、高效運行;
2.建立和完善平臺運維管理制度、流程和規范,制定應急預案,提高平臺的可靠性和可用性;
3.監控人工智能平臺的運行狀態、性能指標及資源使用情況,及時發現并解決潛在問題,預防故障發生;
4.負責基礎服務相關硬件設備(服務器、存儲、網絡設備等)和軟件系統的維護與管理,確保其正常運行;
5.組織進行平臺的升級、補丁安裝及版本更新工作,保障平臺功能的持續優化和安全;?
6.與開發團隊、運營團隊等保持密切溝通協作,協助解決平臺開發、使用過程中的技術問題。?
【任職條件】
1.計算機科學、電子工程、高性能計算相關專業碩士及以上學歷。
2.具有5年以上系統運維經驗,其中至少2年以上人工智能平臺或大規模分布式系統運維管理經驗。?
3.有云計算、大數據平臺運維經驗者優先。?
4.熟悉人工智能平臺的架構和運行原理,掌握相關運維技術和工具;精通 Linux 操作系統、數據庫(如 MySQL、MongoDB 等)、網絡技術及存儲技術;熟悉容器技術(如 Docker、Kubernetes)、虛擬化技術及自動化運維工具(如 Ansible、Jenkins 等);具備較強的故障排查和問題解決能力,能快速響應并處理平臺突發故障。
5.工作認真負責,嚴謹細致,具有較強的責任心和抗壓能力;具備良好的溝通協調能力和團隊合作精神,能與各部門順暢協作;具有持續學習的意識和能力,關注行業新技術和發展趨勢。