崗位職責:
1、主導研發基于計算機視覺和多模態大模型的UI理解技術。讓Agent能夠實時“看懂”屏幕上的內容,精準識別并定位窗口、按鈕、輸入框、圖片等各類UI元素,并理解其功能與上下文關系。
2、構建一個通用的、跨平臺的設備控制層,將底層的鼠標、鍵盤、手機觸摸等操作封裝為大模型可調用的原子能力,解決在不同分辨率、操作系統和應用界面下的操作泛化性難題。
3、設計和研發專為GUI交互設計的長程規劃與決策能力,研發自我糾錯與反思機制,當操作失誤或遇到非預期界面時,能夠自主分析原因并嘗試新的解決方案。
4、完成上級安排的相關工作。
任職要求:
1、計算機相關專業本科及以上學歷,3年以上大模型相關技術研發經驗。
2、深入理解并熟悉主流Agent框架思想(如ReAct、CoT、ToT等)。
3、對大模型的Function Calling/Tool-Using機制有深刻見解和實踐。
4、熟悉各類GUI自動化框架,如Browser-use、Playwright、Selenium、Appium、PyAutoGUI等,并理解其底層原理。
5、精通在UI場景下的OCR、目標檢測、圖像分割等技術,有微調多模態大模型進行UI理解的經驗者優先。
6、了解操作系統底層機制(Windows API、Android Accessibility Service等),熟悉如何通過系統級接口獲取UI信息和模擬用戶輸入。
7、熟悉大模型原理,具備SFT、RL等模型訓練方面的實戰經驗,有GUI自動化相關的強化學習經驗者優化。
8、對新技術有強烈的熱愛、好奇心和鉆研精神,具備卓越的團隊協作、溝通和問題解決能力,自驅、富有責任心和主人翁精神,極致追求算法創新和產品效果。