近日,小米大模型團隊的兩篇論文成功入選國際頂級AI會議NAACL 2025,并均被收錄為主會長文。這兩篇論文分別聚焦于圖形用戶界面(GUI)代理和機器翻譯方向,其研究成果已深度應用于小愛翻譯,為辦公場景中的語言障礙提供了全新的解決方案。
技術亮點:從GUI代理到多語言翻譯
小米在GUI代理方向的研究中,將手機控制任務拆解為頁面到達和頁面操作兩個子任務,使智能代理更關注整體任務的完成能力,而非單步最優解。這一技術顯著提升了智能助手的效率,尤其在辦公場景中,用戶可以通過語音指令快速完成復雜的操作,例如切換應用、查找文件等。
在機器翻譯領域,小米基于大語言模型探索了多語言翻譯的最佳訓練范式,并開源了一系列翻譯模型。這些模型已深度集成到小愛翻譯中,支持實時翻譯、語音翻譯和圖文翻譯等功能。無論是跨國會議中的實時語音翻譯,還是外文文檔的快速解讀,小愛翻譯都能輕松應對。
辦公場景應用:提升效率,打破語言障礙
在跨國會議中,小愛翻譯支持邊說邊譯、邊聽邊譯,實時將語音轉化為目標語言,確保與會者無障礙溝通。例如,在英語和中文的對話中,小愛翻譯可以快速生成精準的翻譯結果,避免因語言差異導致的誤解。
對于需要處理大量外文文檔的用戶,小愛翻譯提供了圖文翻譯功能。用戶只需拍攝或上傳外文文檔,即可快速獲取翻譯結果。這一功能特別適用于法律、金融等領域的專業人士,幫助他們高效完成工作。
在與外國客戶或合作伙伴的交流中,小愛翻譯不僅支持語音翻譯,還能根據上下文提供精準的翻譯結果。例如,在涉及專業術語的對話中,小愛翻譯能夠準確識別并翻譯,確保溝通的準確性和專業性。
小米表示,此次研究成果的發布是其“深耕底層技術、長期持續投入”的又一例證。未來,小米將繼續優化大模型技術,進一步提升小愛翻譯的性能和用戶體驗,為全球用戶提供更高效、更智能的語言服務。
小米大模型技術的突破,不僅為辦公場景中的語言障礙提供了全新的解決方案,也展現了小米在人工智能領域的深厚積累和前瞻性布局。隨著技術的不斷升級,小愛翻譯有望成為全球用戶跨語言溝通的得力助手,推動辦公效率的進一步提升。