微軟研究院近日發布了一項突破性的人工智能研究成果——Magma，這是全球首個能夠同時在數字和物理世界中執行任務的多模態AI代理基礎模型。該模型不僅能理解圖像和文本輸入，還能根據實際目標生成行動方案，無論是在軟件界面上點擊按鈕，還是控制機器人在物理世界中操作物體。

跨越數字與物理的智能橋梁

傳統的多模態AI模型主要專注于理解世界，但缺乏與環境直接交互的能力。Magma的出現填補了這一空白，它能夠同時處理用戶界面導航和機器人操作等任務，成為連接數字和物理世界的智能橋梁。

微軟研究院的首席研究員楊建偉表示："在這個項目中，我們開發了第一個能夠理解多模態輸入并在數字和物理環境中采取行動的代理基礎模型Magma。"

創新技術：標記集與軌跡標記

Magma的核心創新在于兩項關鍵技術：標記集（Set-of-Mark，SoM）和軌跡標記（Trace-of-Mark，ToM）。

標記集是一組與特定目標相關的關鍵對象或界面元素的注釋。例如，在網頁導航任務中，SoM包括所有可點擊用戶界面元素的邊界框；在物理任務中，如擺放餐桌，SoM可能包括盤子、杯子以及每個物品在桌子上的位置。這為Magma提供了"需要關注什么"的高級提示。

軌跡標記則將"標記覆蓋"的策略從靜態圖像擴展到動態視頻，通過隨時間跟蹤物體移動的軌跡線。ToM捕捉元素在交互過程中的變化或移動，為Magma提供了關于動作如何展開的更豐富理解。

Magma經過了大規模異構數據集的預訓練，包括圖像、視頻和機器人數據。研究人員特別探索了利用大量無標簽人類指導視頻進行模型預訓練的新方法，使用視頻中的時間運動作為動作基礎和預訓練的監督信號。

在零樣本評估中，Magma展現出了卓越的跨領域性能。下表顯示，Magma是唯一一個能夠同時執行所有代理任務的模型：

在網頁UI導航任務中，Magma通過高效微調在Mind2Web基準測試中取得了顯著成果：

在機器人操作方面，Magma同樣表現出色。通過少量樣本微調，Magma在Widow-X機器人和LIBERO任務套件中都實現了顯著更高的平均成功率：

即使在沒有任務特定數據的情況下，Magma在多個基準測試中的表現也具有競爭力，甚至優于一些最先進的方法，如Video-Llama2和ShareGPT4Video：

Magma的出現為AI代理系統的未來開辟了廣闊前景。它可以應用于多種場景，例如：

微軟已將Magma模型在Hugging Face和Azure AI Foundry上開源，并發布了相關代碼、模型和演示。研究團隊還計劃陸續發布更多訓練數據和腳本，以促進社區合作和進一步研究。

楊建偉強調："考慮到預訓練數據的有限數量，我們提出了標記集和軌跡標記兩種技術，以利用大量無人類標簽的圖像和視頻進行模型預訓練。最終，我們得到了一個非常兼容的基礎模型，可用于廣泛的多模態任務，包括理解和行動預測。"

Magma的出現標志著AI代理系統發展的重要里程碑，它不僅能理解多模態輸入，還能在數字和物理環境中采取行動，為人工智能與現實世界的無縫交互開辟了新的可能性。