又一武器出籠！Google DeepMind發布RT-2讓機器人更聰明｜專家論點【Howie Su】

2023-08-17

作者：Howie Su（產業分析師）

Google將視覺語言動作模型伸向機器人領域

Google旗下的DeepMind 宣布推出 Robotics Transformer 2 （RT-2），這是一種首創的視覺語言動作（VLA）模型，可以使機器人無需特定訓練即可執行新任務。一如語言模型如何從網路規模的數據中學習一般思維模式與特定概念一樣，RT-2 使用網路中的文本和圖像來理解不同的現實世界概念，並將這些知識轉化為機器人動作的通用指令；同時，在經過改進後，這項技術可以建立出情境感知、適應性強的機器人，可以在不同的情況和環境中執行不同的任務，而所需的培訓遠少於目前所需的培訓。事實上，早在 2022 年，DeepMind 就推出了RT-1，這是一種多任務模型，經過 130,000 次訓練，使 Everyday Robots 能夠執行 700 多項任務，成功率高達 97%。現在，該公司利用 RT-1 的機器人的各種資料集，訓練該模型的後繼者：RT-2。

Robotics Transformer 2 (RT-2)專提供機器人使用。（資料來源：Valasys Media）

方便好用的RT-2有什麼亮點？

RT-2的最大亮點在於，與RT-1和其他模型不同，它不需要數十萬個資料節點來讓機器人工作。企業長期以來發現特定的機器人培訓（涵蓋每一個物體、環境和情況）對於在高度變化的環境中處理複雜、抽象的任務至關重要，然而，在這種情況下，RT-2 僅需要從少量機器人資料中學習，以執行基礎模型中的複雜推理，並將獲得的知識轉移到直接機器人動作中，即便是以前從未見過或從未接受過訓練的任務都能處理。RT-2 顯示出超越其所接觸的機器人數據的泛化能力以及語義和視覺理解能力，這包括解釋新命令並透過執行基本推理來回應使用者的指示。

DeepMind 機器人技術主管Vincent Vanhoucke就指出，訓練機器人扔垃圾以前作法為「明確訓練機器人識別垃圾、撿起垃圾並扔掉」，但對於基於網路數據進行訓練的 RT-2 來說，就不需要這樣做了，該模型已經對垃圾是什麼有一個大概的了解，並且可以在沒有明確訓練的情況下識別它。它甚至知道如何扔掉垃圾—儘管它可能從未接受過採取該行動的訓練。在處理內部測試中看到的任務時，RT-2 的表現與 RT-1 一樣好，然而，對於新型態，甚至未見過的場景，其性能表現幾乎較RT-1翻倍：從 RT-1 的 32% 達到 62%。

從軟體往硬體發展：當各種設備的大腦

而像 RT-2 這樣的視覺語言動作模型可以產生情境感知機器人，它們可以推理、解決問題和解釋資訊，以便根據當前情況在現實世界中執行各種動作。例如，考慮到物體的類型、重量、脆弱性和其他因素，企業可以看到能夠以不同方式處理每個物體的機器，而不是在倉庫中執行相同的重複動作的機器人。事實上，根據Markets and Markets的調查，人工智慧驅動的機器人領域預計將從 2021 年的 69 億美元增長到 2026 年的 353 億美元，預計年複合年成長率為 38.6%。Google正在把軟體網硬體設備上應用，以建立更多的「Other Bet」金流，計畫成為未來各種機器人的大腦。

瀏覽 1,000 次