文字到圖像AI模型Imagen Google首次公開亮相

2022-11-03

Google對於發布其「文字到圖像」的人工智慧系統一直都非常謹慎。雖然該公司的 Imagen 模型的質量與 OpenAI 的 DALL-E 2 或 Stability AI 的 Stable Diffusion 不相上下，但Google卻都還沒有向公眾提供該系統。但現在，Google終於宣布將以「非常有限」的形式將 Imagen 添加到其 AI Test Kitchen 應用程式中，以收集一些早期使用反饋。

作為Google 測試各種 AI 系統的一種方式，Google 的AI Test Kitchen 於今年早些時候推出。目前，該應用程式提供了幾種可以與Google的文字AI模型LaMDA 進行交流的方式。而現在，該公司將加入「有限」的Imagen。根據The Verge的報導，將會有兩種方式可以與 Imagen 進行交流，其為「City Dreamer」和「Wobble」。

an alien octopus floats 1 — 圖/翻攝自Google Imagen官網

在「City Dreamer」中，用戶可以要求模型從圍繞他們選擇的主題，如南瓜、牛仔布或顏色格等中，創造出一個「城市」。而Imagen 將創造出建築物模型和地標，如廣場、公寓、機場等，所有設計和SimCity非常相似。

而在「Wobble」中，用戶則可以創造一個「小怪物」。先選擇它的材質，如粘土、毛氈、杏仁糖、橡膠等，接著還可以為它穿上衣服，Imagen就可以生成一個怪物。用戶可以戳它或讓它「跳舞」。然而模型的輸出受限於一種程式設計師的「固定具體美學」。The Verge的記者表示，這個怪物看起來就像介於皮克斯為 Monsters, Inc.的設計和Spore中的角色之間。

然而，與其他文字到圖像AI相比，Imagen仍然受到極大限制。但Google是刻意如此的。Google 產品管理高級總監 Josh Woodward就表示，他們只是要從公眾那裡獲得對AI 系統的反饋，以及了解更多關於人們可能會如何使用或是「破壞」它們的資訊。Woodward表示，人們可能會在上面創造一些「有爭議」的東西，而引發一些問題。

Woodward也提到，人們對AI Test Kitchen的參與度遠遠超出他們的預期，測試這些功能將可以幫助人們了解，最先進的人工智慧模型的局限性和能力。然而，在其競爭對手 OpenAI 和 Stability AI 已經在爭相將文字轉圖像的模型商業化之際，Google會不會將這些模型推向更廣泛的公眾還是一個未知數。（編譯 / 莊閔棻）

延伸閱讀：Google Lamda 超現實的Google聊天技術

參考資料：The Verge

瀏覽 968 次