Google推出Gemini模型　同時支援文字、圖片和聲音

2023-12-08

記者／竹二

Google近日正式推出原生多模態的大型語言模型Gemini，可同時支援文字、圖片和聲音的輸入，據了解在32項的AI測試中，有30項的評分超越OpenAI的GPT-4V模型，Gemini預計提出3種版本，包含模型最大的Ultra版、通用性最廣的Pro版，以及可以在手機裝置上運作的Nano版。

1 0 4 — Google正式推出原生多模態的大型語言模型Gemini，可同時支援文字、圖片和聲音的輸入。（圖／截取自Google）

Gemini支援文字、圖片與聲音

根據Google展示的影片，Gemini可以同時分辨和理解文字、圖片和聲音，也可以用來分辨和解釋幾種熱門開發語言，包含Python、Java、C++以及Go語言等，可以理解跨開發語言來推論複雜訊息，Gemini也打造了新版的程式碼生成系統AlphaCode 2，比2年前的第一代改進很多，可以解決2倍的問題。

更多新聞：AI工作助手幻滅！OpenAI 營運長：商業AI被誇大了

Gemini使用Google自行開發的晶片TPU訓練而成，而且使用了v4和v5e版的TPU，Google也同時宣布了新版TPU v5p，可以用來加速Gemini模型的開發，提供企業用來客製化訓練自己的LLM模型，而TPU v5p單一叢集可支援到8960顆TPU，提供2倍FLOPS的算力，記憶體頻寬也提高3倍。

Gemini Nano版可在手機上執行

據了解，Google目前先在Bard中使用微調過的Gemini Pro版本，可提供推理和計畫的回答能力，並先釋出英語版，可以在全球170個國家和地區使用，預計接下來會支援更多語言。

此外，Gemini另一個新特色是推出了一款可以在手機上執行的Nano版Gemini模型，根據Google的說法，甚至不需要連上網路，只靠手機上的TPU晶片也能運作，目前先支援Pixel系列手機。Nano版Gemini也會先用來強化Gboard的自動語音回覆輸入能力，將率先支援WhatsApp的輸入，預計明年計畫支援更多App。

標籤

2023-12-08

Google推出Gemini模型　同時支援文字、圖片和聲音

Gemini支援文字、圖片與聲音

Gemini Nano版可在手機上執行

推薦工作

發佈留言取消回覆

體驗刺激黑市交易！《監獄商店模擬器》究竟該討好囚犯還是巴結獄警

哥布林女僕來了！合作清潔遊戲《Goblin Cleanup》2027 年登陸家機及 Switch 2

「新應材」再度投資臺灣！砸45億元擴大產能3類人才就業機會增

中興大學14組生技團隊進軍亞洲生技大展 AI醫療、抗癌新藥成亮點

AI科技結合鏡片升級！依視路發表2026系列新品打造全新視覺體驗

最新科技新聞快訊不錯過!!

Gemini支援文字、圖片與聲音

Gemini Nano版可在手機上執行

推薦工作

延伸閱讀

「新應材」再度投資臺灣！砸45億元擴大產能3類人才就業機會增

AI科技結合鏡片升級！依視路發表2026系列新品 打造全新視覺體驗

2028年全球半導體設備銷售額預估達2295億美元新高 設備市場可望連續5年成長

聊天機器人成治療新助手！AI打造全天候心理支持 仍難取代真人

增肌不必狂吃！間歇性斷食「同樣長肌肉」還減少脂肪增加

印度一個月誕生第二隻AI獨角獸！AI新創Emergent估值達15億美元

發佈留言 取消回覆

AI科技結合鏡片升級！依視路發表2026系列新品打造全新視覺體驗

2028年全球半導體設備銷售額預估達2295億美元新高設備市場可望連續5年成長

聊天機器人成治療新助手！AI打造全天候心理支持仍難取代真人

發佈留言取消回覆