Google新一代視覺AI稱霸?Gemini 3 Pro視覺推理分數超車GPT‑5.1

記者鄧天心/綜合報導

Google宣布多模態模型Gemini 3 Pro在最新一輪視覺AI評測中拿下多項最高分,特別是在MMMU‑Pro和Video‑MMMU這兩個專門測試複雜影像與影片理解的基準上表現突出,甚至在多項指標上超前對手OpenAI的GPT‑5.1與Anthropic的Claude Opus 4.5。

依照Google公布與外部整理的數據,Gemini 3 Pro在MMMU‑Pro約拿下81%成績,在Video‑MMMU則接近87.6%,相較上一代Gemini 2.5 Pro以及目前市面上的其他旗艦模型,分數都有成長。

1765265125658
Google宣布旗下多模態模型Gemini 3 Pro在多項視覺AI基準測試上創下新高紀錄,特別是在MMMU‑Pro、Video‑MMMU等複雜視覺推理與影片理解項目上表現領先。(圖/Gemini 3 Pro)

延伸閱讀:

每天省下1小時?OpenAI調查發現每天用AI 省下40至60分鐘!

Google說明,Gemini 3 Pro的能力已從「看得懂圖片」進一步擴展到「看得懂文件」,可以分析文件排版、表格欄位、數學公式與各式圖表,並按照題目需求一步步推理,在CharXiv等文件推理測試中,表現甚至超過人類平均水準,另一方面,模型也具備精細的空間理解能力,能在畫面上標出具體位置與物體,讓它特別適合用在機器人操作、AR/VR導引,或是替使用者「看螢幕、按按鈕」的AI代理情境。

在實際應用方面,Google表示,Gemini 3 Pro將優先用於處理大量專業資料的領域,包括教育、醫療影像、金融分析與法律文件等,協助完成診斷輔助、冗長報告閱讀、合約審閱與財務數據整理等工作,Gemini 3 Pro目前已開放Google AI Studio與API給開發者試用,並開放調整影像解析度與視覺token用量,讓企業可依照預算與延遲需求自行取捨效能與成本。

資料來源:Gemini 3 Pro

Loading

在 Google News 上追蹤我們

發佈留言

Back to top button