微軟發布史上最強自研AI影像模型MAI-Image-2-Efficient！挑戰市場最低價

2026-04-15

記者鄧天心／綜合報導

微軟(Microsoft)今日正式推出旗艦級文字生成圖像模型的低成本、高速版本：MAI-Image-2-Efficient。目前該模型已在Microsoft Foundry與MAI Playground上線，且無需排隊等待。這是微軟內部AI超智慧(AI Superintelligence)團隊成立以來開發週期最快的一次，微軟正致力於打造自給自足的AI技術，不再只依賴OpenAI。

微軟Microsoft（圖／123RF） — 微軟推出MAI-Image-2-Efficient，一款更便宜、速度更快的AI影像模型。（圖／123RF）

雙模型策略精準對標企業生成需求

MAI-Image-2-Efficient鎖定的是高量生產任務，例如產品攝影、行銷素材、UI原型，能清晰處理影像中的短文字（如標題與標籤）。旗艦版MAI-Image-2專門用於複雜風格（如動漫或插圖）或長篇精細文字排版的場景。

MAI-Image-2在3月19日於MAI Playground初次亮相，4月2日透過Microsoft Foundry擴大服務範圍，同時推出的還有支援25種語言的語音轉文字模型MAI-Transcribe-1與語音生成模型MAI-Voice-1，不到一個月後，微軟就拿出了優化後的生產版本。

微軟AI執行長Mustafa Suleyman於2025年11月領導成立的MAI超智慧團隊，運作更像是一家快速迭代的新創，目前的市場回饋相當正面，根據Decrypt的評測，MAI-Image-2已在Arena.ai影像生成排行榜上攀升至第三位，僅次於Google與OpenAI。評測指出，該模型的光影擬真度是其強項，且文字渲染能力優異，處理複雜排版的一致性超出預期，在某些對比測試中，儘管排名略低，其影像品質與文字呈現甚至優於OpenAI的GPT-Image。

更多科技工作請上科技專區：https://techplus.1111.com.tw/
科技社群討論區：https://pei.com.tw/feed/c/tech-plus

微軟與OpenAI關係裂痕下的戰略布局

昨日CNBC報導，OpenAI新任首席營收長Denise Dresser在一份內部備忘錄中直言，與微軟的夥伴關係「限制了我們接觸企業客戶的能力」，該備忘錄強調了OpenAI與Amazon Web Services(AWS)及Bedrock平台的聯盟是關鍵成長動能。但微軟在2024年中將OpenAI列為競爭對手，OpenAI也開始將雲端基礎架構分散至CoreWeave、Google和Oracle，以減少對微軟Azure的依賴。

當微軟能以每百萬輸出Token僅19.50美元的成本生成生產級影像時，每一款達到生產品質的MAI模型，都代表微軟能將一項支出從OpenAI的資產負債表移回自家口袋。除了成本考量，這款模型也是微軟「AI代理人」願景的重要拼圖，據TechCrunch報導，微軟正測試將OpenClaw功能整合至Microsoft 365 Copilot，打造能自主執行多步驟任務的代理人。

在代理人主導的世界中，影像生成不再只是使用者手動觸發的行為，而是AI系統在自動化流程中調用的基礎功能。例如，一個負責營銷活動的代理人可能需要自動生成數十張產品圖與社群文案，這要求影像生成必須「夠快」且「夠便宜」。

MAI-Image-2-Efficient實現了4倍的效率提升與41%的降價，這不僅是行銷數字，更是為了讓AI代理人在每日調用數千次時，不會造成系統瓶頸或預算爆炸。

新模型的定價為每百萬文字輸入Token為5美元，每百萬影像輸出Token為19.50美元（較旗艦版的33美元降低約41%）。微軟稱該模型運行速度提升22%，在NVIDIA H100硬體上的吞吐效率提升了4倍。在p50延遲基準測試中，該模型平均領先Google的Gemini 3.1 Flash與Gemini 3 Pro Image約40%。

Copilot與Bing已開始導入，但歐盟地區的服務仍顯示為「即將推出」，微軟似乎不再只是轉售他人的技術，而是按照自己的節奏、定價與架構，向AI市場發起挑戰。