AI下個里程碑:情感理解|專家論點【Howie Su】

作者:Howie Su(產業分析師)

Google員工的代表作:Hume AI

近期,一家名為 Hume AI 的新創公司宣佈在 B 輪融資中籌得 5,000 萬美元,由EQT Ventures 領投,Union Square Ventures、Nat Friedman & Daniel Gross、Metaplanet、Northwell Holdings、Comcast Ventures 和LG Technology Ventures跟投。這家新創公司由執行長、Google DeepMind 前研究員 Alan Cowen 共同創立並領導,除了 Cowen 的背景與創投對人工智慧新創公司的普遍興趣之外,還有什麼能獲得如此大筆的融資?

事實上,Hume AI 與許多其他人工智慧模型供應商和新創公司的區別在於,它專注於建立人工智慧助理以及該助理的API,其他企業可以在其上建立聊天機器人,以及它的一些底層數據,它可以理解人類的情感,對其做出適當的反應,並將其傳達給使用者。與主要以基於文字的聊天機器人而聞名的 ChatGPT 和 Claude 3 不同,Hume AI 還使用語音對話作為介面,僅聆聽人類用戶的語調、音調、停頓和其他語音特徵。

AI下個里程碑:情感理解(資料來源:AI Tech report)

理解多達53種情緒的人工智慧

對於2024 年的人工智慧助理來說,與人類用戶進行情感感知的語音對話可能是一項足夠簡單的任務,但它實際上是一項非常複雜、細緻且困難的任務,因為Hume AI 不僅僅想了解使用者是否感到「快樂」、「悲傷」、「憤怒」、「害怕」或跨文化的五到七種「普遍」人類情緒中的任何一種,心理學家保羅·埃克曼根據臉部表情進行分類,而Hume AI在其網站上列出了它能夠檢測用戶的53 種不同情緒,包括欽佩、崇拜、美感、娛樂、憤怒、煩惱、焦慮、敬畏、尷尬、無聊、冷靜、專注、錯亂、沉思、鄙視、滿意、渴望、慾望、決心、失望等。

Hume AI 的理論是,透過開發能夠更精細地理解和表達人類情感的AI 模型,它可以更好地為用戶服務——作為「願意的耳朵」傾聽和理解他們的感受,同時也提供更現實和令人滿意的客戶支援、資訊檢索、陪伴、腦力激盪、知識工作協作等。情緒智商包括從行為推斷意圖和偏好的能力。這就是人工智慧介面試圖完成的核心目標:推斷使用者的需求並執行,因此,從真正意義上來說,情緒智商是人工智慧介面最重要的要求。

語音韻律模型只是 Hume AI 的「表達測量 API 」的一部分,企業客戶可以使用該 API 來建立他們的應用程式,表情測量 API 中可存取的其他屬性包括理解面部表情、聲音爆發和情感語言——後者測量「轉錄文字的 53 個維度的情緒基調」。Hume 還為上述語音助理提供移情語音介面 API(僅存取最終用戶的音訊和麥克風)以及「自訂模型 API」,允許使用者根據自己獨特的資料集訓練自己的 Hume AI 模型,識別比方說,企業的客戶響應呼叫音訊或來自其安全來源的面部表情中的人類情感表達模式,相當便利。

當然,這種技術還需要對應的政策法規來限制,若讓犯罪分子、政府機構、駭客、軍隊、準軍事人員武器化,用於審訊、操縱、詐欺、監視、身分識別,則後果可能不堪設想,但目前看起來,這家新創未來能發揮的市場潛力相當大,也或許正往人工智慧的下一步,情感理解奠定良好基礎。

瀏覽 220 次

覺得不錯的話就分享出去吧!

發佈留言

Back to top button