俄羅斯最大科技公司 Yandex 以人工智慧技術開發大語言模型

2022-07-04

大語言模型（Large language model）乃當前人工智慧發展的趨勢之一，其特點在於能夠自動產出文本與段落，並且模仿人類對話。俄羅斯科技公司 Yandex 於 6 月 23 日表示，它已經成功開發了一個用於人工智慧研究的大型語言模型，並將其向大眾公布。此外， Yandex 希望加速特定人工智慧技術的發展，往更快、更深入的方向前進。Yandex 將此一大語言模型命名為「YaLM 100B」。

Yandex旗下的搜尋引擎在俄國境內擁有逾60%的市占率。圖/翻攝自Yandex

在該公司發表這項技術的前一天，美國社群網路服務公司 Meta Platforms Inc 於 6 月 22 日也發布了所謂的人工智慧模型，根據 Meta Platforms Inc 的說法，是迄今為止最大的人工智慧模型，在它像人工智慧研究社群提供1750億組參數模型後，它甚至還有66億組參數模型。

即便如此，Yandex 對外表示其所掌握的公共模型是比 Meta 所聲稱的還要來得更多、更大。Yandex 相關人士回應：「YaLM 100B 所掌握的參數數量至少有 1000 億個，遠超越了在商業使用的許可下的開放資源中所提供類似於生成型已訓練變換模型（Generative Pre-trained Transformer, GPT）的數量」。

此外，Yandex 科技公司首席執行長Petr Popov更說道「透過公開 YaLM 100B，希望能夠在未來的生成神經網路中提供更多的動力。」此外，Yandex 也希望透過與人工智慧開發社群分享其在語言模型建置的相關研究實踐與貢獻，而目前也已經向大眾免費提供了超過1000一個參數訓練的大語言模型，希望藉此激發人工智慧於此一領域的發展，其中也包含了自然語言處理系統（Natural Language Processing systems, NTP systems）的研究與發展。而根據 Yandex 的說法，它們已經成為該領域的「巔峰」。

於 6 月 30 日，Yandex 更向全世界推出其開發的多語言人工神經網路-Yandex SpeechKit。正也是建立在其所開發的大語言模型的基礎之上，根據該公司的介紹，除了世界常用的語言，諸如法文、英文等，稀有語言的翻譯與應用，例如丹麥語、芬蘭語等小語種也能夠被該系統所識別並且加以自動學習。

YaLM 可能會是世界上目前最大且最近似於 GPT 的人工神經網路，除了可以免費以英文介面使用之外，Yandex 更利用這項大語言模型技術在 Github 公開發布了模型以及相關訓練素材。Yandex 以約莫65天的時間在一組800個 A100 顯卡和將近 1.7TB 的線上文本、書籍和「無數其他資源」中用英文和俄文來訓練 YaLM 模型。

如眾人所知，Yandex 和 Meta 並不是唯二研究大型語言模型的公司。去年 10 月，微軟和英偉達（NVIDIA）共同開發了一個擁有 105 層和 5300 億個參數的語言模型。然而，仍然有不少專家學者正在擔心人工智慧技術於大型語言模型領域的開發，可能會使人類在種族、性別等問題的社會偏見更為廣傳、甚至固化。

Yandex 是俄羅斯最大的科技公司，提供在線工具和服務，包括搜索引擎、電子郵件、新聞聚合器以及導航、翻譯、叫車等應用程序。自 2 月 24 日俄羅斯向烏克蘭發動所謂「特殊軍事行動」後，Yandex 和其他俄羅斯公司行號一樣，都陷於動盪之中。線上電子商務服務以及線上叫車服務是 Yandex 的主要服務範圍，但受到國際局勢的影響，俄羅斯斯接連受到制裁，該公司於今年的第一季也受到重創。（記者／戴偉丞）

參考資料：

https://voi.id/en/technology/182537/yandex-creates-big-language-model-for-ai-claims-to-be-bigger-than-meta-platform-inc-s-own

https://www.siliconrepublic.com/machines/yandex-large-language-model-ai-gpt

https://www.ixbt.com/news/2022/06/30/v-jandekse-sozdali-nejrosetpoliglota-znajushuju-bolee-10-jazykov.html