123,123,123

據(jù)報道，谷歌上周發(fā)布的最新大語言模型使用的訓(xùn)練數(shù)據(jù)，幾乎是2022年的上一代模型的5倍。得益于此，該模型在編程、數(shù)學(xué)和創(chuàng)意寫作方面的表現(xiàn)更為優(yōu)秀。

谷歌是在其I/O開發(fā)者大會上發(fā)布最新通用大語言模型PaLM2的。內(nèi)部文件顯示，該模型采用了3.6萬億個令牌（token）進行訓(xùn)練。令牌指的是單詞串，這是訓(xùn)練大語言模型的重要基礎(chǔ)，因為這可以教給模型如何預(yù)測字符串中可能出現(xiàn)的下一個單詞。

之前版本的PaLM發(fā)布于2022年，當(dāng)時使用的令牌為7800億個。

雖然谷歌很希望展示其人工智能技術(shù)的實力，以及嵌入搜索、電子郵件、字處理和電子表格后的效果，但該公司卻不愿發(fā)布其訓(xùn)練數(shù)據(jù)的規(guī)模和其他細節(jié)。微軟(311.74, 2.28, 0.74%)支持的OpenAI也對其最新的GPT-4大語言模型的細節(jié)信息保密。

這些公司表示，之所以不披露這些信息，是出于商業(yè)競爭考慮。谷歌和OpenAI都在努力吸引想要用聊天機器人代替?zhèn)鹘y(tǒng)搜索引擎，從而直接獲取答案的用戶。

但隨著人工智能軍備競賽日趨白熱化，相關(guān)研究人員也呼吁企業(yè)加大透明度。

自從發(fā)布PaLM2之后，谷歌一直表示新的模型比之前的大語言模型更小，這就意味著該公司的技術(shù)效率得以提升，但卻可以完成更加復(fù)雜的任務(wù)。內(nèi)部文件顯示，PaLM2基于3400億個參數(shù)訓(xùn)練——這項指標可以說明該模型的復(fù)雜程度。最初的PaLM則基于5400億個參數(shù)訓(xùn)練。

目前，谷歌尚未對此置評。

谷歌在一篇關(guān)于PaLM2的博文中表示，該模型使用了一種名為“計算機優(yōu)化擴張”的新技術(shù)。這就讓大語言“更高效、整體性能更好，包括加快推理速度、減少參數(shù)調(diào)用和降低服務(wù)成本�！�

在宣布PaLM2時，谷歌證實了此前的媒體報道，計該模型針對100種語言進行訓(xùn)練，可以執(zhí)行更廣泛的任務(wù)。它已經(jīng)被用于25項功能和產(chǎn)品，包括該公司的實驗性聊天機器人Bard。按照從小到大的規(guī)模劃分，該模型共有4種，分別是壁虎（Gecko）、水獺（Otter）、野牛（Bison）和獨角獸（Unicorn）。

根據(jù)公開披露的信息，PaLM2比現(xiàn)有的任何模型都更加強大。Facebook在2月份宣布的的LLaMA大語言模型采用1.4萬億個令牌。OpenAI上一次披露GPT-3的訓(xùn)練規(guī)模時表示，它當(dāng)時基于3000億個令牌。OpenAI今年3月發(fā)布GPT-4時表示，它在許多專業(yè)測試中展示出“與人類媲美的表現(xiàn)”。

LaMDA是谷歌兩年前推出的一個對話型大語言模型，在今年2月還與Bard一同對外宣傳。該模型基于1.5萬億個令牌訓(xùn)練。

隨著新的人工智能應(yīng)用快速進入主流，圍繞底層技術(shù)的爭議也越來越激烈。

谷歌高級研究科學(xué)家艾爾·邁赫迪·艾爾·麥哈麥迪（El Mahdi El Mhamdi）于今年2月辭職，主要原因就是人工智能技術(shù)缺乏透明度。本周二，OpenAI CEO山姆·阿爾特曼（Sam Altman）出席美國國會針對隱私和技術(shù)舉行的聽證會，他也認為需要設(shè)立一套新的制度來應(yīng)對人工智能的潛在問題。

“對于一種全新的技術(shù)，我們需要一套全新的框架�！卑柼芈f，“當(dāng)然，像我們這樣的公司應(yīng)當(dāng)為我們推出的工具承擔(dān)許多責(zé)任�！�

人工智能軍備競賽白熱化：谷歌最新AI大語言模型數(shù)據(jù)量擴充5倍