在AI的繁榮中,訓練數據已成為最寶貴的資源之一,而能夠以低成本且看似無限地生成這些數據的前景無疑極具吸引力。但是一些人認為,合成數據可能會導致AI模型因低質量信息而“自我中毒”,最終可能導致模型“崩潰”。
AI行業(yè)面臨一個重大問題:用于訓練更智能模型的真實世界數據正在耗盡。研究表明,合成數據可能會通過低質量信息“毒害”人工智能。
人工智能領域正處于其最寶貴資源即將耗盡的邊緣,這促使行業(yè)領袖們展開激烈的辯論,討論一種快速發(fā)展的替代方案:合成數據,或稱“虛假”數據。
多年來,像OpenAI和谷歌(163.95, -1.44, -0.87%)這樣的公司一直從互聯網上抓取數據,用于訓練支撐其AI工具和功能的大型語言模型(LLM)。這些LLM處理了由人類在數個世紀間創(chuàng)作的大量文本、視頻及其他媒體內容無論是研究論文、小說還是YouTube視頻片段。
然而,現在“真實”的人類生成數據正逐漸枯竭。研究公司Epoch AI預測,文本數據可能在2028年之前就會耗盡。同時,那些已經從互聯網的各個角落挖掘出可用訓練數據的公司有時甚至不惜打破政策來獲取數據正面臨著越來越多的限制。
對于一些人來說,這并不一定是個問題。OpenAI的首席執(zhí)行官薩姆·阿爾特曼(Sam Altman)曾表示,AI模型最終應該能夠生成足夠高質量的合成數據,以有效地自我訓練。其吸引力顯而易見:在AI的繁榮中,訓練數據已成為最寶貴的資源之一,而能夠以低成本且看似無限地生成這些數據的前景無疑極具吸引力。
然而,研究人員對合成數據是否真的是靈丹妙藥仍存在爭議。一些人認為,這條道路可能會導致AI模型因低質量信息而“自我中毒”,最終可能導致模型“崩潰”。
牛津大學和劍橋大學的一組研究人員最近發(fā)表的一篇論文指出,將AI生成的數據輸入模型,最終會導致其輸出無意義的內容。作者發(fā)現,AI生成的數據并非完全不可用于訓練,但應與真實世界的數據相平衡使用。
隨著可用的人類生成數據日益枯竭,越來越多的公司開始考慮使用合成數據。2021年,研究公司Gartner預測,到2024年,用于開發(fā)AI的數據中有60%將是合成生成的。
“這是一場危機,”紐約大學心理學和神經科學榮休教授、AI分析師加里·馬庫斯表示!叭藗冊浕孟胫,只要使用越來越多的數據,就能無限提升大型語言模型的性能,但現在他們基本上已經用盡了所有可以使用的數據!
他補充道:“沒錯,合成數據可能會幫助解決一些問題,但更深層次的問題在于,這些系統(tǒng)并不真正進行推理,也不會真正進行規(guī)劃。你能想象的所有合成數據都無法解決這一根本性問題。”
越來越多的公司開始生成合成數據
對“虛假”數據的需求取決于一個關鍵概念:真實世界的數據正迅速耗盡。
這部分原因在于,科技公司一直在盡可能快地利用公開數據來訓練人工智能,以超越競爭對手。另一方面,在線數據的擁有者也越來越警惕公司免費獲取他們的數據。
2020年,OpenAI的研究人員透露,他們利用來自Common Crawl的免費數據來訓練最終為ChatGPT提供支持的AI模型。Common Crawl是一個網絡爬蟲,OpenAI表示其中包含了“近一萬億字”的在線資源。
今年7月,數據來源倡議組織發(fā)布的研究發(fā)現,各大網站正在采取限制措施,阻止AI公司使用不屬于它們的數據。新聞出版物和其他熱門網站也越來越多地禁止AI公司自由地獲取它們的數據。
為了解決這一問題,OpenAI和谷歌等公司紛紛支付數千萬美元,獲取Reddit和新聞媒體的數據訪問權限,這些數據源為訓練模型提供了新鮮的數據。然而,即便如此,這種方法也有其局限性。
“文本網絡中已經沒有大量等待被抓取的區(qū)域了,”艾倫人工智能研究所的研究員內森·蘭伯特在今年5月寫道。
這時,合成數據應運而生。合成數據并非來自真實世界,而是由已經在真實數據上訓練過的AI系統(tǒng)生成的。
例如,今年6月,英偉達發(fā)布了一款AI模型,能夠生成用于訓練和校準的人工數據集。7月,中國科技巨頭騰訊的研究人員推出了一個名為Persona Hub的合成數據生成器,功能類似。
一些初創(chuàng)公司,如Gretel和SynthLabs,甚至專門成立,致力于生成并出售大量特定類型的數據,滿足有此需求的企業(yè)。
合成數據的支持者為其使用提供了合理的理由。與真實世界一樣,人類生成的數據往往是混亂的,研究人員在使用之前必須經過復雜且費力的清理和標注工作。
合成數據可以填補人類數據無法覆蓋的空白。例如,7月下旬,Meta推出了Llama 3.1,這是一系列新的AI模型,能夠生成合成數據,并依賴這些數據進行訓練中的“微調”。特別是在一些特定技能上,如用Python、Java和Rust等語言進行編程,以及解決數學問題,合成數據有助于提升模型的性能。
合成訓練對較小的AI模型可能特別有效。去年,微軟(406.81, 0.79, 0.19%)表示,他們?yōu)镺penAI的模型提供了一份多樣化的詞匯表,這些詞匯是典型的3至4歲兒童會知道的,然后要求模型使用這些詞匯生成短篇故事。生成的數據集被用來創(chuàng)建一組小型但功能強大的語言模型。
此外,合成數據還有助于有效地“反調校”由現實世界數據所產生的偏見。在2021年發(fā)表的論文《論隨機鸚鵡的危險》中,前谷歌研究員蒂姆尼特·蓋布魯、瑪格麗特·米切爾及其他人指出,基于來自互聯網的大型文本數據集訓練的大型語言模型很可能反映出數據中的偏見。
今年4月,谷歌DeepMind的一組研究人員發(fā)表了一篇論文,提倡使用合成數據來解決訓練中的數據稀缺和隱私問題。他們指出,確保這些AI生成數據的準確性和無偏性“仍然是一個關鍵挑戰(zhàn)”。
“哈布斯堡AI”
盡管AI行業(yè)在合成數據中發(fā)現了一些優(yōu)勢,但它也面臨著不可忽視的嚴重問題,例如擔心合成數據可能會破壞AI模型。
在Meta關于Llama 3.1的研究論文中,該公司表示,使用其最新模型的4050億參數版本進行自生成數據的訓練“并沒有幫助”,甚至可能“降低性能”。
上個月發(fā)表在《自然》雜志的一項研究發(fā)現,在模型訓練中“濫用”合成數據可能導致“不可逆的缺陷”。研究人員將這一現象稱為“模型崩潰”,并表示如果我們希望持續(xù)享受從網絡抓取的大規(guī)模數據中訓練所帶來的益處,就必須認真對待這個問題。
蒙納士大學高級研究員賈森·薩多斯基為這個想法創(chuàng)造了一個術語:“哈布斯堡AI”,靈感來源于奧地利哈布斯堡王朝,一些歷史學家認為這個王朝因近親繁殖而自我毀滅。自從提出這一術語以來,薩多斯基告訴《商業(yè)內幕》,隨著越來越多的研究支持他關于模型過度依賴AI生成輸出可能導致變異的觀點,他感到這一想法得到了驗證。
薩多斯基表示:“對于構建AI系統(tǒng)的研究人員和公司來說,尚未解決的問題是:到底有多少合成數據才算過量?” 他還補充說,他們需要找到任何可能的解決方案,以克服AI系統(tǒng)數據稀缺的挑戰(zhàn),但他也指出,其中一些解決方案可能只是短期修復,最終可能弊大于利。
然而,4月份發(fā)表的研究發(fā)現,如果模型在訓練時同時使用“真實”數據和合成數據,它們不一定會“崩潰”。現在,一些公司正在押注“混合數據”的未來,即通過使用部分真實數據生成合成數據,以防止模型偏離軌道。
幫助公司標注和測試數據的Scale AI表示,他們正在探索“混合數據”的方向,結合使用合成和非合成數據。Scale AI的首席執(zhí)行官亞歷山大·王最近表示:“混合數據才是真正的未來!
尋求其他解決方案
AI可能需要采用新的方法,因為僅僅向模型中塞入更多數據的效果可能有限。
今年1月,谷歌DeepMind的一組研究人員或許證明了另一種方法的優(yōu)點。當時,該公司宣布推出AlphaGeometry,這是一種能夠解決奧林匹克水平幾何問題的AI系統(tǒng)。
在一篇補充論文中,研究人員指出,AlphaGeometry采用了一種“神經符號”(neuro-symbolic)方法,這種方法結合了其他AI方法的優(yōu)勢,介于依賴大量數據的深度學習模型與基于規(guī)則的邏輯推理之間。IBM(189.48, -1.97, -1.03%)的研究團隊表示,這可能是一條實現通用人工智能(AGI)的途徑。
更值得注意的是,在AlphaGeometry的案例中,它完全是在合成數據上進行預訓練的。
神經符號AI領域相對較新,它是否能推動AI的發(fā)展仍有待觀察。
鑒于OpenAI、谷歌和微軟等公司在將AI熱潮轉化為利潤方面面臨的壓力,可以預見它們將嘗試一切可能的解決方案來應對數據危機。
“除非我們完全采用新的方法,否則我們基本上仍將陷入困境,”加里·馬庫斯說道。(BI)
本文作者:Chowdhury et al.,來源:AI新智能,原文標題:《人工智能的訓練數據正在枯竭,合成數據引發(fā)巨大爭議》