123,123

“真正的變革是，什么時(shí)間點(diǎn)有一個(gè)模型可以把錯(cuò)誤率降低到個(gè)位數(shù)�！�

在經(jīng)歷了上半年密集的技術(shù)和產(chǎn)品發(fā)布后，下半年的AI圈顯得有些平靜，不再有如Sora這樣引發(fā)轟動(dòng)的產(chǎn)品，在GPT-4o之后，行業(yè)引領(lǐng)者OpenAI也遲遲沒(méi)有大動(dòng)作。不少行業(yè)人士認(rèn)為，技術(shù)的迭代放緩了。

在亞布力企業(yè)家夏季年會(huì)上，獵豹移動(dòng)董事長(zhǎng)傅盛提出一個(gè)觀點(diǎn)，AI浪潮已出現(xiàn)泡沫跡象，從大模型出現(xiàn)在大眾視野以來(lái)，已過(guò)去近一年的時(shí)間，但最頂級(jí)大模型的模型沒(méi)有明顯提升�！翱陀^來(lái)說(shuō)，誰(shuí)家大模型有什么優(yōu)勢(shì)，基本尚屬‘一家之言’，用戶用起來(lái)沒(méi)有感覺到太大差別。”他認(rèn)為，當(dāng)前大模型同質(zhì)化嚴(yán)重。

在與MiniMax創(chuàng)始人閆俊杰的交流中，關(guān)于瓶頸與轉(zhuǎn)折點(diǎn)他提到，現(xiàn)在所有模型錯(cuò)誤率都是20%的量級(jí)，“真正的變革是，什么時(shí)間點(diǎn)有一個(gè)模型可以把錯(cuò)誤率降低到個(gè)位數(shù)，這會(huì)是一個(gè)非常本質(zhì)的變化。”未來(lái)大模型能否成功，傅盛也認(rèn)為，大模型的天花板能否再上一個(gè)臺(tái)階很重要。

“至暗時(shí)刻覺得技術(shù)很重要”

這一輪的生成式AI是一場(chǎng)掀起巨大浪潮的社會(huì)生產(chǎn)力革命，傅盛認(rèn)為，這波浪潮今天已經(jīng)呈現(xiàn)出明顯的泡沫跡象。

何為“泡沫”，傅盛認(rèn)為，一方面是模型能力沒(méi)有明顯提升�！霸谝粋€(gè)以科技為核心的技術(shù)浪潮中，這是不太正常的�！泵看螌懖煌臇|西，傅盛都會(huì)用好幾個(gè)大模型互相比較，“有時(shí)候這個(gè)大模型更好用，有時(shí)那個(gè)更好用，當(dāng)前大模型的同質(zhì)化很嚴(yán)重�！�

其次，說(shuō)了這么久人工智能，“但真正的Killer APP（殺手級(jí)應(yīng)用）并沒(méi)有出現(xiàn)，不僅在C端沒(méi)有出現(xiàn)，B端也未能出現(xiàn)。很多行業(yè)大模型都說(shuō)自己有不少應(yīng)用，但真正提效的并不多�！备凳⒄f(shuō)，想要將大模型真正變成一個(gè)明顯能提效的應(yīng)用，還很有難度。

潑了盆冷水的同時(shí)，傅盛補(bǔ)充表示，泡沫不見得會(huì)使大模型發(fā)展崩塌，因?yàn)橛悬c(diǎn)泡沫很正常，互聯(lián)網(wǎng)早期也曾出現(xiàn)泡沫。

在今年6月演講時(shí)，金沙江創(chuàng)投主管合伙人朱嘯虎曾談及GPT-5一直“跳票”時(shí)表示，“硅谷也高度懷疑GPT-5還有沒(méi)有，即使出來(lái)在核心推理能力上還有沒(méi)有顯著的提高，這是很不確定的東西，今年年底是一個(gè)驗(yàn)金石�！彼袛啵竽Ｐ脱莼俣扔蟹啪徻厔�(shì)，而迭代曲線放緩以后，應(yīng)用層的機(jī)會(huì)就會(huì)更多。

不過(guò)，在波形智能創(chuàng)始人姜昱辰看來(lái)，大模型技術(shù)迭代其實(shí)并沒(méi)有放緩，而是保持著2018年以來(lái)的增速，那一年基于Transformer架構(gòu)的大規(guī)模語(yǔ)言模型預(yù)訓(xùn)練開始流行。從博士的自然語(yǔ)言處理研究到大模型創(chuàng)業(yè)，姜昱辰更早開始經(jīng)歷這輪大模型技術(shù)演化的進(jìn)程。

“大家之所以有這樣的感覺（技術(shù)迭代放緩）是因?yàn)榇蟊娛窃?022年底、2023年初第一次看到這個(gè)技術(shù)，做了很多短時(shí)間的learning和追趕，追趕當(dāng)然比較快。”姜昱辰對(duì)第一財(cái)經(jīng)表示，把OpenAI做出來(lái)的技術(shù)學(xué)一遍，不叫“技術(shù)迭代”。

雖然行業(yè)此前有一句“沒(méi)有應(yīng)用的大模型一文不值”廣為傳播，但在很多從業(yè)者看來(lái)，大模型的技術(shù)同樣重要，因?yàn)楦玫膽?yīng)用一定建立在更好的技術(shù)之上，技術(shù)和應(yīng)用是一個(gè)相互轉(zhuǎn)化的串聯(lián)關(guān)系。

在MiniMax剛剛過(guò)去的伙伴日活動(dòng)上，閆俊杰在討論中提到，“至暗時(shí)刻會(huì)覺得技術(shù)很重要�！�

很多時(shí)候做技術(shù)時(shí)，并沒(méi)有真正意識(shí)到技術(shù)為什么重要。閆俊杰舉例表示，用戶感受到的東西可能來(lái)自于一些產(chǎn)品細(xì)節(jié)，或者一些品牌，技術(shù)本身是好多個(gè)環(huán)節(jié)在一起，尤其在繁榮時(shí)期，可能分不清什么是主，什么是次，“當(dāng)在某些時(shí)間點(diǎn)遇到瓶頸的時(shí)候，拋開所有的表象東西，會(huì)意識(shí)到技術(shù)才是最終提升的來(lái)源�！�

“技術(shù)做不好的時(shí)候，發(fā)現(xiàn)所有東西都是問(wèn)題，當(dāng)技術(shù)做好了，似乎所有問(wèn)題都被掩蓋了，”閆俊杰表示，技術(shù)是一家科技公司最核心的要素這件事，盡管已深刻意識(shí)到，偶爾還是在繼續(xù)犯錯(cuò)誤，“這個(gè)是我在多次至暗時(shí)刻里最有共性的一件事。”

做技術(shù)也是一件非常奢侈的事，“如果看一眼我們每個(gè)月的賬單還是會(huì)非常心疼的。”在采訪中，說(shuō)到這話時(shí)，閆俊杰幾次看向了MiniMax技術(shù)總監(jiān)韓景濤，也就是“賬單的制造者”。

因?yàn)樽黾夹g(shù)可能會(huì)失敗，研發(fā)投入很大，閆俊杰此前很多時(shí)候會(huì)想要不要走點(diǎn)捷徑，但實(shí)踐經(jīng)驗(yàn)會(huì)證明，走捷徑就會(huì)被“打臉”，“這個(gè)事在我這發(fā)生可能超過(guò)十次了。”

“一個(gè)東西要實(shí)驗(yàn)三次才能成功，第三次實(shí)驗(yàn)成功的時(shí)候，會(huì)想前面兩次是不是可以不用做，就像吃包子吃三個(gè)會(huì)吃飽，就會(huì)想是不是前兩個(gè)不用吃是一樣的�！遍Z俊杰表示，這是做技術(shù)時(shí)一個(gè)比較容易犯的錯(cuò)誤。

在各種關(guān)于模型技術(shù)細(xì)節(jié)的排行榜上，或許GPT-4o的跑分不常出現(xiàn)在第一，甚至?xí)谥虚g，但在MiniMax基于真實(shí)客戶的測(cè)試集中，OpenAI的GPT-4o是遙遙領(lǐng)先的。

在大模型時(shí)代，如何判斷技術(shù)的好壞，大眾很迷惑，企業(yè)同樣覺得很難，但這個(gè)點(diǎn)很重要，因?yàn)榧夹g(shù)的評(píng)價(jià)標(biāo)準(zhǔn)會(huì)決定模型的迭代方向，如果指標(biāo)本身不對(duì)迭代方向可能就錯(cuò)了。

閆俊杰提到，MiniMax目前的一個(gè)辦法是，基于MiniMax開發(fā)平臺(tái)的3萬(wàn)多個(gè)開發(fā)者和付費(fèi)客戶，在他們的場(chǎng)景上構(gòu)建一個(gè)真實(shí)使用的測(cè)試集，有些客戶對(duì)他們的場(chǎng)景非常看重，要求保證產(chǎn)品的效果，基于這些客戶真實(shí)使用的評(píng)測(cè)是較為客觀的。

“這個(gè)測(cè)試集上所有國(guó)產(chǎn)化模型相比GPT-4o都相差較多，其他排行榜基本上GPT-4o都要排到中間去了，但是在我們的排行榜上確實(shí)GPT-4o排在最靠前�！遍Z俊杰提到，國(guó)內(nèi)所有模型都與GPT-4o有本質(zhì)的差距，且越難的問(wèn)題差距越大。按照這個(gè)評(píng)估方式，國(guó)產(chǎn)模型的提升空間還很大。

靜待下一轉(zhuǎn)折點(diǎn)

大模型的下一個(gè)轉(zhuǎn)折點(diǎn)在哪里？眾多創(chuàng)業(yè)者有不同的答案，有人認(rèn)為是錯(cuò)誤率的降低，有人覺得是個(gè)性化的模型，有人認(rèn)為關(guān)鍵在于小算力訓(xùn)練出大模型，背后或許意味著架構(gòu)的改進(jìn)。

朱嘯虎曾提到，今年的大模型本身還是有很多錯(cuò)誤，且出來(lái)的結(jié)果不可控，今天落地最困難的是，場(chǎng)景下怎么解決錯(cuò)誤問(wèn)題、可控問(wèn)題。

現(xiàn)在所有的模型錯(cuò)誤率都在20%左右，即兩位數(shù)的錯(cuò)誤率，有時(shí)驚艷，有時(shí)不靠譜，閆俊杰認(rèn)為，這也是制約模型處理復(fù)雜任務(wù)的原因，“真正的變革是，什么時(shí)間點(diǎn)有一個(gè)模型可以將錯(cuò)誤率降低到個(gè)位數(shù)�！边@是能增加用戶使用深度的核心手段。

復(fù)雜任務(wù)往往需要多個(gè)步驟“相乘”，較高的錯(cuò)誤率導(dǎo)致失敗率的指數(shù)增加。閆俊杰表示，即便是GPT-4這樣的模型也無(wú)法支持非常靈活的Agent（智能體），這并不是因?yàn)锳gent框架寫得不夠好，產(chǎn)品做得不好，最根本的原因是模型本身不夠好。

但現(xiàn)在可以看到的是，每家公司有了算力，無(wú)論是OpenAI、谷歌還是Meta，都在加碼算力。Meta CEO扎克伯格曾在社交媒體上表示，要建立一個(gè)大規(guī)模的計(jì)算基礎(chǔ)設(shè)施，到2024年底，這一設(shè)施將包括35萬(wàn)張英偉達(dá)H100顯卡，業(yè)界預(yù)估這或許將耗費(fèi)近百億美元。

算法也在進(jìn)步，OpenAI在2023年只能做出來(lái)GPT-4，但2024年能做GPT-4o，雖然性能差不多，速度快了近10倍。

“計(jì)算量多了不止10倍，算法也快了10倍時(shí)，沒(méi)有道理說(shuō)訓(xùn)練不出來(lái)一個(gè)更好的模型。”閆俊杰提到，“如果Scaling law（尺度定律）是對(duì)的，未來(lái)這個(gè)模型一定會(huì)出現(xiàn)，標(biāo)志就是個(gè)位數(shù)的錯(cuò)誤率�！�

在傅盛看來(lái)，降低錯(cuò)誤率同樣重要。“今天的大模型有20%-30%的知識(shí)幻覺，而且‘它不知道自己不知道’，這是在企業(yè)應(yīng)用上非常重要的一大卡點(diǎn)。”想要真正落地一個(gè)應(yīng)用，得用大量工程化的手段去解決以前通用人工智能認(rèn)為它能干的活，這中間是有差距的。

問(wèn)及大模型技術(shù)的下一個(gè)轉(zhuǎn)折點(diǎn)，姜昱辰給了一個(gè)不一樣的答案，她認(rèn)為是“個(gè)性化”的技術(shù)。

“ToB的創(chuàng)業(yè)者會(huì)覺得錯(cuò)誤率降低很重要，因?yàn)槠髽I(yè)級(jí)、工業(yè)級(jí)場(chǎng)景中要的是極高準(zhǔn)確率，而在消費(fèi)場(chǎng)景中，要的是‘懂你’的個(gè)人助手。因此，對(duì)ToC創(chuàng)業(yè)者來(lái)說(shuō)，個(gè)性化技術(shù)更重要�！睂�(duì)于不同的答案，姜昱辰解釋，ToB和ToC不同的場(chǎng)景下會(huì)有不同的感知。

從難度上來(lái)說(shuō)，大模型幻覺是概率模型固有的，不容易解決，但個(gè)性化大模型確實(shí)是技術(shù)層面可行的。姜昱辰提到，波形智能目前在做的是這個(gè)方向，主要的難點(diǎn)是算法，中間需要知道的是，這樣的個(gè)性化生成式模型需要什么用戶信息，如何用于模型自進(jìn)化。

深思考創(chuàng)始人楊志明則認(rèn)為，下一個(gè)轉(zhuǎn)折點(diǎn)是，如何利用小算力訓(xùn)練出大模型、做好大模型的推理，在這背后，當(dāng)下主流的Transformer架構(gòu)需要堆積算力，“性價(jià)比太低”。架構(gòu)的改進(jìn)或許是重要的方向。

值得期待的是，近日有消息稱，OpenAI將在今年秋天推出代號(hào)為“草莓”（Strawberry）的新模型。作為核心技術(shù)突破，草莓可能集成在ChatGPT內(nèi)，幫助解決當(dāng)前AI聊天機(jī)器人(9.250,-0.01,-0.11%)難以完成的復(fù)雜任務(wù)，如數(shù)學(xué)和編程問(wèn)題。此外，草莓更會(huì)“思考”，在解決強(qiáng)主觀性問(wèn)題上更擅長(zhǎng)。

“草莓”是前菜，消息人士透露，OpenAI正在開發(fā)下一代大型語(yǔ)言模型Orion（獵戶座），草莓將為其生成高質(zhì)量訓(xùn)練數(shù)據(jù)，以幫助減少大模型幻覺問(wèn)題。能否突破瓶頸，帶領(lǐng)行業(yè)進(jìn)入下一轉(zhuǎn)折點(diǎn)，最大的可能性還在OpenAI。

大模型，何時(shí)迎來(lái)大轉(zhuǎn)折？