123,123

9月13日，OpenAI正式發(fā)布一個(gè)名為o1的新模型，這是一系列計(jì)劃中的“推理”模型中的首個(gè)，這些模型經(jīng)過訓(xùn)練，能夠比人類更快地回答更復(fù)雜的問題。同時(shí)發(fā)布的還有 o1-mini，這是一個(gè)更小、更便宜的版本，o1實(shí)際上就是此前傳聞熱議的草莓Strawberry模型。

對(duì)于OpenAI 來說，o1代表了向更廣泛目標(biāo)——類人人工智能邁進(jìn)的一步。更實(shí)際地說，它在編寫代碼和解決多步驟問題方面比之前的模型做得更好。但它也比GPT-4o更昂貴，使用起來更慢。OpenAI將這次o1的發(fā)布稱為“預(yù)覽”，強(qiáng)調(diào)它的初期階段。

ChatGPT Plus和Team用戶從今天開始就可以使用o1-preview和o1-mini，而企業(yè)和教育用戶將在下周初獲得訪問權(quán)限。OpenAI表示，它計(jì)劃將o1-mini的訪問權(quán)限擴(kuò)展到所有免費(fèi)用戶，但尚未設(shè)定發(fā)布日期。

開發(fā)者對(duì)o1的訪問非常昂貴：在API中，o1-preview的價(jià)格是每100萬個(gè)輸入tokens 15美元，每100萬個(gè)輸出tokens 60美元。相比之下，GPT-4o的價(jià)格是每100萬個(gè)輸入tokens 5美元，每100萬個(gè)輸出tokens 15 美元。

OpenAI的研究負(fù)責(zé)人杰里-特沃瑞克（Jerry Tworek）表示，o1背后的訓(xùn)練與前代產(chǎn)品有本質(zhì)區(qū)別，不過公司對(duì)具體細(xì)節(jié)含糊其辭。他只透露，o1 “采用了全新的優(yōu)化算法和專門為其定制的新訓(xùn)練數(shù)據(jù)集”。

由于這種新的訓(xùn)練方法，OpenAI 表示模型應(yīng)該更準(zhǔn)確�！拔覀冏⒁獾竭@個(gè)模型產(chǎn)生的幻覺更少，” Tworek 說。但問題仍然存在�！拔覀儾荒苷f我們已經(jīng)解決了幻覺問題�！�

這個(gè)新模型與GPT-4o的主要區(qū)別在于，它在解決復(fù)雜問題（如編程和數(shù)學(xué)）方面比此前模型做得更好，同時(shí)也解釋了它的推理過程。

OpenAI的首席研究官鮑勃-麥格魯（Bob McGrew）表示，“這個(gè)模型在解決AP數(shù)學(xué)考試方面絕對(duì)比我強(qiáng)，而我在大學(xué)里輔修的是數(shù)學(xué)�！� 他指出，OpenAI 還用國(guó)際數(shù)學(xué)奧林匹克競(jìng)賽的資格考試對(duì) o1 進(jìn)行了測(cè)試，GPT-4o 只正確解決了13%的問題，而o1則達(dá)到了 83%。

在“Codeforces”的在線編程競(jìng)賽中，這種新模型在參賽者中的排名達(dá)到了第89位，OpenAI聲稱，這種模型的下一個(gè)更新版本將在物理、化學(xué)和生物學(xué)領(lǐng)域具有挑戰(zhàn)性的基準(zhǔn)任務(wù)中取得與博士生類似的表現(xiàn)。

但是，o1 在很多領(lǐng)域并不像GPT-4o那樣能干。它在有關(guān)世界的事實(shí)知識(shí)方面做得并不好。它也沒有瀏覽網(wǎng)頁(yè)或處理文件和圖像的能力。盡管如此，該公司認(rèn)為它代表了一種全新的能力。它被命名為o1是為了表示“將計(jì)數(shù)器重置為1”。

“我要坦白說：我認(rèn)為我們傳統(tǒng)上在命名方面很糟糕，” McGrew 說�！八晕蚁Ｍ@是更明智、更清晰地向世界傳達(dá)我們?cè)谧鍪裁吹牡谝徊��！?/P>

目前媒體還未能體驗(yàn)到o1新模型，但OpenAI技術(shù)人員向媒體簡(jiǎn)單介紹了新模型處理能力。他們要求它解決這個(gè)謎題：

“當(dāng)公主的年齡是王子將來年齡的兩倍時(shí)，公主的年齡和王子現(xiàn)在的年齡一樣大，那時(shí)公主的年齡是她現(xiàn)在年齡的一半加上王子現(xiàn)在的年齡。王子和公主的年齡是多少？提供該問題的所有解決方案。”

模型緩沖了30秒鐘，然后給出了正確答案。 OpenAI設(shè)計(jì)的界面可以在模型思考時(shí)顯示推理步驟。讓人印象深刻的并不是它展示了自己的工作，而是o1在“刻意”模仿人類思維。諸如“我很好奇”、“我正在思考”和“好的，讓我看看”這樣的句子營(yíng)造出一種循序漸進(jìn)的思考假象。

但這模型并不是在思考，它當(dāng)然也不是人類。那么，為什么要設(shè)計(jì)它看起來像是在思考呢？

Tworek 認(rèn)為，OpenAI 并不相信人工智能模型的思維等同于人類思維。但他說，該界面旨在展示模型如何花更多時(shí)間處理和深入解決問題。 “在某些方面，它比以前的模型更有人情味”。

“我認(rèn)為你會(huì)看到很多它感覺有點(diǎn)像外星人的方式，但也有它出奇地像人類的方式，” McGrew 說。模型被給予有限的時(shí)間來處理查詢，所以它可能會(huì)說，“哦，我快沒時(shí)間了，讓我快點(diǎn)給出答案�！痹谒乃季S鏈早期，它可能看起來像是在頭腦風(fēng)暴，說，“我可以這樣做或那樣做，我應(yīng)該怎么做？”

隨著 OpenAI 據(jù)報(bào)道尋求以驚人的 1500 億美元估值籌集更多資金，其勢(shì)頭取決于更多的研究突破。該公司正在為 LLM 引入推理能力，因?yàn)樗吹搅艘粋€(gè)未來，擁有能夠代表你做出決策和采取行動(dòng)的自主系統(tǒng)或代理。

對(duì)于 AI 研究人員來說，破解推理是邁向類人智能的重要下一步。如果一個(gè)模型能夠超越模式識(shí)別，它可能會(huì)在醫(yī)學(xué)和工程等領(lǐng)域取得突破。目前，o1 的推理能力相對(duì)較慢，不像智能體，對(duì)開發(fā)者來說使用成本高昂。

“我們一直在花費(fèi)數(shù)月時(shí)間研究推理，因?yàn)槲覀冋J(rèn)為這實(shí)際上是關(guān)鍵突破，” McGrew 說�！皬母旧险f，這是一種新的模型模式，以便能夠解決真正困難的問題，這是朝著類人智能水平邁進(jìn)所必需的�！�

OpenAI首款推理模型o1發(fā)布：比GPT-4o更慢、更貴