7月18日,OpenAI正式推出新一代入門級(jí)別人工智能模型“GPT-4o mini”,稱這款新模型是“功能最強(qiáng)、性價(jià)比最高的小參數(shù)模型”。
從OpenAI官網(wǎng)的介紹來看,GPT-4o mini在文本智能和多模態(tài)推理方面的基準(zhǔn)性能超越了GPT-3.5 Turbo,在LMSYS(指聊天機(jī)器人(9.770, 0.07, 0.72%)對(duì)戰(zhàn))排行榜上還超過GPT-4。而價(jià)格層面,GPT-4o mini相比GPT-3.5 Turbo便宜了超過60%。
在“大力出奇跡”的Scaling Law(尺度定律)之外,如何做好小模型正在成為大模型廠家的新考題。
OpenAI入局小模型賽場(chǎng)
OpenAI表示,預(yù)計(jì)GPT-4o mini將通過大幅降低智能的成本,顯著擴(kuò)展AI應(yīng)用的范圍。據(jù)官網(wǎng)介紹,GPT-4o mini的優(yōu)勢(shì)在于低成本和低延遲,支持廣泛的任務(wù),例如串聯(lián)或并行多個(gè)模型調(diào)用的應(yīng)用程序(例如調(diào)用多個(gè)API);向模型傳遞大量上下文(例如完整代碼庫或?qū)υ挌v史);或通過快速、實(shí)時(shí)的文本響應(yīng)與客戶互動(dòng)(例如聊天機(jī)器人)。
目前,GPT-4o mini在API中支持文本和視覺功能,未來將支持文本、圖像、視頻和音頻的輸入和輸出。該模型具有128K Token的上下文窗口,數(shù)據(jù)更新至2023年10月。
性能方面,OpenAI稱,GPT-4o mini在涉及文本和視覺的推理任務(wù)中優(yōu)于其他小模型,在MMLU(文本智能和推理基準(zhǔn)測(cè)試)中得分為82.0%,相比之下,Gemini Flash為77.9%,Claude Haiku為73.8%。
在數(shù)學(xué)推理和編碼任務(wù)方面,GPT-4o mini超過了市場(chǎng)大部分小模型。在MGSM(數(shù)學(xué)推理評(píng)估)中,GPT-4o mini得分為87.0%,而谷歌發(fā)布的Gemini Flash為75.5%;在HumanEval(編碼性能評(píng)估)中,GPT-4o mini得分為87.2%,而Gemini Flash為71.5%。
價(jià)格方面,GPT-4o mini每百萬個(gè)輸入Token為15美分(約合人民幣1.09元),每百萬個(gè)輸出Token為60美分(約合人民幣4.36元)。OpenAI表示,這一價(jià)格相較GPT-3.5 Turbo便宜超60%。
OpenAI表示,在過去幾年中,人們見證了AI的顯著進(jìn)步和成本的大幅降低。例如,自2022年推出文本模型Text-Davinci-003以來,GPT-4o mini的每個(gè)Token成本已經(jīng)下降了99%。
按照設(shè)想,OpenAI希望未來能夠?qū)⒁粋(gè)模型無縫集成到每個(gè)應(yīng)用程序和每個(gè)網(wǎng)站中,而GPT-4o mini正在為開發(fā)者更高效和更經(jīng)濟(jì)地構(gòu)建和擴(kuò)展強(qiáng)大的AI應(yīng)用程序鋪平道路。
不過,在小模型賽場(chǎng)中,OpenAI的各家競(jìng)爭(zhēng)對(duì)手已經(jīng)早早就位。例如谷歌推出的Gemini Flash,Anthropic旗下的Claude Haike等。近日,Mitral AI與英偉達(dá)推出的小模型Mistral Nemo上線,聲稱性能趕超Meta推出的Llama-3 8B。
大模型越卷越“小”
這一年來,“降本增效”已經(jīng)成為大部分大模型公司的共識(shí)。
平安證券研報(bào)認(rèn)為,OpenAI新模型GPT-4o mini兼具性能與性價(jià)比,有望加速大模型應(yīng)用落地。當(dāng)前全球范圍內(nèi)的大模型逐漸呈現(xiàn)由單方面的性能角逐,轉(zhuǎn)向性能與實(shí)用性并重的發(fā)展趨勢(shì)。大模型能力達(dá)到一定水平時(shí)必然會(huì)走向應(yīng)用,大模型廠商通過提升其產(chǎn)品性價(jià)比,助推下游應(yīng)用端的推廣部署,有望加速大模型產(chǎn)業(yè)鏈商業(yè)閉環(huán)的形成。
一方面,上半年開打的大模型價(jià)格戰(zhàn)不斷蔓延,從兩家海外AI巨頭OpenAI和谷歌開始,到國(guó)內(nèi)字節(jié)跳動(dòng)、阿里、百度、智譜AI、科大訊飛(39.640, 0.34, 0.87%)等企業(yè),入局者不斷增加。從OpenAI此舉來看,這場(chǎng)價(jià)格戰(zhàn)還將持續(xù)。
IDC中國(guó)研究經(jīng)理程蔭此前在接受《每日經(jīng)濟(jì)新聞》記者采訪時(shí)就談到,從短期的發(fā)展來看,大模型能力更新迭代后將會(huì)走向趨同,無論是國(guó)內(nèi)還是國(guó)外的技術(shù)供應(yīng)商都不能建立起長(zhǎng)久的護(hù)城河。一些技術(shù)供應(yīng)商選擇直接砍掉大模型成本上的門檻,除了出于促進(jìn)大模型落地應(yīng)用,也有增加曝光度,爭(zhēng)搶用戶、防止用戶流失的動(dòng)因。
另一方面,通過“小模型”,以更低的成本,垂直覆蓋更多的應(yīng)用場(chǎng)景,以推動(dòng)端側(cè)應(yīng)用的落地同樣成為行業(yè)趨勢(shì)。同時(shí),隨著以蘋果為代表的各大手機(jī)廠商加速發(fā)力AI手機(jī),端側(cè)大模型正在成為新的競(jìng)爭(zhēng)焦點(diǎn)。
專注端側(cè)模型的面壁智能CEO李大海此前在接受包括《每日經(jīng)濟(jì)新聞》在內(nèi)的記者采訪時(shí)就談到,相同智能水平的模型,每8個(gè)月其參數(shù)規(guī)模將減少一半,這與摩爾定律具有一定的相似性。在同等性能下,參數(shù)規(guī)模減小,說明大模型的知識(shí)密度在不斷提高。李大海表示,隨著大模型知識(shí)密度的提升和端側(cè)算力的增強(qiáng),兩個(gè)因素疊加,有信心在2026年年底前研發(fā)出達(dá)到GPT-4水平的端側(cè)模型,當(dāng)端側(cè)模型能夠?qū)崿F(xiàn)GPT-4水平時(shí),很多端側(cè)的產(chǎn)品會(huì)更快落地。
李大海認(rèn)為,當(dāng)端側(cè)模型可以應(yīng)用,其成本會(huì)更低,且可靠性更高,不需要依賴網(wǎng)絡(luò)。例如,在用戶需求交流時(shí),基于端側(cè)模型的陪伴機(jī)器人能夠迅速作出反應(yīng)。這種比較優(yōu)勢(shì)使得在適用端側(cè)模型的場(chǎng)景中,大家會(huì)更傾向于選擇端側(cè)解決方案。
今年3月,百度也發(fā)布ERNIESpeed、ERNIE Lite、ERNIE Tiny三個(gè)輕量模型。百度集團(tuán)董事長(zhǎng)李彥宏在今年4月的一場(chǎng)公開演講中也談到,MoE、小模型和智能體是值得關(guān)注的三個(gè)方向!巴ㄟ^大模型,壓縮蒸餾出來一個(gè)基礎(chǔ)模型,然后再用數(shù)據(jù)去訓(xùn)練,這比從頭開始訓(xùn)小模型效果要好很多,比基于開源模型訓(xùn)出來的模型效果更好、速度更快、成本更低!崩顝┖瓯硎。