“面對(duì)Sora帶來(lái)的挑戰(zhàn),不妨讓子彈再飛一會(huì)兒。”兩個(gè)多月前,OpenAI又一記深水炸彈,以文生視頻大模型Sora引爆全球,當(dāng)時(shí)談及國(guó)內(nèi)外文生視頻大模型的差距,伽利略資本合伙人鄭譞作出了這樣一句評(píng)價(jià)。兩個(gè)多月后,“預(yù)言”應(yīng)驗(yàn)。先是生數(shù)科技聯(lián)合清華大學(xué)發(fā)布了視頻大模型Vidu,一度被外界形容為中國(guó)首個(gè)Sora級(jí)視頻大模型,近日,亦有媒體報(bào)道稱(chēng),智譜AI也正研發(fā)對(duì)標(biāo)Sora的國(guó)產(chǎn)文生視頻模型,最快年內(nèi)發(fā)布。隨著企業(yè)競(jìng)相入局,國(guó)內(nèi)文生視頻大模型明顯進(jìn)入加速階段。但就像鄭譞說(shuō)的,Sora的出現(xiàn)并非技術(shù)上的突破,而在工程方面,國(guó)產(chǎn)大模型的差距其實(shí)并沒(méi)有多遠(yuǎn),“從本質(zhì)上講,場(chǎng)景或許是比工程突破更值得思考的一件事”。
Sora之后
近日,有媒體報(bào)道稱(chēng),智譜AI正在研發(fā)對(duì)標(biāo)Sora的高質(zhì)量文生視頻模型,預(yù)計(jì)最快年內(nèi)發(fā)布。對(duì)此,北京商報(bào)記者聯(lián)系了智譜AI,對(duì)方表示該消息非官方信源消息,沒(méi)有其他信息可以提供。
公開(kāi)資料顯示,智譜AI由清華大學(xué)計(jì)算機(jī)系技術(shù)成果轉(zhuǎn)化而來(lái),也是國(guó)內(nèi)最早研發(fā)大模型的企業(yè)之一。今年1月,智譜AI發(fā)布新一代基座大模型GLM-4,智譜AI CEO張鵬曾介紹稱(chēng),GLM-4的整體性能相比上一代大幅提升,逼近GPT-4。
在此之前,國(guó)產(chǎn)文生視頻大模型已經(jīng)掀起過(guò)一波浪潮。4月27日的2024中關(guān)村(4.440, 0.11, 2.54%)論壇年會(huì)上,清華大學(xué)聯(lián)合生數(shù)科技正式發(fā)布中國(guó)首個(gè)長(zhǎng)時(shí)長(zhǎng)、高一致性、高動(dòng)態(tài)性視頻大模型Vidu,引發(fā)熱議。
據(jù)介紹,Vidu是自Sora發(fā)布之后全球率先取得重大突破的視頻大模型,性能全面對(duì)標(biāo)國(guó)際頂尖水平。
“Vidu是全棧自主創(chuàng)新的最新成果,在多個(gè)維度上實(shí)現(xiàn)了技術(shù)突破,包括可以模擬真實(shí)物理世界、具有想象力、可以理解多鏡頭語(yǔ)言而不再是簡(jiǎn)單的鏡頭推拉、可以一鍵生成長(zhǎng)達(dá)16秒的視頻、人物場(chǎng)景時(shí)間保持高度一致性、可以理解中國(guó)元素!碑(dāng)時(shí),清華大學(xué)教授、生數(shù)科技首席科學(xué)家朱軍介紹稱(chēng)。
對(duì)于外界最關(guān)心的,Vidu和Sora的對(duì)比,朱軍也在現(xiàn)場(chǎng)做了展示,比如Sora在視頻生成過(guò)程中丟掉了“旋轉(zhuǎn)”這一關(guān)鍵詞,但Vidu則能較好地抓住這一內(nèi)容,實(shí)現(xiàn)視頻視角的絲滑“旋轉(zhuǎn)”。
不過(guò)也有分析認(rèn)為,Vidu的16秒與Sora的一分鐘仍存在算力和工程方面的巨大差距,對(duì)此,有業(yè)內(nèi)人士對(duì)北京商報(bào)記者提到,Vidu的架構(gòu)本身足夠支持更長(zhǎng)時(shí)間的視頻生成,生數(shù)科技也介紹稱(chēng),Vidu正在加速迭代提升中。
值得一提的是,智譜AI與生數(shù)科技均出自“清華一脈”。此外光年之外、月之暗面、百川智能、面壁智能等均有清華學(xué)子的影子。有媒體引用業(yè)內(nèi)人士的分析稱(chēng),清華系大模型公司的格局是以智譜AI為中心,布局人工智能上下游。今年3月,生數(shù)科技宣布完成新一輪數(shù)億元融資,智譜AI就是跟投者之一。
產(chǎn)品化才是關(guān)鍵
事實(shí)上,自Sora發(fā)布之后,國(guó)內(nèi)文生視頻領(lǐng)域便已開(kāi)始升溫。例如Sora發(fā)布的2月,清華大學(xué)便公布了一項(xiàng)文生視頻專(zhuān)利。同月,中國(guó)首部文生視頻AI動(dòng)畫(huà)片《千秋詩(shī)頌》播出。而在Vidu發(fā)布的第二天,國(guó)內(nèi)首個(gè)音視頻多媒體大模型萬(wàn)興“天幕”正式公測(cè)。
據(jù)Gartner研究預(yù)測(cè),到2030年,90%的數(shù)字內(nèi)容都將是AI生成。預(yù)計(jì)2032年,全球AIGC市場(chǎng)規(guī)模將由2022年的108億美元增加至1181億美元。
經(jīng)濟(jì)學(xué)家、新金融專(zhuān)家余豐慧對(duì)北京商報(bào)記者分析稱(chēng),文生視頻的成功構(gòu)建意味著AI模型能夠處理更高維度、更復(fù)雜的數(shù)據(jù),并進(jìn)行創(chuàng)造性表達(dá),這表明模型正朝著理解和創(chuàng)造世界的不同層面演進(jìn),這與AGI所追求的認(rèn)知和決策能力更加接近。
“Sora這樣的文生視頻技術(shù)一旦成熟,理論上有可能顛覆傳媒業(yè)、影視制作、游戲開(kāi)發(fā)、虛擬現(xiàn)實(shí)、廣告創(chuàng)意、教育等多個(gè)行業(yè)。它能夠在短時(shí)間內(nèi)根據(jù)用戶(hù)需求自動(dòng)生成高質(zhì)量視頻內(nèi)容,大大降低創(chuàng)作成本,提高生產(chǎn)效率。”余豐慧補(bǔ)充稱(chēng)。
在接受北京商報(bào)記者采訪時(shí),鄭譞提到,文生視頻可以簡(jiǎn)單類(lèi)比成分鏡腳本,利用文本信息生成關(guān)鍵幀,以幀與幀的畫(huà)面聯(lián)合形成連續(xù)視頻。在這個(gè)過(guò)程中,更多屬于工程上的創(chuàng)新,而非技術(shù)層面的顛覆性突破,這也意味著國(guó)內(nèi)外大模型的差距不會(huì)太長(zhǎng),整體時(shí)間差距可以保持在半年之內(nèi)。
也是因此,比起工程上的突破,鄭譞更關(guān)注的其實(shí)是應(yīng)用場(chǎng)景。據(jù)他觀察,AI短片在行業(yè)內(nèi)的“單子”還非常小,更像是實(shí)驗(yàn)性質(zhì)的嘗試,比之成熟的商業(yè)制作“大片”還有很大差距,“基本可以忽略不計(jì)”。
更缺的是推理算力
企業(yè)競(jìng)相入局文生視頻大模型,也引發(fā)出了另一個(gè)關(guān)鍵問(wèn)題——算力。早在Sora發(fā)布后不久,360集團(tuán)創(chuàng)始人周鴻祎就曾公開(kāi)提到,Sora的技術(shù)路線(xiàn)如果被開(kāi)源,國(guó)內(nèi)將能很快趕上,但在追趕Sora時(shí),算力有可能成為門(mén)檻。
中信證券(19.210, 0.20, 1.05%)曾簡(jiǎn)單估算,一個(gè)60幀的視頻(約6—8秒)需要約6萬(wàn)個(gè)Patches,如果去噪步數(shù)是20的話(huà),相當(dāng)于要生成120萬(wàn)個(gè)Tokens。同時(shí)考慮到擴(kuò)散模型在實(shí)際使用時(shí)往往需要多次生成的特點(diǎn),實(shí)際計(jì)算量會(huì)遠(yuǎn)超120萬(wàn)個(gè)Tokens。
天使投資人、資深人工智能專(zhuān)家郭濤對(duì)北京商報(bào)記者分析稱(chēng),大模型的訓(xùn)練需要處理大量的數(shù)據(jù)和復(fù)雜的計(jì)算。如果沒(méi)有足夠的算力,訓(xùn)練這樣的模型將非常困難。其次,目前全球的算力資源是有限的,而且大部分集中在一些大型科技公司手中,這就使得其他公司或者研究機(jī)構(gòu)在獲取足夠的算力資源方面面臨挑戰(zhàn)。
不久前,月之暗面的Kimi智能助手走紅成為“小爆款”,因使用人數(shù)激增,Kimi App和小程序一度出現(xiàn)無(wú)法正常使用的情況。當(dāng)時(shí)中信建投(22.730, 0.40, 1.79%)層發(fā)布研報(bào)稱(chēng),隨著Kimi用戶(hù)數(shù)持續(xù)提升,已經(jīng)出現(xiàn)短暫算力支持不足的情況,考慮后續(xù)模型訓(xùn)練和推理需求,預(yù)期算力需求會(huì)進(jìn)一步提升,帶動(dòng)算力需求落地。
“推理算力很可能會(huì)是創(chuàng)投圈的下一個(gè)機(jī)會(huì)!编嵶X總結(jié)說(shuō)。