OpenAI“12天發(fā)布活動”在第三個工作日終于迎來期待已久的Sora!,令人感到驚喜的是,OpenAI不僅正式發(fā)布了Sora,還推出了Sora的升級版——Sora Turbo,并作為獨立產(chǎn)品提供給 ChatGPT Plus 和 Pro 用戶。
在今天的直播中,OpenAI展示了Sora視頻生成模型的新功能,用戶現(xiàn)在能夠創(chuàng)建最高1080p分辨率、長達(dá)20秒的視頻,并且可以選擇寬屏、豎屏或方形的畫面比例。Sora不僅支持視頻內(nèi)容的擴展、混編(remix)和融合,還允許用戶基于文本提示生成全新的視頻內(nèi)容。此外,全新的故事編輯工具還可以幫助用戶能夠精確控制每一幀的詳細(xì)輸入,大幅提升了視頻創(chuàng)作的精細(xì)度和靈活性。
自今年2月OpenAI放出Sora視頻生成片段后,公眾對Sora的期待值早已拉滿,一場文生視頻技術(shù)的競速賽在全球范圍展開。 國內(nèi)在文生視頻算法領(lǐng)域也取得了顯著進展,根據(jù)國家網(wǎng)信辦公開信息顯示,今年以來國內(nèi)共有2277個深度合成服務(wù)算法通過備案,其中主要用途描述中帶有可實現(xiàn)文生視頻能力的算法34個,備案名稱中明確界定為“文生視頻算法”的僅有6個。
文生視頻算法通過分析和吸收海量數(shù)據(jù),學(xué)會了依據(jù)文本描述來創(chuàng)造相應(yīng)的視頻內(nèi)容,結(jié)合自然語言處理(NLP)和計算機視覺(CV)的最新進展,提取文本特征并轉(zhuǎn)換為數(shù)值特征,然后利用擴散模型,逐步從隨機噪聲中去噪,最終生成與文本描述相匹配的視頻內(nèi)容。這一過程涉及到復(fù)雜的編碼和解碼機制,包括文本到視頻的映射、視頻生成等關(guān)鍵技術(shù)。
2024年通過文生視頻算法備案的34家公司中,大部分是人工智能技術(shù)、應(yīng)用相關(guān)領(lǐng)域的中小創(chuàng)新企業(yè)。如在自然語言處理、對話式 AI 等方面有深入研究和應(yīng)用的北京紅棉小冰科技有限公司等。
此外,其中也不乏上市公司或在行業(yè)內(nèi)有較高的知名度和影響力的科技創(chuàng)企。比如專注于大語言模型等相關(guān)技術(shù)的研發(fā)與應(yīng)用的北京智譜領(lǐng)航科技有限公司,就是開發(fā)了生成式AI助手智譜清言的智譜華章旗下全資子公司。其智譜多模態(tài)視頻生成算法,主要應(yīng)用于智譜清言—清影AI網(wǎng)站,根據(jù)用戶輸入的文本、圖片等信息,即可生成符合用戶需求的視頻。
商湯科技是國內(nèi)計算機視覺領(lǐng)域的頭部企業(yè),公開信息顯示,其通過備案的商湯V-ME視頻合成算法支持已有人物視頻、動畫、聲音、文字等多種元素進行驅(qū)動,用戶可根據(jù)自身需求靈活選擇適合的素材驅(qū)動視頻生成,主要面向 C 端用戶,滿足廣大用戶的娛樂創(chuàng)作需求。
“智境云創(chuàng)文本生成視頻算法”的備案主體同樣有上市公司背景,北京智境云創(chuàng)科技有限公司是深交所上市公司天娛數(shù)科(股票代碼:002354)的子公司。據(jù)公開信息顯示,智境云創(chuàng)在今年6月一次性通過了“智境云創(chuàng)人臉融合算法”、“智境云創(chuàng)文本生成視頻算法”、“智者千問大語言模型算法”三項算法備案。其中,“智境云創(chuàng)文本生成視頻算法”核心技術(shù)涵蓋視頻生成模型、圖像合成、深度學(xué)習(xí)、自然語言處理等多個領(lǐng)域,能夠?qū)σ曈X和聽覺元素進行深度學(xué)習(xí)與分析,實現(xiàn)多模態(tài)融合,從而更精準(zhǔn)地理解和生成符合用戶需求的視頻內(nèi)容,適用于多種應(yīng)用場景的需求,如廣告創(chuàng)意、教育培訓(xùn)、娛樂產(chǎn)業(yè)和新聞傳媒等。
文生視頻技術(shù)的進步,為內(nèi)容創(chuàng)作、產(chǎn)業(yè)升級和市場發(fā)展帶來了積極影響,預(yù)示著一個全新的內(nèi)容創(chuàng)作和產(chǎn)業(yè)應(yīng)用時代的到來。同時也為市場發(fā)展提供了巨大的空間,隨著技術(shù)的進一步成熟,文生視頻有望在影視、游戲等細(xì)分領(lǐng)域內(nèi)容創(chuàng)作過程中極大提升效率,加速優(yōu)質(zhì)供給產(chǎn)出,為各細(xì)分行業(yè)帶來新的商業(yè)化機會。