有圖像視頻業(yè)務傍身的互聯(lián)網(wǎng)企業(yè),加速奔向大模型。近日,快手正式上線視頻大模型“可靈”并開始邀測,用戶輸入一段文字即可生成視頻。美圖宣布將在7月底上線新品MOKI,該產(chǎn)品基于美圖奇想大模型的視頻生成能力,可幫助用戶生成AI短片。不論是做視頻還是做短片,都是通過大模型輔助用戶創(chuàng)作,契合自己的主營業(yè)務。目前,獲得內(nèi)測資格的用戶可以免費使用可靈,其他AI功能以限時免費、限次免費等方式向用戶開放。美圖相關(guān)人士并未透露KOMI的變現(xiàn)計劃,但付費會員、單次付費等變現(xiàn)模式已是美圖成熟的商業(yè)模式。
不約而同
“今天你‘可靈’了嗎?”6月12日晚間,快手通過官方公眾號向用戶“安利”自家的視頻生成大模型“可靈”。為了證明實力,快手不光拿出一條由快手可靈生成的一分鐘預告片,還放出一系列首批獲得測試資格的創(chuàng)作者生成的視頻,如一朵花綻放的過程、復活成語故事《對牛彈琴》等。
打開快手的視頻剪輯App快影,進入主頁的“AI玩法”,再點擊“AI生成視頻”模塊填寫問卷,即可以申請免費的內(nèi)測資格。根據(jù)內(nèi)測網(wǎng)友提供的信息,用戶可以輸入一段200字以內(nèi)的文字描述,自行選擇超現(xiàn)實主義、極簡等風格,再等待約3分鐘,就能看到由可靈生成的一段5秒視頻。
來自快手的最新數(shù)據(jù)顯示,截至目前,在快影App上申請文生視頻內(nèi)測資格的人數(shù)已超6萬,圖生視頻功能將于近期上線。
同樣瞄準視頻大模型出手的還有美圖。“目前市場上的AI視頻產(chǎn)品傾向于提供文生視頻等能力,我們認為只有深度理解創(chuàng)作者的需求,提煉有共性的視頻場景,才能打造輔助內(nèi)容創(chuàng)作的工具!泵缊D創(chuàng)始人吳欣鴻談到MOKI時說,“MOKI聚焦于AI短片創(chuàng)作,專注于動畫短片、網(wǎng)文短劇、故事繪本和MV等視頻場景!
具體的工作流程是:在腳本、視覺風格、角色等前期設定完成后,AI自動生成分鏡圖并轉(zhuǎn)為視頻素材,通過智能剪輯、AI配樂、AI音效、自動字幕等功能串聯(lián)素材并實現(xiàn)成片。MOKI的上述能力即基于美圖奇想大模型。
熱度升溫
除了快手、美圖,近日視頻生成的網(wǎng)紅應用Pika、聯(lián)合清華大學發(fā)布視頻大模型Vidu的生數(shù)科技,也為視頻大模型賽道添了一把柴。
Pika不久前通過官網(wǎng)宣布,Pika已完成總額8000萬美元的B輪融資,由Spark Capital領投,Greycroft、Lightspeed Venture Partners以及Jared Leto參投。Pika團隊表示,這一輪融資將加快公司構(gòu)建最佳視頻模型的進程,同時幫助公司聘用優(yōu)秀的人才。
成立于2023年4月,爆火于2023年11月,早在Sora出世前,Pika就依靠AI生成和編輯3D動畫、動漫等多種風格的視頻,成為網(wǎng)紅應用。
生數(shù)科技僅比Pika早成立一個月,主要業(yè)務集中在圖像、3D、視頻等原生多模態(tài)大模型的研發(fā)。2024年4月,生數(shù)科技聯(lián)合清華大學發(fā)布的視頻大模型Vidu,支持一鍵生成16秒、分辨率1080P的高清視頻內(nèi)容。
6月初,生數(shù)科技宣布,已完成數(shù)億元Pre-A輪融資,由百度、北京市人工智能產(chǎn)業(yè)投資基金領投,此前這家創(chuàng)業(yè)公司還獲得了來自螞蟻集團、智譜AI等的投資。生數(shù)科技稱,將在本輪融資完成后堅持其原生通用多模態(tài)技術(shù)路線,持續(xù)迭代優(yōu)化自研大模型,并加速產(chǎn)品開發(fā)與市場拓展。
“近期視頻大模型活躍,說明大模型最早形成的一些技術(shù)壁壘在被打破。”文淵智庫創(chuàng)始人王超告訴北京商報記者,“我認為能超過GPT-4的中國大模型可能在年中就會出現(xiàn)。中國的算力、能源和人才,支持著中國大模型持續(xù)追趕!
談及視頻大模型的門檻,中經(jīng)傳媒智庫專家張書樂向北京商報記者表示,“視頻生成不是將一堆AI繪畫連在一起變成動畫片,除了考慮形象一致、符合描述、光影分割、分鏡表現(xiàn)等,還要具有對劇情的理解能力、再創(chuàng)造能力,這些都需要對視頻結(jié)構(gòu)、內(nèi)容解析等多個垂直領域進行深度學習,難度高于聊天、繪畫或棋類等靠主要數(shù)據(jù)堆積和用戶糾錯完成的功能”。
跟著業(yè)務走
2022年底OpenAI的ChatGPT讓國內(nèi)科技巨頭在生成式大模型賽道扎堆,且大多瞄準對話式互動形式,2024年OpenAI又推出文生視頻模型Sora。和一擁而上的大語言模型競爭相比,在視頻大模型領域比拼的主角更多是圖像視頻類互聯(lián)網(wǎng)公司。
站在技術(shù)的角度,王超認為,“這兩種大模型雖然都是AGI(通用人工智能),但技術(shù)路線不同,OpenAI兩個都做,但不是每個企業(yè)都有這樣的能力”。
在視頻大模型賽道,“快手和美圖的最大優(yōu)勢在于用戶積累、算法和數(shù)據(jù)處理等方面的經(jīng)驗”,深度科技研究院院長張孝榮表示。
張書樂的看法是,“快手、美圖擁有可以讓人工智能深度學習的‘學習資料’,且可以規(guī)避一定的版權(quán)問題。這兩家企業(yè)在視頻領域的內(nèi)容積累、垂直細分的標簽標注,能讓大模型更好地‘檢索’知識”。
不過第三方觀察者也提醒,做視頻大模型的難度比大語言模型更高,前景還不明確,“這是沒多少國內(nèi)大模型創(chuàng)業(yè)公司進入視頻大模型賽道的原因,連巨頭都沒那么積極”,王超說!耙曨l大模型的變現(xiàn)比大語言模型困難。”張孝榮補充。
快手和美圖正通過各種手段吸引更多用戶使用AI,并尋找AI變現(xiàn)的路徑。以快影的AI創(chuàng)作功能為例,快影向用戶提供AI舞王、AI小說轉(zhuǎn)漫畫、AI變裝、AI頭像壁紙等十幾種服務,其中AI舞王提供免費5次的使用機會、AI變裝限時免費、AI小說轉(zhuǎn)漫畫是VIP會員的權(quán)益。
美圖相關(guān)人士并未向北京商報記者透露MOKI可能的變現(xiàn)模式,但吳欣鴻在介紹美圖新品時多次提到產(chǎn)品的商業(yè)化數(shù)據(jù),在他看來,“如果AI幫用戶創(chuàng)收,用戶是很愿意為能創(chuàng)造價值的AI產(chǎn)品付費的”。