必讀視頻專(zhuān)題飛象趣談光通信人工智能低空經(jīng)濟(jì)5G手機(jī)智能汽車(chē)智慧城市會(huì)展特約記者

全球首個(gè)大一統(tǒng)多模態(tài)視頻模型可靈O1發(fā)布 讓P視頻像P圖一樣簡(jiǎn)單

2025年12月3日 09:14CCTIME飛象網(wǎng)

近日,全球首個(gè)大一統(tǒng)的多模態(tài)視頻、圖片創(chuàng)作工具"可靈O1"正式上線?伸`O1基于全新的視頻和圖像模型,以自然語(yǔ)言作為語(yǔ)義骨架,配合視頻、圖片、主體等多模態(tài)描述,將所有生成和編輯任務(wù)融合于一個(gè)全能引擎之中,為用戶搭建全新的多模態(tài)創(chuàng)作流,實(shí)現(xiàn)從靈感到成品的一站式閉環(huán)。

大一統(tǒng)模型,解決視頻創(chuàng)作的所有難題

作為首個(gè)大一統(tǒng)多模態(tài)視頻模型,可靈O1基于MVL(Multi-modal Visual Language,多模態(tài)視覺(jué)語(yǔ)言)理念,打破了傳統(tǒng)單一視頻生成任務(wù)的模型邊界,將參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容增刪、視頻修改變換、風(fēng)格重繪、鏡頭延展等多種任務(wù),融合于同一個(gè)全能引擎之中,使得用戶無(wú)需在多個(gè)模型及工具間跳轉(zhuǎn),即可一站式完成從生成到修改的全部創(chuàng)作流程。

依托可靈視頻O1模型的深層語(yǔ)義理解力,用戶上傳的圖片、視頻、主體、文字——在可靈O1眼中,皆是指令。模型打破了模態(tài)限制,能夠綜合理解一張照片、一段視頻或一個(gè)主體,甚至一個(gè)角色的不同視角,精準(zhǔn)生成各種細(xì)節(jié)。

可靈O1的多模態(tài)指令輸入?yún)^(qū),讓繁瑣的剪輯后期變成了簡(jiǎn)單的對(duì)話。用戶無(wú)需手動(dòng)遮罩或關(guān)鍵幀,只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」,模型即可讀懂影像邏輯,從局部的主體替換,到整體的視頻風(fēng)格重繪,自動(dòng)完成像素級(jí)的語(yǔ)義重構(gòu)。此外,如圖片/主體參考;指令變換(視頻增加、刪除內(nèi)容、切換景別/視角、視頻修改任務(wù)等)、視頻參考、首尾幀、文生視頻等能力也一并支持。

針對(duì)AI視頻難以落地的痛點(diǎn)——角色與場(chǎng)景的一致性,可靈O1底層強(qiáng)化了對(duì)輸入圖像及視頻的理解。 它能像人類(lèi)導(dǎo)演一樣,“記住”主角、道具和場(chǎng)景。無(wú)論鏡頭如何流轉(zhuǎn),主體特征始終穩(wěn)定如一。 此外,該模型展現(xiàn)了強(qiáng)大的多主體融合能力。用戶可以自由組合多個(gè)不同主體,或?qū)⒅黧w與參考圖混搭。即便是在復(fù)雜的群像戲或互動(dòng)場(chǎng)景中,模型也能獨(dú)立鎖定并保持每一位角色或道具的特征,確保“主角”在不同鏡頭中實(shí)現(xiàn)工業(yè)級(jí)的特征統(tǒng)一。

不再局限于單點(diǎn)任務(wù),而是支持“技能組合”。 用戶可以要求可靈O1“在視頻中增加主體的同時(shí)修改背景”,或者“在圖片參考生成時(shí),同步修改風(fēng)格”。這種一次生成多種創(chuàng)意變化的能力,極大地拓展了創(chuàng)作的自由度,讓創(chuàng)意的化學(xué)反應(yīng)成為可能。

敘事時(shí)長(zhǎng)自由定義,讓每一段故事都有其獨(dú)特的呼吸感?伸`O1將定義時(shí)間的權(quán)力交還給創(chuàng)作者,支持3-10秒自由生成。無(wú)論是短促的視覺(jué)沖擊,還是悠長(zhǎng)的故事鋪陳,都由用戶自由掌控。 值得注意的是,作為統(tǒng)一模型的一部分,可靈O1的首尾幀能力也將支持3-10秒的生成時(shí)長(zhǎng)選擇(即將發(fā)布),這將進(jìn)一步增強(qiáng)敘事的張弛度。

一同登場(chǎng)的還有可靈圖像O1模型,可實(shí)現(xiàn)從基礎(chǔ)圖像生成到高階細(xì)節(jié)編輯全鏈路無(wú)縫銜接,用戶既可通過(guò)純文本生成圖像,也可上傳最多10張參考圖進(jìn)行融合再創(chuàng)作。 該模型具備四大核心優(yōu)勢(shì):特征高度保持,讓主體元素穩(wěn)定不偏差;細(xì)節(jié)修改精準(zhǔn)響應(yīng),讓每一處調(diào)整都符合預(yù)期;風(fēng)格調(diào)性準(zhǔn)確把控,讓畫(huà)面氛圍始終統(tǒng)一;超豐富想象力,讓創(chuàng)意呈現(xiàn)更具張力,真正實(shí)現(xiàn)“所想即所得”。

一個(gè)模型,搞定影視、自媒體、廣告電商等多視頻創(chuàng)作場(chǎng)景

全新的可靈O1集生成與編輯于一體,可廣泛適用于影視、自媒體、廣告電商等多種場(chǎng)景。無(wú)論是從零構(gòu)建的敘事生成,還是對(duì)既有素材的深度重塑,可靈O1都能根據(jù)不同需求,靈活調(diào)用其參考、編輯的能力,輕松完成創(chuàng)作。

在影視創(chuàng)作領(lǐng)域,憑借可靈O1的超強(qiáng)一致性的圖片(主體)參考,配合主體庫(kù)功能,可以精準(zhǔn)鎖定每個(gè)分鏡的角色及服化道,輕松創(chuàng)作生成多個(gè)連貫的影視鏡頭;而對(duì)于視頻后期、自媒體創(chuàng)作者來(lái)說(shuō),可通過(guò)簡(jiǎn)單對(duì)話式的提示詞,如輸入“刪除背景中的路人”、“讓天空變藍(lán)”,就能讓可靈O1自動(dòng)完成像素級(jí)的智能修補(bǔ)與重構(gòu)。

針對(duì)傳統(tǒng)線下廣告實(shí)拍成本高,制作周期長(zhǎng)的問(wèn)題。如今用戶只需上傳商品圖、模特圖和場(chǎng)景圖,配合簡(jiǎn)單指令描述,即可快速生成多個(gè)酷炫的商品展示廣告,大幅降低實(shí)拍成本。針對(duì)模特約拍麻煩、更換背景/服裝需要重復(fù)拍攝等問(wèn)題,使用可靈O1,能搭建你的永不落幕的虛擬T臺(tái):上傳模特 + 服裝實(shí)拍圖,輸入指令,完美還原服飾的質(zhì)感和細(xì)節(jié),批量生產(chǎn)高質(zhì)量的 Lookbook 視頻。

據(jù)悉,可靈O1能實(shí)現(xiàn)上述強(qiáng)大而全面的功能,源于在技術(shù)底座上的深層創(chuàng)新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂,構(gòu)建了全新的生成式底座。融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長(zhǎng)上下文,實(shí)現(xiàn)了多任務(wù)的深度融合與統(tǒng)一。

編 輯:T01
飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容,凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有,未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像,違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載,請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性,并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源:XXXX”的作品,均轉(zhuǎn)載自其它媒體,在于傳播更多行業(yè)信息,并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題,請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系,我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777,郵件后綴為cctime.com,冒充本站員工以任何其他聯(lián)系方式,進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為,均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。
推薦閱讀

精彩視頻

精彩專(zhuān)題

關(guān)于我們廣告報(bào)價(jià)聯(lián)系我們隱私聲明本站地圖

CCTIME飛象網(wǎng) CopyRight © 2007-2025 By CCTIME.COM

京ICP備08004280號(hào)-1 電信與信息服務(wù)業(yè)務(wù)經(jīng)營(yíng)許可證080234號(hào) 京公網(wǎng)安備110105000771號(hào)

公司名稱(chēng): 北京飛象互動(dòng)文化傳媒有限公司

未經(jīng)書(shū)面許可,禁止轉(zhuǎn)載、摘編、復(fù)制、鏡像