每日微信報(bào)
人物專(zhuān)訪監(jiān)管
制造芯片
6G 運(yùn)營(yíng)
大數(shù)據(jù)物聯(lián)網(wǎng)
移動(dòng)互聯(lián)網(wǎng)量子
云計(jì)算互聯(lián)網(wǎng)
報(bào)告衛(wèi)星

全球首個(gè)大一統(tǒng)多模態(tài)視頻模型可靈O1發(fā)布讓P視頻像P圖一樣簡(jiǎn)單

2025年12月3日 09:14CCTIME飛象網(wǎng)

近日，全球首個(gè)大一統(tǒng)的多模態(tài)視頻、圖片創(chuàng)作工具"可靈O1"正式上線�？伸`O1基于全新的視頻和圖像模型，以自然語(yǔ)言作為語(yǔ)義骨架，配合視頻、圖片、主體等多模態(tài)描述，將所有生成和編輯任務(wù)融合于一個(gè)全能引擎之中，為用戶搭建全新的多模態(tài)創(chuàng)作流，實(shí)現(xiàn)從靈感到成品的一站式閉環(huán)。

大一統(tǒng)模型，解決視頻創(chuàng)作的所有難題

作為首個(gè)大一統(tǒng)多模態(tài)視頻模型，可靈O1基于MVL（Multi-modal Visual Language，多模態(tài)視覺(jué)語(yǔ)言）理念，打破了傳統(tǒng)單一視頻生成任務(wù)的模型邊界，將參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容增刪、視頻修改變換、風(fēng)格重繪、鏡頭延展等多種任務(wù)，融合于同一個(gè)全能引擎之中，使得用戶無(wú)需在多個(gè)模型及工具間跳轉(zhuǎn)，即可一站式完成從生成到修改的全部創(chuàng)作流程。

依托可靈視頻O1模型的深層語(yǔ)義理解力，用戶上傳的圖片、視頻、主體、文字——在可靈O1眼中，皆是指令。模型打破了模態(tài)限制，能夠綜合理解一張照片、一段視頻或一個(gè)主體，甚至一個(gè)角色的不同視角，精準(zhǔn)生成各種細(xì)節(jié)。

可靈O1的多模態(tài)指令輸入?yún)^(qū)，讓繁瑣的剪輯后期變成了簡(jiǎn)單的對(duì)話。用戶無(wú)需手動(dòng)遮罩或關(guān)鍵幀，只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」，模型即可讀懂影像邏輯，從局部的主體替換，到整體的視頻風(fēng)格重繪，自動(dòng)完成像素級(jí)的語(yǔ)義重構(gòu)。此外，如圖片/主體參考；指令變換（視頻增加、刪除內(nèi)容、切換景別/視角、視頻修改任務(wù)等）、視頻參考、首尾幀、文生視頻等能力也一并支持。

針對(duì)AI視頻難以落地的痛點(diǎn)——角色與場(chǎng)景的一致性，可靈O1底層強(qiáng)化了對(duì)輸入圖像及視頻的理解。它能像人類(lèi)導(dǎo)演一樣，“記住”主角、道具和場(chǎng)景。無(wú)論鏡頭如何流轉(zhuǎn)，主體特征始終穩(wěn)定如一。此外，該模型展現(xiàn)了強(qiáng)大的多主體融合能力。用戶可以自由組合多個(gè)不同主體，或?qū)⒅黧w與參考圖混搭。即便是在復(fù)雜的群像戲或互動(dòng)場(chǎng)景中，模型也能獨(dú)立鎖定并保持每一位角色或道具的特征，確保“主角”在不同鏡頭中實(shí)現(xiàn)工業(yè)級(jí)的特征統(tǒng)一。

不再局限于單點(diǎn)任務(wù)，而是支持“技能組合”。用戶可以要求可靈O1“在視頻中增加主體的同時(shí)修改背景”，或者“在圖片參考生成時(shí)，同步修改風(fēng)格”。這種一次生成多種創(chuàng)意變化的能力，極大地拓展了創(chuàng)作的自由度，讓創(chuàng)意的化學(xué)反應(yīng)成為可能。

敘事時(shí)長(zhǎng)自由定義，讓每一段故事都有其獨(dú)特的呼吸感�？伸`O1將定義時(shí)間的權(quán)力交還給創(chuàng)作者，支持3-10秒自由生成。無(wú)論是短促的視覺(jué)沖擊，還是悠長(zhǎng)的故事鋪陳，都由用戶自由掌控。值得注意的是，作為統(tǒng)一模型的一部分，可靈O1的首尾幀能力也將支持3-10秒的生成時(shí)長(zhǎng)選擇（即將發(fā)布），這將進(jìn)一步增強(qiáng)敘事的張弛度。

一同登場(chǎng)的還有可靈圖像O1模型，可實(shí)現(xiàn)從基礎(chǔ)圖像生成到高階細(xì)節(jié)編輯全鏈路無(wú)縫銜接，用戶既可通過(guò)純文本生成圖像，也可上傳最多10張參考圖進(jìn)行融合再創(chuàng)作。該模型具備四大核心優(yōu)勢(shì)：特征高度保持，讓主體元素穩(wěn)定不偏差；細(xì)節(jié)修改精準(zhǔn)響應(yīng)，讓每一處調(diào)整都符合預(yù)期；風(fēng)格調(diào)性準(zhǔn)確把控，讓畫(huà)面氛圍始終統(tǒng)一；超豐富想象力，讓創(chuàng)意呈現(xiàn)更具張力，真正實(shí)現(xiàn)“所想即所得”。

一個(gè)模型，搞定影視、自媒體、廣告電商等多視頻創(chuàng)作場(chǎng)景

全新的可靈O1集生成與編輯于一體，可廣泛適用于影視、自媒體、廣告電商等多種場(chǎng)景。無(wú)論是從零構(gòu)建的敘事生成，還是對(duì)既有素材的深度重塑，可靈O1都能根據(jù)不同需求，靈活調(diào)用其參考、編輯的能力，輕松完成創(chuàng)作。

在影視創(chuàng)作領(lǐng)域，憑借可靈O1的超強(qiáng)一致性的圖片（主體）參考，配合主體庫(kù)功能，可以精準(zhǔn)鎖定每個(gè)分鏡的角色及服化道，輕松創(chuàng)作生成多個(gè)連貫的影視鏡頭；而對(duì)于視頻后期、自媒體創(chuàng)作者來(lái)說(shuō)，可通過(guò)簡(jiǎn)單對(duì)話式的提示詞，如輸入“刪除背景中的路人”、“讓天空變藍(lán)”，就能讓可靈O1自動(dòng)完成像素級(jí)的智能修補(bǔ)與重構(gòu)。

針對(duì)傳統(tǒng)線下廣告實(shí)拍成本高，制作周期長(zhǎng)的問(wèn)題。如今用戶只需上傳商品圖、模特圖和場(chǎng)景圖，配合簡(jiǎn)單指令描述，即可快速生成多個(gè)酷炫的商品展示廣告，大幅降低實(shí)拍成本。針對(duì)模特約拍麻煩、更換背景/服裝需要重復(fù)拍攝等問(wèn)題，使用可靈O1，能搭建你的永不落幕的虛擬T臺(tái)：上傳模特 + 服裝實(shí)拍圖，輸入指令，完美還原服飾的質(zhì)感和細(xì)節(jié)，批量生產(chǎn)高質(zhì)量的 Lookbook 視頻。

據(jù)悉，可靈O1能實(shí)現(xiàn)上述強(qiáng)大而全面的功能，源于在技術(shù)底座上的深層創(chuàng)新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂，構(gòu)建了全新的生成式底座。融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長(zhǎng)上下文，實(shí)現(xiàn)了多任務(wù)的深度融合與統(tǒng)一。

編輯：T01

飛象網(wǎng)版權(quán)及免責(zé)聲明:
1.本網(wǎng)刊載內(nèi)容，凡注明來(lái)源為“飛象網(wǎng)”和“飛象原創(chuàng)”皆屬飛象網(wǎng)版權(quán)所有，未經(jīng)允許禁止轉(zhuǎn)載、摘編及鏡像，違者必究。對(duì)于經(jīng)過(guò)授權(quán)可以轉(zhuǎn)載，請(qǐng)必須保持轉(zhuǎn)載文章、圖像、音視頻的完整性，并完整標(biāo)注作者信息和飛象網(wǎng)來(lái)源。
2.凡注明“來(lái)源：XXXX”的作品，均轉(zhuǎn)載自其它媒體，在于傳播更多行業(yè)信息，并不代表本網(wǎng)贊同其觀點(diǎn)和對(duì)其真實(shí)性負(fù)責(zé)。
3.如因作品內(nèi)容、版權(quán)和其它問(wèn)題，請(qǐng)?jiān)谙嚓P(guān)作品刊發(fā)之日起30日內(nèi)與本網(wǎng)聯(lián)系，我們將第一時(shí)間予以處理。
本站聯(lián)系電話為86-010-87765777，郵件后綴為cctime.com，冒充本站員工以任何其他聯(lián)系方式，進(jìn)行的“內(nèi)容核實(shí)”、“商務(wù)聯(lián)系”等行為，均不能代表本站。本站擁有對(duì)此聲明的最終解釋權(quán)。