全球首個(gè)大一統(tǒng)多模態(tài)視頻模型可靈O1發(fā)佈

2025-12-02 23:41

香港2025年12月2日 /美通社/ -- 領(lǐng)先的內(nèi)容社區(qū)及社交平臺(tái)快手科技（「快手」或「公司」；港幣櫃臺(tái)股份代號(hào)：01024 / 人民幣櫃臺(tái)股份代號(hào)：81024）宣佈，12月1日，可靈AI正式發(fā)佈其全新產(chǎn)品「可靈O1」，定位為首個(gè)大一統(tǒng)的多模態(tài)創(chuàng)作工具?？伸`O1基於全新的視頻和圖像模型，整合文字、視頻、圖片、主體等多模態(tài)輸入，將所有生成和編輯任務(wù)融合於一個(gè)全能引擎之中。可靈O1的推出，徹底解決了AI視頻生成中角色、場景等一致性難題，為影視、自媒體、廣告電商等應(yīng)用場景，提供了深度適配的一站式解決方案。

大一統(tǒng)模型，解決視頻創(chuàng)作的所有難題

作為首個(gè)大一統(tǒng)多模態(tài)視頻模型，可靈O1基於多模態(tài)視覺語言（MVL）理念，突破傳統(tǒng)單一視頻生成任務(wù)的模型邊界，將參考生視頻、文生視頻、首尾幀生視頻、視頻內(nèi)容增刪、視頻修改變換、風(fēng)格重繪、鏡頭延展等多種任務(wù)，融合於同一個(gè)全能引擎之中，用戶無需切換模型及工具，即可一站式完成從生成到編輯的全流程創(chuàng)作。

憑藉深層語義理解力，可靈O1可將用戶上傳的圖片、視頻、主體、文字均視為指令。模型打破了模態(tài)限制，能夠從不同視角綜合理解一張照片、一段視頻或一個(gè)主體，精準(zhǔn)生成各項(xiàng)細(xì)節(jié)。

可靈O1的多模態(tài)指令輸入?yún)^(qū)，讓繁瑣的剪輯後期變成了簡單的對話。使用者無需手動(dòng)遮罩或輸入關(guān)鍵幀，只需輸入「移除路人」、「將白天改為黃昏」或「替換主角服裝」等指令，模型即可讀懂影像邏輯，實(shí)現(xiàn)從局部主體替換到整體風(fēng)格重繪的像素級語義重構(gòu)。此外，它也全面支援圖片/主體參考、視頻內(nèi)容編輯、鏡頭切換、首尾幀生成及文生視頻等多種能力。

針對AI視頻落地中常見的角色與場景不一致的痛點(diǎn)，可靈O1底層強(qiáng)化了對輸入圖像及視頻的理解。它能像人類導(dǎo)演一樣，「記住」主角、道具和場景，確保主體特徵在鏡頭變化中始終保持穩(wěn)定。此外，該模型展現(xiàn)了強(qiáng)大的多主體融合能力。用戶可以自由組合多個(gè)不同主體，或?qū)⒅黧w與參考圖混搭。即便是在複雜的群像戲或互動(dòng)場景中，模型也能獨(dú)立鎖定並保持每一位角色或道具的特徵，確?！钢鹘恰乖诓煌R頭中實(shí)現(xiàn)工業(yè)級的特徵統(tǒng)一。

可靈O1支援「技能組合」，不再局限於單點(diǎn)任務(wù)。使用者可以指令其「在視頻中增加主體的同時(shí)修改背景」，或者「在圖片參考生成時(shí)，同步修改風(fēng)格」。這種一次生成多種創(chuàng)意變化的能力，極大地拓展了創(chuàng)作的自由度，讓創(chuàng)意的化學(xué)反應(yīng)成為可能。

在時(shí)長控制上，可靈O1將定義時(shí)間的權(quán)力交還給創(chuàng)作者，支援3-10秒自由生成。無論是短促的視覺衝擊，還是悠長的故事鋪陳，都由使用者自由掌控。值得一提的是，作為統(tǒng)一模型的一部分，可靈O1的首尾幀能力也將支持3-10秒的生成時(shí)長選擇（即將發(fā)佈），進(jìn)一步增強(qiáng)敘事的張弛度。

同時(shí)發(fā)佈的還有可靈圖像O1模型，可實(shí)現(xiàn)從基礎(chǔ)圖像生成到高階細(xì)節(jié)編輯全鏈路無縫銜接，用戶既可通過純文本生成圖像，也可上傳最多10張參考圖進(jìn)行融合再創(chuàng)作。該模型具備四大核心優(yōu)勢：特徵高度保持，讓主體元素穩(wěn)定不偏差；細(xì)節(jié)修改精準(zhǔn)響應(yīng)，讓每一處調(diào)整都符合預(yù)期；風(fēng)格調(diào)性準(zhǔn)確把控，讓畫面氛圍始終統(tǒng)一；超豐富想像力，讓創(chuàng)意呈現(xiàn)更具張力，真正實(shí)現(xiàn)「所想即所得」。

一個(gè)模型覆蓋多創(chuàng)作場景：影視、自媒體、廣告電商

全新的可靈O1集生成與編輯於一體，廣泛適用於影視、自媒體、廣告電商等多種場景。無論是從零構(gòu)建的敘事生成，還是對既有素材的深度重塑，可靈O1都能根據(jù)不同需求，靈活調(diào)用其參考、編輯的能力，輕鬆完成創(chuàng)作。

在影視創(chuàng)作領(lǐng)域，可靈O1憑藉強(qiáng)大一致性的圖片（主體）參考，結(jié)合主體庫功能，可以精準(zhǔn)鎖定每個(gè)分鏡的角色及服化道，輕鬆生成多個(gè)連貫的影視鏡頭。對於視頻後期、自媒體創(chuàng)作者而言，只需輸入「刪除背景中的路人」、「讓天空變藍(lán)」等簡單對話指令，就能讓可靈O1自動(dòng)完成像素級的智能修補(bǔ)與重構(gòu)。

針對傳統(tǒng)線下廣告實(shí)拍成本高，製作週期長的問題，用戶現(xiàn)在只需上傳商品、模特和場景圖，輔以簡單指令，即可快速生成多個(gè)酷炫的商品展示廣告，大幅降低實(shí)拍成本。針對模特約拍麻煩與換裝難題，可靈O1可搭建永不落幕的虛擬T臺(tái)：上傳模特和服裝實(shí)拍圖，輸入指令，便能完美還原服飾的質(zhì)感和細(xì)節(jié)，批量生產(chǎn)高品質(zhì)的Lookbook視頻。

可靈O1能實(shí)現(xiàn)上述強(qiáng)大而全面的功能，源於在技術(shù)底座的深層創(chuàng)新。全新的可靈視頻O1模型打破視頻模型在生成、編輯與理解上的功能割裂，構(gòu)建了全新的生成式底座。通過融合多模態(tài)理解的Multimodal Transformer和多模態(tài)長上下文，實(shí)現(xiàn)了多任務(wù)的深度融合與統(tǒng)一。

關(guān)於快手

快手作為中國乃至全球領(lǐng)先的內(nèi)容社區(qū)及社交平臺(tái)，致力於成為全球最癡迷於為客戶創(chuàng)造價(jià)值的公司。作為一家以人工智能為核心驅(qū)動(dòng)和技術(shù)依託的科技公司，快手專注於通過持續(xù)的技術(shù)創(chuàng)新和產(chǎn)品升級，不斷豐富服務(wù)和應(yīng)用場景，為客戶創(chuàng)造價(jià)值。在快手，用戶通過短視頻和直播來記錄和分享他們的生活，發(fā)現(xiàn)所需，發(fā)揮所長。通過與內(nèi)容創(chuàng)作者和企業(yè)緊密合作，快手提供的技術(shù)、產(chǎn)品和服務(wù)可滿足用戶的多元化的需求，包括娛樂、線上營銷服務(wù)、電商、本地生活、遊戲等。

前瞻性聲明

除過往事實(shí)的陳述外，本新聞稿載有若干前瞻性陳述。前瞻性陳述一般可透過所使用前瞻性詞彙識(shí)別，例如「或會(huì)」、「可能」、「可」、「可以」、「將」、「將會(huì)」、「預(yù)期」、「認(rèn)為」、「繼續(xù)」、「估計(jì)」、「預(yù)計(jì)」、「預(yù)測」、「打算」、「計(jì)劃」、「尋求」或「時(shí)間表」。該等前瞻性陳述受風(fēng)險(xiǎn)、不確定因素及假設(shè)的影響，可能包括業(yè)務(wù)展望、財(cái)務(wù)表現(xiàn)預(yù)測、業(yè)務(wù)計(jì)劃預(yù)測、發(fā)展策略及對我們行業(yè)預(yù)期趨勢的預(yù)測。該等前瞻性陳述是根據(jù)本集團(tuán)現(xiàn)有的資料，亦按本新聞稿刊發(fā)之時(shí)的展望為基準(zhǔn)，在本新聞稿內(nèi)載列。該等前瞻性陳述是根據(jù)若干預(yù)測、假設(shè)及前提作出，當(dāng)中許多涉及主觀因素或不受我們控制。該等前瞻性陳述或會(huì)證明為不正確及可能不會(huì)在將來實(shí)現(xiàn)。該等前瞻性陳述涉及大量風(fēng)險(xiǎn)及不明朗因素。鑒於上述風(fēng)險(xiǎn)及不明朗因素，本新聞稿內(nèi)所載列的前瞻性陳述不應(yīng)視為董事會(huì)或本公司聲明該等計(jì)劃及目標(biāo)將會(huì)實(shí)現(xiàn)，故投資者不應(yīng)過於依賴該等陳述。除法律要求的情形外，我們並無責(zé)任公開發(fā)佈可能反映本新聞稿日期後發(fā)生的事件或情況或可能反映意料之外事件的該等前瞻性陳述的任何修訂。

投資者及媒體問詢
快手科技
投資者關(guān)係
郵箱：ir@kuaishou.com

消息來源: 快手科技

相關(guān)股票: HongKong:1024 OTC:KSHTY

精選視頻

數(shù)據(jù)顯示視頻、圖片等元素讓新聞稿點(diǎn)擊量提升77%

全球首個(gè)大一統(tǒng)多模態(tài)視頻模型可靈O1發(fā)佈

相關(guān)股票: HongKong:1024 OTC:KSHTY

精選視頻

相關(guān)關(guān)鍵詞:

最近新聞稿

電腦軟件最近新聞稿

電腦/電子最近新聞稿

多媒體與互聯(lián)網(wǎng) 最近新聞稿

新產(chǎn)品/新服務(wù) 最近新聞稿

人工智能最近新聞稿

全球首個(gè)大一統(tǒng)多模態(tài)視頻模型可靈O1發(fā)佈

相關(guān)股票: HongKong:1024 OTC:KSHTY

精選視頻

相關(guān)關(guān)鍵詞:

最近新聞稿

電腦軟件 最近新聞稿

電腦/電子 最近新聞稿

多媒體與互聯(lián)網(wǎng) 最近新聞稿

新產(chǎn)品/新服務(wù) 最近新聞稿

人工智能 最近新聞稿

電腦軟件最近新聞稿

電腦/電子最近新聞稿

人工智能最近新聞稿