當(dāng)前位置首頁(yè) > 新聞 > 市場(chǎng)環(huán)境 >

從“無(wú)到有”走向“有到優(yōu)” 國(guó)產(chǎn)視頻生成大模型漸入佳境

中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng) 時(shí)間：2024-08-12

　　文生視頻大模型Sora誕生半年后，它的中國(guó)“挑戰(zhàn)者”列隊(duì)登場(chǎng)，爭(zhēng)奪下一張AI殺手級(jí)應(yīng)用的“船票”。過(guò)去一個(gè)月，4款國(guó)產(chǎn)視頻生成模型陸續(xù)上線、走向大眾。

　　與Sora僅釋放小樣、未開(kāi)放使用不同，中國(guó)的視頻生成大模型發(fā)布即上線，便于使用者“拿來(lái)就用”。眼下，在應(yīng)用端，一批內(nèi)容創(chuàng)作者已初嘗“會(huì)打字就會(huì)生視頻”“生視頻不求人”的樂(lè)趣；在技術(shù)側(cè)，還有一批孵化中的視頻生成模型正在路上。盡管?chē)?guó)產(chǎn)工具還不具備一次性“分鐘級(jí)”的生成能力、無(wú)法實(shí)現(xiàn)比肩實(shí)拍的“無(wú)縫”“絲滑”，但視頻生成已解決了“有”的問(wèn)題，逐步向“優(yōu)”進(jìn)化。

　　想象力“動(dòng)”起來(lái)

　　最近，文生視頻賽道擠滿了強(qiáng)有力的中國(guó)選手。7月下旬，我國(guó)人工智能獨(dú)角獸智譜AI推出視頻生成模型“清影”、愛(ài)詩(shī)科技發(fā)布視頻生成產(chǎn)品PixVerse V2、生數(shù)科技上線視頻生成模型Vidu的同時(shí)，快手6月發(fā)布的“可靈AI”已積累百萬(wàn)用戶(hù)。

　　“Sora還停留在實(shí)驗(yàn)室的小樣階段，國(guó)產(chǎn)視頻生成工具已密集上線，并向C端開(kāi)放使用，令人振奮?！北本┐髮W(xué)深圳研究生院信息工程學(xué)院助理教授、博導(dǎo)袁粒說(shuō)。

　　Sora的中國(guó)“挑戰(zhàn)者”有何本領(lǐng)？

　　清晨，大熊貓坐在湖邊彈吉他、兔子在餐廳里看報(bào)紙、袋鼠和金絲猴在一旁吃早餐，然后去動(dòng)物城的運(yùn)動(dòng)場(chǎng)上集合，觀看一年一度的自行車(chē)大賽……這部由可靈AI生成的動(dòng)畫(huà)微電影，盡管時(shí)長(zhǎng)只有62秒，卻表現(xiàn)出了對(duì)現(xiàn)實(shí)世界物理規(guī)律（反射定律、重力定律等）的理解與呈現(xiàn)能力，以及一定的想象力與故事的實(shí)現(xiàn)能力。

　　進(jìn)入“奧運(yùn)時(shí)間”，不少刷屏朋友圈的、可銜接不同場(chǎng)景和運(yùn)鏡的短片，也同樣出自國(guó)產(chǎn)視頻生成大模型之手。

　　“視頻生成，簡(jiǎn)言之是通過(guò)生成式AI技術(shù)，將文本、圖片等多模態(tài)輸入，轉(zhuǎn)化為視頻信號(hào)?！笨焓忠曈X(jué)生成和互動(dòng)中心負(fù)責(zé)人萬(wàn)鵬飛說(shuō)，“與過(guò)去我們常見(jiàn)的相機(jī)拍攝、圖形渲染獲得視頻的方式不同，視頻生成的本質(zhì)是從目標(biāo)分布中采樣計(jì)算得到像素。這種方式能以更低的成本，達(dá)到更高的內(nèi)容自由度。”

　　進(jìn)入Vidu的視頻生成頁(yè)面，記者體驗(yàn)了“一鍵生成”的自由。上傳一張照片設(shè)置為“起始幀”或作為“參考的人物角色”，在對(duì)話框里輸入想要生成場(chǎng)景的文字描繪，點(diǎn)擊“生成”鍵，一條栩栩如生的短視頻就自動(dòng)生成了。從進(jìn)入頁(yè)面到下載完畢，不足1分鐘。

　　一名技術(shù)負(fù)責(zé)人告訴記者一個(gè)“生成秘籍”：“試試‘鏡頭語(yǔ)言+建立場(chǎng)景+細(xì)節(jié)描述’的提示詞公式，不出5次就能獲得想要的視頻內(nèi)容?！北热?，在對(duì)話框中輸入“寫(xiě)實(shí)風(fēng)格，近距離，老虎伏在地上，身體微微起伏”的文本。1分鐘后，一段視頻出現(xiàn)在屏幕上：微風(fēng)拂過(guò)的草地上，老虎的身體隨呼吸起伏，它的毛發(fā)、胡須隨風(fēng)而動(dòng)，甚至能“以假亂真”。

　　視頻生成技術(shù)的快速迭代，建立在對(duì)生成內(nèi)容效果的精準(zhǔn)評(píng)價(jià)之上。如何區(qū)分視頻生成模型性能的優(yōu)劣？“一看可控性，即生成內(nèi)容與輸入文本的對(duì)應(yīng)程度；二看穩(wěn)定性、一致性；三看合理性，即生成內(nèi)容是否合乎物理規(guī)律；四看風(fēng)格、審美、創(chuàng)意；最后一點(diǎn)，看生成的實(shí)時(shí)性?！毕愀鄞髮W(xué)計(jì)算機(jī)系教授、歐洲科學(xué)院外籍院士徐東這樣歸納。

　　成本降下去速度提上來(lái)

　　國(guó)外網(wǎng)友已經(jīng)用行動(dòng)表達(dá)了對(duì)中國(guó)自研視頻生成模型的贊許，不少Twitter賬號(hào)發(fā)布的文字已經(jīng)配上了可靈AI、清影AI生成的視頻。

　　“坦白說(shuō)，現(xiàn)在技術(shù)還沒(méi)有到成熟的階段，視頻生成模型的技術(shù)天花板高，可以提升的空間大。但是，我們看到了影視、動(dòng)畫(huà)、廣告、游戲行業(yè)的痛點(diǎn)：制作周期長(zhǎng)、制作成本高，而這是技術(shù)可以努力解決的?！鄙鷶?shù)科技聯(lián)合創(chuàng)始人、首席執(zhí)行官唐家渝告訴記者。

　　一項(xiàng)技術(shù)想要成為“剛需”，須在增強(qiáng)可用性、可控性的前提下降低成本。作為直接拉低創(chuàng)作與制作門(mén)檻的技術(shù)，視頻生成模型的出現(xiàn)，讓影視動(dòng)畫(huà)從業(yè)者看到了“小團(tuán)隊(duì)制作動(dòng)畫(huà)”“小成本內(nèi)容創(chuàng)作”的春天。

　　“創(chuàng)作AIGC（生成式人工智能）動(dòng)畫(huà)短片是一次有趣的經(jīng)歷。我們先是有了一個(gè)創(chuàng)意，把它畫(huà)成故事版，然后用AI生成圖像，再用Vidu把圖像生成了視頻。”北京電影節(jié)AIGC短片單元最佳影片得主、Ainimate Lab AI負(fù)責(zé)人陳劉芳告訴記者。

　　視頻生成，將讓科幻、奇幻、動(dòng)畫(huà)不再是大廠才敢玩的“燒錢(qián)游戲”。陳劉芳說(shuō)，用上Vidu之后，制作周期與制作成本的降低堪稱(chēng)顯著。

　　“拿動(dòng)畫(huà)短片《一路向南》來(lái)說(shuō)，創(chuàng)作團(tuán)隊(duì)僅由三人構(gòu)成：一名導(dǎo)演、一名故事版藝術(shù)家和一名AIGC技術(shù)應(yīng)用專(zhuān)家。而傳統(tǒng)流程需要20人，包含導(dǎo)演、故事版、美術(shù)、建模、材質(zhì)、燈光、渲染等不同‘工種’，周期在一個(gè)月左右。這樣算下來(lái)，成本降低了90%以上。”陳劉芳說(shuō)，當(dāng)然，目前視頻生成技術(shù)的精致程度還不夠，約為傳統(tǒng)動(dòng)畫(huà)性能的三分之一。

　　然而，更低的成本、更高的效率，已讓傳統(tǒng)的影視、動(dòng)畫(huà)、游戲從業(yè)者感受到技術(shù)顛覆前夜的凜冽?！啊巳顺蔀樵O(shè)計(jì)師’‘人人成為導(dǎo)演’的時(shí)代將會(huì)到來(lái)，就像當(dāng)年進(jìn)入‘人人擁有麥克風(fēng)’的時(shí)代?！敝亲VAI首席執(zhí)行官?gòu)堸i說(shuō)。

　　“這對(duì)于動(dòng)畫(huà)行業(yè)而言，是挑戰(zhàn)，也是機(jī)遇。比如一名武林高手，哪怕用最簡(jiǎn)單的武器、最普通的招式也會(huì)威力十足，核心在于他的內(nèi)功強(qiáng)大。對(duì)于動(dòng)畫(huà)行業(yè)而言，‘招式’好比新技術(shù)，‘內(nèi)功’則是創(chuàng)意、是視聽(tīng)表達(dá)、是對(duì)審美的品控判斷?！敝袊?guó)傳媒大學(xué)動(dòng)畫(huà)與數(shù)字藝術(shù)學(xué)院教授、動(dòng)畫(huà)系主任艾勝英說(shuō)。

　　技術(shù)固然帶來(lái)了性?xún)r(jià)比更高的工具，但也凸顯了創(chuàng)意的關(guān)鍵作用?！爱?dāng)影視、動(dòng)畫(huà)、游戲的制作環(huán)節(jié)投入占比大幅降低后，比拼的就更加是創(chuàng)意?！标悇⒎颊f(shuō)。

　　“煉”一個(gè)殺手級(jí)應(yīng)用

　　大語(yǔ)言模型敲開(kāi)生成式AI的大門(mén)后，視頻作為圖像模態(tài)的再擴(kuò)展，將AIGC的技術(shù)推向高潮，也讓AIGC的應(yīng)用離大眾越來(lái)越近。

　　當(dāng)前，全球視頻生成的技術(shù)路線主要有兩種：一種是擴(kuò)散模型，這其中又分為兩類(lèi)，一類(lèi)是基于卷積神經(jīng)網(wǎng)絡(luò)的擴(kuò)散模型，如Meta的Emu Video、騰訊等推出的VideoCrafter；另一類(lèi)是基于Transformer架構(gòu)的擴(kuò)散模型，如生數(shù)科技的Vidu、OpenAI的Sora、快手的可靈AI等。第二種是自回歸路線，如谷歌的VideoPoet、Phenaki等。

　　“國(guó)內(nèi)視頻生成的主流選擇是基于Transformer架構(gòu)的擴(kuò)散模型，這一架構(gòu)能使模型在處理語(yǔ)言、計(jì)算機(jī)視覺(jué)、圖像生成等領(lǐng)域表現(xiàn)出擴(kuò)展能力，遵從‘規(guī)模定律’?！毙鞏|說(shuō)。

　　這一選擇也意味著，更大的算力、更高的質(zhì)量與更大規(guī)模的數(shù)據(jù)，以及復(fù)雜的算法。

　　“首當(dāng)其沖的是算法。視頻在圖像的基礎(chǔ)上增加了時(shí)間維度，算法的復(fù)雜程度會(huì)指數(shù)級(jí)增長(zhǎng)?！毙鞏|說(shuō)，數(shù)據(jù)、算力一定的條件下，模型性能關(guān)鍵在于算法的能力，取決于算法人才水平的高低。

　　其次，最為缺乏的是數(shù)據(jù)?！耙曨l生成強(qiáng)依賴(lài)于數(shù)據(jù)。與文本數(shù)據(jù)相比，視頻數(shù)據(jù)的積累難度更大。數(shù)據(jù)的質(zhì)量提升，不僅包括視頻的解析度、風(fēng)格、分鏡、組合、連續(xù)性等，還包括數(shù)據(jù)的清洗、篩選、處理?！睆堸i說(shuō)。

　　視頻生成模型更是“吞卡巨獸”。從Sora的實(shí)踐來(lái)看，持續(xù)提高模型的數(shù)據(jù)量、參數(shù)規(guī)模，迄今依然是AIGC進(jìn)化的核心。中信證券測(cè)算，一個(gè)60幀的視頻（約6至8秒）大約需要6萬(wàn)個(gè)Patches（補(bǔ)片），如果去噪步數(shù)是20的話，相當(dāng)于生成120萬(wàn)個(gè)Tokens（詞元）?？紤]到擴(kuò)散模型在實(shí)際使用中需多次生成，實(shí)際計(jì)算量會(huì)遠(yuǎn)超120萬(wàn)個(gè)Tokens（詞元）。

　　“大模型參數(shù)正以每年十倍的速度增長(zhǎng)。不論對(duì)科技企業(yè)還是研究機(jī)構(gòu)而言，如何持續(xù)訓(xùn)練高性能的模型，依然是巨大挑戰(zhàn)。但與此同時(shí)，C端的‘殺手級(jí)應(yīng)用’讓人充滿期待。從創(chuàng)意的生成，到圖片、音樂(lè)、視頻的制作，AI都將有大施拳腳之地。未來(lái)，視頻制作也許就像今天做PPT一樣簡(jiǎn)單便捷?！北本┲窃慈斯ぶ悄苎芯吭涸洪L(zhǎng)王仲遠(yuǎn)說(shuō)。（記者張漫子）

　　轉(zhuǎn)自：經(jīng)濟(jì)參考報(bào)

返回產(chǎn)經(jīng)網(wǎng)首頁(yè) >>

　　【版權(quán)及免責(zé)聲明】凡本網(wǎng)所屬版權(quán)作品，轉(zhuǎn)載時(shí)須獲得授權(quán)并注明來(lái)源“中國(guó)產(chǎn)業(yè)經(jīng)濟(jì)信息網(wǎng)”，違者本網(wǎng)將保留追究其相關(guān)法律責(zé)任的權(quán)力。凡轉(zhuǎn)載文章及企業(yè)宣傳資訊，僅代表作者個(gè)人觀點(diǎn)，不代表本網(wǎng)觀點(diǎn)和立場(chǎng)。版權(quán)事宜請(qǐng)聯(lián)系：010-65363056。

延伸閱讀

熱點(diǎn)視頻

上半年汽車(chē)工業(yè)多項(xiàng)經(jīng)濟(jì)指標(biāo)創(chuàng)新高

熱點(diǎn)新聞

熱點(diǎn)輿情

從“無(wú)到有”走向“有到優(yōu)” 國(guó)產(chǎn)視頻生成大模型漸入佳境

熱點(diǎn)視頻

熱點(diǎn)新聞

熱點(diǎn)輿情

微信公眾號(hào)