深度丨 OpenAI掀翻視頻格局 AGI真的不遠了？

2024年02月16日 21:56 21世紀經濟報道 21財經APP 孔海麗

技術革命。

21世紀經濟報道記者孔海麗北京報道

視頻(pin)領域的“GPT時刻”也來了。

北京(jing)時間2月16日凌(ling)晨，OpenAI推出了(le)新的(de)文(wen)(wen)生視頻模型(xing)Sora，可(ke)以把簡短的(de)文(wen)(wen)本描(miao)述轉換為長達(da)60秒的(de)高清視頻，繼文(wen)(wen)本、圖片的(de)革命之后，繼續顛覆視頻領域。

文本輸入提示：中國龍的中國農歷新年慶祝視頻。

OpenAI一(yi)(yi)口氣(qi)放出的48個示(shi)例視頻中，既有對現實世界的高度還原，也有動(dong)畫或科幻大片，角色與場景交互(hu)復雜、運動(dong)軌(gui)跡清(qing)晰(xi)、情感生動(dong)、細(xi)節逼(bi)真，一(yi)(yi)鏡到(dao)底和多機位(wei)統(tong)統(tong)不在話下。

更重要的是，Sora初步實現了對真實世界的洞察與學習，已經能夠理解角色在物理世界中的存在方式并預判運行軌跡。

盡管目前Sora仍難以準確模擬復雜場景的物理特性，并且可能無法理解因果關系，比如人物吹蠟燭之后，燭火并未搖曳或熄滅。但這種趨勢已經擺上了臺面，OpenAI開辟了一個全新的賽道，并讓其他仍困在幾秒視頻時長的AI視頻模型創業公司，遭受降維式輾軋。一位AI大模型從業者感慨：“要卷死一堆文生視頻公司了，秒殺……”

一個能夠理解、感知、創造內容的AI視頻模型，將撕開無限可能。OpenAI扔下的這枚重磅炸彈，商業落地場景非常豐富，戰栗的將不只是影視行業，整個內容創作行業或都將被動搖。

在實(shi)際應用層(ceng)，Sora可能(neng)會為短視(shi)頻(pin)創作、游戲(xi)呈現效果、機(ji)器人具身智能(neng)、自動(dong)駕駛等，帶來巨大(da)的(de)影響與突破(po)。假以時日(ri)，真實(shi)世(shi)界與視(shi)頻(pin)虛擬世(shi)界的(de)區隔，或許也將被削弱(ruo)，大(da)洋彼岸已(yi)經在擔(dan)心AI視(shi)頻(pin)會影響總統大(da)選了(le)，正(zheng)在采(cai)取行動(dong)應對(dui)AI生成的(de)深度偽造(zao)。

對于Sora模型的意義，OpenAI官方如此表述：“能夠理解和模擬現實世界的模型的基礎，我們相信這一能力將是實現AGI的重要里程碑”。

上難度：理解真實世界

與現(xian)有文(wen)生視(shi)頻技術相比，OpenAI的Sora幾乎將AI視(shi)頻的競爭(zheng)，從(cong)冷兵器時(shi)代推(tui)進(jin)到(dao)了現(xian)代化戰爭(zheng)階(jie)段(duan)，時(shi)長、效果、互動性，都秒殺現(xian)有技術。

視(shi)頻(pin)(pin)生成(cheng)領域(yu)面對(dui)的一個(ge)重要(yao)挑戰就是(shi)，在(zai)生成(cheng)的較長(chang)視(shi)頻(pin)(pin)中保持時空連貫性和一致性。市面上現有的AI視(shi)頻(pin)(pin)產品(pin)，時長(chang)一旦超出幾秒，將無法正確(que)呈現物體(ti)之間的互動關(guan)系(xi)，逐(zhu)漸“離(li)譜”。

因(yin)為(wei)AI對視頻(pin)(pin)的(de)學習，依賴大量的(de)訓練(lian)數據，如果(guo)訓練(lian)數據中沒有(you)涵(han)蓋某種(zhong)特(te)定的(de)過渡效(xiao)果(guo)或動作，AI就很難學會如何在生成視頻(pin)(pin)時應用這些效(xiao)果(guo)。也就是說，時長一旦變長，現有(you)AI的(de)能力(li)就會“露(lu)餡”。

更(geng)根(gen)本的(de)原因在于，現有AI無(wu)(wu)法理解物理世界(jie)的(de)運行法則，也(ye)就(jiu)無(wu)(wu)法預測物體和角色在時間(jian)線(xian)上(shang)的(de)運動軌跡。

但OpenAI做到(dao)了(le)。Sora直(zhi)接將(jiang)時長提升(sheng)到(dao)了(le)60秒，且效果高(gao)清，細(xi)節豐富(fu)。

OpenAI官(guan)網呈現的(de)一則60秒視頻顯示，女(nv)主(zhu)與周(zhou)圍的(de)街(jie)道(dao)、人群(qun)、燈光(guang)、都(dou)非常清晰自然，完全沒有AI視頻常見的(de)“掉幀”問題，甚至肢體動作(zuo)、面(mian)部表情(qing)、水(shui)中倒影(ying)、墨(mo)鏡折射(she)畫面(mian)都(dou)很(hen)連貫。

文本輸入提示：一位時尚的女人走在東京的街道上，街道上到處都是溫暖的發光霓虹燈和動畫城市標志。她身穿黑色皮夾克，紅色長裙，黑色靴子，背著一個黑色錢包。她戴著墨鏡，涂著紅色口紅。她走得自信而隨意。街道潮濕而反光，營造出五顏六色的燈光的鏡面效果。許多行人四處走動。

另一則視(shi)頻中，穿過(guo)(guo)(guo)東京郊區的(de)(de)火車車窗倒(dao)影(ying)，不僅顯示了車窗外掠過(guo)(guo)(guo)的(de)(de)建筑，近(jin)距離經過(guo)(guo)(guo)的(de)(de)另一節車廂(xiang)甚至加深了車內燈光、人物的(de)(de)折射(she)清(qing)晰度，非常(chang)符合常(chang)理，并且流(liu)暢自(zi)然。

文本輸入提示：提示：穿過東京郊區的火車車窗中的倒影。

Sora經常(chang)能(neng)夠為短期和(he)長期物(wu)體(ti)間的依(yi)賴(lai)關系建模。例如，在(zai)(zai)生(sheng)成的視頻(pin)中(zhong)(zhong)，人物(wu)、動物(wu)和(he)物(wu)體(ti)即(ji)使在(zai)(zai)被遮擋(dang)或(huo)離開(kai)畫面后，仍(reng)能(neng)被準確(que)地保存和(he)呈現(xian)。并(bing)且，Sora能(neng)夠在(zai)(zai)單個樣本中(zhong)(zhong)生(sheng)成同一角色的多個鏡頭，并(bing)在(zai)(zai)整個視頻(pin)中(zhong)(zhong)保持其外(wai)觀的一致性。

一則太空(kong)人科幻視頻(pin)中，同(tong)時呈(cheng)現了近景(jing)、遠(yuan)景(jing)中的(de)主角(jiao)，被太空(kong)船內部場景(jing)切分開的(de)人物鏡頭(tou)，分別處于凝(ning)視、行(xing)(xing)走、思考(kao)等不同(tong)的(de)狀(zhuang)態，人物一致、行(xing)(xing)為連(lian)貫(guan)。

文本輸入提示：電影預告片，講述了 30 歲的太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷，藍天，鹽沙漠，電影風格，用 35 毫米膠片拍攝，色彩鮮艷。

據OpenAI官網介紹(shao)，Sora是一種擴散模型，相較其他模型，看起來具備了“理(li)解”和“思考(kao)”能力。

與AI視頻明星創業(ye)公司Runway所使用的Gen模型(xing)相比，Sora模型(xing)不(bu)僅了(le)解(jie)(jie)用戶在(zai)提示(shi)中要求的內(nei)容，還了(le)解(jie)(jie)這些角(jiao)色在(zai)物(wu)理(li)(li)世界(jie)中的存在(zai)方(fang)式，能夠理(li)(li)解(jie)(jie)和模擬運動中的物(wu)理(li)(li)世界(jie)，能夠生(sheng)成具有多個角(jiao)色、特定類型(xing)的運動，以及主(zhu)題(ti)和背景的準(zhun)確細(xi)節(jie)的復雜場景。

與(yu)GPT模型類似，Sora使(shi)(shi)用的(de)是transformer架(jia)構(gou)，該架(jia)構(gou)對(dui)視頻的(de)時空序列包和圖像潛在編碼進行(xing)操作，能夠(gou)主動(dong)填補視頻中的(de)“缺失幀(zhen)”，從而看起來具(ju)備(bei)“預測(ce)性”，使(shi)(shi)得(de)AI視頻模型不再(zai)那么“被動(dong)”。

一位AI大模型從業人士對21世紀經濟報道記者表示，OpenAI又一次改寫了游戲規則，把文生視頻推高到了“理解真實世界”的維度。

這也正(zheng)是世(shi)界模型的(de)(de)特(te)點——讓機(ji)器能夠像人(ren)類(lei)一(yi)(yi)樣對(dui)(dui)真實世(shi)界有一(yi)(yi)個(ge)全面而(er)準(zhun)確(que)的(de)(de)認知。世(shi)界模型不僅包(bao)括對(dui)(dui)事物的(de)(de)描述(shu)和(he)(he)(he)分(fen)類(lei)，還包(bao)括對(dui)(dui)事物的(de)(de)關系、規律(lv)、原(yuan)因(yin)和(he)(he)(he)結果的(de)(de)理解和(he)(he)(he)預測(ce)，從而(er)進(jin)行推理和(he)(he)(he)決策。

英偉達人工智能研究院Jim Fan表示：“如果你還是把Sora當做DALLE那樣的生成式玩具，還是好好想想吧，這是一個數據驅動的物理引擎。”有技術人員告訴21世紀經濟報道記者，Jim Fan的言外之意在于，不能忽略Sora所折射的“世界模型”的更進一步——AI已經可以讀懂物理規律。

隨著訓(xun)練的繼續推進，AGI的實(shi)現(xian)或許不再是(shi)紙上(shang)談(tan)兵。

打擊力：顛覆現實世界

OpenAI推出Sora之后，互聯網世界除(chu)了感嘆，還有(you)一片哀嚎。

在(zai)OpenAI的推(tui)文(wen)下(xia)面，不少評論打出“gg 皮克(ke)斯”、“gg好萊塢”（注：gg是競技(ji)游戲禮貌用語(yu)，good game的縮寫，用于(yu)表達(da)“打得好，我認輸”），馬斯克(ke)更是在(zai)X上發(fa)表評論，稱“gg 人類”。

有不少(shao)網友感慨(kai)自己“要失業(ye)了”，視頻(pin)行業(ye)將被徹底顛(dian)覆。

有來自電影制作行業的從業人士告訴21世紀經濟報道記者，如果Sora繼續進化下去，取代一部分傳統視頻制作方式是必然的，就像AI繪畫取代畫師、設計師一樣，這是趨勢。

“短視(shi)頻、概念視(shi)頻、廣告、微短劇、甚至是長視(shi)頻里，都(dou)會(hui)大(da)量使用AI生成(cheng)視(shi)頻。”該人(ren)士表(biao)示：“不過傳統影(ying)視(shi)劇該怎么拍還得拍。”

觀點普遍認為(wei)，AI視頻模(mo)型(xing)將(jiang)改變電(dian)影(ying)工業(ye)的生產方式，雖然不能(neng)完全取代現有人(ren)力，但將(jiang)會成為(wei)新的生產工具(ju)，影(ying)視行業(ye)從業(ye)人(ren)士需要盡快(kuai)把工具(ju)“為(wei)我所用”。

一位影視編劇提出了另一種想法，她認為，Sora這類AI視頻模型大大降低了精美視頻的制作門檻，以后編劇的奇思妙想將有更大的呈現空間，“技術不到位”、“經費不夠”的掣肘都將減小很多。

比如(ru)，OpenAI的一則視頻(pin)中，巨(ju)大(da)的猛犸象(xiang)緩緩走來，形象(xiang)逼(bi)真(zhen)，身后(hou)騰起了雪(xue)霧，遠處被白(bai)雪(xue)覆蓋的樹林與山脈清晰可(ke)見(jian)。而眾(zhong)所周知，動畫《冰川(chuan)時代》的實際制作費(fei)用達到8000萬美(mei)元之高，耗時4年之久。

文本輸入提示：幾只巨大的毛茸茸的猛犸象踩著白雪皚皚的草地走近，它們長長的毛茸茸的毛毛在風中輕輕吹拂，遠處白雪皚皚的樹木和壯觀的白雪皚皚的山脈，午后的光線與薄薄的云層和遠處高高的太陽營造出溫暖的光芒，低相機視角令人驚嘆，用美麗的攝影捕捉了大型毛茸茸的哺乳動物，景深。

“那些有才華但苦于缺少投(tou)資(zi)的導演們(men)，可(ke)能會借力Sora創造(zao)出許(xu)多驚人的作品。”她補充說(shuo)。

目(mu)前，Sora尚未對公(gong)眾(zhong)開(kai)放，OpenAI正在與一些視覺藝(yi)術(shu)家、設(she)計師和電影制作人合(he)作，以探索如何(he)讓Sora對創意專業(ye)人士提供有效幫助。

而雙刃劍的另一面，是AI視頻模型給現實世界帶來的虛假信息威脅也將大大增加。

近(jin)期，AI合成的泰勒(le)·斯威夫特(te)不雅(ya)照曾(ceng)引(yin)起(qi)過(guo)軒然(ran)大波(bo)，就連白宮方面也呼吁國會“應立刻采取行動”，而(er)美國政壇和(he)民眾也對背后凸顯的技(ji)術、法律(lv)漏洞感到(dao)擔憂。

AI生成“惡性(xing)視頻”對現實世界造成的困擾(rao)，將(jiang)數(shu)倍(bei)于(yu)圖片效(xiao)果。為此，美國(guo)聯(lian)邦貿(mao)易委員會將(jiang)致力(li)于(yu)利(li)用工具來檢測、阻(zu)止相關冒(mao)充欺(qi)詐行為。

為(wei)此，OpenAI表示，將(jiang)在提供Sora之(zhi)前采取幾個重(zhong)要的(de)安(an)全措施，與錯誤信息、仇恨(hen)內容和偏見等領域的(de)專(zhuan)家進行合作，對模型進行對抗性測(ce)(ce)試；OpenAI也在構建(jian)工具來檢測(ce)(ce)誤導性內容，例(li)如檢測(ce)(ce)分類器，可以判斷視(shi)頻何(he)時由(you)Sora生(sheng)成。

除了開發新技術為Sora保障(zhang)安全性，現有的(de)安全方(fang)法也適用(yong)于Sora模型，例如那些請求(qiu)極端(duan)暴(bao)力(li)、色(se)情內容、仇恨圖像(xiang)、名人肖像(xiang)或他人IP的(de)提示(shi)將被模型拒絕，也開發了強(qiang)大的(de)圖像(xiang)分類器，用(yong)于查看生成的(de)每個(ge)視(shi)頻的(de)幀數，以確保在(zai)向用(yong)戶(hu)顯(xian)示(shi)視(shi)頻之前遵守OpenAI的(de)使用(yong)政策。

但OpenAI也承認(ren)，無法預測人們使(shi)用(yong)Sora的(de)(de)所有(you)(you)有(you)(you)益方(fang)式，也無法預測人們濫用(yong)它的(de)(de)所有(you)(you)方(fang)式。

不(bu)過，目前Sora還有其局限性(xing)(xing)，比如(ru)(ru)(ru)可(ke)(ke)(ke)能難以(yi)準確模擬復雜場景的(de)(de)物理(li)特性(xing)(xing)，并且可(ke)(ke)(ke)能無(wu)法理(li)解因果關(guan)系的(de)(de)具體實(shi)例。例如(ru)(ru)(ru)，一個人(ren)咬(yao)一口餅干之(zhi)后，餅干可(ke)(ke)(ke)能沒有咬(yao)痕。該(gai)模型還可(ke)(ke)(ke)能混淆(xiao)(xiao)提示的(de)(de)空(kong)(kong)間細節，例如(ru)(ru)(ru)，左右混淆(xiao)(xiao)，人(ren)類在朝著跑(pao)步機的(de)(de)尾部跑(pao)步。也可(ke)(ke)(ke)能難以(yi)精確描述隨時間推(tui)移(yi)發(fa)生的(de)(de)事件，例如(ru)(ru)(ru)，五只(zhi)灰狼幼(you)(you)崽(zai)嬉戲(xi)的(de)(de)畫面中(zhong)，幼(you)(you)崽(zai)數量可(ke)(ke)(ke)能忽多忽少，有的(de)(de)幼(you)(you)崽(zai)會憑空(kong)(kong)出現或(huo)消失(shi)。

文本輸入提示：五只灰狼幼崽在一條偏遠的碎石路上嬉戲和追逐，周圍環繞著草地。幼崽們奔跑跳躍，互相追逐，互相啃咬，玩耍。

隨著技(ji)術進步，或許未(wei)來，如何判定視頻(pin)真假，也將(jiang)成為一門學問。

壓迫感：巨頭步步碾壓

另一廂，谷歌(ge)也于(yu)同一日發布了Gemini 1.5版本(ben)，在文(wen)本(ben)的(de)長度上(shang)實現了大幅(fu)突破。但終究被OpenAI的(de)視頻模型搶盡了風頭。

一(yi)批AI視頻(pin)模型創業公司也將命懸一(yi)線(xian)。

文(wen)生視頻(pin)的(de)生成(cheng)模(mo)型最(zui)早(zao)出現(xian)在2022年底，Pika lab、Runway都分別貢獻(xian)過AI生成(cheng)視頻(pin)的(de)話題(ti)。早(zao)期，就(jiu)連Meta和谷歌的(de)AI視頻(pin)都有著“一眼(yan)AI”的(de)問題(ti)，清晰度、邏輯(ji)性有明顯缺陷。

經過不懈努力，Runway在(zai)2023年11月發布了(le)AI視(shi)頻(pin)生成工(gong)具(ju)Gen-2，修復了(le)視(shi)頻(pin)畫質，也克服了(le)不連(lian)貫、閃爍變(bian)形以及(ji)低(di)清等問(wen)題，但生成的視(shi)頻(pin)時長最多只能達到(dao)18秒。

眼(yan)下，OpenAI一舉把(ba)AI視頻(pin)生成時(shi)長拉(la)到了(le)60秒(miao)，并且運鏡復雜、場(chang)景多變(bian)、人物還能夠(gou)表達豐(feng)富的情感(gan)色彩，簡直斷了(le)其他小公司未來的路。

業(ye)內分析人士表示，如(ru)果其他AI視(shi)頻模型創業(ye)公司無法盡快追趕(gan)OpenAI，恐(kong)怕將直接失(shi)去生(sheng)存(cun)空間(jian)。

但這種追趕并不容易。前述AI大模型從業者向21世紀經濟報道記者表示，僅就公開信息而言，其他公司與OpenAI在技術能力、訓練量、耗資程度方面，都有著代際差異。

“如果長期關(guan)注(zhu)AI文生視頻的(de)(de)進(jin)展，就會知(zhi)道(dao)OpenAI的(de)(de)Sora有多強(qiang)大，是(shi)專業(ye)拳手(shou)暴打小白(bai)的(de)(de)差距(ju)。”、“AI真的(de)(de)分(fen)成兩(liang)種(zhong)，OpenAI和(he)其他AI”……相關(guan)評論也是(shi)層出(chu)不窮(qiong)。

一位關注AI大模型的投資人向21世紀經濟報道記者透露，小型公司跑出來的概率變得更渺茫了，尤其是這么燒錢的領域，很難在巨頭的陰影下做出亮點。

從文本大模型、圖像大模型，再到如今的視頻大模型，OpenAI深刻詮釋了“一步先、步步先”的殘酷性。

實際上，Sora之所以能(neng)這么出色，也與OpenAI之前的(de)領先優(you)勢(shi)有關。

OpenAI放出的(de)(de)技術報告透露，Sora模(mo)(mo)型對語言有(you)深刻的(de)(de)理解，使(shi)其能夠準(zhun)確地解釋提(ti)示并生成表達生動情感的(de)(de)引人注目的(de)(de)角色。這背后(hou)有(you)GPT的(de)(de)功勞，OpenAI會先(xian)利用(yong)GPT將簡(jian)短(duan)的(de)(de)用(yong)戶提(ti)示轉換(huan)為更長的(de)(de)詳細內容(rong)，再發送到視頻模(mo)(mo)型。

他們還為視頻生成(cheng)(cheng)調(diao)用(yong)了DALL·E3（OpenAI的圖像(xiang)生成(cheng)(cheng)模(mo)型）中的re-captioning技術，為視覺訓練數據生成(cheng)(cheng)高度(du)描述(shu)性的文(wen)本，使得模(mo)型能夠更忠實地遵循用(yong)戶指令。

除了(le)能(neng)夠以文本生成(cheng)(cheng)視頻(pin)，Sora模(mo)型還能(neng)夠獲取現(xian)有的靜止圖像并從中(zhong)生成(cheng)(cheng)視頻(pin)，提高(gao)視頻(pin)的準確性及細節(jie)顆粒度(du)，還可以對現(xian)有視頻(pin)進行擴展(zhan)或填充“缺失幀”。

也就是說，Sora是站在OpenAI的大語言模型GPT以及圖片大模型DALL·E的肩膀上，并且跑出了加速度。

一位硅谷AI行業創業人士感慨說：“創業之路，離天堂太遠，離巨頭太近，如果又沒有自己的壁壘，實在太容易被淘汰了。”

而其他(ta)落后于OpenAI的(de)科技(ji)巨頭，在AI大模型這條(tiao)路上，也要(yao)時(shi)時(shi)接受(shou)來自(zi)先行(xing)者的(de)壓迫感。

亚洲香蕉成人av网站在线观看,欧美又粗又长又爽做受,亚洲一码和欧洲二码的尺码区别,亚洲日韩一区二区,日韩AV无码精品一二三区

深度丨 OpenAI掀翻視頻格局 AGI真的不遠了？

2024年02月16日 21:56 21世紀經濟報道 21財經APP 孔海麗

上難度：理解真實世界

打擊力：顛覆現實世界

壓迫感：巨頭步步碾壓

相關新聞(wen)

熱文排行

財經日歷

數讀

每日(ri)智庫看點

關注(zhu)我們

公告