亚洲香蕉成人av网站在线观看,欧美又粗又长又爽做受,亚洲一码和欧洲二码的尺码区别,亚洲日韩一区二区,日韩AV无码精品一二三区

深度丨 OpenAI掀翻視頻格局 AGI真的不遠了?

2024年02月16日 21:56   21世紀經濟報道 21財經APP   孔海麗
技術革命。

21世紀經濟報道記者孔海麗 北京報道

視頻(pin)領域的“GPT時刻”也來了。

北京(jing)時間2月16日凌(ling)晨,OpenAI推出了(le)新的(de)文(wen)(wen)生視頻模型(xing)Sora,可(ke)以把簡短的(de)文(wen)(wen)本描(miao)述轉換為長達(da)60秒的(de)高清視頻,繼文(wen)(wen)本、圖片的(de)革命之后,繼續顛覆視頻領域。

文本輸入提示:中國龍的中國農歷新年慶祝視頻。

OpenAI一(yi)(yi)口氣(qi)放出的48個示(shi)例視頻中,既有對現實世界的高度還原,也有動(dong)畫或科幻大片,角色與場景交互(hu)復雜、運動(dong)軌(gui)跡清(qing)晰(xi)、情感生動(dong)、細(xi)節逼(bi)真,一(yi)(yi)鏡到(dao)底和多機位(wei)統(tong)統(tong)不在話下。

更重要的是,Sora初步實現了對真實世界的洞察與學習,已經能夠理解角色在物理世界中的存在方式并預判運行軌跡。

盡管目前Sora仍難以準確模擬復雜場景的物理特性,并且可能無法理解因果關系,比如人物吹蠟燭之后,燭火并未搖曳或熄滅。但這種趨勢已經擺上了臺面,OpenAI開辟了一個全新的賽道,并讓其他仍困在幾秒視頻時長的AI視頻模型創業公司,遭受降維式輾軋。一位AI大模型從業者感慨:“要卷死一堆文生視頻公司了,秒殺……”

一個能夠理解、感知、創造內容的AI視頻模型,將撕開無限可能。OpenAI扔下的這枚重磅炸彈,商業落地場景非常豐富,戰栗的將不只是影視行業,整個內容創作行業或都將被動搖。

在實(shi)際應用層(ceng),Sora可能(neng)會為短視(shi)頻(pin)創作、游戲(xi)呈現效果、機(ji)器人具身智能(neng)、自動(dong)駕駛等,帶來巨大(da)的(de)影響與突破(po)。假以時日(ri),真實(shi)世(shi)界與視(shi)頻(pin)虛擬世(shi)界的(de)區隔,或許也將被削弱(ruo),大(da)洋彼岸已(yi)經在擔(dan)心AI視(shi)頻(pin)會影響總統大(da)選了(le),正(zheng)在采(cai)取行動(dong)應對(dui)AI生成的(de)深度偽造(zao)。

對于Sora模型的意義,OpenAI官方如此表述:“能夠理解和模擬現實世界的模型的基礎,我們相信這一能力將是實現AGI的重要里程碑”。

上難度:理解真實世界

與現(xian)有文(wen)生視(shi)頻技術相比,OpenAI的Sora幾乎將AI視(shi)頻的競爭(zheng),從(cong)冷兵器時(shi)代推(tui)進(jin)到(dao)了現(xian)代化戰爭(zheng)階(jie)段(duan),時(shi)長、效果、互動性,都秒殺現(xian)有技術。

視(shi)頻(pin)(pin)生成(cheng)領域(yu)面對(dui)的一個(ge)重要(yao)挑戰就是(shi),在(zai)生成(cheng)的較長(chang)視(shi)頻(pin)(pin)中保持時空連貫性和一致性。市面上現有的AI視(shi)頻(pin)(pin)產品(pin),時長(chang)一旦超出幾秒,將無法正確(que)呈現物體(ti)之間的互動關(guan)系(xi),逐(zhu)漸“離(li)譜”。

因(yin)為(wei)AI對視頻(pin)(pin)的(de)學習,依賴大量的(de)訓練(lian)數據,如果(guo)訓練(lian)數據中沒有(you)涵(han)蓋某種(zhong)特(te)定的(de)過渡效(xiao)果(guo)或動作,AI就很難學會如何在生成視頻(pin)(pin)時應用這些效(xiao)果(guo)。也就是說,時長一旦變長,現有(you)AI的(de)能力(li)就會“露(lu)餡”。

更(geng)根(gen)本的(de)原因在于,現有AI無(wu)(wu)法理解物理世界(jie)的(de)運行法則,也(ye)就(jiu)無(wu)(wu)法預測物體和角色在時間(jian)線(xian)上(shang)的(de)運動軌跡。

但OpenAI做到(dao)了(le)。Sora直(zhi)接將(jiang)時長提升(sheng)到(dao)了(le)60秒,且效果高(gao)清,細(xi)節豐富(fu)。

OpenAI官(guan)網呈現的(de)一則60秒視頻顯示,女(nv)主(zhu)與周(zhou)圍的(de)街(jie)道(dao)、人群(qun)、燈光(guang)、都(dou)非常清晰自然,完全沒有AI視頻常見的(de)“掉幀”問題,甚至肢體動作(zuo)、面(mian)部表情(qing)、水(shui)中倒影(ying)、墨(mo)鏡折射(she)畫面(mian)都(dou)很(hen)連貫。

文本輸入提示:一位時尚的女人走在東京的街道上,街道上到處都是溫暖的發光霓虹燈和動畫城市標志。她身穿黑色皮夾克,紅色長裙,黑色靴子,背著一個黑色錢包。她戴著墨鏡,涂著紅色口紅。她走得自信而隨意。街道潮濕而反光,營造出五顏六色的燈光的鏡面效果。許多行人四處走動。

另一則視(shi)頻中,穿過(guo)(guo)(guo)東京郊區的(de)(de)火車車窗倒(dao)影(ying),不僅顯示了車窗外掠過(guo)(guo)(guo)的(de)(de)建筑,近(jin)距離經過(guo)(guo)(guo)的(de)(de)另一節車廂(xiang)甚至加深了車內燈光、人物的(de)(de)折射(she)清(qing)晰度,非常(chang)符合常(chang)理,并且流(liu)暢自(zi)然。

文本輸入提示:提示:穿過東京郊區的火車車窗中的倒影。

Sora經常(chang)能(neng)夠為短期和(he)長期物(wu)體(ti)間的依(yi)賴(lai)關系建模。例如,在(zai)(zai)生(sheng)成的視頻(pin)中(zhong)(zhong),人物(wu)、動物(wu)和(he)物(wu)體(ti)即(ji)使在(zai)(zai)被遮擋(dang)或(huo)離開(kai)畫面后,仍(reng)能(neng)被準確(que)地保存和(he)呈現(xian)。并(bing)且,Sora能(neng)夠在(zai)(zai)單個樣本中(zhong)(zhong)生(sheng)成同一角色的多個鏡頭,并(bing)在(zai)(zai)整個視頻(pin)中(zhong)(zhong)保持其外(wai)觀的一致性。

一則太空(kong)人科幻視頻(pin)中,同(tong)時呈(cheng)現了近景(jing)、遠(yuan)景(jing)中的(de)主角(jiao),被太空(kong)船內部場景(jing)切分開的(de)人物鏡頭(tou),分別處于凝(ning)視、行(xing)(xing)走、思考(kao)等不同(tong)的(de)狀(zhuang)態,人物一致、行(xing)(xing)為連(lian)貫(guan)。

文本輸入提示:電影預告片,講述了 30 歲的太空人戴著紅色羊毛針織摩托車頭盔的冒險經歷,藍天,鹽沙漠,電影風格,用 35 毫米膠片拍攝,色彩鮮艷。

據OpenAI官網介紹(shao),Sora是一種擴散模型,相較其他模型,看起來具備了“理(li)解”和“思考(kao)”能力。

與AI視頻明星創業(ye)公司Runway所使用的Gen模型(xing)相比,Sora模型(xing)不(bu)僅了(le)解(jie)(jie)用戶在(zai)提示(shi)中要求的內(nei)容,還了(le)解(jie)(jie)這些角(jiao)色在(zai)物(wu)理(li)(li)世界(jie)中的存在(zai)方(fang)式,能夠理(li)(li)解(jie)(jie)和模擬運動中的物(wu)理(li)(li)世界(jie),能夠生(sheng)成具有多個角(jiao)色、特定類型(xing)的運動,以及主(zhu)題(ti)和背景的準(zhun)確細(xi)節(jie)的復雜場景。

與(yu)GPT模型類似,Sora使(shi)(shi)用的(de)是transformer架(jia)構(gou),該架(jia)構(gou)對(dui)視頻的(de)時空序列包和圖像潛在編碼進行(xing)操作,能夠(gou)主動(dong)填補視頻中的(de)“缺失幀(zhen)”,從而看起來具(ju)備(bei)“預測(ce)性”,使(shi)(shi)得(de)AI視頻模型不再(zai)那么“被動(dong)”。

一位AI大模型從業人士對21世紀經濟報道記者表示,OpenAI又一次改寫了游戲規則,把文生視頻推高到了“理解真實世界”的維度。

這也正(zheng)是世(shi)界模型的(de)(de)特(te)點——讓機(ji)器能夠像人(ren)類(lei)一(yi)(yi)樣對(dui)(dui)真實世(shi)界有一(yi)(yi)個(ge)全面而(er)準(zhun)確(que)的(de)(de)認知。世(shi)界模型不僅包(bao)括對(dui)(dui)事物的(de)(de)描述(shu)和(he)(he)(he)分(fen)類(lei),還包(bao)括對(dui)(dui)事物的(de)(de)關系、規律(lv)、原(yuan)因(yin)和(he)(he)(he)結果的(de)(de)理解和(he)(he)(he)預測(ce),從而(er)進(jin)行推理和(he)(he)(he)決策。

英偉達人工智能研究院Jim Fan表示:“如果你還是把Sora當做DALLE那樣的生成式玩具,還是好好想想吧,這是一個數據驅動的物理引擎。”有技術人員告訴21世紀經濟報道記者,Jim Fan的言外之意在于,不能忽略Sora所折射的“世界模型”的更進一步——AI已經可以讀懂物理規律。

隨著訓(xun)練的繼續推進,AGI的實(shi)現(xian)或許不再是(shi)紙上(shang)談(tan)兵。

打擊力:顛覆現實世界

OpenAI推出Sora之后,互聯網世界除(chu)了感嘆,還有(you)一片哀嚎。

在(zai)OpenAI的推(tui)文(wen)下(xia)面,不少評論打出“gg 皮克(ke)斯”、“gg好萊塢”(注:gg是競技(ji)游戲禮貌用語(yu),good game的縮寫,用于(yu)表達(da)“打得好,我認輸”),馬斯克(ke)更是在(zai)X上發(fa)表評論,稱“gg 人類”。

有不少(shao)網友感慨(kai)自己“要失業(ye)了”,視頻(pin)行業(ye)將被徹底顛(dian)覆。

有來自電影制作行業的從業人士告訴21世紀經濟報道記者,如果Sora繼續進化下去,取代一部分傳統視頻制作方式是必然的,就像AI繪畫取代畫師、設計師一樣,這是趨勢。

“短視(shi)頻、概念視(shi)頻、廣告、微短劇、甚至是長視(shi)頻里,都(dou)會(hui)大(da)量使用AI生成(cheng)視(shi)頻。”該人(ren)士表(biao)示:“不過傳統影(ying)視(shi)劇該怎么拍還得拍。”

觀點普遍認為(wei),AI視頻模(mo)型(xing)將(jiang)改變電(dian)影(ying)工業(ye)的生產方式,雖然不能(neng)完全取代現有人(ren)力,但將(jiang)會成為(wei)新的生產工具(ju),影(ying)視行業(ye)從業(ye)人(ren)士需要盡快(kuai)把工具(ju)“為(wei)我所用”。

一位影視編劇提出了另一種想法,她認為,Sora這類AI視頻模型大大降低了精美視頻的制作門檻,以后編劇的奇思妙想將有更大的呈現空間,“技術不到位”、“經費不夠”的掣肘都將減小很多。

比如(ru),OpenAI的一則視頻(pin)中,巨(ju)大(da)的猛犸象(xiang)緩緩走來,形象(xiang)逼(bi)真(zhen),身后(hou)騰起了雪(xue)霧,遠處被白(bai)雪(xue)覆蓋的樹林與山脈清晰可(ke)見(jian)。而眾(zhong)所周知,動畫《冰川(chuan)時代》的實際制作費(fei)用達到8000萬美(mei)元之高,耗時4年之久。

文本輸入提示:幾只巨大的毛茸茸的猛犸象踩著白雪皚皚的草地走近,它們長長的毛茸茸的毛毛在風中輕輕吹拂,遠處白雪皚皚的樹木和壯觀的白雪皚皚的山脈,午后的光線與薄薄的云層和遠處高高的太陽營造出溫暖的光芒,低相機視角令人驚嘆,用美麗的攝影捕捉了大型毛茸茸的哺乳動物,景深。

“那些有才華但苦于缺少投(tou)資(zi)的導演們(men),可(ke)能會借力Sora創造(zao)出許(xu)多驚人的作品。”她補充說(shuo)。

目(mu)前,Sora尚未對公(gong)眾(zhong)開(kai)放,OpenAI正在與一些視覺藝(yi)術(shu)家、設(she)計師和電影制作人合(he)作,以探索如何(he)讓Sora對創意專業(ye)人士提供有效幫助。

而雙刃劍的另一面,是AI視頻模型給現實世界帶來的虛假信息威脅也將大大增加。

近(jin)期,AI合成的泰勒(le)·斯威夫特(te)不雅(ya)照曾(ceng)引(yin)起(qi)過(guo)軒然(ran)大波(bo),就連白宮方面也呼吁國會“應立刻采取行動”,而(er)美國政壇和(he)民眾也對背后凸顯的技(ji)術、法律(lv)漏洞感到(dao)擔憂。

AI生成“惡性(xing)視頻”對現實世界造成的困擾(rao),將(jiang)數(shu)倍(bei)于(yu)圖片效(xiao)果。為此,美國(guo)聯(lian)邦貿(mao)易委員會將(jiang)致力(li)于(yu)利(li)用工具來檢測、阻(zu)止相關冒(mao)充欺(qi)詐行為。

為(wei)此,OpenAI表示,將(jiang)在提供Sora之(zhi)前采取幾個重(zhong)要的(de)安(an)全措施,與錯誤信息、仇恨(hen)內容和偏見等領域的(de)專(zhuan)家進行合作,對模型進行對抗性測(ce)(ce)試;OpenAI也在構建(jian)工具來檢測(ce)(ce)誤導性內容,例(li)如檢測(ce)(ce)分類器,可以判斷視(shi)頻何(he)時由(you)Sora生(sheng)成。

除了開發新技術為Sora保障(zhang)安全性,現有的(de)安全方(fang)法也適用(yong)于Sora模型,例如那些請求(qiu)極端(duan)暴(bao)力(li)、色(se)情內容、仇恨圖像(xiang)、名人肖像(xiang)或他人IP的(de)提示(shi)將被模型拒絕,也開發了強(qiang)大的(de)圖像(xiang)分類器,用(yong)于查看生成的(de)每個(ge)視(shi)頻的(de)幀數,以確保在(zai)向用(yong)戶(hu)顯(xian)示(shi)視(shi)頻之前遵守OpenAI的(de)使用(yong)政策。

但OpenAI也承認(ren),無法預測人們使(shi)用(yong)Sora的(de)(de)所有(you)(you)有(you)(you)益方(fang)式,也無法預測人們濫用(yong)它的(de)(de)所有(you)(you)方(fang)式。

不(bu)過,目前Sora還有其局限性(xing)(xing),比如(ru)(ru)(ru)可(ke)(ke)(ke)能難以(yi)準確模擬復雜場景的(de)(de)物理(li)特性(xing)(xing),并且可(ke)(ke)(ke)能無(wu)法理(li)解因果關(guan)系的(de)(de)具體實(shi)例。例如(ru)(ru)(ru),一個人(ren)咬(yao)一口餅干之(zhi)后,餅干可(ke)(ke)(ke)能沒有咬(yao)痕。該(gai)模型還可(ke)(ke)(ke)能混淆(xiao)(xiao)提示的(de)(de)空(kong)(kong)間細節,例如(ru)(ru)(ru),左右混淆(xiao)(xiao),人(ren)類在朝著跑(pao)步機的(de)(de)尾部跑(pao)步。也可(ke)(ke)(ke)能難以(yi)精確描述隨時間推(tui)移(yi)發(fa)生的(de)(de)事件,例如(ru)(ru)(ru),五只(zhi)灰狼幼(you)(you)崽(zai)嬉戲(xi)的(de)(de)畫面中(zhong),幼(you)(you)崽(zai)數量可(ke)(ke)(ke)能忽多忽少,有的(de)(de)幼(you)(you)崽(zai)會憑空(kong)(kong)出現或(huo)消失(shi)。

文本輸入提示:五只灰狼幼崽在一條偏遠的碎石路上嬉戲和追逐,周圍環繞著草地。幼崽們奔跑跳躍,互相追逐,互相啃咬,玩耍。

隨著技(ji)術進步,或許未(wei)來,如何判定視頻(pin)真假,也將(jiang)成為一門學問。

壓迫感:巨頭步步碾壓

另一廂,谷歌(ge)也于(yu)同一日發布了Gemini 1.5版本(ben),在文(wen)本(ben)的(de)長度上(shang)實現了大幅(fu)突破。但終究被OpenAI的(de)視頻模型搶盡了風頭。

一(yi)批AI視頻(pin)模型創業公司也將命懸一(yi)線(xian)。

文(wen)生視頻(pin)的(de)生成(cheng)模(mo)型最(zui)早(zao)出現(xian)在2022年底,Pika lab、Runway都分別貢獻(xian)過AI生成(cheng)視頻(pin)的(de)話題(ti)。早(zao)期,就(jiu)連Meta和谷歌的(de)AI視頻(pin)都有著“一眼(yan)AI”的(de)問題(ti),清晰度、邏輯(ji)性有明顯缺陷。

經過不懈努力,Runway在(zai)2023年11月發布了(le)AI視(shi)頻(pin)生成工(gong)具(ju)Gen-2,修復了(le)視(shi)頻(pin)畫質,也克服了(le)不連(lian)貫、閃爍變(bian)形以及(ji)低(di)清等問(wen)題,但生成的視(shi)頻(pin)時長最多只能達到(dao)18秒。

眼(yan)下,OpenAI一舉把(ba)AI視頻(pin)生成時(shi)長拉(la)到了(le)60秒(miao),并且運鏡復雜、場(chang)景多變(bian)、人物還能夠(gou)表達豐(feng)富的情感(gan)色彩,簡直斷了(le)其他小公司未來的路。

業(ye)內分析人士表示,如(ru)果其他AI視(shi)頻模型創業(ye)公司無法盡快追趕(gan)OpenAI,恐(kong)怕將直接失(shi)去生(sheng)存(cun)空間(jian)。

但這種追趕并不容易。前述AI大模型從業者向21世紀經濟報道記者表示,僅就公開信息而言,其他公司與OpenAI在技術能力、訓練量、耗資程度方面,都有著代際差異。

“如果長期關(guan)注(zhu)AI文生視頻的(de)(de)進(jin)展,就會知(zhi)道(dao)OpenAI的(de)(de)Sora有多強(qiang)大,是(shi)專業(ye)拳手(shou)暴打小白(bai)的(de)(de)差距(ju)。”、“AI真的(de)(de)分(fen)成兩(liang)種(zhong),OpenAI和(he)其他AI”……相關(guan)評論也是(shi)層出(chu)不窮(qiong)。

一位關注AI大模型的投資人向21世紀經濟報道記者透露,小型公司跑出來的概率變得更渺茫了,尤其是這么燒錢的領域,很難在巨頭的陰影下做出亮點。

從文本大模型、圖像大模型,再到如今的視頻大模型,OpenAI深刻詮釋了“一步先、步步先”的殘酷性。

實際上,Sora之所以能(neng)這么出色,也與OpenAI之前的(de)領先優(you)勢(shi)有關。

OpenAI放出的(de)(de)技術報告透露,Sora模(mo)(mo)型對語言有(you)深刻的(de)(de)理解,使(shi)其能夠準(zhun)確地解釋提(ti)示并生成表達生動情感的(de)(de)引人注目的(de)(de)角色。這背后(hou)有(you)GPT的(de)(de)功勞,OpenAI會先(xian)利用(yong)GPT將簡(jian)短(duan)的(de)(de)用(yong)戶提(ti)示轉換(huan)為更長的(de)(de)詳細內容(rong),再發送到視頻模(mo)(mo)型。

他們還為視頻生成(cheng)(cheng)調(diao)用(yong)了DALL·E3(OpenAI的圖像(xiang)生成(cheng)(cheng)模(mo)型)中的re-captioning技術,為視覺訓練數據生成(cheng)(cheng)高度(du)描述(shu)性的文(wen)本,使得模(mo)型能夠更忠實地遵循用(yong)戶指令。

除了(le)能(neng)夠以文本生成(cheng)(cheng)視頻(pin),Sora模(mo)型還能(neng)夠獲取現(xian)有的靜止圖像并從中(zhong)生成(cheng)(cheng)視頻(pin),提高(gao)視頻(pin)的準確性及細節(jie)顆粒度(du),還可以對現(xian)有視頻(pin)進行擴展(zhan)或填充“缺失幀”。

也就是說,Sora是站在OpenAI的大語言模型GPT以及圖片大模型DALL·E的肩膀上,并且跑出了加速度。

 一位硅谷AI行業創業人士感慨說:“創業之路,離天堂太遠,離巨頭太近,如果又沒有自己的壁壘,實在太容易被淘汰了。”

而其他(ta)落后于OpenAI的(de)科技(ji)巨頭,在AI大模型這條(tiao)路上,也要(yao)時(shi)時(shi)接受(shou)來自(zi)先行(xing)者的(de)壓迫感。

關注(zhu)我們