21世紀經濟報道記者楊清清 北京報道
作(zuo)為當前人工智能發展的重要方向,預訓練大模型已成(cheng)為AI領域(yu)的技術新高地(di)。
據不完全統計,目前AI大(da)模型已經吸引了(le)包括谷歌、微(wei)軟、英(ying)偉達、華為、百度、阿里等(deng)科技巨頭以(yi)及(ji)多個科研機(ji)構參與其中(zhong),各家大(da)模型的參數量級(ji)也(ye)從千(qian)億、萬億,迅速提(ti)升至10萬億級(ji)別。
不(bu)過,在AI大(da)模(mo)(mo)型熱度(du)持續攀升的(de)(de)過程(cheng)中(zhong),各家的(de)(de)布(bu)局(ju)重(zhong)點有所不(bu)同(tong)。近日,鵬城實(shi)驗室與百(bai)度(du)聯(lian)合(he)召開發(fa)布(bu)會,正(zheng)式發(fa)布(bu)雙方共同(tong)研發(fa)的(de)(de)鵬城-百(bai)度(du)·文心(模(mo)(mo)型版本號:ERNIE 3.0 Titan)。據介紹,該模(mo)(mo)型參(can)數規模(mo)(mo)達到2600億(yi),是(shi)目前全(quan)球(qiu)最(zui)大(da)中(zhong)文單體模(mo)(mo)型,也是(shi)全(quan)球(qiu)首(shou)個(ge)知識增(zeng)強千億(yi)大(da)模(mo)(mo)型。
“如(ru)果將這(zhe)個模(mo)型的(de)特點總結為一(yi)條,就是知識增強。”在接受包(bao)括21世紀經(jing)濟報道在內(nei)的(de)媒體采訪(fang)時(shi),百度(du)集團副總裁吳(wu)甜(tian)分析稱(cheng),“同時(shi),在融入(ru)知識的(de)基礎上(shang),該(gai)模(mo)型也會進行跨語言學(xue)習、跨模(mo)態學(xue)習,從而體現出學(xue)習效率更高、學(xue)習能力更強的(de)優勢。”
知識增強大模型
鵬城-百度(du)·文心(xin)知(zhi)識(shi)增強大模型的最大特點,在于其在學習過程中(zhong)融入知(zhi)識(shi),進(jin)而實現將海(hai)量知(zhi)識(shi)與海(hai)量數據進(jin)行(xing)同時融合(he)的學習。
在(zai)吳甜看來,知(zhi)識帶來的(de)優勢在(zai)于學習(xi)效率(lv)更高(gao)。據介紹,鵬城-百(bai)度(du)·文(wen)心(xin)知(zhi)識增強大模型在(zai)包括(kuo)機器閱讀(du)理解、文(wen)本(ben)分類、語義相似度(du)計算等60多項任(ren)務上(shang)取得最好效果,并在(zai)30余項小(xiao)樣本(ben)和零樣本(ben)任(ren)務上(shang)刷新基準。
“這(zhe)說(shuo)明模(mo)型本(ben)身(shen)的效果(guo)足夠好(hao)。”吳甜分析稱,“我們(men)看(kan)到那60多(duo)個任(ren)務是(shi)各(ge)種各(ge)樣的不(bu)同任(ren)務,體現出模(mo)型具備較好(hao)的通用性。同時(shi)在30多(duo)項小樣本(ben)、零樣本(ben)學(xue)習上,模(mo)型也取得了更好(hao)效果(guo),意味著(zhu)它的泛化能力(li)更強,在看(kan)到不(bu)同場(chang)景和任(ren)務的時(shi)候(hou)可以通過(guo)少量數據標記就能實現良(liang)好(hao)效果(guo)。”
需要(yao)注(zhu)意(yi)的是,早在今年1月(yue),谷(gu)歌便發布了全(quan)球(qiu)首(shou)個萬億級模型(xing)Switch Transformer,參(can)數規(gui)模達(da)(da)到1.6萬億。11月(yue),阿里(li)巴巴達(da)(da)摩院公(gong)布的多模態大模型(xing)M6的參(can)數規(gui)模更是躍升至10萬億級別,成為全(quan)球(qiu)最大的AI預(yu)訓(xun)練模型(xing)。
相較之下,鵬城(cheng)-百(bai)度·文心知(zhi)識增強大模(mo)型的參(can)數規模(mo)僅(jin)2600億(yi),如何看待這(zhe)樣(yang)的規模(mo)量級(ji)?
吳甜解釋稱,當(dang)前AI預訓練大模(mo)型(xing)(xing)(xing)分為“單體(ti)模(mo)型(xing)(xing)(xing)”和“混合專家模(mo)型(xing)(xing)(xing)”兩(liang)類。所謂單體(ti)模(mo)型(xing)(xing)(xing)也是稠(chou)密模(mo)型(xing)(xing)(xing),具(ju)備(bei)稠(chou)密參數(shu),將所有數(shu)據中習得的規律都(dou)記錄在一張網絡內,使用時網絡上(shang)的任何點(dian)位都(dou)會(hui)被計算到,鵬城-百度·文心(xin)知識增強大模(mo)型(xing)(xing)(xing)正屬(shu)于此類。
“混合專(zhuan)家模(mo)型”則是稀(xi)疏模(mo)型,是由(you)多個不同網(wang)絡(luo)通過門控機制集成在(zai)一(yi)起,在(zai)單次(ci)計算中可能只(zhi)會使用部(bu)分子網(wang)絡(luo)的(de)參數。目前,兩類大模(mo)型也(ye)代表了不同的(de)AI預訓練的(de)技術方向。
“目(mu)前來(lai)說,我們能看到最(zui)大發布的(de)單(dan)體(ti)模型(xing)是千(qian)億量級的(de),市面上的(de)萬億、十(shi)萬億等都是混合(he)專家模型(xing)。”吳甜表示(shi),“到現在還沒(mei)有公(gong)開(kai)研究表明,萬億乃(nai)至十(shi)萬億的(de)混合(he)專家模型(xing)效果(guo)能夠(gou)媲美千(qian)億的(de)單(dan)體(ti)模型(xing),這個問(wen)題本身(shen)還值得進一步繼續研究。”
降低AI應用門檻
大模型近年來受到(dao)追捧(peng),并非沒(mei)有原因。
本輪的(de)第三次人工(gong)智能(neng)浪潮中,伴隨(sui)著高(gao)性能(neng)計算機、因特網、大數(shu)據(ju)、傳感器的(de)普及(ji),以(yi)及(ji)計算成本的(de)下降,“機器學(xue)習”隨(sui)之興起。所謂機器學(xue)習(Machine leaning),是(shi)指(zhi)讓(rang)計算機大量(liang)學(xue)習數(shu)據(ju),使它可以(yi)像(xiang)人類一(yi)樣辨識(shi)聲音及(ji)影(ying)像(xiang),或是(shi)針對問(wen)題做出合適的(de)判(pan)斷(duan)。
其(qi)中,最受關注的(de)(de)(de)莫過于深度學習,亦即(ji)透過模仿人腦的(de)(de)(de)“類神經(jing)網絡”(Neural network)來(lai)學習大(da)(da)量(liang)數(shu)據的(de)(de)(de)手法(fa)。深度學習的(de)(de)(de)演進與發展則源自大(da)(da)數(shu)據、大(da)(da)算(suan)力、大(da)(da)模型三大(da)(da)支(zhi)撐。
在吳甜看來,從(cong)某種程度而言,這三大支撐要(yao)素也構成(cheng)了(le)(le)深(shen)度學習及人工(gong)智能技術(shu)的(de)(de)瓶頸所在,包括大量的(de)(de)數據標注(zhu)背后(hou)高昂的(de)(de)成(cheng)本(ben)、數據標注(zhu)本(ben)身的(de)(de)天(tian)花板等都是(shi)難(nan)題所在。與之相(xiang)對應的(de)(de),預訓練技術(shu)則解決了(le)(le)讓(rang)算法在海量無標記(ji)數據中進行自(zi)監督學習,從(cong)而帶(dai)來技術(shu)上的(de)(de)突破與變化。
“隨(sui)著預(yu)訓練技術的(de)突破,幾乎可以(yi)認為所有(you)任務(wu)現(xian)在(zai)都(dou)是基(ji)于預(yu)訓練機制實(shi)現(xian)全面的(de)效果提升。”吳甜解釋稱,“而通過(guo)大(da)算力平臺支撐,實(shi)現(xian)時間、模型體積、參數(shu)規模的(de)增長,進而便形成(cheng)當前(qian)一系(xi)列大(da)模型的(de)誕生(sheng)。”
從這(zhe)個角度而(er)言(yan),預(yu)訓練大(da)模型具備相當的價值。“大(da)模型對于產業(ye)而(er)言(yan),其意義在于降低(di)了AI應用門檻。”吳甜表(biao)示。
在(zai)(zai)吳甜看來,目前行業(ye)(ye)內的AI技術應(ying)用存在(zai)(zai)兩大(da)(da)困難(nan)。首先(xian)在(zai)(zai)于(yu)數據標注(zhu)非(fei)常(chang)昂貴,甚(shen)至在(zai)(zai)特定場景內無(wu)法完(wan)成(cheng)大(da)(da)批(pi)量批(pi)注(zhu),另一方(fang)面(mian)在(zai)(zai)行業(ye)(ye)應(ying)用中,行業(ye)(ye)自身的知識積累至關重要(yao)。預訓練大(da)(da)模型的推出,則能夠在(zai)(zai)不具備大(da)(da)量數據標注(zhu)的同時(shi)保證了技術基礎底座,疊(die)加行業(ye)(ye)“基本功”便能夠實現AI技術的快速(su)落地。
據介紹,目前百度(du)文心通(tong)過百度(du)飛槳平臺陸(lu)續(xu)對外開源(yuan)開放,并已(yi)大(da)規(gui)模應用于百度(du)搜(sou)索、信息流、智能音箱等(deng)互(hu)聯網(wang)產(chan)品,同(tong)時通(tong)過百度(du)智能云賦能工業(ye)、能源(yuan)、金融、通(tong)信、媒體、教育等(deng)各(ge)行各(ge)業(ye)。

