21世紀經濟報道記者 周瀟梟 北京報道 政府工(gong)(gong)作報(bao)告指出,制定支持數字經(jing)濟(ji)高質量發展(zhan)政策,積極推進數字產(chan)業化、產(chan)業數字化,促進數字技術和實體(ti)經(jing)濟(ji)深度融合(he)。深化大(da)數據(ju)、人工(gong)(gong)智能等研發應用,開展(zhan)“人工(gong)(gong)智能+”行動(dong),打(da)造具有(you)國際競爭力的數字產(chan)業集群。
全國政協委(wei)員、中(zhong)國科學(xue)院(yuan)院(yuan)士、北京大(da)學(xue)講席教(jiao)授陳松蹊今年兩會帶來的提(ti)案跟“數(shu)(shu)字中(zhong)國”建設(she)相關,他建議加強數(shu)(shu)據(ju)分析人才培養(yang)、推(tui)進(jin)公共數(shu)(shu)據(ju)開放,這樣中(zhong)國才能(neng)(neng)在全球數(shu)(shu)據(ju)賦能(neng)(neng)競(jing)賽中(zhong)成為“領跑者”,才能(neng)(neng)更好(hao)地推(tui)動實現科技自立自強。
近日,21世紀(ji)經濟(ji)報道記者帶(dai)著相關(guan)問題專訪了陳(chen)松蹊(xi)。陳(chen)松蹊(xi)表示,中(zhong)國發(fa)展人工智能(neng)要走(zou)自(zi)己的路(lu),可以把(ba)深度學習和統計學結合起來,走(zou)一條更(geng)效能(neng)更(geng)綠色(se)的發(fa)展之路(lu)。

(全國政協委員、中國科學院院士、北京大學講席教授陳松蹊,采訪者供圖)
數據驅動經濟騰飛有經典案例
《21世紀》:今年兩會你帶來的提案,有一份是關于加強數據分析人才培養。在推進人工智能發展過程中,數據起到什么作用?數據分析起到什么作用?
陳松蹊:人工(gong)智(zhi)能的(de)算法是基于(yu)(yu)數(shu)(shu)據,基于(yu)(yu)高質(zhi)量(liang)數(shu)(shu)據。人工(gong)智(zhi)能的(de)基礎(chu),一(yi)個是計(ji)(ji)算機,一(yi)個是統(tong)計(ji)(ji)學。像(xiang)人工(gong)智(zhi)能大模(mo)型,就是基于(yu)(yu)大量(liang)的(de)、無序(xu)的(de)、有偏差的(de)數(shu)(shu)據,應用統(tong)計(ji)(ji)思想、統(tong)計(ji)(ji)分析(xi)方法,構建(jian)的(de)分析(xi)決(jue)策模(mo)型。
近些年,人力資源部發布的數據顯示,我國數據分析人才非常欠缺。大量數據要真正實現“賦能”,需要經過數據分析,因為數據存在隨機性、誤差等特征。只有通過分析數據才知道其質量、價值、是否可以賦能;只有經過統計分析才能真正用于決策。
統計學(xue)是一門基礎學(xue)科,各(ge)個學(xue)科的實證分析(xi),都需(xu)要用到(dao)統計學(xue)。統計學(xue)科數據賦能的歷(li)史(shi)已有(you)150年,在農業、工業、生物制藥、醫學(xue)、金融等領(ling)域(yu)都有(you)廣(guang)泛(fan)的應(ying)用。
像日本經濟實現騰飛很關鍵的一環在于1950年代開始使用統計學的質量控制,在數據分析的基礎上提升了工業產品質量,是數據驅動經濟騰飛的經典案例。藥(yao)物臨床試驗(yan)要做的(de)(de)實(shi)證(zheng)(zheng)分析(xi)(xi),是通過實(shi)驗(yan)組和對(dui)照組來(lai)對(dui)比驗(yan)證(zheng)(zheng)藥(yao)物是否有效,這里(li)面數據的(de)(de)采集分析(xi)(xi)需要用(yong)到統(tong)計學方(fang)法(fa)。美國幾個(ge)大的(de)(de)藥(yao)廠(chang)都雇(gu)傭600名統(tong)計博士。另(ling)外一個(ge)數據賦能的(de)(de)成功案例是信用(yong)卡(ka)公司(si),信用(yong)卡(ka)個(ge)人信用(yong)風險(xian)評估,就是基(ji)于大量個(ge)人數據,應用(yong)統(tong)計學方(fang)法(fa)建(jian)模分析(xi)(xi)對(dui)不同(tong)客戶(hu)進(jin)(jin)行風險(xian)打分。近年(nian)來(lai),部分統(tong)計學畢(bi)業(ye)生進(jin)(jin)入互(hu)聯網公司(si),跟算法(fa)工(gong)程(cheng)師一起完(wan)善算法(fa)。
我們團隊之前監測大(da)(da)氣(qi)污染(ran)的治(zhi)理(li)效(xiao)(xiao)(xiao)果(guo)(guo),就在考慮統(tong)計團隊可(ke)以貢獻什么。因為此前評(ping)估空氣(qi)污染(ran)治(zhi)理(li)效(xiao)(xiao)(xiao)果(guo)(guo),主(zhu)要(yao)基于(yu)觀測到的大(da)(da)氣(qi)污染(ran)平均濃度,但是大(da)(da)氣(qi)污染(ran)受(shou)到排放、氣(qi)象(xiang)(xiang)條(tiao)件等多因素(su)影響(xiang)。我們應用統(tong)計學方(fang)法剔(ti)除(chu)掉氣(qi)象(xiang)(xiang)因素(su),排除(chu)掉“天幫忙”的情形,基于(yu)排放來監測大(da)(da)氣(qi)狀況,來評(ping)估地(di)方(fang)大(da)(da)氣(qi)治(zhi)理(li)的效(xiao)(xiao)(xiao)果(guo)(guo),這(zhe)樣的評(ping)估會更加(jia)公平有效(xiao)(xiao)(xiao)。
加強統計分析來挖掘數據生產力
《21世紀》:我國大數據產業發展多年,但很多大數據公司似乎難以盈利,在你看來背后的原因是什么?
陳松蹊:我國(guo)大數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)產業發展(zhan)有十多(duo)年了,此(ci)前很多(duo)公司側重在(zai)(zai)賣硬(ying)件(jian),在(zai)(zai)顯示(shi)、存儲、算(suan)力等方面投入(ru)較(jiao)多(duo),但是(shi)(shi)在(zai)(zai)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)分析(xi)這塊還比較(jiao)欠缺。要真正(zheng)實(shi)現(xian)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)賦能(neng)(neng),不能(neng)(neng)只(zhi)是(shi)(shi)配備硬(ying)件(jian),需要在(zai)(zai)某個領(ling)域里深耕,真正(zheng)利用數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)分析(xi)實(shi)現(xian)科學(xue)決策,這樣才能(neng)(neng)真正(zheng)盈利。現(xian)在(zai)(zai)要補齊(qi)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)分析(xi)能(neng)(neng)力,基于行業特點通過(guo)數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)分析(xi),才能(neng)(neng)判斷數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)的(de)質量和(he)價(jia)值,才能(neng)(neng)摸索出數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)賦能(neng)(neng)的(de)路徑,才能(neng)(neng)釋放數(shu)(shu)(shu)(shu)(shu)據(ju)(ju)(ju)(ju)的(de)生產力。
數據賦能現在有兩條路,一條是自上而下,一條是自下而上。“自上而下”就是大模型的應用,使用通用模型來解決問題。但是,大模型耗電量很大,需要使用很多超算,訓練模式也比較復雜,通用大模型下沉到具體企業還有很長的路要走。對于(yu)企(qi)業(ye)(ye)而(er)言,其實更(geng)適合“自(zi)下而(er)上”,就是企(qi)業(ye)(ye)把自(zi)己產(chan)生的數據先分析利(li)用起(qi)來,在此(ci)基(ji)礎上解決(jue)企(qi)業(ye)(ye)、行業(ye)(ye)現實的問題(ti)。數據賦能是一個(ge)長期事業,需(xu)要企業有自己的(de)數據分析師,而(er)不是只是找短(duan)期咨(zi)詢(xun)師,咨(zi)詢(xun)完后就(jiu)走人。
數(shu)(shu)據(ju)(ju)是(shi)國家(jia)或企業的戰略資源,但(dan)是(shi)數(shu)(shu)據(ju)(ju)本(ben)身不會自動賦能(neng),要通過數(shu)(shu)據(ju)(ju)分(fen)析(xi)才能(neng)實現。通過數(shu)(shu)據(ju)(ju)分(fen)析(xi)挖掘數(shu)(shu)據(ju)(ju)生產力(li),是(shi)數(shu)(shu)字中國建設(she)的一個關鍵。
統計分析讓人工智能更高效更綠色
《21世紀》:去年美國的ChatGPT,今年開年的Sora,都讓大家驚訝于人工智能的發展。中國的人工智能應該朝著什么方向努力?
陳松蹊:中國需要走出自己的路,不然總是跟在別人后面。現在大模型主要靠算力,也消耗很多能源,中國可以考慮是否能讓人工智能變得更綠色,比如把深度學習和統計分析結合起來,在前端做更多聰明的事情,減少一些蠻力投入,這(zhe)樣(yang)對能源的消耗不會那(nei)么大(da),讓人工(gong)智能的發展路徑更(geng)加綠(lv)色高效。
公共數據開放需建立規范機制
《21世紀》:你今年還有一份提案,建議“加強公共數據共享,推動科技數據自立自強”。公共數據的開放,現在是否變得更迫切?在推動公共數據開放共享方面,有何建議?
陳松蹊:數據(ju)(ju)是(shi)最新的(de)生產要(yao)素(su),新質生產力(li)的(de)發(fa)展往(wang)往(wang)需(xu)要(yao)數據(ju)(ju)驅動。要(yao)想(xiang)(xiang)數據(ju)(ju)賦能,要(yao)想(xiang)(xiang)彎道超車,需(xu)要(yao)有(you)頂層(ceng)設計,需(xu)要(yao)在數據(ju)(ju)標準(zhun)、交(jiao)易制度(du)、數據(ju)(ju)開(kai)放等方面做更(geng)多工(gong)作。2023年(nian)專門成(cheng)立國(guo)家數據(ju)(ju)局,就是(shi)為了(le)更(geng)好推(tui)動相關基礎(chu)工(gong)作。
科學(xue)家和企業對(dui)公(gong)共數(shu)(shu)據(ju)(ju)(ju)都有需求。比如,智慧農業對(dui)氣象、地表、土(tu)壤(rang)等數(shu)(shu)據(ju)(ju)(ju)都有需求。科學(xue)家們需要(yao)穩定的(de)數(shu)(shu)據(ju)(ju)(ju)來源(yuan),因為(wei)做(zuo)科研發表時所用數(shu)(shu)據(ju)(ju)(ju)其(qi)他人也要(yao)可以獲(huo)取,用于重復驗證(zheng),因此(ci)公(gong)共數(shu)(shu)據(ju)(ju)(ju)對(dui)外(wai)公(gong)開的(de)標準(zhun)和格式都應(ying)該(gai)有規范,不要(yao)隨意更改。
要推動實現高水平科技自立自強,首先需要提高公共數據的開放度。中國科學家可以基于中國海量數據,構建高質量的數據集,進而推動相關研究、人工智能往前發展。
因為國(guo)(guo)內公(gong)(gong)共(gong)數(shu)(shu)據(ju)(ju)獲取存在(zai)困(kun)難,我國(guo)(guo)科(ke)(ke)(ke)學(xue)(xue)家大量使用國(guo)(guo)外的(de)公(gong)(gong)共(gong)數(shu)(shu)據(ju)(ju)進行科(ke)(ke)(ke)學(xue)(xue)研(yan)究。比如英(ying)國(guo)(guo)生(sheng)物銀行基于(yu)30萬大樣本人群的(de)遺傳、生(sheng)活環境(jing)和健(jian)康數(shu)(shu)據(ju)(ju),是腦科(ke)(ke)(ke)學(xue)(xue)、生(sheng)物統計、人口遺傳等學(xue)(xue)科(ke)(ke)(ke)研(yan)究常用的(de)數(shu)(shu)據(ju)(ju)來源(yuan)。華為的(de)盤古(gu)氣象(xiang)大模(mo)型,是基于(yu)歐洲(zhou)氣象(xiang)中心的(de)數(shu)(shu)據(ju)(ju),構建了再分(fen)析數(shu)(shu)據(ju)(ju)集(ji),進而訓練成功(gong)的(de)。世界衛(wei)生(sheng)組織發布的(de)各國(guo)(guo)流行病(bing)數(shu)(shu)據(ju)(ju),也是開展相(xiang)關(guan)研(yan)究的(de)重(zhong)要公(gong)(gong)共(gong)數(shu)(shu)據(ju)(ju)來源(yuan)。
在公共數(shu)(shu)據(ju)(ju)開放方面,政(zheng)府(fu)可(ke)(ke)以(yi)帶個頭。那些(xie)不(bu)涉及(ji)國(guo)家安(an)全的數(shu)(shu)據(ju)(ju),諸(zhu)如經濟、地球(qiu)科學、交通、氣象等數(shu)(shu)據(ju)(ju),應該(gai)盡可(ke)(ke)能多(duo)地公開共享。建(jian)議建(jian)立(li)一套公共數(shu)(shu)據(ju)(ju)公開透(tou)明(ming)的機(ji)制,明(ming)確哪些(xie)可(ke)(ke)以(yi)對外公開,哪些(xie)做了風險評估(gu)后公開,哪些(xie)需要簽(qian)訂保密(mi)協議等。當然,搜集采集數(shu)(shu)據(ju)(ju)是(shi)有(you)成本(ben),有(you)些(xie)數(shu)(shu)據(ju)(ju)的獲取可(ke)(ke)以(yi)收費。

