亚洲香蕉成人av网站在线观看,欧美又粗又长又爽做受,亚洲一码和欧洲二码的尺码区别,亚洲日韩一区二区,日韩AV无码精品一二三区

21調查丨“玄學”、誤判和偏見:高校檢測AI論文背后

2024年02月27日 13:04   21世紀經濟報道 21財經APP   肖瀟

21世紀經濟報道見習記者肖瀟 北京報道

AI中風險,疑似用ChatGPT生成(cheng)——這是去年(nian)四月(yue),學校查重(zhong)系統(tong)對王宇(yu)畢業論文的判定。王宇(yu)一(yi)下慌了(le)。

當時ChatGPT驚艷亮相不到半年,教育界一度擔心學生有了“作弊神器”。在這一背景下,知名學術查重軟件Turnitin率先推出了AI文本檢測器,用來識別論文中的AI生成內容。國內的格子達、知網兩大查重系統也先后上線了AIGC檢測功能,王宇就是第一屆被檢測畢業論文AI率的學生。

隨著生成式AI快速迭代,規則和技術漸漸填上監管真空期。去年8月提交審議的《學位法》(草案)擬定,人工智能代寫屬于學術不端行為,嚴重者可被撤銷學位證書。今年1月,Turnitin的AI文本檢測成為正式功能,開始像查重服務一樣向高校收取費用,一定程度上意味著AI論文檢測步入正軌。

但(dan)這沒有阻擋學(xue)生(sheng)的(de)(de)(de)使(shi)用(yong),高(gao)校(xiao)學(xue)生(sheng)依然是生(sheng)成(cheng)式(shi)AI的(de)(de)(de)主要用(yong)戶(hu)群。“直接把題目扔(reng)給AI讓(rang)它寫一整篇論文(wen)(wen),老師肯定一眼就(jiu)能看出來,我(wo)身(shen)邊已經沒什么人這么做(zuo)了。”劉晨(chen)曦(xi)告訴21世紀經濟(ji)報道記者,她的(de)(de)(de)用(yong)法是讓(rang)ChatGPT總結文(wen)(wen)獻、降重(zhong)、潤色,這也是許多學(xue)生(sheng)現在的(de)(de)(de)使(shi)用(yong)方式(shi)。

不過,劉晨曦的論文還是被標記了25%的AI率,任(ren)課老師要求重寫(xie)。王宇在寫(xie)畢業(ye)論文的過程中沒有(you)用到生成式AI,她曾經(jing)自己嘗試找出有(you)“AI風格(ge)”的句子,改(gai)(gai)了兩輪(lun)后,“AI率越改(gai)(gai)越高。”

AI參與的(de)論文能不(bu)能被準(zhun)確檢測(ce)?有沒(mei)有必要檢測(ce)?AI論文的(de)監管難(nan)題,正在困擾全(quan)球(qiu)教育系統。

查重率低了,AI率高了

王(wang)宇(yu)(yu)去(qu)年畢(bi)(bi)業(ye)于湖(hu)南(nan)一所大學(xue)的(de)商科(ke)專(zhuan)業(ye)。一開始看到自(zi)己的(de)本(ben)科(ke)畢(bi)(bi)業(ye)論文被標記為“AI中風險”,王(wang)宇(yu)(yu)還不知道(dao)問題出(chu)在哪里,因為她沒(mei)用過(guo)ChatGPT這樣的(de)工具寫(xie)作。直到老師(shi)將教師(shi)版本(ben)的(de)AI檢測(ce)報告發過(guo)來,王(wang)宇(yu)(yu)才明(ming)白(bai),那(nei)些AI疑似度高的(de)段(duan)落,大多是被自(zi)己“降重”過(guo)的(de)。

“降重”指降低重復率。此前在學生中流行的一種降重方法是,用翻譯軟件多次轉換語言,把他人的話快速“轉述”為自己的觀點。王宇用的(de)就是這種辦(ban)法,她把一段話先從中文(wen)翻譯成英(ying)文(wen),再將(jiang)英(ying)語(yu)譯成日文(wen),最后(hou)譯回中文(wen),以此更換(huan)詞(ci)語(yu)和語(yu)序,降低與原文(wen)的(de)相似度。

不過(guo)辦法這一次失靈了(le)。“查重率(lv)是低了(le)很多,但被認為是AI寫的。”

王宇學(xue)校(xiao)使(shi)用的是格子達查重(zhong)系統,去年四月開始運行(xing)“類AI輔寫行(xing)為(wei)檢測”功(gong)能(neng)。在王宇的個人(ren)提交(jiao)界面(mian),論文被(bei)評級為(wei)AI中(zhong)風(feng)險(xian)。在王宇老師(shi)的界面(mian),可以更(geng)清晰地(di)查看(kan)可疑(yi)文本,每一句的AI疑(yi)似度分高、中(zhong)、低三(san)檔,輔寫工具(ju)均(jun)判定為(wei)ChatGPT。 

除了格子達和知網,AI檢測工具尚未在國內高校全面鋪開。相比之下,Turnitin查重系統在海外應用更廣,檢測也更細致。劉晨(chen)曦在加(jia)拿大上(shang)學,去年十二月,她的一篇論文(wen)在Turnitin中顯(xian)示AI率25%——意思是(shi)25%的文(wen)本疑似由(you)AI生成。老師因此讓她重寫,并且無(wu)論如何都要扣除25%的分數。

這篇論(lun)文(wen)是(shi)劉(liu)晨曦英語文(wen)學(xue)(xue)課的結課作(zuo)業,主(zhu)題是(shi)比較(jiao)兩(liang)部文(wen)學(xue)(xue)作(zuo)品。寫(xie)(xie)論(lun)文(wen)時,她先(xian)跟ChatGPT最(zui)新的GPT-4大模(mo)型討論(lun)寫(xie)(xie)作(zuo)方向,得到了(le)比較(jiao)兩(liang)位俄國女詩(shi)人的靈感。接著(zhu)讓GPT-4查找文(wen)獻,自己(ji)寫(xie)(xie)出(chu)大綱和(he)草(cao)稿。最(zui)后再讓GPT-4降重、潤色。最(zui)終論(lun)文(wen)里有(you)多少屬于(yu)AI,多少屬于(yu)自己(ji),她很(hen)難(nan)區分清楚。

劉晨曦說(shuo),GPT-4直(zhi)接輸出論文(wen)(wen)仍然(ran)很生硬,編(bian)造文(wen)(wen)獻(xian)不(bu)少,“還不(bu)如自己寫(xie)”。但比起傳統(tong)的降重方(fang)法,ChatGPT的優勢是可以(yi)精準“調教”,比如改寫(xie)特定的句子,或者(zhe)解釋復(fu)雜概念(nian)。在(zai)找文(wen)(wen)獻(xian)上也更(geng)快捷,原(yuan)本需要檢索兩到三(san)天的文(wen)(wen)獻(xian),GPT-4幾個小(xiao)時就能整理完畢。

根據Nerdynav的調查,43%的大學生用過生成式AI完成作業。英國媒體The Lab統計發現,羅素大學集團下的八所大學,對ChatGPT的訪問量在兩個月內高達100萬。其中12月和1月是校園網絡訪問ChatGPT的高峰期,正是考試集中月。多位受訪學生告訴記者,AI一鍵生成的論文意義不大,基本達不到學校要求。學生現在的主要用法是總結文獻、降重、潤色語言,本質還是他們曾經抄過的一條“捷徑”。

劃下(xia)AI率紅線后,這條“捷徑”走不通(tong)了。從去年夏天起,小到隨堂感想,大到結課論文,劉晨曦的學校都(dou)要求AI率為0%。

王宇學(xue)校規定,畢業論(lun)文(wen)必須為(wei)AI低(di)風險。她把被(bei)標記為(wei)AI的句子用自己的“大(da)白話”重新描述,在修改了6個(ge)版本后,論(lun)文(wen)終于變為(wei)AI低(di)風險。“這是個(ge)玄(xuan)學(xue)。”王宇形(xing)容。

上世紀論文也被判定為(wei)AI

多所(suo)高校都(dou)發布(bu)過AI論(lun)文禁令。最早開始的(de)是(shi)美(mei)國(guo)紐約教育局,其限制在學(xue)(xue)校Wi-Fi網絡環境中(zhong)訪問(wen)ChatGPT。英國(guo)大(da)學(xue)(xue)尤其注重學(xue)(xue)術誠(cheng)信(xin)(xin),牛津、劍橋、帝國(guo)理工(gong)等(deng)28所(suo)英國(guo)大(da)學(xue)(xue)都(dou)曾(ceng)宣(xuan)布(bu),在論(lun)文和課(ke)程(cheng)作業中(zhong)不(bu)當使(shi)用(yong)AI,將被視為違反學(xue)(xue)術誠(cheng)信(xin)(xin)的(de)行為,嚴重者可能被開除學(xue)(xue)籍(ji)。香港大(da)學(xue)(xue)也表示,學(xue)(xue)生在課(ke)程(cheng)作業中(zhong)使(shi)用(yong)AI需要(yao)老師批準,否則(ze)可以按作弊處理。

AI檢測(ce)(ce)技術(shu)的影(ying)響是立(li)竿見影(ying)的。Tunitin上(shang)線(xian)AI檢測(ce)(ce)器的一個(ge)(ge)月內,全球有超(chao)過一萬(wan)所中高等教育機(ji)構(gou)激活了這(zhe)款工具(ju)。除(chu)了Turnitin,市面上(shang)還流行GPT Zero、 Copyleak等AI檢測(ce)(ce)工具(ju),大多向個(ge)(ge)人免費開(kai)放。

一留學中介在社交媒體上分享,2023年在英國留學生中,AI代寫論文的學術聽證會數量,已經超過人工代寫。“AI檢測率高是很石錘的學術不端。”

但AI檢測(ce)器準確(que)嗎(ma)?石(shi)白(bai)在美(mei)國加州大(da)學(xue)系統下的(de)(de)一所大(da)學(xue)擔任助教,她(ta)(ta)告訴記(ji)者,如(ru)果論文(wen)全篇用AI生成,有(you)經(jing)驗的(de)(de)助教一眼就能看(kan)出來(lai)。去年秋季學(xue)期,她(ta)(ta)的(de)(de)課上就有(you)兩篇論文(wen)屬于這種情(qing)況。“用詞華麗(li)空(kong)洞,而且引用的(de)(de)文(wen)獻基本不(bu)存(cun)在。”石(shi)白(bai)搜索了一款AI檢測(ce)工具,99%的(de)(de)檢測(ce)結果幫她(ta)(ta)肯定了自己的(de)(de)猜測(ce)。

被懷疑有(you)(you)AI參與的(de)論(lun)文還(huan)有(you)(you)三到(dao)四(si)篇,AI率在30%~40%之(zhi)間,但石白沒有(you)(you)追(zhui)究。一(yi)個原因(yin)是,她熟悉其中一(yi)位(wei)學生(sheng)的(de)寫作風格,其寫法一(yi)直(zhi)比較(jiao)華麗;另一(yi)方面,有(you)(you)其他助教(jiao)曾(ceng)經檢測(ce)了自己的(de)原創(chuang)論(lun)文,AI率也有(you)(you)30%~40%,這讓石白覺得(de)AI檢測(ce)工具(ju)還(huan)不夠可靠。

劉晨曦用(yong)五篇AI參(can)與程度不同的(de)論(lun)文(wen),測(ce)試(shi)了市面上的(de)主流AI檢測(ce)工(gong)具,得出(chu)的(de)結(jie)論(lun)是(shi):除非完全(quan)不用(yong)任(ren)何工(gong)具,否則都有AI含量。比如,去年十二月,她讓GPT-4潤色(se)了知名哲學家朱迪斯·巴特勒、斯拉(la)沃(wo)熱·齊澤克的(de)兩篇論(lun)文(wen),前者(zhe)(zhe)在Turnitin檢測(ce)出(chu)的(de)AI率為(wei)51%,后者(zhe)(zhe)為(wei)34%。

“而且巴特勒本人就喜歡用生僻詞語、長難句寫作,哪怕直接提交她在上個世紀發表的論文,也顯示有AI內容。”劉晨曦補充道。

盡管許多AI檢測工具聲稱誤判率在1%之內,但在使用過程中,誤判概率似乎遠高于官方數字。最大的誤判區是語法工具、翻譯軟件和潤色功能,一些固定的個人寫作風格也可能被誤傷。

對于(yu)可能出現的(de)誤判,Turnitin的(de)解(jie)釋是(shi):“AI檢測(ce)器(qi)會識別書寫(xie)過于(yu)一致(zhi)、平均的(de)模式,而許多(duo)人的(de)寫(xie)作水平可能就(jiu)屬于(yu)平均模式。” 這也是(shi)市面上大部(bu)分AI檢測(ce)器(qi)的(de)說法。

簡單來說,人類往往會綜合使用長短句,而AI 的句子更單調。此外,人類的文本通常還有復雜的轉折、非典型的邏輯結構,讓AI無法準確工具測下一個詞語。這兩個影響因子決定了,一些遵循“寫作模板”的論文,可能被誤認為是AI作品。至于這些模板究竟是什么,具體如何運作,幾乎沒有AI檢測器能夠提供解釋。就像AI一樣,目前AI檢測的技術原理也處于黑箱之中。

考慮到存在誤差(cha),許(xu)多(duo)AI檢測工具都發布了“免責聲明”。比(bi)如Turnitin建議,不把AI率(lv)當作唯(wei)一標準(zhun),希望老師綜合專業經驗(yan)以及對學生的了解做判斷。 

使用界限模糊

北京大學教育學院學習(xi)科學實驗(yan)室(shi)執行主(zhu)任尚俊杰(jie)在采(cai)訪(fang)中告訴21記者,目前AI檢測器的意義,主(zhu)要是監督明顯的學術不端行為(wei),比如直接用AI生成全文。

還有一種情況是,AI靈活應用在整個研究和寫作過程中。此時的核心問題在于,哪些行為算學術不端,哪些行為算合理使用?簡單用數字高低判斷并不科學,劃分界限是個難題。

論文(wen)(wen)被檢(jian)測出(chu)25%的(de)AI率、判定(ding)為抄襲后(hou),劉(liu)晨曦(xi)將(jiang)每一(yi)階段(duan)的(de)草稿、文(wen)(wen)獻整(zheng)理(li)筆(bi)記、瀏(liu)覽器搜索(suo)歷史(shi)發給老(lao)師(shi),證(zheng)明(ming)論文(wen)(wen)是自己(ji)的(de)原(yuan)創作(zuo)品(pin),成功爭(zheng)取到了(le)老(lao)師(shi)的(de)認同(tong)。不過,申訴(su)中介讓她不要(yao)跟(gen)老(lao)師(shi)提到ChatGPT,于是她謊稱用的(de)是另一(yi)款老(lao)牌寫作(zuo)工具Grammarly。

Grammarly是(shi)上(shang)一波人工智能(neng)浪潮的(de)(de)(de)產物,主要用來糾正語(yu)病、潤色(se)語(yu)句,不(bu)少歐美大(da)學的(de)(de)(de)寫作(zuo)指導中心甚(shen)至會鼓(gu)勵學生(sheng)先(xian)用Grammarly批改作(zuo)業(ye)。“嚴格意義上(shang),用輔助工具都算作(zuo)弊。但老師比較能(neng)理解這(zhe)些軟件(jian)的(de)(de)(de)作(zuo)用,所以我只能(neng)這(zhe)么說。”劉晨曦解釋。

既是(shi)在讀(du)博士(shi),又(you)為(wei)大一(yi)(yi)、大二學生(sheng)(sheng)授課的(de)(de)石白,一(yi)(yi)方面能理解學生(sheng)(sheng)用AI寫論(lun)文(wen),因為(wei)她(ta)也常用ChatGPT做論(lun)文(wen)的(de)(de)前期準備,比如(ru)做表格、搜文(wen)獻;另(ling)一(yi)(yi)方面,她(ta)認為(wei)本科(ke)生(sheng)(sheng)無法把(ba)握使用的(de)(de)邊界,所(suo)以才會在教學大綱中完全禁止學生(sheng)(sheng)使用AI。 

多位受訪學(xue)生提到,求助AI的(de)一(yi)個原(yuan)因是學(xue)術能力有(you)限(xian)。“本(ben)科生的(de)論(lun)文沒什么學(xue)術含金量,這(zhe)種(zhong)綜述性的(de)作業,大家(jia)都是找(zhao)幾篇(pian)論(lun)文湊(cou)一(yi)湊(cou)觀點(dian),再找(zhao)工具改一(yi)改。”王(wang)宇說,只要不涉及數據造假、文獻造假,她(ta)覺(jue)得用AI寫論(lun)文沒有(you)什么問題。 

但在石白看來,學術論文是觀察、思考、提問、論述的完整過程。一篇名為《感謝ChatGPT揭露本科論文的平庸》的文章寫道,本科論文的重點是教育,而不是知識的進步。最關鍵的是訓練和展示學生處理信息的能力,不是產出有價值的知識。“如果一直依賴ChatGPT得到結果,就不會經歷批判思維的訓練過程。而過程才是我想讓學生學習的。”石白說。 

華盛頓大學的(de)一位教授(shou)在《大西(xi)洋(yang)月刊(kan)》上表示(shi),被(bei)識別出AI內容的(de)論文可能(neng)介于完全沒用(yong)(yong)AI,工(gong)具(ju)者100%用(yong)(yong)AI之(zhi)間(jian)。學生究(jiu)竟怎么使用(yong)(yong)、用(yong)(yong)法是否錯誤,AI檢(jian)測工(gong)具(ju)無法回答(da),師生間(jian)誠實(shi)的(de)溝通變得(de)越(yue)來越(yue)重要。

教育(yu)規(gui)則的反思和變革

AI檢測器難以解決(jue)的監管難題,反映出一(yi)個更深層次的困擾:如何處理AI和(he)教育(yu)的關(guan)系?

尚俊(jun)杰告訴(su)記(ji)者,技術革新一直在影響著教育系(xi)統。上世紀的學生(sheng)需要去圖書館(guan)逐(zhu)本翻閱文(wen)獻,一遍遍用手謄寫論(lun)(lun)文(wen)。搜索引擎和電子文(wen)稿軟件(jian)普及之后,學生(sheng)可以直接在網上檢(jian)索文(wen)獻、復制粘(zhan)貼、比較分析、歸納(na)總結,大大提升了工作(zuo)效(xiao)率。可以說,計算機在整個研究(jiu)和論(lun)(lun)文(wen)寫作(zuo)過程中起到了巨大作(zuo)用,應用AI是必然趨勢。

在尚俊杰看來,AI對高等教育是一次新的提升機會,也提出了更大的挑戰。引導學生合理使用AI,需要重新思考教育系統的“游戲規則”。

石白(bai)認為,應對(dui)生(sheng)(sheng)(sheng)成式AI的(de)(de)沖擊(ji),課(ke)程設置和考核方式很重要。她觀(guan)察(cha)到(dao),學(xue)生(sheng)(sheng)(sheng)用AI寫論(lun)(lun)文(wen),往往跟論(lun)(lun)文(wen)難度有關。比如(ru)她發現有數(shu)篇AI論(lun)(lun)文(wen)的(de)(de)課(ke)程,“學(xue)生(sheng)(sheng)(sheng)才剛接觸學(xue)術寫作,老(lao)師對(dui)論(lun)(lun)文(wen)字數(shu)、文(wen)獻引用數(shu)量的(de)(de)要求又(you)很高(gao),其實超(chao)過了學(xue)生(sheng)(sheng)(sheng)的(de)(de)能(neng)力范(fan)圍。” 另一(yi)門(men)(men)課(ke)的(de)(de)論(lun)(lun)文(wen)要求相對(dui)合(he)理,而(er)且著重于學(xue)生(sheng)(sheng)(sheng)批判、思考的(de)(de)基(ji)礎(chu)能(neng)力,石白(bai)在(zai)這(zhe)門(men)(men)課(ke)上幾乎沒(mei)有發現AI代寫論(lun)(lun)文(wen)。

近幾(ji)個月(yue),包(bao)括西(xi)北大學、德克薩斯(si)大學奧(ao)斯(si)汀(ting)分校在內的幾(ji)所美(mei)國高(gao)校宣布關(guan)閉Turnitin的AI檢測服務,并(bing)放寬對AI的限(xian)制。此前澳洲(zhou)的多所大學嘗試轉變考(kao)(kao)核方(fang)式,減少標準考(kao)(kao)卷,采用(yong)更多的口(kou)頭報告、現場演示。

還有一(yi)(yi)些學(xue)(xue)校開始積極擁抱(bao)AI。今(jin)年1月,美國亞利桑那(nei)州立大學(xue)(xue)引入(ru)ChatGPT企(qi)業(ye)版,成(cheng)為第一(yi)(yi)個與OpenAI合(he)作的(de)高(gao)等教(jiao)育機構(gou)。該校校長表示:“AI將成(cheng)為幫助學(xue)(xue)生提高(gao)學(xue)(xue)習(xi)效(xiao)率,更全面(mian)地理解(jie)學(xue)(xue)科的(de)工(gong)具。此(ci)次合(he)作反映了(le)我們的(de)理念和承諾——我們要直(zhi)接(jie)參(can)與到(dao)人工(gong)智能(neng)學(xue)(xue)習(xi)技術的(de)發展(zhan)過程中。”

尚俊杰指出,在人工智能時代,學生應該做什么、學什么、怎么學,成為一個很重要的問題。“對于現在的高校學生,我們要求他們具有一定的計算機能力。在未來,什么能力是學生需要具備的?哪些能力將與AI掛鉤?” 斯坦福大學機器人及未來教育項目主任蔣里曾預測,未來學生的能力會被分成兩種:一種是單打獨斗的能力,不借助任何AI工具的幫助;另一種是AI加持下的能力,這可能是今后最為重要的能力。不同的能力要求,將重塑人才培養模式。

從更長遠的(de)(de)尺度看(kan),當AI全面參與研究過(guo)程(cheng),學(xue)術規(gui)范等諸多規(gui)則也會迎來改變。例如尚俊杰(jie)提(ti)到,在文(wen)章中如何提(ti)及AI的(de)(de)貢獻,AI能否(fou)列為(wei)論文(wen)作者,乃(nai)至如何定義(yi)學(xue)術誠信、學(xue)術剽竊,都是未來會面臨的(de)(de)問題(ti)。

“AI應用于高(gao)等教育已經(jing)是(shi)必然趨(qu)勢,需要(yao)(yao)鼓(gu)勵(li)正(zheng)確使用,而不是(shi)一刀切的禁令。人類要(yao)(yao)探索(suo)的新(xin)問題(ti)是(shi),在人工智能時代(dai)下,怎樣構建新(xin)的學術規(gui)范和倫理(li)規(gui)則(ze)。”尚俊杰說。、

(應受訪者要求,王宇、劉晨曦、石白為化名) 

關注我們