21調查丨“玄學”、誤判和偏見：高校檢測AI論文背后

2024年02月27日 13:04 21世紀經濟報道 21財經APP 肖瀟

21世紀經濟報道見習記者肖瀟北京報道

AI中風險，疑似用ChatGPT生成(cheng)——這是去年(nian)四月(yue)，學校查重(zhong)系統(tong)對王宇(yu)畢業論文的判定。王宇(yu)一(yi)下慌了(le)。

當時ChatGPT驚艷亮相不到半年，教育界一度擔心學生有了“作弊神器”。在這一背景下，知名學術查重軟件Turnitin率先推出了AI文本檢測器，用來識別論文中的AI生成內容。國內的格子達、知網兩大查重系統也先后上線了AIGC檢測功能，王宇就是第一屆被檢測畢業論文AI率的學生。

隨著生成式AI快速迭代，規則和技術漸漸填上監管真空期。去年8月提交審議的《學位法》（草案）擬定，人工智能代寫屬于學術不端行為，嚴重者可被撤銷學位證書。今年1月，Turnitin的AI文本檢測成為正式功能，開始像查重服務一樣向高校收取費用，一定程度上意味著AI論文檢測步入正軌。

但(dan)這沒有阻擋學(xue)生(sheng)的(de)(de)(de)使(shi)用(yong)，高(gao)校(xiao)學(xue)生(sheng)依然是生(sheng)成(cheng)式(shi)AI的(de)(de)(de)主要用(yong)戶(hu)群。“直接把題目扔(reng)給AI讓(rang)它寫一整篇論文(wen)(wen)，老師肯定一眼就(jiu)能看出來，我(wo)身(shen)邊已經沒什么人這么做(zuo)了。”劉晨(chen)曦(xi)告訴21世紀經濟(ji)報道記者，她的(de)(de)(de)用(yong)法是讓(rang)ChatGPT總結文(wen)(wen)獻、降重(zhong)、潤色，這也是許多學(xue)生(sheng)現在的(de)(de)(de)使(shi)用(yong)方式(shi)。

不過，劉晨曦的論文還是被標記了25%的AI率，任(ren)課老師要求重寫(xie)。王宇在寫(xie)畢業(ye)論文的過程中沒有(you)用到生成式AI，她曾經(jing)自己嘗試找出有(you)“AI風格(ge)”的句子，改(gai)(gai)了兩輪(lun)后，“AI率越改(gai)(gai)越高。”

AI參與的(de)論文能不(bu)能被準(zhun)確檢測(ce)？有沒(mei)有必要檢測(ce)？AI論文的(de)監管難(nan)題，正在困擾全(quan)球(qiu)教育系統。

查重率低了，AI率高了

王(wang)宇(yu)(yu)去(qu)年畢(bi)(bi)業(ye)于湖(hu)南(nan)一所大學(xue)的(de)商科(ke)專(zhuan)業(ye)。一開始看到自(zi)己的(de)本(ben)科(ke)畢(bi)(bi)業(ye)論文被標記為“AI中風險”，王(wang)宇(yu)(yu)還不知道(dao)問題出(chu)在哪里，因為她沒(mei)用過(guo)ChatGPT這樣的(de)工具寫(xie)作。直到老師(shi)將教師(shi)版本(ben)的(de)AI檢測(ce)報告發過(guo)來，王(wang)宇(yu)(yu)才明(ming)白(bai)，那(nei)些AI疑似度高的(de)段(duan)落，大多是被自(zi)己“降重”過(guo)的(de)。

“降重”指降低重復率。此前在學生中流行的一種降重方法是，用翻譯軟件多次轉換語言，把他人的話快速“轉述”為自己的觀點。王宇用的(de)就是這種辦(ban)法，她把一段話先從中文(wen)翻譯成英(ying)文(wen)，再將(jiang)英(ying)語(yu)譯成日文(wen)，最后(hou)譯回中文(wen)，以此更換(huan)詞(ci)語(yu)和語(yu)序，降低與原文(wen)的(de)相似度。

不過(guo)辦法這一次失靈了(le)。“查重率(lv)是低了(le)很多，但被認為是AI寫的。”

王宇學(xue)校(xiao)使(shi)用的是格子達查重(zhong)系統，去年四月開始運行(xing)“類AI輔寫行(xing)為(wei)檢測”功(gong)能(neng)。在王宇的個人(ren)提交(jiao)界面(mian)，論文被(bei)評級為(wei)AI中(zhong)風(feng)險(xian)。在王宇老師(shi)的界面(mian)，可以更(geng)清晰地(di)查看(kan)可疑(yi)文本，每一句的AI疑(yi)似度分高、中(zhong)、低三(san)檔，輔寫工具(ju)均(jun)判定為(wei)ChatGPT。

除了格子達和知網，AI檢測工具尚未在國內高校全面鋪開。相比之下，Turnitin查重系統在海外應用更廣，檢測也更細致。劉晨(chen)曦在加(jia)拿大上(shang)學，去年十二月，她的一篇論文(wen)在Turnitin中顯(xian)示AI率25%——意思是(shi)25%的文(wen)本疑似由(you)AI生成。老師因此讓她重寫，并且無(wu)論如何都要扣除25%的分數。

這篇論(lun)文(wen)是(shi)劉(liu)晨曦英語文(wen)學(xue)(xue)課的結課作(zuo)業，主(zhu)題是(shi)比較(jiao)兩(liang)部文(wen)學(xue)(xue)作(zuo)品。寫(xie)(xie)論(lun)文(wen)時，她先(xian)跟ChatGPT最(zui)新的GPT-4大模(mo)型討論(lun)寫(xie)(xie)作(zuo)方向，得到了(le)比較(jiao)兩(liang)位俄國女詩(shi)人的靈感。接著(zhu)讓GPT-4查找文(wen)獻，自己(ji)寫(xie)(xie)出(chu)大綱和(he)草(cao)稿。最(zui)后再讓GPT-4降重、潤色。最(zui)終論(lun)文(wen)里有(you)多少屬于(yu)AI，多少屬于(yu)自己(ji)，她很(hen)難(nan)區分清楚。

劉晨曦說(shuo)，GPT-4直(zhi)接輸出論文(wen)(wen)仍然(ran)很生硬，編(bian)造文(wen)(wen)獻(xian)不(bu)少，“還不(bu)如自己寫(xie)”。但比起傳統(tong)的降重方(fang)法，ChatGPT的優勢是可以(yi)精準“調教”，比如改寫(xie)特定的句子，或者(zhe)解釋復(fu)雜概念(nian)。在(zai)找文(wen)(wen)獻(xian)上也更(geng)快捷，原(yuan)本需要檢索兩到三(san)天的文(wen)(wen)獻(xian)，GPT-4幾個小(xiao)時就能整理完畢。

根據Nerdynav的調查，43%的大學生用過生成式AI完成作業。英國媒體The Lab統計發現，羅素大學集團下的八所大學，對ChatGPT的訪問量在兩個月內高達100萬。其中12月和1月是校園網絡訪問ChatGPT的高峰期，正是考試集中月。多位受訪學生告訴記者，AI一鍵生成的論文意義不大，基本達不到學校要求。學生現在的主要用法是總結文獻、降重、潤色語言，本質還是他們曾經抄過的一條“捷徑”。

劃下(xia)AI率紅線后，這條“捷徑”走不通(tong)了。從去年夏天起，小到隨堂感想，大到結課論文，劉晨曦的學校都(dou)要求AI率為0%。

王宇學(xue)校規定，畢業論(lun)文(wen)必須為(wei)AI低(di)風險。她把被(bei)標記為(wei)AI的句子用自己的“大(da)白話”重新描述，在修改了6個(ge)版本后，論(lun)文(wen)終于變為(wei)AI低(di)風險。“這是個(ge)玄(xuan)學(xue)。”王宇形(xing)容。

上世紀論文也被判定為(wei)AI

多所(suo)高校都(dou)發布(bu)過AI論(lun)文禁令。最早開始的(de)是(shi)美(mei)國(guo)紐約教育局，其限制在學(xue)(xue)校Wi-Fi網絡環境中(zhong)訪問(wen)ChatGPT。英國(guo)大(da)學(xue)(xue)尤其注重學(xue)(xue)術誠(cheng)信(xin)(xin)，牛津、劍橋、帝國(guo)理工(gong)等(deng)28所(suo)英國(guo)大(da)學(xue)(xue)都(dou)曾(ceng)宣(xuan)布(bu)，在論(lun)文和課(ke)程(cheng)作業中(zhong)不(bu)當使(shi)用(yong)AI，將被視為違反學(xue)(xue)術誠(cheng)信(xin)(xin)的(de)行為，嚴重者可能被開除學(xue)(xue)籍(ji)。香港大(da)學(xue)(xue)也表示，學(xue)(xue)生在課(ke)程(cheng)作業中(zhong)使(shi)用(yong)AI需要(yao)老師批準，否則(ze)可以按作弊處理。

AI檢測(ce)(ce)技術(shu)的影(ying)響是立(li)竿見影(ying)的。Tunitin上(shang)線(xian)AI檢測(ce)(ce)器的一個(ge)(ge)月內，全球有超(chao)過一萬(wan)所中高等教育機(ji)構(gou)激活了這(zhe)款工具(ju)。除(chu)了Turnitin，市面上(shang)還流行GPT Zero、 Copyleak等AI檢測(ce)(ce)工具(ju)，大多向個(ge)(ge)人免費開(kai)放。

一留學中介在社交媒體上分享，2023年在英國留學生中，AI代寫論文的學術聽證會數量，已經超過人工代寫。“AI檢測率高是很石錘的學術不端。”

但AI檢測(ce)器準確(que)嗎(ma)？石(shi)白(bai)在美(mei)國加州大(da)學(xue)系統下的(de)(de)一所大(da)學(xue)擔任助教，她(ta)(ta)告訴記(ji)者，如(ru)果論文(wen)全篇用AI生成，有(you)經(jing)驗的(de)(de)助教一眼就能看(kan)出來(lai)。去年秋季學(xue)期，她(ta)(ta)的(de)(de)課上就有(you)兩篇論文(wen)屬于這種情(qing)況。“用詞華麗(li)空(kong)洞，而且引用的(de)(de)文(wen)獻基本不(bu)存(cun)在。”石(shi)白(bai)搜索了一款AI檢測(ce)工具，99%的(de)(de)檢測(ce)結果幫她(ta)(ta)肯定了自己的(de)(de)猜測(ce)。

被懷疑有(you)(you)AI參與的(de)論(lun)文還(huan)有(you)(you)三到(dao)四(si)篇，AI率在30%～40%之(zhi)間，但石白沒有(you)(you)追(zhui)究。一(yi)個原因(yin)是，她熟悉其中一(yi)位(wei)學生(sheng)的(de)寫作風格，其寫法一(yi)直(zhi)比較(jiao)華麗；另一(yi)方面，有(you)(you)其他助教(jiao)曾(ceng)經檢測(ce)了自己的(de)原創(chuang)論(lun)文，AI率也有(you)(you)30%～40%，這讓石白覺得(de)AI檢測(ce)工具(ju)還(huan)不夠可靠。

劉晨曦用(yong)五篇AI參(can)與程度不同的(de)論(lun)文(wen)，測(ce)試(shi)了市面上的(de)主流AI檢測(ce)工(gong)具，得出(chu)的(de)結(jie)論(lun)是(shi)：除非完全(quan)不用(yong)任(ren)何工(gong)具，否則都有AI含量。比如，去年十二月，她讓GPT-4潤色(se)了知名哲學家朱迪斯·巴特勒、斯拉(la)沃(wo)熱·齊澤克的(de)兩篇論(lun)文(wen)，前者(zhe)(zhe)在Turnitin檢測(ce)出(chu)的(de)AI率為(wei)51%，后者(zhe)(zhe)為(wei)34%。

“而且巴特勒本人就喜歡用生僻詞語、長難句寫作，哪怕直接提交她在上個世紀發表的論文，也顯示有AI內容。”劉晨曦補充道。

盡管許多AI檢測工具聲稱誤判率在1%之內，但在使用過程中，誤判概率似乎遠高于官方數字。最大的誤判區是語法工具、翻譯軟件和潤色功能，一些固定的個人寫作風格也可能被誤傷。

對于(yu)可能出現的(de)誤判，Turnitin的(de)解(jie)釋是(shi)：“AI檢測(ce)器(qi)會識別書寫(xie)過于(yu)一致(zhi)、平均的(de)模式，而許多(duo)人的(de)寫(xie)作水平可能就(jiu)屬于(yu)平均模式。” 這也是(shi)市面上大部(bu)分AI檢測(ce)器(qi)的(de)說法。

簡單來說，人類往往會綜合使用長短句，而AI 的句子更單調。此外，人類的文本通常還有復雜的轉折、非典型的邏輯結構，讓AI無法準確工具測下一個詞語。這兩個影響因子決定了，一些遵循“寫作模板”的論文，可能被誤認為是AI作品。至于這些模板究竟是什么，具體如何運作，幾乎沒有AI檢測器能夠提供解釋。就像AI一樣，目前AI檢測的技術原理也處于黑箱之中。

考慮到存在誤差(cha)，許(xu)多(duo)AI檢測工具都發布了“免責聲明”。比(bi)如Turnitin建議，不把AI率(lv)當作唯(wei)一標準(zhun)，希望老師綜合專業經驗(yan)以及對學生的了解做判斷。

使用界限模糊

北京大學教育學院學習(xi)科學實驗(yan)室(shi)執行主(zhu)任尚俊杰(jie)在采(cai)訪(fang)中告訴21記者，目前AI檢測器的意義，主(zhu)要是監督明顯的學術不端行為(wei)，比如直接用AI生成全文。

還有一種情況是，AI靈活應用在整個研究和寫作過程中。此時的核心問題在于，哪些行為算學術不端，哪些行為算合理使用？簡單用數字高低判斷并不科學，劃分界限是個難題。

論文(wen)(wen)被檢(jian)測出(chu)25%的(de)AI率、判定(ding)為抄襲后(hou)，劉(liu)晨曦(xi)將(jiang)每一(yi)階段(duan)的(de)草稿、文(wen)(wen)獻整(zheng)理(li)筆(bi)記、瀏(liu)覽器搜索(suo)歷史(shi)發給老(lao)師(shi)，證(zheng)明(ming)論文(wen)(wen)是自己(ji)的(de)原(yuan)創作(zuo)品(pin)，成功爭(zheng)取到了(le)老(lao)師(shi)的(de)認同(tong)。不過，申訴(su)中介讓她不要(yao)跟(gen)老(lao)師(shi)提到ChatGPT，于是她謊稱用的(de)是另一(yi)款老(lao)牌寫作(zuo)工具Grammarly。

Grammarly是(shi)上(shang)一波人工智能(neng)浪潮的(de)(de)(de)產物，主要用來糾正語(yu)病、潤色(se)語(yu)句，不(bu)少歐美大(da)學的(de)(de)(de)寫作(zuo)指導中心甚(shen)至會鼓(gu)勵學生(sheng)先(xian)用Grammarly批改作(zuo)業(ye)。“嚴格意義上(shang)，用輔助工具都算作(zuo)弊。但老師比較能(neng)理解這(zhe)些軟件(jian)的(de)(de)(de)作(zuo)用，所以我只能(neng)這(zhe)么說。”劉晨曦解釋。

既是(shi)在讀(du)博士(shi)，又(you)為(wei)大一(yi)(yi)、大二學生(sheng)(sheng)授課的(de)(de)石白，一(yi)(yi)方面能理解學生(sheng)(sheng)用AI寫論(lun)文(wen)，因為(wei)她(ta)也常用ChatGPT做論(lun)文(wen)的(de)(de)前期準備，比如(ru)做表格、搜文(wen)獻；另(ling)一(yi)(yi)方面，她(ta)認為(wei)本科(ke)生(sheng)(sheng)無法把(ba)握使用的(de)(de)邊界，所(suo)以才會在教學大綱中完全禁止學生(sheng)(sheng)使用AI。

多位受訪學(xue)生提到，求助AI的(de)一(yi)個原(yuan)因是學(xue)術能力有(you)限(xian)。“本(ben)科生的(de)論(lun)文沒什么學(xue)術含金量，這(zhe)種(zhong)綜述性的(de)作業，大家(jia)都是找(zhao)幾篇(pian)論(lun)文湊(cou)一(yi)湊(cou)觀點(dian)，再找(zhao)工具改一(yi)改。”王(wang)宇說，只要不涉及數據造假、文獻造假，她(ta)覺(jue)得用AI寫論(lun)文沒有(you)什么問題。

但在石白看來，學術論文是觀察、思考、提問、論述的完整過程。一篇名為《感謝ChatGPT揭露本科論文的平庸》的文章寫道，本科論文的重點是教育，而不是知識的進步。最關鍵的是訓練和展示學生處理信息的能力，不是產出有價值的知識。“如果一直依賴ChatGPT得到結果，就不會經歷批判思維的訓練過程。而過程才是我想讓學生學習的。”石白說。

華盛頓大學的(de)一位教授(shou)在《大西(xi)洋(yang)月刊(kan)》上表示(shi)，被(bei)識別出AI內容的(de)論文可能(neng)介于完全沒用(yong)(yong)AI，工(gong)具(ju)者100%用(yong)(yong)AI之(zhi)間(jian)。學生究(jiu)竟怎么使用(yong)(yong)、用(yong)(yong)法是否錯誤，AI檢(jian)測工(gong)具(ju)無法回答(da)，師生間(jian)誠實(shi)的(de)溝通變得(de)越(yue)來越(yue)重要。

教育(yu)規(gui)則的反思和變革

AI檢測器難以解決(jue)的監管難題，反映出一(yi)個更深層次的困擾：如何處理AI和(he)教育(yu)的關(guan)系？

尚俊(jun)杰告訴(su)記(ji)者，技術革新一直在影響著教育系(xi)統。上世紀的學生(sheng)需要去圖書館(guan)逐(zhu)本翻閱文(wen)獻，一遍遍用手謄寫論(lun)(lun)文(wen)。搜索引擎和電子文(wen)稿軟件(jian)普及之后，學生(sheng)可以直接在網上檢(jian)索文(wen)獻、復制粘(zhan)貼、比較分析、歸納(na)總結，大大提升了工作(zuo)效(xiao)率。可以說，計算機在整個研究(jiu)和論(lun)(lun)文(wen)寫作(zuo)過程中起到了巨大作(zuo)用，應用AI是必然趨勢。

在尚俊杰看來，AI對高等教育是一次新的提升機會，也提出了更大的挑戰。引導學生合理使用AI，需要重新思考教育系統的“游戲規則”。

石白(bai)認為，應對(dui)生(sheng)(sheng)(sheng)成式AI的(de)(de)沖擊(ji)，課(ke)程設置和考核方式很重要。她觀(guan)察(cha)到(dao)，學(xue)生(sheng)(sheng)(sheng)用AI寫論(lun)(lun)文(wen)，往往跟論(lun)(lun)文(wen)難度有關。比如(ru)她發現有數(shu)篇AI論(lun)(lun)文(wen)的(de)(de)課(ke)程，“學(xue)生(sheng)(sheng)(sheng)才剛接觸學(xue)術寫作，老(lao)師對(dui)論(lun)(lun)文(wen)字數(shu)、文(wen)獻引用數(shu)量的(de)(de)要求又(you)很高(gao)，其實超(chao)過了學(xue)生(sheng)(sheng)(sheng)的(de)(de)能(neng)力范(fan)圍。” 另一(yi)門(men)(men)課(ke)的(de)(de)論(lun)(lun)文(wen)要求相對(dui)合(he)理，而(er)且著重于學(xue)生(sheng)(sheng)(sheng)批判、思考的(de)(de)基(ji)礎(chu)能(neng)力，石白(bai)在(zai)這(zhe)門(men)(men)課(ke)上幾乎沒(mei)有發現AI代寫論(lun)(lun)文(wen)。

近幾(ji)個月(yue)，包(bao)括西(xi)北大學、德克薩斯(si)大學奧(ao)斯(si)汀(ting)分校在內的幾(ji)所美(mei)國高(gao)校宣布關(guan)閉Turnitin的AI檢測服務，并(bing)放寬對AI的限(xian)制。此前澳洲(zhou)的多所大學嘗試轉變考(kao)(kao)核方(fang)式，減少標準考(kao)(kao)卷，采用(yong)更多的口(kou)頭報告、現場演示。

還有一(yi)(yi)些學(xue)(xue)校開始積極擁抱(bao)AI。今(jin)年1月，美國亞利桑那(nei)州立大學(xue)(xue)引入(ru)ChatGPT企(qi)業(ye)版，成(cheng)為第一(yi)(yi)個與OpenAI合(he)作的(de)高(gao)等教(jiao)育機構(gou)。該校校長表示：“AI將成(cheng)為幫助學(xue)(xue)生提高(gao)學(xue)(xue)習(xi)效(xiao)率，更全面(mian)地理解(jie)學(xue)(xue)科的(de)工(gong)具。此(ci)次合(he)作反映了(le)我們的(de)理念和承諾——我們要直(zhi)接(jie)參(can)與到(dao)人工(gong)智能(neng)學(xue)(xue)習(xi)技術的(de)發展(zhan)過程中。”

尚俊杰指出，在人工智能時代，學生應該做什么、學什么、怎么學，成為一個很重要的問題。“對于現在的高校學生，我們要求他們具有一定的計算機能力。在未來，什么能力是學生需要具備的？哪些能力將與AI掛鉤？” 斯坦福大學機器人及未來教育項目主任蔣里曾預測，未來學生的能力會被分成兩種：一種是單打獨斗的能力，不借助任何AI工具的幫助；另一種是AI加持下的能力，這可能是今后最為重要的能力。不同的能力要求，將重塑人才培養模式。

從更長遠的(de)(de)尺度看(kan)，當AI全面參與研究過(guo)程(cheng)，學(xue)術規(gui)范等諸多規(gui)則也會迎來改變。例如尚俊杰(jie)提(ti)到，在文(wen)章中如何提(ti)及AI的(de)(de)貢獻，AI能否(fou)列為(wei)論文(wen)作者，乃(nai)至如何定義(yi)學(xue)術誠信、學(xue)術剽竊，都是未來會面臨的(de)(de)問題(ti)。

“AI應用于高(gao)等教育已經(jing)是(shi)必然趨(qu)勢，需要(yao)(yao)鼓(gu)勵(li)正(zheng)確使用，而不是(shi)一刀切的禁令。人類要(yao)(yao)探索(suo)的新(xin)問題(ti)是(shi)，在人工智能時代(dai)下，怎樣構建新(xin)的學術規(gui)范和倫理(li)規(gui)則(ze)。”尚俊杰說。、

（應受訪者要求，王宇、劉晨曦、石白為化名）

亚洲香蕉成人av网站在线观看,欧美又粗又长又爽做受,亚洲一码和欧洲二码的尺码区别,亚洲日韩一区二区,日韩AV无码精品一二三区

21調查丨“玄學”、誤判和偏見：高校檢測AI論文背后

2024年02月27日 13:04 21世紀經濟報道 21財經APP 肖瀟

查重率低了，AI率高了

上世紀論文也被判定為(wei)AI

使用界限模糊

教育(yu)規(gui)則的反思和變革

相關新聞(wen)

熱文排行

財經日歷

數讀

每日智(zhi)庫(ku)看點

關注我們

公告