青青青久草,四虎永久在线精品,二区免费视频,一级毛片在线直接观看,黄网在线免费观看,美女露全身永久免费网站,色婷婷六月桃花综合影院

中國(guó)論文工廠,已經(jīng)用AI批量生產(chǎn)垃圾論文了?

圖源:Pixabay

圖源:Pixabay

文 | 張?zhí)炱?/span>

● ● ●

Scientific Reports的副主編、英國(guó)薩里大學(xué)數(shù)據(jù)科學(xué)家馬特·斯皮克(Matt Spick)注意到,一批垃圾論文正以每天一篇甚至兩篇的速度,在迅速涌入他工作的期刊。

它們選題各異,套路卻驚人地一致。有的研究血清維生素D與抑郁癥的關(guān)系,有的分析碘攝入與糖尿病,有的考察炎癥指數(shù)與睡眠質(zhì)量,總之就是考察一個(gè)變量對(duì)一種疾病的影響。只需一份標(biāo)準(zhǔn)化的數(shù)據(jù)集、一段回歸模型腳本,再得出一個(gè)統(tǒng)計(jì)顯著的結(jié)果,這類論文就能迅速成文。換個(gè)變量,又是新的一篇。

這種沒(méi)有信息含量的垃圾論文數(shù)量在迅速膨脹。2024年,僅1月至10月,全球就發(fā)表了190篇這類基于美國(guó) NHANES 健康數(shù)據(jù)庫(kù)的“單因子關(guān)聯(lián)研究”,幾乎是2014至2021年間年均發(fā)表數(shù)量的五十倍。

01

國(guó)產(chǎn)垃圾論文攻陷國(guó)外期刊

更引人注意的是,垃圾論文數(shù)量的激增幾乎完全集中在中國(guó)。2021至2024年間,全球共發(fā)表了316篇此類論文,其中有292篇的第一作者來(lái)自中國(guó)單位,占比超過(guò)92%。而在2014至2020年的25篇中,這一數(shù)字僅為2篇[1]。

這組數(shù)據(jù)來(lái)自于斯皮克和他合作者今年發(fā)布的一項(xiàng)研究。為了系統(tǒng)性地研究這一現(xiàn)象,斯派克和他的合作者在PubMed和Scopus等學(xué)術(shù)數(shù)據(jù)庫(kù)中,使用精確的關(guān)鍵詞組合進(jìn)行檢索,篩選出過(guò)去十年間所有使用NHANES數(shù)據(jù)、且研究設(shè)計(jì)為單因素關(guān)聯(lián)的論文。經(jīng)過(guò)篩選,他們最終確定了341篇符合條件的論文作為分析對(duì)象。

這些論文大多采用相同的方法框架:使用 logistic 回歸模型,研究一個(gè)健康變量與一種疾病或生理狀態(tài)之間的統(tǒng)計(jì)關(guān)聯(lián),最多控制三五個(gè)協(xié)變量,結(jié)論集中在“顯著相關(guān)”這一層面。研究的問(wèn)題不同,結(jié)構(gòu)幾乎不變。

在對(duì)這三百多篇論文進(jìn)行分析后,研究團(tuán)隊(duì)發(fā)現(xiàn),它們普遍遵循一套高度重復(fù)的寫作腳本。研究者從數(shù)據(jù)庫(kù)中選取一個(gè)預(yù)測(cè)變量,比如某種維生素水平,再選擇一個(gè)健康結(jié)果,比如抑郁癥,通過(guò)標(biāo)準(zhǔn)化的統(tǒng)計(jì)流程將兩者建立關(guān)聯(lián),最終得出一個(gè)簡(jiǎn)單的結(jié)論,A 與 B 相關(guān)。在最極端的情況下,研究者甚至只需顛倒自變量和因變量的位置,就能生成另一篇論文,無(wú)需任何生理學(xué)依據(jù)或理論假設(shè),便可無(wú)限擴(kuò)展變量與結(jié)局的組合方式。

為了進(jìn)一步說(shuō)明這類研究存在的問(wèn)題,研究團(tuán)隊(duì)使用了網(wǎng)絡(luò)分析方法,把所有論文中提到的預(yù)測(cè)變量和疾病之間的配對(duì)關(guān)系畫成圖表。結(jié)果顯示,像抑郁癥這樣的復(fù)雜疾病,被幾十個(gè)毫無(wú)關(guān)聯(lián)的變量分別單獨(dú)研究過(guò)一次。圖中呈現(xiàn)出一種“一個(gè)變量對(duì)應(yīng)一個(gè)疾病”的稀疏結(jié)構(gòu),揭示出這類研究往往忽視疾病背后的多重因素,只是簡(jiǎn)單地找出某種單一因素與某個(gè)結(jié)果之間的聯(lián)系。

團(tuán)隊(duì)以抑郁癥為例,檢驗(yàn)這些論文是否可靠。他們統(tǒng)計(jì)了所有聲稱與抑郁癥顯著相關(guān)的研究,一共28篇,并使用一種叫“錯(cuò)誤發(fā)現(xiàn)率”(FDR)的統(tǒng)計(jì)方法,對(duì)這些結(jié)果重新進(jìn)行了校正。FDR 用來(lái)處理多個(gè)變量同時(shí)檢驗(yàn)時(shí)容易出現(xiàn)的假陽(yáng)性問(wèn)題。結(jié)果發(fā)現(xiàn),這28項(xiàng)中有15項(xiàng)在校正后不再顯著,說(shuō)明很多看起來(lái)有效的結(jié)果,其實(shí)可能只是偶然波動(dòng)造成的。

研究人員進(jìn)一步發(fā)現(xiàn),不少論文在數(shù)據(jù)使用上存在操縱的嫌疑。NHANES 是一項(xiàng)跨年滾動(dòng)調(diào)查,覆蓋數(shù)十年的連續(xù)數(shù)據(jù),供研究者完整調(diào)用。但在大部分論文中,作者卻在沒(méi)有提供任何解釋的情況下,僅選取了其中一小段年份區(qū)間進(jìn)行分析。這種精心挑選數(shù)據(jù)的做法,很難不令人懷疑其動(dòng)機(jī)是為了篩選出p值最低、結(jié)果最漂亮的組合來(lái)發(fā)表。

將所有線索串聯(lián)起來(lái),一條AI論文流水線已經(jīng)顯示地非常清晰了。一個(gè)對(duì)AI開(kāi)放的數(shù)據(jù)庫(kù)作為原料,輔以自動(dòng)化的分析腳本,再套用高度公式化的研究設(shè)計(jì),最終得以在短期內(nèi)以指數(shù)級(jí)速度產(chǎn)出大量雷同的論文。這套流程完美地契合了AI輔助的工作模式,正如報(bào)告作者所言,這種生產(chǎn)力的提升,對(duì)“旨在通過(guò)提供低質(zhì)量或偽造稿件來(lái)牟利的論文工廠尤其具有吸引力” 。

02

論文工廠用上AI了

這一切的起點(diǎn),是龐大的公共健康數(shù)據(jù)庫(kù)NHANES。這是由美國(guó)官方主導(dǎo)的一項(xiàng)長(zhǎng)期項(xiàng)目,旨在評(píng)估美國(guó)成人和兒童的健康與營(yíng)養(yǎng)狀況。該調(diào)查每?jī)赡赀M(jìn)行一次,招募約1萬(wàn)名參與者,通過(guò)結(jié)合訪談、體格檢查和實(shí)驗(yàn)室檢測(cè),收集了涵蓋疾病、風(fēng)險(xiǎn)因素、營(yíng)養(yǎng)指標(biāo)等超過(guò)700個(gè)變量的綜合數(shù)據(jù)。

造成這一局面的部分原因,在于NHANES 本身高度結(jié)構(gòu)化的數(shù)據(jù)形式。它的數(shù)據(jù)可以通過(guò)API直接導(dǎo)入Python或R語(yǔ)言環(huán)境,一系列標(biāo)準(zhǔn)庫(kù)(如 nhanesA、pynhanes、NHANES pyTOOL 等)支持自動(dòng)搜索、清洗、建模與輸出。過(guò)去需要團(tuán)隊(duì)手動(dòng)完成的數(shù)據(jù)整理和圖表繪制,如今可在更短時(shí)間內(nèi)借助腳本工具實(shí)現(xiàn)。

更關(guān)鍵的是,NHANES是一個(gè)AI就緒(AI-ready)的數(shù)據(jù)集。 這意味著,研究者可以通過(guò)應(yīng)用程序編程接口(API)輕松地、自動(dòng)化地提取和分析數(shù)據(jù)。 這種設(shè)計(jì)本意是為提高科研效率,但它也為“數(shù)據(jù)挖掘”和批量生產(chǎn)論文打開(kāi)了方便之門。

斯皮克團(tuán)隊(duì)認(rèn)為,他們的研究結(jié)果很可能嚴(yán)重低估了問(wèn)題的規(guī)模。他們的檢索范圍局限于符合利用NHANES的單因子研究。但更寬泛的搜索顯示,僅在一年之間,使用 NHANES 數(shù)據(jù)發(fā)表的論文數(shù)量就從2023年的4926篇增長(zhǎng)到了2024年的7876篇。

來(lái)自美國(guó)西北大學(xué)的研究者瑞茲·理查森(Reese Richardson)一直關(guān)注論文工廠的動(dòng)向。他在一次快速檢索中,就發(fā)現(xiàn)了5篇未被斯皮克團(tuán)隊(duì)納入的 NHANES 論文,這些文章與某個(gè)可疑論文工廠有關(guān)聯(lián)。它們的寫作結(jié)構(gòu)與斯皮克所識(shí)別出的論文非常相似,同樣是圍繞 NHANES 數(shù)據(jù)中的單一變量與某種疾病的簡(jiǎn)單相關(guān)性展開(kāi),例如電子煙使用與肺部疾病之間的關(guān)聯(lián)[2]。

以“臨床公共數(shù)據(jù)庫(kù)挖掘”為關(guān)鍵詞,在中國(guó)社交媒體平臺(tái)上不難搜到大量提供服務(wù)的公眾號(hào)。其中除了本文提到的 NHANES 數(shù)據(jù)庫(kù),GBD(Global Burden of Disease,全球疾病負(fù)擔(dān)研究)等數(shù)據(jù)庫(kù)也頻繁出現(xiàn)在這些平臺(tái)的推文和案例中,成為熱門的數(shù)據(jù)來(lái)源。

這類公眾號(hào)大多提供多種模式的服務(wù),例如:根據(jù)研究主題協(xié)助下載公開(kāi)數(shù)據(jù),完成統(tǒng)計(jì)分析,撰寫數(shù)據(jù)分析報(bào)告,或在已有數(shù)據(jù)和主題的基礎(chǔ)上提供論文思路和寫作指導(dǎo)。一些平臺(tái)還進(jìn)一步打出“全流程陪跑”的口號(hào),從選題、分析到英文潤(rùn)色,覆蓋論文寫作的各個(gè)階段。

在一些平臺(tái)的廣告中,造假的暗示已非常露骨。例如有平臺(tái)寫道:“因公共數(shù)據(jù)庫(kù)的開(kāi)放性,我們提供的統(tǒng)計(jì)服務(wù)可不斷更換研究主題,挖掘數(shù)據(jù),直至分析出發(fā)表級(jí)的統(tǒng)計(jì)分析結(jié)果,并可提供中英文的方法和結(jié)果?!睋Q句話說(shuō),就是以發(fā)表為目標(biāo),圍繞數(shù)據(jù)庫(kù)中的變量反復(fù)組合、拆解、篩選,直到跑出一組足夠顯著的結(jié)果。


上一篇:百度揮刀,砍向地方代理商

下一篇:沒(méi)有了

相關(guān)內(nèi)容