ICLR 2026,居然有21%的評審是純純由AI生成的?!
上面這個相當扎心的答案,來自Pangram實驗室的分析報告。
這件事被發(fā)現(xiàn)的起因頗具戲劇色彩:CMU的AI研究員Graham Neubig,感覺自己收到的同行評審AI味超級重。
他之所以起疑心,是因為這些評審內(nèi)容“非常冗長,且包含大量符號”,并且所要求的分析方式并非“審稿人通常在AI或ML論文中所要求的那種標準統(tǒng)計分析方式”。
做事嘛,不能光靠直覺,要真憑實據(jù)啦。
Graham Neubig自己干不了這個事兒,就在上發(fā)布了一個懸賞令,希望有人能做一輪系統(tǒng)性的檢測,看ICLR的論文和審稿中到底夾雜了多少AI文本。
- 我愿意懸賞50美元,給第一個做了這件事的人~

Pangram實驗室就是那個接黃榜的。
這個實驗室的業(yè)務之一,正好是開發(fā)檢測AI生成文本的工具。
結論簡單粗暴:
- 75800條評審中,15899條高度疑似完全由AI生成,占比21%。
- 大量論文正文中也檢測出AI參與的痕跡,有的論文甚至大半字數(shù)都是AI的產(chǎn)出。
一個頂級AI學術會議,審稿和投稿兩頭都出現(xiàn)大規(guī)模AI代寫……
是怎么測出“AI味”的?
Pangram這次對ICLR的全部提交論文和所有評審做了系統(tǒng)分析,并且在博客中公開了全過程。
他們先在OpenReview上,把ICLR 2026的數(shù)據(jù)全部拉了下來,總計約19490篇論文投稿,以及75800條審稿意見。
這些論文多為PDF格式,普通PDF解析工具面對公式、圖表、行號、表格等內(nèi)容時容易抽風,會干擾后續(xù)的文本分析。所以常規(guī)的PDF解析器,比如PyMuPDF就用不了了。
于是Pangram用OCR模型(他們用的是Mistral OCR) 把PDF轉(zhuǎn)成Markdown,再統(tǒng)一轉(zhuǎn)成純文本,盡量減少格式噪音。