新聞中心
近年來,各大學(xué)術(shù)頂會的論文投稿量暴增,這使得論文評審的工作量大大增加。那么,有沒有可能自動生成論文的評審結(jié)果呢?最近,CMU 研究者對此展開了探索,創(chuàng)建了一個自動論文評審系統(tǒng),上傳 PDF 論文即可自動生成評審結(jié)果,這或許會為論文評審帶來一些改變。

科學(xué)技術(shù)的快速發(fā)展伴隨著同行評審科學(xué)出版物的指數(shù)級增長。與此同時,論文的評審是一個耗時耗力的過程,必須由相應(yīng)領(lǐng)域的專家來完成。這樣一來,為不斷增長的論文提供高質(zhì)量的評審成為一大挑戰(zhàn)。那么,有沒有可能自動生成論文評審呢?
在近日發(fā)表的一篇論文中,來自 CMU 的研究者創(chuàng)建了一個自動生成論文評審結(jié)果的 Demo 網(wǎng)站 ReviewAdvisor ,只需要上傳 PDF 論文,即可自動生成評審結(jié)果。
論文鏈接:https://arxiv.org/pdf/2102.00176.pdf
在論文中,研究者探討了使用 SOTA 自然語言處理(NLP)模型生成學(xué)術(shù)論文同行評審結(jié)果的可能性。其中,最困難的部分首先是如何定義「好的」評審結(jié)果,因此該研究先討論了評審結(jié)果的度量指標(biāo)。然后,就是數(shù)據(jù)問題。研究者收集了機器學(xué)習(xí)領(lǐng)域的論文集合,使用每個評審涵蓋的不同方面(aspect)內(nèi)容對論文進行注釋,并訓(xùn)練目標(biāo)摘要模型,以生成評審結(jié)果。
實驗結(jié)果表明,與人類專家給出的評審結(jié)果相比,系統(tǒng)生成的評審?fù)婕暗秸撐牡母喾矫?。但是,生成的評審文本除了對論文核心理念的解釋之外,其他方面的解讀邏輯性都不強,而關(guān)于核心理念的評審則大多是正確的。最后,研究者總結(jié)了構(gòu)建表現(xiàn)良好的論文評審生成系統(tǒng)面臨的八個挑戰(zhàn)以及可能的解決方案。
不過,研究者發(fā)現(xiàn),人類專家評審和系統(tǒng)自動評審都表現(xiàn)出了不同程度的偏見,并且與人類專家評審相比,系統(tǒng)生成的評審結(jié)果具有更強的偏見性。
上面這段話來自該論文的第一部分「TL;QR」,有趣的是,這部分內(nèi)容正是由其開發(fā)的系統(tǒng)生成的。
ReviewAdvisor 系統(tǒng)試用
試用該系統(tǒng)時,用戶需要在瀏覽器中允許所有 Cookie,否則系統(tǒng)無法正常工作。研究者使用 sciparser 工具從 PDF 論文中提取信息,所以如果上傳的論文采用的是不熟悉的模板,則系統(tǒng)也可能不工作。目前 ReviewAdvisor 支持 ICML、Neurips、ICLR、ACL、EMNLP、AAAI 等計算機科學(xué)頂會或期刊的論文。
這個自動論文評審系統(tǒng)效果究竟如何呢?機器之心嘗試上傳了該研究所用的示例論文《Attention Is All You Need》。
Abstract+CE (with aspect) 又可細分為摘要、清晰度、原創(chuàng)性、可靠性、Substance 和對比 6 個方面。
下圖展示了對示例論文《Attention is All You Need》原創(chuàng)性與魯棒性的評審意見,其中關(guān)于原創(chuàng)性的評審意見為「使用自注意力的 idea 非常有趣且新穎」(下圖左黃色部分),關(guān)于可靠性的評審意見則是「該論文未解釋清楚 transformer 模型為什么優(yōu)于其他基準(zhǔn)模型」(下圖右綠色部分)。
看起來,效果還不錯。但是,機器之心在上傳其他論文時,系統(tǒng)并未及時生成評審,或者上傳多次后才生成評審結(jié)果。研究者表示,由于系統(tǒng)采用的計算機服務(wù)器是二作 Pengfei Liu 自己建立的,所以會出現(xiàn)內(nèi)存不足的情況。這可能是無法及時生成論文評審結(jié)果的原因之一。
此外,研究者強調(diào),ReviewAdvisor 系統(tǒng)可能會生成不正確、不完整或者帶有偏見的評審結(jié)果,這些評審結(jié)果不能代替人類專家的評審結(jié)果。
優(yōu)秀同行評審有哪些標(biāo)準(zhǔn)?
該研究首先總結(jié)了評估同行評審結(jié)果的常用標(biāo)準(zhǔn):
- 決斷性(Decisiveness):好的同行評審應(yīng)該立場明確,對是否接收論文提出明確建議;
- 全面性(Comprehensiveness):好的同行評審應(yīng)該有條理,首先簡要總結(jié)論文貢獻,然后從不同方面評估論文質(zhì)量;
- 正當(dāng)性(Justification):好的同行評審應(yīng)該有理有據(jù),尤其是在指出論文缺點時要明確理由;
- 準(zhǔn)確性(Accuracy):好的同行評審應(yīng)該確保事實正確;
- 友好(Kindness):好的同行評審應(yīng)該措辭禮貌善意。
數(shù)據(jù)集
該研究介紹了如何構(gòu)建具有更細粒度的元數(shù)據(jù)的評審數(shù)據(jù)集,該數(shù)據(jù)集 Aspect-enhanced Peer Review (ASAP-Review) 可用于系統(tǒng)訓(xùn)練和多角度的評審評估。
數(shù)據(jù)收集
研究者通過 OpenReview 爬取了 2017-2020 年間的 ICLR 論文,通過 NeurIPS 論文集爬取了 2016-2019 年間的 NeurIPS 論文。對于每篇論文,研究者都保留了盡可能多的元數(shù)據(jù)信息,包括如下:
- 參考評審,由委員會成員撰寫;
- 元評審,通常由領(lǐng)域主席(高級委員會成員)撰寫;
- 論文接收結(jié)果,即論文最終被「接收」還是「拒稿」;
- 其他信息,包括 url、標(biāo)題、作者等。
該研究使用 Allenai Science-parse 解析每篇論文的 pdf,并保留結(jié)構(gòu)化的文本信息(例如標(biāo)題、作者、章節(jié)內(nèi)容和參考文獻)。下表 2 顯示了 ASAP-Review 數(shù)據(jù)集的基本統(tǒng)計信息:
Aspect-enhanced Review 數(shù)據(jù)集
盡管評審呈現(xiàn)出下圖 3 所示的內(nèi)部結(jié)構(gòu):評審?fù)ǔR哉_始,然后分方面列出不同觀點,并給出證據(jù)。實際上,這種有用的結(jié)構(gòu)化信息并不能直接獲取。考慮到評審中各方面的細粒度信息在評估中起著至關(guān)重要的作用,該研究對評審進行了方面注釋(aspect annotation)。為此,該研究首先介紹方面類型(aspect typology),然后進行人工注釋。
該研究定義的類型包含以下 8 個方面,遵循 ACL 審核指南,并做了一些小改動:
- 摘要 (SUM)
- 動機 / 影響(MOT)
- 原創(chuàng)性(ORI)
- 可靠性 / 正確性(SOU)
- Substance(SUB)
- 可復(fù)現(xiàn)性(REP)
- 有意義的對比(CMP)
- 清晰度(CLA)
總體而言,數(shù)據(jù)注釋涉及 4 個步驟,如下圖 1 所示:
ReviewAdvisor 如何生成科學(xué)評審結(jié)果?
首先我們來看什么是「科學(xué)評審生成」任務(wù)。該任務(wù)可以被概念化地理解為基于 aspect 的科學(xué)論文摘要任務(wù),但存在一些重要的區(qū)別。例如,大部分當(dāng)前的工作要么從「作者視角」總結(jié)論文(即僅使用作者所寫的內(nèi)容構(gòu)建摘要),要么從「讀者視角」進行總結(jié),即認為論文摘要應(yīng)考慮研究社區(qū)成員的視角。
而 CMU 研究者在這項工作中將科學(xué)論文摘要的視角從「作者」或「讀者」擴展到了「評審」,并認為好的科學(xué)論文摘要不僅應(yīng)反映論文的核心 idea,還要包含領(lǐng)域?qū)<覐牟煌矫孀龀龅闹匾u價,而這需要源論文以外的知識。
這一想法的好處在于:1)幫助作者發(fā)現(xiàn)論文中的缺陷,使之更強;2)幫助評審者緩解一部分評審負擔(dān);3)幫助讀者快速掌握論文主要思想,并了解「領(lǐng)域?qū)<摇梗丛撗芯縿?chuàng)建的系統(tǒng))對論文的評價。如下圖 3 所示:
系統(tǒng)設(shè)計
該研究創(chuàng)建的評審數(shù)據(jù)集包含的訓(xùn)練樣本少于其他基準(zhǔn)摘要數(shù)據(jù)集,不過近期語境化預(yù)訓(xùn)練模型的少樣本(few-shot)學(xué)習(xí)能力使得基于該數(shù)據(jù)集訓(xùn)練評審生成系統(tǒng)成為可能。該研究使用 BART 作為預(yù)訓(xùn)練模型,該模型在多個生成任務(wù)上展現(xiàn)出卓越的性能。
然而,即使有了 BART 的加持,如何使用它處理長文本仍是一大挑戰(zhàn)。經(jīng)過多次試驗后,研究者選擇了一種兩階段方法。
利用兩階段系統(tǒng)處理長文本
該研究利用「提取 - 生成」(extract-then-generate)機制,將文本生成分解為兩步。具體而言,首先進行內(nèi)容選擇,即從源論文中提取顯著文本片段,然后基于這些文本生成摘要。
aspect 感知的摘要(aspect-aware Summarization)
通常在 extract-then-generate 機制中,可以直接使用提取內(nèi)容,并構(gòu)建用于生成文本的序列到序列模型。為了生成具備更多樣化方面的評審結(jié)果,以及透過其內(nèi)部結(jié)構(gòu)解釋評審結(jié)果,該研究更進一步提出了 extract-then-generate-and-predict 生成框架。
具體而言,研究者使用其標(biāo)注 aspect 作為額外信息,設(shè)計了一個預(yù)測生成文本(評審)aspect 的輔助任務(wù),參見下圖 5:
實驗
研究者通過以下兩個問題,來評估該系統(tǒng)的效果。
該系統(tǒng)擅長什么?不擅長什么?
基于該研究定義的評估度量指標(biāo),研究者對參考評審和生成評審進行了自動評估和人工評估,來分析自動評審生成系統(tǒng)在哪些子任務(wù)上發(fā)揮良好,又在哪些子任務(wù)上失敗。下表 5 展示了評估結(jié)果:
實驗發(fā)現(xiàn),該評審生成系統(tǒng)存在一些缺陷,主要表現(xiàn)在以下幾個方面:
缺乏對論文的高級理解:系統(tǒng)無法準(zhǔn)確分辨高質(zhì)量論文和低質(zhì)量論文,大多數(shù)時候負面 aspect 的證據(jù)并不可靠;
模仿源數(shù)據(jù)的風(fēng)格:在不同生成評審結(jié)果中常出現(xiàn)某些特定句子,這表明生成評審的風(fēng)格易受訓(xùn)練樣本中高頻句子模式的影響;
缺乏問題:生成評審很少對論文內(nèi)容提出問題,而這是同行評審的重要組成部分。
當(dāng)然,該系統(tǒng)也有一些優(yōu)勢。它通常能夠準(zhǔn)確總結(jié)輸入論文的核心思想,生成評審覆蓋的論文質(zhì)量 aspect 也多于人類評審人員。
案例研究
研究者還進行了案例研究,下表 6 展示了示例評審結(jié)果。從中可以看出,該模型不僅能生成流暢的文本,還能意識到生成文本是關(guān)于哪個方面及其正確的極性。例如紫色部分是「摘要」,黃色部分是「清晰度」,+ 表示評論較為正面。
雖然生成的方面通常是小型文本片段,還存在一些微小的對齊問題,但該模型仍然能清晰地感知到不同方面。
系統(tǒng)生成的評審帶有偏見嗎?
文本中的偏見普遍存在,但檢測難度高。該研究除了設(shè)計生成評審的模型外,還提出了一種偏見分析方法,以便更細粒度地識別和量化人類標(biāo)注和系統(tǒng)生成數(shù)據(jù)中的偏見。
首先是度量評審中的偏見。下圖 6 展示了參考評審和生成評審之間的差異:
該研究按照「Nativeness」和「Anonymity」將所有評審進行分類,詳情參見下表 7:
分析發(fā)現(xiàn),Native 論文(即作者列表中至少有一位英語母語者)和非匿名論文的參考評審和生成評審得分更高。具體結(jié)果參見下圖:
在論文最后,研究者還列舉了自動評審生成系統(tǒng)面臨的八項挑戰(zhàn),涉及模型、數(shù)據(jù)、評估三個方面,分別是:長文本建模、針對科學(xué)領(lǐng)域的預(yù)訓(xùn)練模型、結(jié)構(gòu)信息、外部知識、更多細粒度評審數(shù)據(jù)、更準(zhǔn)確和強大的科學(xué)論文解析器、生成文本的公平性和偏見、真實性與可靠性。
回到這個問題「科學(xué)評審可以自動化嗎?」,答案依然是「還不能」。
但是,說不定在不久的將來,自動評審生成系統(tǒng)能夠至少幫助人類評審更快速、高效地完成評審工作。
網(wǎng)頁標(biāo)題:AI自動評審論文,CMU這個工具可行嗎?我們用它評審了下論文
地址分享:http://m.fisionsoft.com.cn/article/cdhiieh.html


咨詢
建站咨詢
