机器之心报导
参加:张倩
美国科学公共图书馆生物期刊(PloS Biology)近来发布的一份数据库显现:数百名研讨者的论文自我引证率超越了 50%,部分研讨者的自引率乃至超越了 90%。这么高的自引率究竟是不是学术不端?是什么推高了自引率?怎么防止过度自引带来的负面效应?咱们将在本文中评论这些问题。
一个数据库揭穿的现实
导语中说到的数据库全称是「A standardized citation metrics author database annotated for scientific field」(科学范畴规范化引证计量作者数据库),其间包含曩昔 20 年 176 个子范畴被引证最多的 100,000 名研讨者的规范化引证数据,包含引证量、h-index、合著-校对 hm-index 等方针。该数据集由斯坦福大学、爱思唯尔等安排的研讨者一起创立,数据来自爱思唯尔专有的 Scopus 数据库。该团队期望找到那些有助于进步引证量的要素。
数据库简介:https://journals.plos.org/plosbiology/article?id=10.1371/journal.pbio.3000384
数据库下载地址:https://data.mendeley.com/datasets/btchxktzyw/1
数据库文件,其间它包含了十万研讨者的引证量、h-index、一作论文数、独立作者论文数、自引证份额等 42 项特征。表格中的榜首个选项卡描绘了一切特征都是什么,就算独自拿出来也是一个十分好的数据集。
令创立者始料未及的是,数据库发布之后,其间的研讨者自引率成为了咱们重视的焦点。
《Nature》的一份新闻特写对该数据库中的自引率问题进行了报导,并举了其间一个比较极点的比如:一位印度研讨者的自引率(被自己或自己的合著者引证的份额)居然高达 94%(到 2017 年)。
这位名为 Sundarapandian Vaidyanathan 的研讨者是印度 Vel Tech 大学的一名计算机科学家,他的比如比较极点,但并不是个例。该数据会集包含 100,000 名研讨者,其间至少有 250 位研讨者的自引或被自己合著者引证的份额超越了 50%,数据集的自引率中位数为 12.7%。
一所「弯道超车」的大学
其实早在 2017 年,国外问答网站 Quora 上就有关于 Vaidyanathan 及其地点校园印度 Vel Tech 自引率过高的质疑,QS 世界大学排行榜研讨部主任 Ben Sowter 在答复区对此事进行了剖析。
2017 年,印度 Vel Tech 科技大学忽然跻身泰晤士高等教育(THE)世界大学排名子榜单「亚洲大学排行榜」(Asia University Rankings 2017)第 43 名,而在此之前,它从未进入过任何全球大学排行榜的前 1000 名。
排在 Vel Tech 后边的是日本顶尖研讨型国立归纳大学神州大学,THE 世界排名前 400,ARWU 排名前 300,QS 排名前 200。
Vel Tech 科技大学 2017 年亚洲大学排行榜得分状况。从左到右:归纳分、引证分、工业收入分、世界化视界分、科研分与教学分。
排名上升如此之快着实让人惊奇。但假如仔细观察上图能够发现,虽然 Vel Tech 的其间三个分数均远远低于神州大学,但它有一项分数特别高,即第二栏的引证分,到达了 100 分。而这项得分的权重占到了 30%,所以导致 Vel Tech 最终归纳得分也比较高。
相比之下,VelTech 的科研分只需 8.4,远远低于同位次的澳门大学和下面的神州大学,如此高的排名怎能令人信服?
其实,这首要是由榜单的发布方《泰晤士高等教育》的计算办法缝隙导致的。他们的计算办法没有将自引扫除在外,而 VelTech 的自引证量刚好又很高,这才把这样一个一般的大学送上了如此高的位次。但 Ben Sowter 也指出,这家大学从 2015 年就开端光明磊落地鼓舞研讨者引证自己的论文,因而,他以为这家大学是在成心操作引证量这一方针,以骗过这些排名体系。
Ben Sowter 还用数据佐证了自己的说法。从爱思唯尔的 Scopus 数据库能够查到 VelTec 大学最近几年的引证量概略。如下图所示,该校被引量在 2015 年猛然上升,从 2014 年的 694 激增到 6187,这显然是不正常的。
呈现这种现象一般是由于宣布了某篇比较有影响力的论文,但从表中能够看出,没有哪篇文章能够带来这么大的添加,由于 2015 年引证量最高的论文被引次数也才 81,所以必定还有其他原因。
那么真实原因究竟是什么呢?Sowter 提示咱们留意图中的一个复选框(标红部分)。
选中这个复选框之后能够扫除该校的自引证量。依照这种办法,Sowter 算出了 VelTec 每年的自引证率:
计算成果显现,VelTec 的自引率呈逐年上升趋势,并且 2015 年忽然上升了 34.5%,升至 95.0%!这样算下来,VelTec 科技大学 2011 年至 2016 年的 13,864 次引证中,有 12,548(90.5%)都是自引。因而,Sowter 标明,他们这种做法实在是居心不良。
随后,Sowter 也把锋芒对准了上文中的 Sundarapandian Vaidyanathan,他是 VelTec 研制中心的院长。以 Vaidyanathan 2015 年宣布的一篇文章为例,那篇文章列出了 144 个引证条目,其间 19 个是他自己之前的研讨。该论文的被引量是 114,其间 112 次被引来自他自己的其他论文。
因而,Sowter 以为,这种做法在学术上是无效的,依据这种数据对一个安排进行点评也是无效的,除非你是爱因斯坦。因而,他主张在排名剖析中将自引扫除在外。
Sowter 还标明,过高的自引率是一种做弊行为,背面有某些不行告人的意图,如取得奖赏或研讨经费。
高自引率是否意味着学术不端?
关于 Sowter 提出的质疑,Sundarapandian Vaidyanathan 也进行了回应。他标明,学术研讨是一个接连的进程,「后边的研讨不行能不曾经面的为根底」,而这种自引并不是为了误导别人。
Vaidyanathan 标明,他的首要研讨方向是混沌与操控理论。依据 Scopus 的记载,他一共宣布了 348 篇研讨作业(到 2017),参加了约 50 个超混沌新体系的研讨。他的研讨在混沌理论方向排名第二,在超混沌理论方向排名榜首。这些数据都能够证明他在混沌和操控理论方向的专业水准。因而,他以为,上述质疑并不合理。并且,他明晰着重,他的自引不是为了到达自己或校园的某种意图。
此外,他还列出了自己在混沌以及其他范畴的研讨奉献,明晰指出自己在多个学科都有杰出的研讨记载。
关于中心的自引问题,Vaidyanathan 回应称,他的研讨会引证混沌范畴等多个学科的最新开展,而这些最新的开展也包含他自己的。
此外,Sundarapandian Vaidyanathan 的朋友、他的 Top 3 合著者之一——埃及本哈大学的 Ahmad Azar 教授也在原贴下力挺 Vaidyanathan。Ahmad Azar 标明,Vaidyanathan 在混沌与操控范畴有许多立异性研讨,并且效果颇丰,他的论文也被该范畴广泛引证。
当然,说了这么多,Vaidyanathan 想表达的只需一点:他在自己的范畴是一名尖端的研讨者,所以引证自己的研讨也是天经地义。
固然,正如 Vaidyanathan 所说,科学研讨是一个渐进的进程,新的研讨需求建立在旧的研讨之上,因而引证自己曩昔的研讨也是合理的。但他好像并没有解说为什么自己的自引率如此之高。假如如他所言,他是该范畴的领军人物,那么为何其别人没有许多引证他的论文?
Vaidyanathan 的高自引率不由令咱们反思,这种行为可否被界说为学术不端?
7 月份,世界出书道德委员会(Committee on Publication Ethics,COPE)将过度自引(extreme self-citation)列为引证操作的方式之一。但斯坦福大学一位致力于元科学研讨的学者标明,「那些自引率超越 25% 的学者未必是学术不端,需求进一步核对。」
虽然许多研讨者都赞同过度自引是一大问题,但关于多少是「过度」以及怎么处理这一问题,人们并没有到达一致。这个问题的难点之一在于,研讨者在有些状况下的确有正当理由引证自己或合著者的文献。
上述数据库的作者 Ioannidis 也正告说,他的研讨不该该导致那些自引率高的学者遭到诋毁,并且这些自引率或许因学科和作业阶段不同而发生差异。「它仅仅供给了一份完好、通明的信息,不该该被用于判别科学家的学术品德。」
是什么推高了自引率?
「咱们将作业开展与这些引证方针挂钩,并且极度看中这些方针,这其实就是在鼓舞自引。」俄勒冈大学 的一位心理学家标明。
2017 年的一项研讨发现,意大利的研讨者在 2010 年一份有关提升的方针出台之后自引率明显上升,这项方针规则,学者只需到达规则的生产率阈值才干取得提升。
其他自引率较高的研讨者还有数学家 Theodore Simos(76%)和医药化学家 Claudiu Supuran(62%),他们上一年都被科莱恩剖析公司(Clarivate Analytics)列入了 6000 名「世界级研讨人员」的名单,这些研讨人员因其超卓的研讨体现而当选。
由此可见,高自引率问题的本源其实是准则层面的。假如学术界在提升、经费分配等方面不那么看中这些方针,研讨者也不会费力心思进步自己的论文引证量。
近年来,学术界对引证量、影响因子等方针的批判也越来越多。以色列本古里安大学(BGU)的软件和信息体系工程助理教授 Michael Fire 对 20 世纪以来许多学科研讨的引证数、H-index 和影响因子等进行了计算剖析,成果标明,这些方针现已失去了含义,乃至正在连累学术研讨。
他在剖析之后得出了几大定论:
1)研讨成果支撑古德哈特规律(Goodhart's law),即当传统方针(如论文数量、引证数量、h-index 和影响因子)成为方针后,这些方针也就失去了重要性/影响力。把论文写短一点、和更多作者协作能够协助研讨者在平等时刻下产出更多论文。
此外,论文结构的首要改变与高引证量有关。作者能够运用较长的标题和摘要,或许在标题中运用问号或感叹号,使论文更有吸引力,然后添加引证量,即「学术界的标题党」……这些成果支撑了一个假定:学术论文为了契合方针方针而不断改变。
2)论文引证量成为许多研讨者的方针。他观察到研讨者在新研讨中引证其以往研讨的频率呈添加态势,一些作者乃至数十次、数百次引证自己的论文。
此外,许多论文——超越 72% 的论文和具有至少 5 个参阅文献的论文中有 25% 的研讨在宣布 5 年后就没有人引证了。很明显,许多资源被花费在影响有限的论文上了,这或许标明研讨者宣布更多低质量论文的意图在于添加论文宣布数量。
Michael Fire 的研讨成果与上述高自引率问题高度符合。也就是说,h-index 等论文量化规范有太多能够操作的空间,现已成为学界的一个问题,因而其重要性和效果正变得越来越低。
怎么防止过度自引带来的负面效应?
毫无疑问,现行的论文和研讨者评价准则是有问题的。但咱们仍然需求一个量化方针来决议经费分配、升官等现实问题,因而咱们要做的只能是优化这些方针。
印度尼西亚的研讨部分使用根据引证量的公式来分配研讨经费和奖学金,但上一年,该部分标明,有些研讨者使用过度自引或小团体相互引证等不端行为操作分数,他们因而现已暂停了 15 名研讨者的经费,并方案在公式中减去自引方针。但研讨者标明,这一方案还没有施行。
但也有人对这种做法持对立定见,上个月发布的一份评论文件显现,COPE 对立将自引除掉出方针的做法,该安排标明,「这种做法不利于咱们了解自引的正面学术价值。」
早在 2017 年,瑞士苏黎世大学的一名生物学家 Justin Flatt 就呼吁对研讨者的自引记载进行愈加明晰的阐明。他主张创立一个 s-index,即自引指数,计算办法和 h-指数相似。也就是说,假如一位研讨者的 s-index 是 10,那么意味着 Ta 有十篇论文至少被自己引证了十次。
Flatt 现已取得了一笔资金,用于 s-index 的数据搜集作业。他也赞同 Ioannidis 的观念,即此类研讨不是为了建立某种约束规范,也不是为了点名批判那些自引率高的人。但只需学术界持续用 h-index 作为宣扬方针,咱们就有理由创立 s-index。
最终,咱们都十分关怀的是,那些人工智能学者们的论文自引率怎么?据数据集计算,AI 大牛们的论文自引数量遍及低于平均水平,这或许是由于人工智能范畴是一个快速开展的范畴。
刚刚取得 2018 图灵奖的人工智能巨子 Geoffrey Hinton 自引率 为 1.2%、Yann LeCun 1.61%、Yoshua Bengio 为 1.8%;斯坦福大学教授吴恩达的论文自我引证率为 1.57%,李飞飞则为 2.51%。阿尔伯塔大学教授 Richard Sutton 的自引率是 6.01%。
曾被人吐槽在文章中自我引证的 LSTM 之父 Jürgen Schmidhuber,其自我引证的份额也仅为 5.03%。相比之下,本文主角 Sundarapandian Vaidyanathan 高达 94% 的数字就显得有点吓人了。
参阅链接:
本文为机器之心报导,转载请联络大众号取得授权。
------------------------------------------------