一个巨大的数据库正在印度悄然无声地树立,有望让免费的论文发掘成为或许——可是,这合法么?
Carl Malamud 死后的数据库贮存了 7300 万篇论文,他方案让科学家用来文本发掘。来历:Smita Sharma
来历 Nature天然科研
撰文Priyanka Pulla
Carl Malamud 正在建议一场运动,他要解放被付费墙封闭住的信息,并且现已取得了开端成功。此前几十年,他致力于揭露那些受版权维护的法令文件,无论是修建规范仍是庭审记载。他以为这些文档代表了公有范畴的法令,理应让一切大众在线获取。有些状况下他会胜诉。现在,这位 60 岁的美国技能专家又将目光转向了另一个方针:以合法途径解放付费墙背面的科学文献。
曩昔的一年里,Malamud 在没有奉告出书商的状况下,与一些印度的研讨者联合树立了一个巨大的文本图片库,其间包含了从 1847 年至今的 7300 万篇期刊文章。这一仍在创立的文档库将被保存在印度尼赫鲁大学(JNU)一个 576T 的存储器里。Malamud 说:“咱们搜集的文章或许不是悉数,但肯定不算少。”其规划与 Web of Science 数据库的中心合集平起平坐。Malamud 和他在 JNU 的合作者、生物信息学家 Andrew Lynn 将他们的存储器称为“JNU 数据库房”。
从文档库里阅览或下载论文是不被答应的,由于这会侵略出书商的版权。依照 Malamud 的幻想,研讨者能够运用核算机软件抓取其间文本和数据,在不阅览文字的状况下扫描全世界的科学文献,提取他们想要的信息。
这一史无前例的项目让许多人为之激动,由于这是第一次在文献付费墙上开了一大条口儿,让它们能被用于简略的程序剖析。现在,现已有几十个研讨组从事着相似的数据发掘作业,并在此基础上构建了基因和化学物质的数据库、寻觅蛋白质与疾病之间的相关、生成有意义的科学假定。可是,出书商一般会对这类发掘的速度和规模加以约束,只答应发掘摘要部分,而非全文。为此,印度、美国和英国的研讨人员正方案改用 JNU 数据库房。Malamud 和 Lynn 会去印度各个政府实验室和大学举行讲座,解说他们的主意。Malamud 说:“咱们会请一些教授来听咱们的方案,他们听了之后都很激动,说‘天啊,这太赞了’。”
不过,数据库房的合法性尚待清晰。在制作库房前,Malamud 联络过几位常识产权律师,期望能避开不必要的官司。他说:“咱们的态度是,这种做法彻底合法。”现在,他的每一步都迈得小心谨慎——他为 JNU 数据库房加了物理网闸,让数据库无法经过因特网拜访。用户有必要亲自前往数据库房,并且只需进行非商业数据发掘的研讨者才干获准进入。Malamud 的团队方案将来支撑长途拜访。“但咱们期望能渐渐推动这个项目,而不是马上对外敞开。”
发掘技能哪家强
数据库房的树立能够为研讨论文的软件剖析扫清妨碍,加州大学圣克鲁兹分校(UCSC)的生物信息学家 Max H ussler 说,“现在对学术论文进行文本发掘简直不或许。”即便是像他这样能够经过学校取得付费文章的人也办不到。
自 2009 年以来,H ussler 和他的搭档们就开端构建在线的 UCSC“基因组浏览器”,将人类基因组 DNA 序列直接链到提及该序列的论文阶段。起先,研讨者联络了超越 40 家出书商,恳求答应运用软件来筛查说到 DNA 的详细论文。但有 15 家出书商不是没有回应便是回绝了他们的恳求。H ussler 自己也不确定在无授权状况下的数据发掘是否违法,不敢容易测验。曩昔,曾有出书商发现他用软件爬数据库后封闭了他的拜访。“我 90% 的时刻都在联络出书商,或是写程序来下载论文。”H ussler 说。
在柏林 QUEST 转化生物医学研讨中心兼任职务的统计学家 Chris Hartgerink 现在只在答应敞开获取的出书商那里做文本发掘,由于“和不敞开的出书商打交道太麻烦了”。几年前,当 Hartgerlink 还在荷兰读博时,他试过批量下载论文来做发掘,随后被三家出书商撤销了拜访权。
一些国家现已修订了法令,保证非商业项意图研讨人员能够在没有著作权人答应的状况下,对他们能合法获取的任何内容进行发掘。英国在 2014 年就经过了这类法案,欧盟也在本年投票经过了相似条款。但这无助于落后国家的状况,那里的学术人员底子无法以合法的办法获取论文。即便在英国,出书商仍然有权施加一些“合理”约束,例如以保证服务器不拥堵为由,让研讨人员运用出书商专用界面并约束查找和批量下载的速度。曼彻斯特大学国家文本发掘中心副主任 John McNaught 以为这种约束是个很大的问题:“每 5 秒下一篇文章,对人来说如同挺快的,可是对机器来说就慢得要命。下载 600 万篇论文需求一整年的时刻,单单下载生物医药的一切已宣布论文就要整整五年。
McNaught 说,不差钱的医药公司一般会多付一笔钱来获取专门的文本发掘拜访权限,由于他们的作业是出于商业意图。一位来自医药公司的研讨员(由于无权承受媒体采访,该研讨人员回绝泄漏身份)说,有些状况下,出书商会答应这些公司批量下载论文,以避开此类速度约束。可是,高校研讨人员常常只能从 PubMed 一类的数据库里对文章摘要进行发掘。摘要的确能供给一些信息,但远不及全文来得有用。2018 年,丹麦技能大学核算生物学家 S ren Brunak 的团队指出,查找全文比查找摘要能找到更多基因与疾病的联络(D. Westergaard et al. PLoS Comput. Biol. 14, e1005962; 2018)。
Carl Malamud 和 Andrew Lynn 在尼赫鲁大学监督一个从 7300 万研讨文献中提取文字和图片的项目。来历:Smita Sharma
发掘论文还有不得不战胜的一些技能壁垒。由于不同出书商运用不同的排版办法,从中提取文字自身便是一项应战,而 JNU 团队就遇到了这个问题。例如,从 PDF 转换成纯文本的东西常常无法区别阶段、脚注和图片。不过,只需 JNU 团队处理了这个难题,后人就能够“纳凉”了。Malamud 说,团队从 7300 万篇论文中的首轮提取作业现已挨近完结,但下一步还要查看过错。他估计数据库最快也要到本年年底才干建成。
翻开无限或许
JNU 数据库房的拥护者早已刻不容缓了,其间包含印度国家植物基因组研讨所的核算生物学家、剑桥大学的讲师 Gitanjali Yadav。2006 年,Yadav 带领研讨所的团队,为植物排泄的化学物质构建了一个数据库——EssOilDB。现在,从药物开发团队到香水制作商都在从这个数据库中寻觅头绪。行将建成的“Carl 的百科全书”——用 Yadav 的话讲,能够让她的数据库更上一层楼。
构建 EssOilDB 的时分,Yadav 的团队需求从 PubMed 和谷歌学术(Google Scholar)上细筛相关论文,尽或许从全文中提取数据。假如这些还不行,他们就要实地拜访图书馆,从稀有的期刊中把图表摘抄下来。Yadav 以为数据库房能够快进这项作业,她的团队正在为将来的数据发掘编写查询句子。
印度基因组学与归纳生物学研讨所的生物信息学研讨员 Srinivasan Ramachandran 对 Malamud 的方案也很激动。他的团队有一个 2 型糖尿病相关基因的数据库,并一向经过爬 PubMed 的摘要来寻觅论文。他期望数据库房能够拓展他的发掘网。
麻省理工学院的“常识未来小组”(Knowledge Futures Group)想藉由发掘数据库房,研讨学术论文的宣布办法随时刻的演化。团队成员之一、MIT 媒体实验室的博士生 James Weis 说,团队期望能猜测行将呈现的新研讨范畴,并找出衡量研讨影响力的代替办法。
解锁版权的终身
Malamud 不久之前才萌生了将他的解锁版权运动扩大到学术出书界的主意。Malamud 是加州一个非营利安排“公共资源”(Public Resource)的创始人,该安排会买下政府一切的法令文件并揭露宣布,其间包含佐治亚州的注解法典、欧洲的玩具安全规范,以及从修建、杀虫剂到手术设备在内的逾 1.9 万项印度规范。
由于这些文件常常是政府安排的收入来历,一些安排因而将 Malamud 告上了法庭。而他的辩解理由是:具有法令效力的文件不该遭到著作权的约束。在 2018 年对佐治亚州注解法典的断定中,美国上诉法院确定 Malamud 不存在侵权行为,可是州政府之后再次向最高法院上诉。与此同时,德国法院于 2017 年断定“公共资源”发布玩具规范的行为归于违法,包含一项婴儿奶嘴规范。
不过,Malamud 也胜诉过。2013 年,他向美国联邦法院申述美国国家税务局,要求税务局揭露税务豁免的非营利安排的税表——这些数据能够用来追查这些安排的职责。这一次,法院判 Malamud 胜诉,并要求美国国税局将数千个非营利安排的财务报表以机器可读的办法揭露。
2017 年头,在倡议敞开获取的伦敦慈悲安排阿卡迪亚基金(Arcadia Fund)的帮忙下,Malamud 将目光转向了科研论文。依据美国法令,美国联邦政府雇员的研讨不受版权维护,而“公共资源”找到了数十万篇由美国政府宣布的学术文章都违背了这条规则。Malamud 要求撤销对这些文章的版权维护,但法院究竟会怎么断定仍然不知道。他现已将开端成果发布到了网上,但决议暂缓进一步的宣扬方案,由于这件事让他想到了一个更大的任务:敞开一切科学论文的拜访权。
印度的机会
这项任务源于 2016 年德里高等法院的一项断定。那次案子的中心是德里大学的 Rameshwari 复印店。多年来,这家复印店一向在为学生复印贵重的讲义作为教材。这些讲义的价格从 500 到 19000 卢比(合人民币 50-1860 元)不等,对许多学生来说是无法承受的高价。
新德里的 Rameshwari 复印店由于替学生复印讲义而被告上法庭,终究胜诉。
来历:Sajjad Hussain/AFP/Getty
2012 年,牛津大学出书社、剑桥大学出书社和泰勒-弗朗西斯出书集团(Taylor&Francis)联合申述了这所大学,要求它为每份仿制的书本购买答应。但德里高等法院驳回了诉讼恳求。在断定书中,法院征引印度 1957 年《版权法》第 52 节,其间答应以教育为意图仿制有著作权的著作,同一节的另一条款还答应出于研讨意图的仿制行为。
Malamud 与印度的根由很深:他早在 1980 时代就以游客的身份拜访过印度,并在斯利那加的船屋中写下了一本关于数据库规划的书,是他的前期著作之一。当传闻 Rameshwari 复印店一事时,他刚刚取得了(他回绝泄漏概况)8 个装有 Sci-Hub 数百万篇期刊文章的硬盘。Sci-Hub 是一个将付费论文免费向一切人敞开的盗版网站。Sci-Hub 曾因侵权问题被出书社告上美国法院,并在两申述讼中败诉;尽管如此,它的一些域名至今仍然有用。
所以,Malamud 开端思索是否能以合法的途径运用这些 Sci-Hub 的硬盘,为印度学生做些什么。在他 2018 年与印度技能企业家 Sam Pitroda 合写的关于他作业的《自治法典》(Code Swaraj)一书中,他幻想自己驾驭一辆相似美式快餐车的轿车空降印度学校,把论文分发给需求它们的学生。
终究,他把主意定格在了 JNU 数据库房。(Malamud 还在协助德里的印度理工学院树立另一个发掘中心,其间包含了 250T 的数据,但没有启用。)不过,他对数据库房的论文来历却讳莫如深。当被问及数据库房中的有些论文是否来自 Sci-Hub 时,他不肯置评,只泄漏了可供免费下载论文的渠道(如 PubMed Central 和一个叫“Unpaywall”的东西)。但他坦言并未与出书商就数据库房的论文拜访权签订合同。
合法吗?
在 Malamud 看来,论文的来历并不重要。他以为这种数据发掘归于非消费型——该术语意味着研讨者不能阅览或展现他们所剖析文章的大部分内容。他说:“你是不能用 DOI [论文索引号] 查找文章的。”Malamud 以为在美国等一些国家,对有著作权的内容进行发掘是法令答应的。例如,2015年,美国法院断定“谷歌图书”(Google Books)没有违背著作权,而谷歌的做法与 JNU 数据库房相似:在没有额定购买答应的状况下对上千本有著作权的书本进行扫描,并在查找服务中供给这些书本的摘抄,可是不答应用户全文下载或阅览。
旧金山律所 Durie Tangri 的常识产权律师 Joseph Gratz 是谷歌图书一案的辩解律师,并曾代表公共资源出庭。在他看来,谷歌图书一案是对非消费型数据发掘的一个实验。尽管谷歌会供给部分预览,但法院断定片段展现的文本过少,不构成侵权。谷歌的确没有取得答应,但它扫描的是已获授权的图书(多来自图书馆)。Gratz 说,著作权人或许会辩称,假如 JNU 数据库房是从 Sci-Hub 等未获授权的途径取得论文,状况就和谷歌不同。可是,美国法院历史上从未审理过触及非授权来历的案子,因而成果怎么很难说。“尽管来历不重要的理由很足够,但推翻这种证明也不是不或许。”
又或许,数据库房在美国是否合法底子无关紧要,由于这些内容悉数来自坐落印度的数据库——即便能够长途拜访。美利坚大学华盛顿法学院的教授 Michael W. Carroll 因而以为,这个数据库是否合法,或许还得印度法令说了算。
而在印度,法令很有或许对 Malamud 有利——这也是他把数据库设在新德里的另一个原因。第 52 节答应的研讨豁免让 JNU 数据库房不会冒犯印度法令,德里国家法令大学的助理教授 Arul George Scaria 说。可是,不是一切人都赞同这种解读。第 52 节答应研讨者仿制期刊文章做个人运用,但不必定答应 JNU 数据库房的大批量仿制,Vidhi 法令方针中心的法学研讨员 T. Prashant Reddy 说。不让用户拜访全文的确会让数据库相对有利,可是经过批量仿制论文来构建数据库的做法却会使其堕入“法令灰色地带”,Reddy 说。
高危险职业
《天然》就 JNU 数据库房的问题联络了 15 家出书商,其间 6 家给出了回应,并说自己是第一次传闻这个项目,不肯在没有进一步信息的状况下谈论其合法性。可是,这 6 家出书社——爱思唯尔、BMJ、美国化学学会、施普林格·天然、美国科学促进会和美国国家科学院——都说对他们的论文进行数据发掘需求取得他们的答应。(施普林格·天然是《天然》的出书商;《天然》新闻团队与其出书商是修改独立的。)
Malamud 深知这个项目背面的危险,但他以为这么做在“道义上至关重要”,特别是对印度来说。他说,印度大学和政府实验室花费巨资订阅各种期刊,但仍然无法获取一切需求的论文。来自 Sci-Hub 的数据标明,印度是该网站最大的用户来历国,这意味着大学购买的权限还远远不行。Malamud 说,尽管美国和欧洲的敞开获取运动难能可贵,但印度要在解放科学常识的道路上先行一步,“咱们不能等欧洲和美国来处理这个问题,印度的需求太火急了。”
版权声明:
2019 Springer Nature Limited. All Rights Reserved
(ID:Nature-Research)