1、论文检测之高被引论文识别研究-引言
高被引论文指在某个统计时间段内,被引用次数排在学科前列的论文,在一定程度上代表了学科的研究进展,具有重要的研究意义。汤森路透集团[1]文献评价分析工具ESI中将论文检测之高被引论文(Most Cited Papers)定义为过去十年被引用次数排在各学科前1%的论文。一方面,科技论文的被引用次数及其改进指标如影响因子[2]、h指数[3]等,作为重要的计量学指标,已被广泛应用于研究水平测度、科研绩效评价、学术期刊评价等方面[4-5];另一方面,基于科技论文被引用次数的引文分析及共引分析、耦合分析等作为重要的情报研究方法,也广泛应用于学科结构研究、领域研究前沿和热点探测等领域[6-7]。科技论文的引用行为呈现出高度的复杂性,如Garfield[8]在1964年提出15种引用原因,且被引用次数无法揭示出作者的引用动机。以被引用次数为基础的传统引文分析将所有的引文同等看待,施引文献和被引文献之间的关联性也通常不加以区分。随着全文本文献可获取性的不断提高和文本挖掘技术的持续发展,引文类型识别将引用动机的研究推进到一个新阶段[9]。引文类型识别是通过对施引文献引用被引文献的文本内容进行分析来对引文进行分类,如Pham[10]将引文分为基础、支持、局限和比较,Le[11]将引文分为基于被引文献、被引文献一部分、支持施引文献、指出被引文献的问题或差距、比较当前工作和其他类型。引文类型识别主要从引用功能和观点倾向两种角度来对引文进行分类。
为了进一步揭示论文检测之高被引论文的研究内容,通常利用其关键词、主题词(标题、摘要或全文抽取所得)来表征论文检测之高被引论文的研究主题,如侯跃芳等[12]将引文共引聚类与内容词分析法相结合揭示专题发展,通过引文共引聚类描述妊娠糖尿病专题研究的发展历史,通过高频引文的重要来源文献的内容词分析描述该专题研究现状。然而,高被引论文的主题词只能反映该论文自身的研究内容,不能揭示其被引的原因和内容,因而需要深入施引文献的全文来挖掘其引用的被引文献的内容,即引文内容,在引文内容分析的基础上抽取代表被引文献被引原因的主题词。另外,本文中的主题Topic指论文中用于表征相关研究内容的词汇或短语,相对于一般具有严格规范控制和复杂概念体系的主题Sub-ject(如受控词表和本体等),Topic更符合从引文内容抽取相关词汇或短语来表征高被引论文主题的研究方法。科技论文中大部分的创新并不是完全创新,而是在以往创新基础上的再创新,既有继承性,又有变化性。科技论文的继承性通过引用和被引用来实现,并以参考文献的形式出现在科技论文的正文后面,在正文中以特定的形式进行标记,本文称为引用标记,如3、[19,24]、(15-17)或(Teufel1999)等。同时,将引用标记所在的句子称为引用句,与引用句在内容上相关联的上下文句子称为引用上下文。引文内容分析指对引用句或引文上下文的分析,引用句是施引文献和被引文献的直接关联,引文上下文蕴含更加丰富的语义信息,本文中引文内容分析指对从引用句中抽取的引文内容进行分析。引文内容分析是对传统以被引用次数为基础的引文分析的重要补充,能较好地揭示被引文献和施引文献之间在语义内容上的关联,基于论文检测之引文内容分析的论文主题识别从施引文献的角度出发识别的主题词能更好地表征被引文献的研究主题和主要贡献,有利于共引、耦合等进一步分析中的语义揭示和内容挖掘。
2相关研究
Small[13]将引文内容分析分为两种:①引文上下文分析(citation context analysis),主要是面向引用功能或观点倾向的引文类型识别;②引文上下文的内容分析(content analysis of citation contexts),主要是面向主题词或短语的语义内容挖掘。第一种更多关注引用功能或观点倾向的分类,重视外部特征,忽略引文的内容分析,在一定程度上仍然是外在层面的分析;第二种是对第一种方法的重要补充,重视内部特征,深入语义内容进行分析,有更好的应用价值。Ding[14]认为基于内容的引文分析是下一代引文分析的方向,并将其分为两个层面:一个是语法层面,指引文分布在文献中的不同语法结构中(出现在文中不同章节位置);另一个是语义层面,指引文具有不同的语义贡献(比如重要或不太重要的贡献、肯定或否定型贡献)。引文内容分析的早期研究主要是人工对引文文本内容进行判读和总结,如Small[15]将引用内容作为观点表达的概念符号,认为将共被引聚类和引文内容分析结合起来能更好地揭示研究领域的知识基础。Small[16]利用这种方法对重组DNA领域进行了分析,首先利用共被引聚类方法追溯重组DNA领域的演化历史,然后利用论文检测之引文内容分析揭示聚类之间主题的变化,并将其引申到共被引内容分析,进一步揭示文献概念之间的关系。该方法的关键是用引文文本内容中出现频次最高的词或短语来表示引文,将引文标签化,在一定程度上对演变进程有了更好的解释。随着文本挖掘技术的提升以及全文本获取的可行性,对文献全文的挖掘和分析越来越多,引文内容分析也在其中。Nakov等[17]指出引文内容分析的一系列潜在应用,如可比语料库构建、实体识别、关系抽取、自动文摘、同义词识别和消歧、文献检索等,这些应用都是建立在对引文内容分析的基础之上,其出发点都是引文内容相比被引文献的摘要和全文等包含更丰富的语义信息。Elkiss等[18]通过多个实验发现引文内容和被引文献的摘要有一定程度的重合,但是针对同一篇被引文献的施引文献往往关注被引文献的不同方面,不会对其贡献进行完全的描述,并且发现引文内容比摘要具有更好的统一性,包含摘要所不具有的额外语义信息,是对摘要的重要补充。目前,引文内容分析的研究主要集中于主题
识别、自动文摘、信息检索、文本分类和聚类等方面。①主题识别:引文分布在文献的不同位置,引文位置相邻文本的主题词在一定程度上表示了引文的主题分布。文献可以用很多主题词来表示,但是引文并不跟文献所有的主题词都相关,通过引文分布可以增强引文信息,提高引文分析的精度。如Liu等[19]在此假设基础上使用有指导主题模型算法LLDA来表示文献和引文主题的分布。②自动文摘:引文内容从施引文献的角度反映其所起的作用,通过对引文内容的抽取和分析,可用于文摘的自动生成。如Teufel[20]认为引文中可能包含很多主观内容,并提出Argumentative Zoning的方法,利用这些内容来生成摘要。Mohammad等[21]阐述了引文内容在多文档自动文摘方面的优势。Qazvin-ian等[22]提出一个基于图的自动文摘模型C-LexRank,主要利用引文内容来生成技术文摘。③信息检索:利用引文内容可以很好地提高检索结果的相关性。如Bradshaw[23]提出的文档索引模型(Reference Directed Indexing,RDI),利用引用句中抽取的词语对文档进行标引,并用于检索系统,检索结果的相关性明显改善。Ritchie等[24]通过实验证明利用引文内容中抽取的词语可提高信息检索的性能。④文本分类和聚类:文本分类主要是利用引文内容中包含的很多原文中未出现的重要词语来对文献进行标引,如Aljaber等[25]利用引文内容来提高生物医学论文的MeSH分类效果。文本聚类同样是利用引文内容中包含的同义词、上下位词等相关词汇来提高聚类的效果,如Aljaber等[26]证明结合使用引文内容抽取的主题词和原文全文抽取的主题词可以较好地识别研究主题并用于文献的聚类。综上所述,引文内容是施引文献对被引文献知识创新内容的重新组织,揭示了被引文献对后续研究的主要贡献,相比于被引文献摘要和全文能够提供更加客观和丰富的语义信息,并且引文内容可以通过主题词的形式进行表征,可以有效提高信息检索等实际应用的效果。
3研究设计
3.1数据来源
本文以“碳纳米管纤维”研究领域为例,选取该领域的高被引论文作为研究对象进行引文内容分析和主题识别研究,同时选取ISI Web of Sci-ence数据库中的子库SCI-EXPANDED、SSCI、CP-CI-S、CCR-EXPANDED、IC来构建领域数据集,检索式为{TI=((“carbon nanotube*”or“carbon-nanotube*”or“carbon nano-tube*”or CNT or SWNT or MWNT or DWNT or SWCNT or MWCNT or DWCNT)and(fiber*or fibre*or yarn*))},检索时间为2013年3月11日,文献类型限定为Article和Proceedings Paper,共返回有效检索结果991条,构成实证研究的数据集。该领域的科技论文分布在1995年到2013年,而且逐年增加,呈现出良好的发展态势(见图1)。2013年出现急剧下降的原因是数据不全,因而不能代表领域的发展趋势。
3.2研究方法
本文以碳纳米管纤维领域的论文检测之高被引论文为例进行实证研究,验证利用引文内容分析来进行论文检测之高被引论文主题识别的可行性和有效性,具体研究方法如下:
(1)被引文献集和施引文献集构建利用HistCite对检索到的991条数据进行初步分析,利用本地被引用次数(Local Citation Score,LCS)对数据进行排序,选取高被引论文,并构建被引文献集和施引文献集,其中,被引文献集由高被引论文组成,施引文献集由数据集内引用被引文献集的论文组成。
(2)基于规则的引文内容抽取从施引文献集中分别抽取被引文献集的引文内容,包括全文预处理、引用句识别和引文内容抽取三个主要步骤。其中,全文预处理包括利用EndNote来获得被引文献集和施引文献集中所有文献的PDF全文,以及利用ABBYY FineReader将PDF全文转换成易于处理的TXT格式,并进行适当的人工清洗;引用句识别是从施引文献集全文中识别包含被引文献所对应引用标记的句子;引文内容抽取是在引用句识别的基础上去除噪音并抽取被引文献所对应的引文内容。
(3)基于C-value的论文检测之高被引论文主题识别本文采用C-value算法[27-28]进行论文检测之高被引论文的主题识别,该算法是对纯粹短语词频统计的改进,加强了多词术语和嵌套术语的识别,并成功应用到英国曼彻斯特大学国家文本挖掘中心的Ter-Mine系统中,用于主题词汇抽取和术语识别等。C-value算法具有领域无关性,是语言学分析方法和统计分析方法相结合的多词术语识别算法,着重强调统计分析方法。语言学分析部分是对文本进行词性标注、形容词/名词序列抽取、停用词表过滤等处理方法获取候选术语。统计分析部分是根据候选术语的四个特征进行统计,构建术语模型判定术语。四个特征包括候选术语的词频、词长、候选术语被其他更长候选术语包含的频次以及这些更长候选术语的数目。
来源文思慧达论文检测之高被引论文识别研究