论文检测引文内容分析的高被引论文主题识别研究二

1.论文检测引文内容分析的结果与讨论

(1)被引文献集和施引文献集构建对碳纳米管纤维领域的991条检索数据进行统计,其中具有被引用次数的论文412篇(占41.57%),被论文检测引用次数大于等于50次的11篇(占1.11%),本文选取被论文检测引用次数大于等于20次的37篇(占3.73%)论文作为该领域数据集内的高被引论文,限于篇幅本文仅给出被引用次数排名前十的高被引论文(见表1)。从表1可以看出,10篇高被引论文的被引用次数都在50次以上,发表时间分布在2000年到2007年,且来源刊中有5篇来自Science,2篇来自Nature。将碳纳米管纤维领域的37篇高被引论文作为被引文献集,利用HistCite软件得到被引文献集在实验数据集中的施引情况,获得每篇被引文献对应的施引文献编号(见图2)。其中Num指论文编号TI指被引文献的标题,LCS指被引文献的被引用次数,Citing指该被引文献所对应的施引文献集,施引文献以#来进行间隔,Citing中施引文献的数量与被引用次数LCS一致。

(2)基于规则的论文检测引文内容抽取

基于规则的引文内容抽取是从施引文献集中抽取被引文献对应的引文内容,抽取对象是PDF全文转换成的TXT文本,抽取过程主要包括引用句识别和引文内容抽取。

1)引用句识别

参考文献记录分为有序号和无序号两种形式,其中有序号形式指“序号+被引文献记录”,常见序号格式有:数字、[数字]、(数字)等,无序号形式是直接给出被引文献记录,而没有序号。依次对每篇被引文献所对应的施引文献进行处理,对于有序号形式的利用第一作者、来源、年、卷等进行匹配,获得被引文献在施引文献全文文本中所对应的参考文献记录,抽取参考文献记录所对应的序号。如图3中可利用第一作者Dalton、来源Nature、年2003、卷423等获得33号被引文献在125号施引文献参考文献记录中的序号为[7]。对于无序号形式的不进行这个处理,直接进行引用句的抽取对于有序号形式的根据参考文献序号定位被引文献在施引文献全文文本正文中的引用位置,抽取引用句。参考文献序号在正文中出现的形式主要有:单序号(如3、(9)、[6]);双序号(如12,13、[19,24]、[23,24]);连续多序号(如2-4、(15-17)、[1-3]);不连续多序号(如[15,16,24]、[23,27-29],[16],[18]-[23])等,其中多序号是指包含三个及以上序号。对于单序号和双序号可直接进行序号匹配,对于多序号形式需要判定定位的序号是否在其范围内。对于无序号形式在正文中一般以作者和年的组合出现,常见的格式有:(作者年)、作者(年)、(作者,年)等,直接利用第一作者和年的匹配来定位引用句的位置,进行引用句的抽取。

2)论文检测引文内容抽取

由于抽取的引用句可能包含多个被引文献因此需要对引用句进行处理,获得所需被引文献对应的引文内容。引文内容抽取是根据参考文献序号的位置来判定的,主要分为以下几种情况:

①如果引用句中只有一处含有参考文献序号且包含被引文献对应的参考文献序号,那么整个引用句作为引文内容。

Here we report a simple and versatile approach that can create rigid fibers and ribbons of preferentially oriented SWNTs(11).When nanotubes are randomly oriented in the ma-trix,polarizedRaman spectroscopy selects out the signal from those nanotubes lying in the polarization direction[14-17].

②如果引用句中有多处含有参考文献序号且有标点符号或并列、转折、比较等连接词(and、or、but、though、either…or、both…and、not only…but al-so、as、whereas、as well as、in contrast to、similar to等)将引用句分隔成若干部分,那么保留包含被引文献对应的参考文献序号所在的部分。Carbon nanotube(CNT)fiber performance has improved significantly since 2000[1],now reaching strengths(9 GPa)and moduli(350 GPa)compa-rable or greater than those reported for carbon fibers[2,3].Applications of CNT yarns as high strength con-ductive fibers[10,15,16]and thermionic and field e-mission electron sources[12-14]have been explored.In addition,these carbon nanotube fibres are good electrical[8,9,11]and heat conductors[12,13],have a high thermal and chemical stability and are very resilient to maltreatment due to their yarn-like character[14].③如果引用句中有多处含有参考文献序号且作为句子的同一成分并列出现,通常以冒号或列举词(for instance、such as、including、by means of、because of、using、through、about、from、by、for、e.g.等)开始,那么保留包含被引文献对应的参考文献序号所在的部分。CNT fibers can be fabricated through coagula-tion-based wet spinning[2],direct synthesis from CNTaerogel[3],and a dry-state spinning out of vertical-ly aligned CNT arrays[4].Recent progress have shown the possibility to make optimized materials:films of aligned nanotubes by u-sing high magnetic fields 2-4 and fibers of aligned nanotubes by using an electrophoretic process 5 or spin-ning aqueous suspensions.6④如果引用句中有多处含有参考文献序号且分布包含多种情况,并将引用句分割成若干部分,那么以保留包含被引文献对应的参考文献序号所在的若干部分为首要原则。Compared with other methods[1-7],it simpli-fies processing[1-6],avoid the toxic acyl chlorina-tion processing[5]or catalyst contamination[1-4]and increases controllability and effectivity[7].通过以上过程可以获得每篇高被引论文在各自施引文献集中的论文检测引文内容,抽取结果如图4所示。最后将引文内容按照施引文献进行汇总,得到高被引论文的引文内容。

(3)基于C-value的高被引论文主题识别

利用C-value算法分别对37篇高被引论文的引文内容进行候选主题抽取,得到37组候选主题列表,表2给出了第1篇高被引论文的部分候选主题每篇高被引论文可由一系列候选主题共同来表征,但是每个候选主题所占的权重(C-value值)并不相同,权重大的候选主题能够更好地揭示高被引论文,本文将权重较大的候选主题定义为核心主题。对于抽取出的候选主题,需要设定阈值来从中选取代表高被引论文的核心主题。本文通过实验发现,C-value值大于5.00的候选主题能够很好地表征相关研究内容,大于10.00的候选主题具有强相关性,能够表征论文的核心研究内容。因此,本文将C-value值的阈值设置为10.00,大于阈值的候选主题作为该论文的核心主题,限于篇幅,本文只给出TOP10高被引论文的核心主题识别结果(见表3),核心主题之间用#间隔,圆括号内数值为主题词对应的C-value值。为了验证实验结果,本文通过人工判读的方法进行分析,分别对37篇高被引论文的标题、摘要以及论文检测引文内容进行判读,结果发现识别的核心主题能够较好地揭示高被引论文被引的原因,而且与论文的研究内容相符合。例如,第1篇高被引论文“Macroscopic fibers and ribbons of oriented carbon nanotubes”[29]的研究内容是提出了一种将单壁碳纳米管装配成较长丝带和纤维的方法,该方法首先将纳米管分散在表面活性剂溶液中,然后在聚合物溶液的流动中浓缩纳米管形成纳米管网格,最后将网格整理成纳米管纤维。通过引文内容抽取的核心主题较好地反映了该研究内容,即将碳纳米管(carbon nanotube)利用凝固纺丝法(co-agulation spinning)来制备碳纳米管纤维(cnt fi-ber),其中,凝固纺丝法属于湿法纺丝(wet spin-ning),其生成的纤维属于复合纤维(composite fi-ber)。而且抽取的核心主题来自施引文献集,更加具有客观性,能更好地反映出该论文被引的原因,如制备方法coagulation spinning和wet spin-ning在原文中并没有出现,是后续研究引用该论文时对其研究方法的总结,具有更好的主题特征,是对原文内容的重要语义补充。为了进一步验证结果的有效性,本文分别利用第1篇高被引论文的标题和摘要、全文进行主题识别,同样利用C-value算法,实验结果对比如表4所示,每个结果给出排在前五位的主题词。从形式上,基于引文内容主题识别的C-value值明显高于基于全文、基于标题和摘要的值,因而具有更好的主题代表性,基于全文的值又稍好于基于标题和摘要的值;从内容上,基于标题和摘要、基于全文抽取的主题词都来自原文,且有一定的重复性,虽然抽取的主题词也都与论文研究内容相关,但是不能够直接反映出论文最主要的贡献和研究内容,而基于论文检测引文内容的主题抽取效果要明显好于前两者,主要原因是引文内容来自多篇施引文献,且施引文献都对引文研究内容进行了总结和归纳,主题更加集中。通过实验结果对比发现,在引文内容分析基础上识别的主题能够有效揭示被引文献的研究内容,是对原文相关信息的重要补充,为领域主题演化、主题聚类等进一步分析奠定了基础。

2.结语

引用行为具有复杂的动机,而目前的引文分析较少考虑引用动机,且将所有的引文同等看待,被引用次数只能从外在计量论文的影响力,无法揭示论文的研究内容;同时,基于引文的共引、耦合聚类分析等情报研究方法通常选用关键词或从标题、摘要、全文中抽取主题词来表征论文的研究主题,仍然是从论文自身的内容出发,无法揭示论文的被引原因。本文提出基于论文检测引文内容分析来进行高被引论文主题识别的研究思路,在一定程度上解决了以上问题,对传统引文分析方法具有很好的借鉴意义,而且通过碳纳米管纤维领域的实证研究验证了该方法的有效性和实用性。为了进一步提高该方法的应用性,本文认为该方法还需要从三个方面进行完善。

(1)引文内容方面:本文中的引文内容是从引用句中抽取的,没有涉及引文上下文,而引文上下文通常是对引用句的进一步阐述,蕴含着丰富的语义信息,为揭示施引文献和被引文献的关联提供了更多线索,进一步的工作需要加强这些内容的抽取和分析。

(2)主题识别方面:本文选取C-value算法来进行主题识别,该算法对于多词术语和嵌套术语的抽取效果很好,但该方法存在不能识别单词术语等缺陷,与其他方法结合使用效果会更好,比如陈仕吉等[30]提出的基于C-value与TF-IDF的文献簇主题识别方法。另外,概率主题模型在主题演化等方面具有一定的优势,如崔凯[31]基于LDA的主题演化研究与实现,进一步尝试将LDA等概率主题模型应用到基于论文检测引文内容的主题识别和主题演化分析。

(3)方法应用方面:本文通过实证研究已经初步发现引文内容相对于被引文献原文的优势,引文内容和原文内容的结合使用能更好地表征被引文献的研究内容。另外,主题识别是引文内容分析的基础,下一步研究将在主题识别的基础上进行面向问题和应用的研究,比如前面相关研究中提到国外学者针对论文检测引文内容分析开展的面向自动文摘、信息检索等应用的研究。

发表评论

邮箱地址不会被公开。 必填项已用*标注