1自引率与影响因子人为操纵的识别
自引率的分类
期刊自引率是指期刊总被引频次中自引次数所占的百分比。根据自引率适用对象的不同,我们将自引率分为2类,一是总被引频次中自引所占的百分比(self-citedratefortotalcites,RSC,TC),二是计算影响因子的分子中自引所占的百分比。学术界普遍关注的是RSC,TC,对RSC,IF研究较少。《中国科技期刊引证报告(核心版)》中的是RSC,TC,清华同方的《中国学术期刊影响因子年报》中给出了他引影响因子,未给出RSC,TC。根据影响因子和他引影响因子可以计算出RSC,IF。2015年新版《JCR》(InCitesJCR)里新增的3个指标中就包括他引影响因子,这样就能很方便地计算自引和他引对期刊影响因子的贡献度以及RSC,IF。
自引率在影响因子人为操纵识别中的应用
影响因子是指某期刊前2年发表的所有文献在统计当年的被引频次与该刊前2年发表的可被引文献数量之比。显然,提高影响因子最根本的方法是增加期刊前2年发表的论文在统计当年的被引频次。其他期刊是否引用自家期刊不易控制,期刊自引就成为提高影响因子最直接、最有效的手段;因为,在的全过程涉及3类行为主体,即主编(编辑)、审稿专家、作者,其中作者是弱势群体,主编(编辑)起决定性作用。主编(编辑)要求作者引用某期刊时,作者为了能够顺利在该刊,一般没有勇气也没有必要拒绝主编(编辑)提出的引用要求,尽管有时候可能仅仅是建议。过度的人为操纵必然导致期刊自引率过度升高。一般来讲,期刊自引率应小于20%,异常增高一定存在人为操作的可能。为了遏制期刊通过提高自引量人为操作影响因子的行为,美国汤森路透在1997年版的《期刊引证报告》(JournalCitationReports,JCR)里就加入了期刊总被引频次中的自引率(RSC,TC)和影响因子构成中的自引率(RSC,IF)。中国科学技术信息研究所在1999年出版的《中国科技期刊引证报告(核心版)》中专门增加了RSC,TC指标。国内消化病学领域某刊(英文版),曾经因为RSC,IF和RSC,TC过高一度被《JCR》剔除(2008年恢复),眼科学领域某中文期刊也曾因为RSC,TC过高一度被《中国科技期刊引证报告(核心版)》剔除。为了最大限度地发挥自引对影响因子的贡献,还不至于使自引率(实际上仅指RSC,TC)明显增加,部分办刊人开始强制或引导作者仅引用该刊前2年发表的论文作为参考文献,也就是马峥文中提到的“通过在影响因子时间窗口内外调节自引操纵指标的行为”。这种行为一定会导致RSC,TC小幅增加而RSC,IF过度增加。通常情况下,同一期刊的RSC,TC和RSC,IF应该大体相当,如果RSC,IF远远大于RSC,TC,则可高度怀疑该刊存在人为操作行为。
2扩散因子与影响因子人为操纵的识别
扩散因子是指期刊当年每被引100次所涉及的期刊数,体现期刊学术影响的集中度,也表征期刊影响力波及的范围。该指标是中国科学技术信息研究所《中国科技期刊引证报告》中的特有指标,主要应用于识别期刊集团或期刊联盟内部期刊之间的互引。其实,期刊自引率高的实质,不是自己引自己多了,而是其他期刊引用它的少了。只要大幅度提高他引量,即使有大量的自引也不至于导致自引率过高。因此,各期刊为了充分发挥期刊自引对影响因子提升的作用,而又不至于导致自引率过高,只有关系不错的期刊之间结成期刊集团,集团内部期刊互相引用。这必然导致期刊总被引频次过度集中于少数期刊,扩散因子必将明显下降。如果某刊扩散因子明显低于同学科其他期刊,则可高度怀疑该刊有人为操作的可能。表1汇总了《中国科技期刊引证报告(核心版)》中我国各师范大学学报(自然科学版)的相关文献计量学指标(按扩散因子降序排列),除了影响因子,其他指标均具有识别人为操作的功能。表1中的最后6种师范大学学报扩散因子均在50以下,最后2种期刊低得更加明显。
3被引半衰期与影响因子人为操纵的识别
被引半衰期是指某期刊统计当年总被引频次中,较新的一半是在距离现在多长一段时间(以年为单位)内发表的。被引半衰期通常用来测度期刊老化速度,它在期刊影响因子人为操纵识别方面的作用几乎未被关注。前文中提到一种人为操作影响因子的行为,即为了充分发挥自引在提升期刊影响因子中的作用,而又不使期刊自引率明显升高,必须尽可能多地引用该刊前2年发表的论文。这样一来,期刊总被引频次中必然过多地出现引用该刊最近2年发表的文献,3年前的文献引用明显偏少,直接导致被引半衰期明显下降,实际上就是人为地加速期刊文献老化的速度;因此,被引半衰期若明显低于同学科其他期刊,很可能存在人为操作影响因子的行为。
4开放因子和互引指数与影响因子人为操纵的识别
开放因子是指期刊被引用次数的一半所分布的最小施引期刊数量,体现学术影响的集中度。确定开放因子的方法是,将引用某期刊的期刊按照施引次数降序排列,累计施引次数到50%时涉及的期刊数。开放因子是《中国科技期刊引证报告》中的特有指标。互引指数是某期刊的被引集中度与该期刊所属学科的平均被引集中度之比,用于分析某期刊被引期刊分布广度的合理性。某期刊的被引集中度是指将引用某期刊的期刊按引用该刊的次数由大到小排列,累加该期刊被引次数至总被引频次的50%所对应的期刊数。某学科期刊平均被引集中度为该学科期刊被引集中度的算数平均数。互引指数是《中国学术期刊影响因子年报》中的特有指标。从以上概念可知,开放因子和期刊被引集中度含义完全相同,只是数据来源不同。开放因子和互引指数用于不同学科期刊评价均无意义,同一学科期刊评价中,期刊被引集中度和互引指数是等效的。无论期刊的被引频次过度集中于1家期刊(期刊自引)还是过度集中于少数几家期刊(小集团互引),被引频次累计到总被引频次50%时涉及的期刊数均明显下降,导致开放因子和互引指数明显低于本学科其他期刊;因此,开放因子和互引指数明显低于本学科其他期刊,可高度怀疑有人为操纵的可能。表现最为明显的是26师范大学学报,其影响因子在被观察的26种学报中位列第2位,但他引率(倒数第4位)、扩散因子(倒数第1位)、被引半衰期(倒数第3位)和开放因子(倒数第4位)都较低,可以肯定该刊一定有大量自引和小集团互引。由于其互引指数(来源于清华同方的《中国学术期刊影响因子年报》)较高,可以进一步确定该刊与大量一般期刊而非统计源期刊的期刊互引。若是与大量的统计源期刊互引,其开放因子不应该那么低。笔者认为,他引率、扩散因子、被引半衰期、开放因子和互引指数等5个指标中:若同时有3个及以上指标明显低于同学科其他期刊,则基本可以确定存在人为操纵行为;若2个指标明显低于同学科其他期刊,则可高度怀疑存在人为操纵。总之,现有的文献计量学指标体系已比较完善,只要我们深刻理解各指标的实质内涵,深度挖掘不同指标在期刊人为操纵行为识别中的作用,任何人为操纵期刊被引频次和影响因子的行为都将无处藏身;但是,如果“期刊互引集团”规模足够大,任何指标都将失去作用。不过,这种情况下,各期刊指标均有所提高,对每一家期刊也就失去了比较优势;此外,“期刊互引集团”过大很容易暴露。这就决定了不太可能出现规模过大的“期刊互引集团”。