HI,欢迎来到好期刊网!

神经网络文本分类

时间:2023-06-01 11:32:58

导语:在神经网络文本分类的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。

神经网络文本分类

第1篇

[ 关键词 ] 招聘 人力资源管理 数据挖掘 决策树 神经网络

一、引言

随着计算机和网络的迅速发展和普及,网络招聘正日益成为用人单位招聘人才的一种重要方式,招聘者们越来越

希望通过计算机技术协助人力资源管理来处理电子简历的评价及筛选,提升整个人力资源管理的效率。数据挖掘技术,是解决这一问题的较好方法。

本文将数据挖掘技术运用于网络电子简历的筛选,并比较了决策树与神经网络两种算法的优劣。

二、网络简历样本的获取与预处理

1.简历样本的获取

本文从某人才招聘网站数据库获得简历数据,选取十个热门的岗位(会计、销售工程师、卫生医疗、纺织服装设计、司机、建筑/结构工程师管理人员、美术/图形设计、市场经理、行政/人事人员),每个岗位中抽取50个招聘职位,每个职位抽取20份简历信息,每一份简历及其相应的招聘职位要求构成一个样本。其中10份为企业通过招聘网站发出面试通知的简历(简称A类样本),另外10份为没有被企业通知面试的简历(简称B类样本)。

2.简历样本的预处理

考虑到本研究的挖掘目的,本文选取了以下几个应聘者的属性与招聘公司的需求进行匹配,在对数据进行处理后,再应用到数据挖掘工作中。所选择的属性都需要将招聘企业的要求和应聘者的信息相匹配,再进行数据的处理。选择的输入属性是:性别、年龄、籍贯、学历、婚姻状况、工作年限、政治面貌、毕业院校、计算机水平、专业、工作经验,输出属性是:是否被接受面试。

由于原始数据库中的数据存在着各种各样现实中不可避免的缺陷,下面将根据所选择的属性分别详述对简历数据所进行的预处理。

(1)性别(R_Sex):不需要复杂的处理。

(2)年龄(R_Age):本文将应聘者划分为三个年龄段:a.小于或等于三十岁;b.三十到五十岁;c.五十岁以上,修改后的数据变为“=50”。

(3)婚姻状况(R_Married):婚姻状况仅仅分为已婚和单身,因此将数据修改前的FALSE改为单身,TRUE改为已婚。

(4)籍贯(R_Place):本文在预处理中,将籍贯与招聘单位所在省份一致的应聘者籍贯取1,其余的为0。

(5)工作年限(R_WorkYear):本文将应聘者按照工作年限的长短来划分,修改后数据分别变为“=10”。

(6)学历(R_Education):大致分为博士后、博士、硕士、本科、大专、高中/中专六类,通过观察发现这一属性中存在一些空缺值,因此对这一属性的处理仅仅是把空缺值清除。

(7)政治面貌(R_Political):本文将是党员的不做修改,将其他表述一概改为其他。

(8)毕业院校(R_School):本文将应聘者的学校分为五类,并收集了大学的排名和院校名称,211重点大学取为1,一般重点大学为2,一般本科院校为3,其他专科和民办院校为4,海外大学为0。

(9)专业(R_Specialty):本文将企业对专业的要求提取出来与应聘者简历中的信息做对比,若两者专业相符合则改为符合,否则改为不符合。

(10)计算机水平(R_ComputerGrade):本研究将初级程序员用等级1代替,中级用2,高级用3,其余的为0。

(11)工作经验(R_Experience):本文提取了招聘者要求中的一些关键字眼与应聘者简历中的描述来做对比,将应聘者的经验划分为三类:有相关经验、有实习经验、无相关经验。

(12)接受(Accept):接受与否属性是数据挖掘中唯一的输出属性,A类样本取作为接受,B类样本取为拒绝。

三、简历筛选的分类算法

本文主要选取了C5.0决策树算法和神经网络算法在数据挖掘软件Clementine中对预处理后的简历样本数据进行分类挖掘。

1. C5.0决策树算法

构造决策树的目的是找出属性和类别间的关系,用它来预测将来未知记录的类别。本文分别抽取了几个岗位中的部分预处理后的数据作为数据挖掘的数据测试集,为决策树算法在招聘简历中的数据挖掘应用做进一步的验证和解释。

首先在Clementine中建立Excel来源节点,导入数据,对其进行读取和处理,使其符合Clementine中的挖掘要求,将数值类型改为读取,在方向定输入输出属性。

C5.0算法能产生决策树或规则集,并且在决策树的产生过程中它能自动根据最大信息增益进行样本拆分,一直到样本子集不能再拆分为止。因此本文选择C5.0算法来产生规则集,C5.0能支持基于准确性的规则和基于普遍性的规则,基于普遍性的规则会考虑尽可能大的样本量,而基于准确性的规则则更倾向于规则的准确率。如对财务管理职位进行挖掘,可得到如下分类规则:

(1) 基于准确性的十二个拒绝规则:

规则一:如果Sex=女;并且Education=本科;且School=3;且ComputerGrade

规则二:若Sex=男;且WorkYear2;且Experience=无相关经验;则拒绝。样本数:16,准确性:88.9%。

规则三:如果Education=高中/中专;并且CompurerGrade

规则四:如果Sex=男;且WorkYear2;并且ComputerGrade

规则五:如果Education=高中/中专;并且Specialty=不符合;则拒绝。样本数:27,准确性:86.2%。

规则六:如果School

规则七:如果Education=大专;并且Specialty=不符合;并且ComputerGrade>1;则拒绝。样本数:45,准确性:83%。

规则八:如果Education=高中/中专;并且Experience=无相关经验;则拒绝。样本数:63,准确性:80%。

规则九:若Sex=女;并且Age

规则十:如果Education=初中;则拒绝。样本数:12,准确性:75%。

规则十一:如果Education=大专;并且School>2;并且Experience=无相关经验;则拒绝。样本数:35,准确性:75.7%。样本数:212,准确性:70.6%。

规则十二:如果Place=符合;并且Education=大专;并且School>3;并且ComputerGrader>1;则拒绝。样本数:68,准确性:68.6%。

(2) 基于准确性的四个接受规则

规则一:如果Married=单身;并且WorkYear=5-10;并且Education=本科;则接受。样本数:8,准确性:90%。

规则二:如果School

规则三:如果Education=大专;并且School>3;并且Computergrade=1;并且Experience=有相关经验;则接受。样本数:56,准确性:72.4%。

规则四:如果Specialty=符合;则接受。样本数:566,准确性:50.2%。

(3) 基于普遍性的两个接受规则

规则一:如果R_School

规则二:如果Experience=有相关经验;则接受。样本数:270,准确性:62.5%。

(4) 基于普遍性的四个拒绝规则

规则一:如果R_School

规则二:如果Education=高中/中专;则拒绝。样本数:103,准确性:74.3%。

规则三:如果R_School>2;并且Experience=无相关经验;则拒绝。样本数:372,准确性:69.5%。

规则四:如果R_Political=其他;并且R_School>3;并且ComputerGrade>1;则拒绝。样本数:201,准确性:64.7%。

2. 神经网络算法

相对于决策树来说,神经网络算法需要更多的时间,而且对结果的解释也相对较困难,而且神经网络模型只包含一组权值,了解其中的关系和为什么有效也比较困难。

将数据导入Clementine中并与神经网络模型相连接,其方法与决策树算法中一样。考虑到时间和准确性的关系,本文选择了修剪方法。另外,为了预防训练过度,本文选择了样本的50%至60%进行训练。

本文希望数据训练的准确性尽量高一些,因此,在模型选择中选择使用最佳网络。节点训练结束后将会产生一个神经网络模型。神经网络算法挖掘的准确性在84%左右。

3. 两种分类算法的比较

分类算法的分类质量一般可以用查全率和查准率来评价。

决策树算法和神经网络算法分别对A、B类样本中部分数据集1、2的挖掘情况比较如下所示:

(1)决策树和神经网络算法对数据集1的挖掘结果比较:

决策树算法

测试样本数:356,训练样本数:713,查准率:79.8%,查全率:75.1%,F1测试值:0.77,用时:1秒。

神经网络算法

测试样本数:428,训练样本数:713,查准率:83.95%,查全率:80.59%,F1测试值:0.82,用时:5分9秒。

(2)决策树和神经网络算法对数据集2的挖掘结果比较:

决策树算法

测试样本数:500,训练样本数:1000,查准率:81.02%,查全率:79.2%,F1测试值:0.80,用时:1秒。

神经网络算法

测试样本数:600,训练样本数:1000,查准率:84.56%,查全率:82.34%,F1测试值:0.83,用时:1分33秒。

从上文中我们可以知道,决策树算法的原理相对容易为人力资源管理者所理解,也能够得到比神经网络算法更加直观易懂的分类规则。决策树算法计算速度较快,用时较少,神经网络算法花费时间较长。但神经网络算法比决策树算法有更高的整体查准率和查全率,同时F1测试值反映出来的分类质量的二者比较中可见,神经网络算法比决策树算法分类质量要高一些。

四、结束语

本文主要研究了数据挖掘技术在电子简历数据筛选中的应用,得到了一些有用的结论,但还存在一些不足。

(1)在挖掘过程中,由于时间精力有限,所以本文只选择了决策树和神经网络两种算法进行挖掘比对,没有考虑其他算法。

(2)本文在对原始数据进行预处理时,其中涉及到对文本数据的预处理,如工作经验以及专业,本文只是简单的进行替换处理。

参考文献:

[1]赵苏星:数据挖掘技术在人力资源管理中的应用[J].管理科学,2007,91.

[2]陈小颖:人力资源管理系统中数据挖掘技术的应用[D].武汉:武汉理工大学,2006.

第2篇

关键词:垃圾邮件; 中文分词; BP神经网; 遗传算法

中图分类号:TP18 文献标识码:A文章编号:1009-3044(2011)08-1875-03

Research on the System of Chinese Spam Filtering Based on Neural Net

YE Yan1, LI Pei-guo2

(1.Zengcheng College of South China Normal University, Guangzhou, 511363, China; 2.Department of mathematics, Jinan University, Guangzhou 510632, China)

Abstract: The flooding spams take up huge Internet resource and user time. Especially some virus-spams, they can disable some normal Internet service, or attack user’s computers. It introduces BP neural network as the filtering algorithm, optimized by the Genetic Algorithm. With Chinese word segmentation, it designs and implements a Chinese email filter. At last, it performs training and testing using sample emails, and analyses the testing result. The result indicates that the filtering algorithm has good recall and precision ratio.

Key words: Spam; Chinese word segmentation; BP Neural Networks; Genetic Algorithm

电子邮件是互联网最重要、最普及的应用,大大方便了人们的生活、工作和学习。然而,近些年来,垃圾邮件成泛滥的趋势。据中国互联网协会反垃圾邮件中心统计[1],截止2010年7月,中国互联网用户收到的垃圾邮件比例约为40%,这些垃圾邮件花费用户大量的时间和精力来处理,给正常的使用带来了诸多的麻烦;对于企业来说,垃圾邮件会造成巨大的经济损失,尤其是带有病毒的邮件,更是带来了巨大的危害。

当前的垃圾邮件过滤技术,主要包括以下几类:关键词过滤,黑/白名单[2],逆向域名验证,基于规则过滤[3],特征词统计,等等。以上方法,分别在各种特定的情况下,能够达到一定的过滤效果。但是,随着垃圾邮件制造者的技术提高,以上的各种方法都存在各自的缺陷,不能达到很好的过滤效果。

本文采用基于邮件内容的过滤算法,无论任何伪装的情况下,邮件的内容是无法改变的,否则就无法达到发送者的目的,因此,基于内容的过滤算法能够在各种情况下,达到过滤效果。同时,引入BP神经网络作为过滤算法,利用BP神经网的自组织、自学习和联想存储等特点,设计并实现垃圾邮件过滤系统。同时,针对BP神经网在训练过程中,容易陷入局部最优解的问题[4],引入遗传算法来对BP神经网络进行优化,利用遗传算法的全局搜索能力,进一步提高BP神经网络的学习能力[5]。针对中文自身的特点,在过滤系统中,加入针对中文的自动分词模块,实现针对中文垃圾邮件的过滤。

1 过滤系统的设计

过滤系统的主要思想:通过分析邮件的正文内容,提取其中的特征词汇,通过过滤模块进行垃圾邮件的识别;同时,加入了针对中文邮件的自动分词模块,达到对中文垃圾邮件的过滤;系统架构如图1所示。

1.1 系统的流程

系统的流程主要包括两个过程:过滤系统的训练过程和未知邮件的过滤过程,分别如下:

1.1.1 过滤系统训练

首先对邮件样本集进行预处理,得到待处理的样本邮件;然后通过中文自动分词,得到整个样本集的词汇统计表;根据词汇出现的频率,以及相应的代表性,选取出特征词汇;根据特征词汇表,将样本邮件转化为BP神经网络过滤模块的输入向量,从而对网络进行训练,生成最终具备识别能力的过滤模块。流程图如图2。

1.1.2 未知邮件过滤

收到新邮件后,通过中文自动分词,得到邮件中的所有词汇;根据特征词汇表,生成该邮件对应的特征向量,输入到神经网络过滤模块中;根据过滤系统的输出结果,判定当前邮件是否为垃圾邮件;用户可以对过滤模块的判定结果进行反馈,系统会记录错判和误判的邮件数量,并根据对应的比例决定是否需要重新训练过滤模块。同时,根据当前邮件是否为垃圾邮件,将该邮件中出现的词汇更新到所有词汇的表中,并统计相应的“垃圾概率”,这样做的目的是为了定期的更新特征词汇,达到过滤系统能够不断学习的效果。

1.2 系统结构

整个过滤系统采用模块化设计,共分为四个主要的模块:自动分词模块,特征词提取模块,BP神经网过滤模块,以及用户反馈模块,整体的结构如图3所示。

1.2.1 自动分词模块

该模块主要实现的功能是将邮件的内容通过自动分词技术,得到对应的词的集合。需要完成操作包括:

1) 邮件的编码识别,对于不同的邮件可能使用不同的编码,所以要针对各种编码,采用对应的解码方法对邮件进行解码,才能保证正确的读取邮件内容;

2) 邮件内容的预处理,例如,去掉邮件的头信息;根据已知的一些拆/分词的特征,去除拆/分的标志,比如一些垃圾邮件发送者,会故意的在字与字之间加上空格,目的就是让自动分次技术不能够正确的进行分词,因此需要在预处理阶段去掉这些分隔符;

3) 对邮件内容进行自动分词,得到邮件中的词语集合;

该模块的输入为邮件训练集,或者用户收到的邮件,输出为经过分词得到的词语集合。

1.2.2 特征词提取模块

特征词提取模块的主要功能是在经过分词模块得到的词汇集合中,选出最有代表性的特征词,这些词汇最能够表明一封邮件是垃圾邮件,或者是正常邮件。该模块需要完成的操作包括以下几个:

1) 词频的统计:在样本集邮件的分词结果中,统计出每个词在垃圾邮件中出现的次数,以及在正常邮件中出现的次数,从而计算出这个词汇的“垃圾概率”,即为:

2) 提取特征词汇,即根据词汇的“垃圾概率”,取出最具代表性的词语;选择时需要考虑以下几个方面,词汇的“垃圾概率”,这个是在选取特征词时,比较重要的一个指标;但是,同时也要考虑词汇出现的次数,比如某个词只在一封垃圾邮件中出现,那么它的“垃圾概率”为1,但是它并不是最有代表性的词,因此,在选取特征词汇时,需要综合考虑这两个方面;

3) 特征向量转换,将邮件按照特征词表,转换为代表该邮件的特征向量;

另外,在提取特征词时,可以结合使用禁用词表方法,该方法是通过对汉语的研究,总结出一些对于邮件内容没有很大的影响的词汇,比如“是”,“的”,各种数字,等等,这些词汇并没有实际的意义,因此,提取特征词时,应排除这些词汇。

1.2.3 过滤模块设计

该模块是整个过滤系统的核心部分,通过样本邮件对过滤模块训练后,完成对未知邮件的过滤功能。整个过滤模块使用BP神经网络作为文本分类的算法,同时使用遗传算法对BP神经网络的各个参数进行优化,模型的设计图如图4。

其中,引入GA(遗传算法)优化器的目的是为了克服BP神经网容易陷入局部最优解的缺点,提高其全局搜索的能力。首先,将BP神经网的各个权值进行编码,通过GA优化器随机的产生初始的种群;对种群中的每个个体,经过解码后,构造对应的BP神经网;将样本训练集输入BP神经网,计算所有输出的均方误差;GA优化器根据均方误差,得到对应的适应度值,然后进行遗传优化,最终得到最优化的BP网络权值。

2 过滤系统的实现

过滤系统的实现主要采用Java语言,使用SQL Server数据库来存放分词的结果,以及最终的关键词列表。过滤系统的实现包括两个关键的部分,自动分词模块和遗传优化的神经网络过滤模块。

2.1 自动分词模块

本文采用ICTCLAS[6]中文分词系统来实现对邮件内容的自动分词,从而得到邮件的关键词列表,为下一步的特征词提取提供词库。具体的实现方法是:在代码中,调用ICTCLAS系统提供的API,对输入的邮件内容进行分词,并返回分词结果。

2.2 过滤模块的实现

2.2.1 BP神经网的实现

本文采用实用性很强的三层的BP神经网结构,即包含一个隐含层的BP网络。根据一般邮件的长度大概为100-200字,输入层节点数目确定为50个,即对应50个特征词汇,应该足以反映大部分邮件的特征;输出层采用一个输出节点,输出节点的意义为当前邮件为垃圾邮件的概率:越大则越可能为垃圾邮件;隐层节点数目,按照参考文献[7]提供的方法,确定数目为10。

BP神经网的实现,采用开源工程JOONE (Java Object Oriented Neural Engine),作为BP神经网的实现框架,按照如上的网络结构,实现相应的BP网络结构。

2.2.2 遗传优化BP网络

利用遗传算法可以优化BP网络的结构和各个权值,为了简化问题,本文只使用遗传算法来优化BP网络的权值部分。

首先需要解决的是编码问题,根据权值的连续性、高精度等特点,选取实数编码方案,提高编码精度,增加搜索空间。对BP网络各个权值的编码方法是将权值分为四个部分:

1) 输入层到隐含层的权值:即由输入层到隐含层的连接的权值;2) 隐含层的各节点的阈值;3) 隐含层到输出层的权值:即由隐含层到输出层的连接的权值;4) 输出层的各节点的阈值。编码得到的个体如下:

通过编码,就将BP网络的权值转化为遗传算法可以处理的染色体了,从而可以进行遗传优化,找到最优的权值编码。最后,再根据编码的规则,逆向解码得到最终的BP网络结构。

3 系统测试与分析

本文采用中国教育和科研计算机网紧急响应组(CCERT),2005年搜集的邮件样本集,作为测试数据。在样本集中,选取一部分邮件作为训练数据,对BP网络过滤系统进行训练;另外一部分作为测试数据,对过滤系统的结果测试。具体测试数据如下:

练样本集大小:6113 ;垃圾邮件数:3110;正常邮件数:3003

测试样本集大小:200;垃圾邮件数:100;正常邮件数:100;判定阈值为:0.9

在以上的测试数据情况下,过滤系统在自动分词、特征词提取部分,表现出很好的性能;在采用遗传算法优化的BP网络训练过程中,能够快速的收敛,大大提高了训练能力。具体的测试结果如表1。

测试的结果表明,过滤系统具有较好的运行能力,在处理大量邮件时,运行速度相对较快,能够达到一般的性能要求。邮件过滤结果表明,过滤系统具有很高的准确率和查全率,在样本集相对完整和充足的情况下,能够起到很好的过滤效果。

4 结论

针对中文垃圾邮件的过滤问题,本文采用了基于遗传算法优化的BP网络作为过滤算法,并结合中文自动分词技术,设计并实现了针对中文垃圾邮件的过滤系统。引入ICTCLAS系统作为中文自动分词模块,基于JOONE框架,来实现遗传算法优化的BP网络过滤模块。最后,通过系统的测试,分析了系统的性能和垃圾邮件过滤的查全率和准确率。测试结果表明,该过滤系统具有一定的实际价值,可以为垃圾邮件处理领域提供一个新的参考。

参考文献:

[1] 中国互联网协会反垃圾邮件中心.2010年第二季度中国反垃圾邮件状况调查报告[R],2010.

[2] 郑可馨,姜守旭,罗志云.垃圾邮件过滤系统的设计与实现[D].哈尔滨:哈尔滨工业大学,2004.

[3] 潘文锋,王斌. 基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所,2004.

[4] 余本国.BP神经网络局限性问题的讨论[J].微计算机信息,2007(8).

[5] Sexton R S,Dorsey R E.Reliable classification using neural networks: a genetic algorithm and backpropagation comparison[J].Decision Support Systems,2000(30):11-22.

第3篇

关键词:机器学习;图像处理;手写数字识别;SVM分类算法

图像是人们日常生活和工作中随时都会碰到的一种客观的静态描述,对数字图像的深入透彻研究大大方便了我们的生活。目前的对于数字识别的算法主要有K邻近分类算法[1-3]、BP神经网络算法[4]。K近邻分类算法本身简单有效,不需要分类器进行训练,但其计算量较大,可理解性差;传统的BP神经网络收敛速度慢,网络和学习记忆不稳定。本文使用SVM分类算法结合MNIST数据集进行数字的识别,SVM(support vector machine)即支持向量机是一种分类算法[5],其优点是在统计量样本数比较小的情况下也能获得较为准确的统计规律。本文着手于研究机器识别手写数字,此手写数字识别实验主要分为三个部分:图像采集、图像预处理、数字识别。

1 图像预处理

对于摄取到的图片进行数字预处理是实验中重要的步骤之一是实验得出准确结果的前提。采集信号时,周围环境以及摄取设备对采集后的图片影响很大,若不进行图片预处理,往往很难得出正确结果。步骤如下:

1.1 中值滤波

一幅图像中,噪声的出现会使噪声点处的像素值比其周围的像素值相差非常多。可把图像中某一块的数据中所有像素值按大小顺序排列,如此和其他像素值相差很大的噪声点处的像素就会被排到最前或者最末端,再将排在中间的像素值代替模块中的中间的目标像素值,便可有效去除噪声。

1.2 直方图均衡化

直方图均衡化着重于图像灰度级的变换,目的是将图像灰度增强,它在实际工程中使用比较广泛。利用直方图均衡化可以将处理后的图像实际亮度集中的分布在亮度范围的中间区域。

1.3 图像分割

对提取到的图片进行图片分割,可将想要得到的数字更清晰的呈现出来。对于最佳阈值的选取,可以采用遍历像素值[1~254]。

(1)首先人工设置初始阈值Th=Th0将原图分为两类;分别计算两类的类内方差:

(4)

(5)

(6)

(7)

(2)计算两个区域各自的分布概率

(8)

(9)

(3)像素遍历选择选择最佳阈值,根据以下公式判定

(10)

1.4 形态学滤波

最基本的形态学滤波是腐蚀和膨胀,考虑到手写数字笔画可能会很粗不易于后期识别,所以采用膨胀的算法思路。一般膨胀是对二值图像进行处理,将此放在预处理最后一步。

2 数字识别

得到摄像头采集并经过处理后的数字图片后,下一步便是识别。识别数字的方式有很多,本文我们使用支持向量机SVM分类算法来实现手写数字识别。深度学习一般的解决思路便是将大量实例用于训练学习,学习后的机器会产生自己的一套识别体系,利用训练好的系统去识别未知的数字。其中SVM分类算法就是这样一个基础的机器学习的思想,在获得大量样本进行大量学习形成学习系统之后,机器形成一套自己用来识别手写数字的规则。随着样本数量的增加,算法会学的更加精确,不断提升自身的准确性。通常对于分类问题,可以将数据集分成三部分:训练集、测试集、交叉验证集。用训练集训练系统从而生成对数字的学习模型,用后者进行准确性验证(优化参数)。在ubuntu上,大约运行十分钟便可以完成训练和预测测试集的结果。

采用MNIST数据集下载训练数据和测试文件。要注意,摄像机采集之后,为了增强识别效果,对采集到的数字图片进行预处理以达到手写数字图片库的数字模式使识别可以更加准确。MNIST数据库是一个手写数据库,它有60000个训练样本集,10000个测试样本集。它是NIST数据库的一个子集。下载后的文件并不是标准的图像格式,图像都保存在二进制文件中,每个样本图像的宽高为28*28。在进行编写匹配程序之前要把其转换为普通jpg格式的文件。

3 结论

本文从识别手写数字字符识别入手,通过查阅大量资料得出一套完整的手写数字识别的方法体系,并且在Windows平台下,利用计算机视觉库OpenCv和CodeBlocks环境相结合进行实验,得出结果准确度高。采用的SVM分类算法与和典型的K邻近分类算法、BP神经网络算法相比,识别精度高。但是,在摄取图片背景复杂、图片曝光过度或不足、分辨率低的情况下,各算法还需要进一步完善。

参考文献

[1] 陈振洲,李磊,姚正安. 基于SVM的特征加权KNN算法[J]. 中山大W学报(自然科学版). 2005(01)

[2] 钱晓东,王正欧. 基于改进KNN的文本分类方法[J]. 情报科学. 2005(04)

[3] Yufei Tao,Dimitris Papadias,Nikos Mamoulis,Jun Zhang.An efficient cost model for K-NN search technical report. HKUST . 2001

[4] 王建梅,覃文忠. 基于L-M算法的BP神经网络分类器[J]. 武汉大学学报(信息科学版). 2005(10)

[5] 奉国和,朱思铭. 基于聚类的大样本支持向量机研究[J]. 计算机科学. 2006(04)

第4篇

基于OLED器件的封装材料研究进展

低氧环境下血氧序列的多尺度熵分析

基于多核超限学习机的实时心电信号分析

基于惯性传感的穿戴式跌倒预警防护系统

痉挛对双瘫型脑瘫儿童下肢肌肉相关性的影响

合成免疫策略治疗慢性乙肝病毒感染综述

EMT的表观遗传调控在癌症进程中的研究进展

类风湿性关节炎免疫发病机制的研究进展

三维点云中的二维标记检测

基于词项关联的短文本分类研究

一种离心式微流控生化分析芯片

电子封装基板材料研究进展及发展趋势

基于镍尖锥阵列的柔性超薄超级电容器

溶胶-凝胶法制备二氧化硅微球研究进展概述

一种求解汽车外流场问题的可扩展数值算法

国内汽车机械式自动变速器技术研究综述

一种基于圆的几何特性改进的圆检测随机算法

智能无线传感网络在温室环境监控中的应用研究

适用于R290聚醚酯型冷冻机油的合成及性能研究

基于神经网络模型的双混沌Hash函数构造

微流控芯片技术在心肌标志物检测中的应用综述

大数据层面的microRNA功能相似性分析

三维快速自旋回波(SPACE)——序列原理及其应用

多模态集成阿尔茨海默病和轻度认知障碍分类

一种基于顶帽变换和Otsu阈值的轨道边缘提取方法

ATP荧光检测法检测医院电梯按钮表面细菌总数

社会网络中信息传播与安全研究的现状和发展趋势

用于光遗传技术的体外细胞光刺激系统

基于曲线投影模型的电子断层三维重构并行算法

配准算法对PCA单幅投影肺部重建的影响

加速量热仪在锂离子电池热测试中的应用

定向生长碳纳米管阵列热界面材料技术研究

低剂量口腔CT成像系统关键技术与成像方法研究

深圳市液化天然气与混合动力巴士排放试验研究

基于超声平面波的功率多普勒成像方法研究

基于分层Dirichlet过程的频谱利用聚类和预测

基于AFE4400的无创血氧饱和度测量系统设计

基于Markov随机场的脑部三维磁共振血管造影数据的分割

基于模式预测的低复杂度高清视频帧内编码方法

基于Android智能手机内置传感器的人体运动识别

基于MEKF的直流无刷电机磁极位置与转速检测技术

一种基于模糊PID的3TPS/TP型并联机器人的控制算法

基于词频统计特征和GVP的大规模图像检索算法研究

数据中心保障应用服务质量面临的挑战与机遇

基于人工蜂群算法的胶囊内窥镜位姿磁定位研究

几种自适应线性判别分析方法在肌电假肢控制中的应用研究

基于相图的CZTSe光伏材料的形成路径设计和实验探索

第5篇

关键词:大数据;金融监管;外汇管理

一、大数据定义及常用分析方法

(一)定义。对于什么是大数据,迄今为止并没有公认的定义。麦肯锡全球研究所给出的定义是:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。(二)数据挖掘常用分析方法。数据挖掘就是对观测的数据集(经常是很庞大的)进行分析,目的是发现未知的关系和以数据拥有者可以理解并对数据拥有者而言有价值的新颖方式来总结数据。常用方法类型介绍如下:一是关联分析。是在未有既定目标情况下,探索数据内部结构的一种分析技术,目的是在一个数据集中发现、检索出数据集中所有可能的关联模式或相关性,但这种关系在数据中没有直接表示或不能肯定。常用的关联分析算法有:Apriori算法、FP-growth算法。该技术目前广泛应用于各个领域,如我们在电商平台浏览商品时都会显示“购买此商品的顾客也同时购买”等提示语,这正是我们日常生活中接触最多的关联分析应用实例。二是聚类分析。是在没有给定划分类别的情况下,根据数据相似度按照某种标准进行样本分组的一种方法。它的输入是一组未被标记的样本,聚类根据数据自身的距离或相似度将其划分为若干组,使组内距离最小而组间距离最大。常用的聚类算法有K-Means、K-Medoids、DBSCAN、HC、EM等。当前,聚类分析在客户分类、文本分类、基因识别、空间数据处理、卫星图片分析、医疗图像自动检测等领域有着广泛的应用。三是回归分析。是指通过建立模型来研究变量之间相互关系的密切程度、结构状态、模型预测的有效工具。常用的回归模型有:线性回归、非线性回归、Logistic回归等。四是决策树。是一个预测模型,在已知各种情况发生概率的基础上,通过构成决策树来求取期望值大于等于零的概率、判断可行性的决策分析方法,是直观运用概率分析的一种图解法。常用算法有CART、C4.5等。五是人工神经网络。是人脑的抽象计算模型,是一个大型并行分布式处理器,由简单的处理单元组成。它可以通过调整单元连接的强度来学习经验知识,并运用这些知识推导出新的结果,属于机器学习的一种。

二、大数据分析在金融监管领域主要运用场景

当前大数据在前瞻性研究、风险防控、客户分析、舆情监测等方面都取得了巨大的成效,在金融领域实现了广泛应用,有效地提升了金融监管的针对性,为金融管理、风险识别带来了无限的可能性,成为当前不可或缺的分析手段之一。一是运用大数据开辟“线上溯源,线下打击”的治假新模式。2015年5月,某省“双打办”联合某电子商务企业发起行动。某电子商务企业首先运用大数据手段识别售假线索、锁定犯罪嫌疑人、分析串并背后团伙,根据警方需求批量输出线索用于侦查破案。行动期间,该省侵犯知识产权立案数同比上涨120%,破案数同比上涨77.3%。与传统打假模式相比,“大数据治假”模式实现了对犯罪嫌疑人线索信息的实时收集,为执法部门线下查处和打击提供了更精细、精准的线索和证据。二是运用大数据提升监管有效性。2016年,某交易所通过监控发现沪股通标的股票成交、股价涨势存在明显异常。运用大数据方法对历史资料进行关联匹配映射分析后发现,来自香港的证券账户与开立在内地的某些证券账户有操纵市场的重大嫌疑,根据上述线索,监管部门查获唐某等人跨境操纵市场的违法事实,成为沪港通开通以来查处的首例跨境操纵市场案例。大数据方法为资本市场的进一步对外开放提供了新的监管思路。三是运用大数据实现风险分析、风险评级,打击电信诈骗。通过收集和整理各行业、机构的黑名单,利用多样化的机器学习模型及大数据关联分析等技术,为银行、个人等提供风险管控和反欺诈的服务;运用数据挖掘技术,发掘与相关账户信用相关的预警信息,形成预警信号并向相关风险管理系统主动推送,进而跟踪预警信号处置流程,直至得出最终结论或风险管控方案,形成一个风险预警、通知、处置和关闭的闭环处理流程。四是运用大数据助力风控。例如,某电子商务企业旗下小贷平台建立了决策系统,借助大数据分析结果选择风险可控的企业开放信贷服务,实现贷前小额贷款风险管理控制,提升集约化管理的效率。该平台信用贷款部分客户的贷款年化利率可低至12%,对比原先降低6个百分点。依靠平台和数据优势,该平台在风险控制方面已形成了多层次、全方位的微贷风险预警和管理体系,实际运行中该平台的不良贷款率一直保持在1%以下,风险控制成效良好。

三、对大数据分析在外汇管理领域运用的思考

(一)引入大数据分析方法的必要性。近年来,外汇管理部门通过不断完善国际收支申报体系和加强外汇管理信息化建设,掌握了海量的数据信息,为外汇管理从侧重事前审批逐步转向侧重事后监测分析奠定了扎实的基础。在当前主流的事后监测分析框架中,通常按照业务条线,采用“宏观—中观—微观”自上而下递进式分析方法。这种分析方法有一定的优点,可以实现对各业务系统的充分利用,与宏观形势和业务管理信息结合较为紧密。但同时也存在一些缺陷:一是数据之间关联度不高,监测分析主要以各业务条线事后核查为主,数据相对分散,数据之间的关联分析较弱,监测结果相对滞后;二是难以发现潜在风险苗头,特别是在数据量巨大或关联关系复杂等特定场景下,有时无法取得满意的监测分析结果。在此背景下,可以考虑适时引入大数据分析方法。该分析方法是考虑在整合内部系统、互联网等各类信息数据的基础之上,利用数据挖掘、建模等工具方法,对企业、集团等主体、各类交易数据及互联网信息进行多层次、多角度、多项目的情况分析,并通过反馈的结果,修改完善模型,不断提高分析预测结果的准确性,既能解放大量人力资源,又有助于提高事中事后监管的针对性和效率,同时提高外汇管理的信息化程度。(二)大数据分析方法在外汇管理领域运用的具体思路。1.打造大数据监管中心,探索构建各类监管模型设立大数据监管中心,整合各业务系统数据及互联网外部数据,构建各类监管模型,多层次、多角度、全方位对各类主体交易数据实施监管及风险防控,探索实现主体监管、本外币一体化监管等,提升监管效率。一是交易数据监管。将当前各项法规、政策、制度数字化,建立合规性核查模型,通过对交易信息进行模拟仿真测试,获取交易数据的边界条件,判断交易的合规性,自动报告不合规交易。二是交易风险预警。通过对以往违规的交易进行分析建模,结合当前的经济金融形势,对每笔交易进行风险分级,自动报告高风险的业务数据。监管部门判断核查后,系统根据反馈结果通过机器学习等完善预警模型,不断提升预警准确度。三是主体监管。以企业或集团公司为主体,整合利用全方位数据,运用神经网络等技术对主体的投融资、结售汇、资金管理与调配等内部交易行为进行分析,了解不同类别主体异同点,对主体进行适当性分析评测,及时识别潜在违规行为。2.预测汇率、跨境收支走势,了解并引导市场预期通过收集影响汇率变动、跨境收支相关因素信息,建立模型预测汇率、跨境收支走势,并通过机器学习等方法,自动或人工调整模型,不断提升预测结果的准确性,同时掌握902017.09市场预期,及时进行引导。一是汇率走势预测。整理收集通货膨胀、利率、政府债务、市场心理等影响汇率变化的信息,通过回归等各类模型方法,分析某一项或多项与汇率之间关系,预测特定时间段汇率走势。二是全国或地区跨境收支形势预测。整理收集行业价格、汇率、经济金融形势等外部信息,观测、分析经济金融形势、汇率、人民币即期交易差价等对地区跨境收支或进出口的影响,预测跨境收支或进出口走势变化。三是掌握人民币汇率市场预期。收集网络上关于人民币汇率相关信息、搜索频率等,通过文本分析等方法了解人民币汇率走势的市场预期,便于适时采取引导措施。3.舆情实时监测,快速预警反馈整理收集互联网各大网站评论、博客等信息资源,尝试以数据情感分析角度,实现对文本评论数据的倾向性判断以及所隐藏的信息的挖掘并分析。一是获取政策反响。收集各大网站某项政策的相关评论、帖子、博客等信息,通过深度学习、语义网络等多种数据挖掘模型,分析判断数据倾向性,以数据角度反映政策执行效果及反响,为政策的进一步完善提供参考。二是设立舆情监测平台。运用数据仓库、文本分析、机器学习、神经网络等技术手段对金融敏感信息、舆论情况、政策解读反响等进行实时监测、分析,全面覆盖公共新闻网站、行业网站、微博、博客、论坛、贴吧等信息平台,在第一时间捕获相关舆情,并及时发送分析报告,合理引导市场预期。(三)初步实践与尝试。我们以某地区2015年1月至2016年10月涉外支出数据为例,对其与CNH、CNY进行了回归分析。1.涉外支出与CNY回归分析回归预估方程为:涉外支出(亿美元)=-52.15CNY+530.17。但P值为0.4912(一般认为P<0.05时通过显著性检验),表明CNY与涉外支出无明显关系。2.涉外支出与CNH回归分析回归预估方程为:涉外支出(亿美元)=-24.05CNH+349.82。但P值为0.7526,表明CNH与涉外支出无明显相关关系。3.涉外支出与CNY、CNH回归分析回归预估方程为:涉外支出(亿美元)=2466.1CNH-2498.2CNY+364.6。其中CNH、CNY、截距项P值分别为2.3×10-5、1.9×10-5和0.246,表明CNH、CNY与涉外支出有显著的相关性,截距项与涉外支出没有明显的相关性,拟合优度为0.5897。4.涉外支出与即期交易价差(CNH-CNY)回归分析回归预估方程为:涉外支出(亿美元)=2489.06(CNH-CNY)+157.3,其中P值分别为3.73×10-12和1.38×10-5,表明两项预估值的显著水平均较为理想,拟合优度为0.6006。从上述情况可以看出涉外支出与即期交易价差存在较强的线性关系,即某地区涉外支出随着人民币价差(CNH—CNY)的收窄而减小,随价差的扩大而增加。在知悉若干变量对另一变量存在影响的情况下,可使用该方法分析各自变量与因变量的具体相关性,逐步求取最优模型,获取变量之间的线性关系,如:分析汇率与购汇金额之间的关系;分析产品进出口金额、进出口量与产品价格之间的关系。

四、政策建议

第6篇

关键词: 深度置信网络; 深度学习; 受限波尔兹曼机; 短信

中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2016)09?0037?04

Abstract: To improve the filtering effect of spam SMS, a feature extraction algorithm is proposed to convert SMS content into fixed length vector with word2vec tool by the analysis of Chinese SMS content and structure characteristics. The deep belief nets (DBN) were designed to learn and classify. The experimental results show that the generalization performance is increased by about 5% in comparison with the reported results.

Keywords: deep belief net; deep learning; restricted Boltzmann machine; SMS

0 引 言

每年移动运营商和国家都花费了大量的人力和物力进行垃圾短信治理,但公众还是不满意治理效果。目前移动运营商主要采用软件过滤加人工干预的治理方式[1?3]。软件过滤的算法原理主要有3类:有监督学习、无监督学习和半监督学习。单纯的有监督学习[4?10]和无监督学习[11?12]在垃圾短信过滤过程中的效果还是值得肯定的[4?10],但这些学习和过滤算法目前已经不能适应于市场和机器学习环境,特别是深度学习算法理论的完善和应用发展为机器学习提供了广阔空间[13]。

由于没有公开的短信素材可以得到,利用以前所做项目收集的大约有300万条短信作为实验样本,该样本没有主、被叫号码、短信时间等涉及个人隐私的信息。本文首先提出充分利用word2vec工具,将短信内容转化为固定长度向量的特征提取算法;然后设计了适合短信过滤的深度置信网络对样本进行学习和分类。实验效果表明本文的方法是可行的,这为汉字内容分类提供了一种途径。

1 短信内容向量化

按照有关规定,需要把短信内容分为: 敏感政治信息、黄色信息、商业广告信息、违法犯罪信息、诈骗信息、正常信息等6大类(本文分别用zp,ss,sy,sh,sp,qt字母组合表示类名)。分类结果除了正常信息外,其余信息需要过滤和提交不同部门处理。将短信表示成为向量的过程主要需要三个步骤:短信预处理,短信分词,向量化。

1.1 预处理

预处理主要包括非正规字词替换(不妨称为短信内容的正规化过程)。比如:“公$$司*_l@PIAO,酒折优惠,欢迎拨打:I39XXXXXXXX”。短信需要根据系统的谐音库、拼音库、繁体库等标准进行内容转换。同时剔除内容里面不相关的符号。结果这条短信就是“公司开发票,9折优惠,欢迎拨打:139XXXXXXXX”。

假设所有的短信集合记为[S,]记正规化过程对应的函数为[f1,]经过正规化处理的短信集合记为[G,]上面的过程可表达为:[?s∈S,f1(s)∈G。]

1.2 分词

本文采用中国科学院计算技术研究所ICTCLAS系统(网址:)分词。在分词后,如果内容包含有数字,需要按照下面要求处理:

价格数字、电话或联系号码数字、商品数字、日期时间数字、其他数字等数字内容分别用AA,BB,CC,DD,NN替换。比如:“公司开发票,9折优惠,欢迎拨打:139XXXXXXXX”,分词的结果应该是:“公司 开 发票 AA折 优惠 欢迎 拨打 BB”。

1.3 向量化

谷歌推出了将词语转换成词向量的工具word2vec (https:///p/word2vec/)。工具的主要原理是Bengio模型[14]的一个改进和应用,Bengio模型主要理论是:设句子[S]依次由一系列关键词[w1,w2,…,wt]组成, [wi]向量化的过程如图1所示。

短信内容向量化算法过程描述如下:

(1) 每类按照一定比例取出大约21 280个训练样本。然后将每个短信正规化。

(2) 按照1.2节中的方法把正规化的短信进行分词(每个词语之间空格分隔),并形成如下的7个文本文件:rubbish.txt,所有样本的分词文件;zp.txt,ss.txt,sy.txt,sh.txt,sp.txt,qt.txt分别是敏感政治信息、黄色信息、商业广告信息、违法犯罪信息、诈骗信息、正常信息等6大类训练样本对应的分词文件。

(3) 对rubbish.txt,zp.txt,ss.txt,sy.txt,sh.txt,sp.txt,qt.txt,分别执行word2vec指令(格式:word2vec ?train 分词文件名 ?output 向量化结果文件名 ?cbow 0 ?size 5 ?window 10 ?negative 0 ?hs 1 ?sample 1e?3 ?threads 2 ?binary 0),分别得到向量化结果文件rubbish.out,zp.out,ss.out,sy.out,sh.out,sp.out,qt.out。

向量化结果文件每行是一个词语向量。比如: 担保0.097 318 0.062 329 -0.068 594 0.087 311 -0.023 715。

(4) 在zp.out,ss.out,sy.out,sh.out,sp.out,qt.out中只保留频率前20的主关键词(不包括“AA”,“BB”,“CC”,“DD”,“NN”)的词语向量,其余删除。

3 实 验

考虑到计算复杂度和参考文献的经验[19?20],本实验最终采用有2个隐层的BP神经网络,首先对BP网络的权值采用DBN算法进行训练得到,再采用BP算法对网络权值进行微调。所有结果用Matlab进行仿真实验。DBN训练部分代码采用DeepLearnToolbox?master工具包(https:///rasmusbergpalm/DeepLearnToolbox)。

在没有考虑拒识的情况下,实验结果如表1所示,DBN模型的实验见图4。其中:qt,sp,sh,ss,zp,sy训练样本数目分别是7 416,1 770,3 728,2 590,1 220,4 556;测试样本数目分别是14 308,3 672,4 579,6 102,2 553,9 080。需要说明表格中比较对方的方法中只是针对文章用的模型本身和可还原的实验场景(不能代表文章的全部真实场景)。

4 结 论

针对短信分类问题,有下面的结论:

(1) 两个以上的隐层神经网络的参数很难选择,训练时间比单隐层BP长,即使训练效果好,推广性能也不一定好,可能使多层BP收敛到局部极值。也就是在考虑BP网络中,还是选择单隐层BP比较好。

(2) DBN+BP网络具有更好的训练和推广性能,因此在选择多隐层BP网络时,最好选择DBN+BP方式(见图4)。

(3) 本文中的效果好于表1中其他模型,主要有两方面原因:首先在选择特征上,采用了word2vec工具将词向量化,考虑到了短信中词的语义特征和统计特征;其次选择DBN+BP模型,将监督和非监督学习有机结合起来,提高了学习效率和精度。

(4) 为了提高效果,接下来的工作需要在DBN最后层的设计上不局限于BP网络;研究以单个汉字为单元的向量化对分类结果的影响;其他深度学习模型对效果的影响等理论上探讨。

(5) 在实际应用过程中,特征可以把黑白手机名单、主叫、被叫、发送时间因素考虑上,同时分类器增加拒识率因素,还可以提高正确识别率。

参考文献

[1] 何蔓微,袁锐,刘建胜,等.垃圾短信的智能识别和实时处理[J].电信科学,2008(8):61?64.

[2] 李海波,许建明.垃圾短信的现状及过滤技术研究[J].硅谷,2011(24):110.

[3] 周冰.垃圾短信过滤技术与应用[J].中国新通信,2014(6):78.

[4] 秦建,孙秀锋,吴春明.“垃圾短信”监控的中文多模式模糊匹配算法[J].西南大学学报(自然科学版),2013,35(3):168?172.

[5] 李辉,张琦,卢湖川.基于内容的垃圾短信过滤[J].计算机工程,2008,34(12):154?156.

[6] 张永军,刘金岭.基于特征词的垃圾短信分类器模型[J].计算机应用,2013,33(5):1334?1337.

[7] 李慧,叶鸿,潘学瑞,等.基于SVM 的垃圾短信过滤系统[J].计算机安全,2012,13(6):34?38.

[8] 冯鸥鹏.垃圾短信过滤中字特征与词特征对过滤效果的比较研究[D].北京:北京邮电大学, 2011.

[9] 徐易.基于短文本的分类算法研究[D].上海:上海交通大学,2010.

[10] 万晓枫,惠孛.基于贝叶斯分类法的智能垃圾短信过滤系统[J].实验科学与技术,2013,11(5):44?47.

[11] 郑文超,徐鹏.利用word2vec对中文词进行聚类的研究[J].软件,2013,34(12):160?162.

[12] LE Q V. Building high?level features using large scale unsupervised learning [C]// Proceedings of 2013 IEEE International Conference on Acoustics, Speech and Signal Processing. Vancouver: IEEE, 2013: 8595?8598.

[13] SCHMIDHUBER J. Deep learning in neural networks: an overview [J]. Neural networks the official journal of the international neural network society, 2014, 61: 85?117.

[14] BENGIO Y, SCHWENK H, SEHECAO J S, et a1. A neural probabilistic language model [J]. Journal of machine learning research, 2003, 3(6): 1137?1155.

[15] MIKOLOV T, CHEN K, CORRADO G, et a1. Efficient estimation of word representations in vector space [C]// Procee?dings of 2013 ICLR Workshop. [S.l.: s.n.], 2013: 1?12.

[16] HINTON G, OSINDERO S, TEH Y. A fast learning algorithm for deep belief nets [J]. Neural computation, 2006, 18(7): 1527?1554.

[17] TIELEMAN T. Training restricted Boltzmann machines using approximations to the likelihood gradient [C]// Proceedings of 2008 the 25th International Conference on Machine Learning. [S.l.]: ACM, 2008: 1064?1071.

[18] 刘建伟,刘媛,罗雄麟.玻尔兹曼机研究进展[J].计算机研究与发展,2014,51(1):1?16.

[19] HUANG S C, HUANG Y F. Bounds on the number of hidden neurons in multilayer perceptrons [J]. IEEE transactions on neural networks, 1991, 21(1): 47?55.

第7篇

关键词:农业病虫害;数据挖掘;关联规则;Apriori算法;决策规则

中图分类号:TP311 文献标识码:A 文章编号:0439-8114(2014)01-0203-03

Agriculture Disease Diagnosis Based on Improved Apriori Algorithm

MA Dong-lai1,ZHANG Wen-jing2a,QU Yun2b

(1. Hebei Software Institute, Baoding 071000,Hebei, China; 2a. College of Information Science & Technology;

2b. Academic Affairs Office, Agricultural University of Hebei, Baoding 071001, Hebei, China)

Abstract: The basic method of Apriori algorithm was introduced and modified in the three aspects including data item establishment, frequent item sets connection and the rule generation. Decision rule was set up for diagnosing drop diseases by the improved algorithm.

Key words: crop diseases and pests; data mining; association rule; Apriori algorithm; decision rule

收稿日期:2013-05-10

基金项目:河北省教育厅资助科研项目(Q2012139);2011年度河北农业大学青年科学基金项目(qj201238)

作者简介:马冬来(1981-),男(回族),河北保定人,讲师,硕士,主要从事人工智能方面的研究,(电话)13513220212(电子信箱)。

农业病虫害是影响农作物产量的一个重要因素。中国是农业大国,据统计,农作物受病虫害的影响每年可造成15%~25%的经济损失[1]。因此,农业病虫害的诊断与防治对农业和经济的发展具有重要意义[2]。一直以来,对农作物病害的诊断往往是依靠农民或专家的经验并结合多种检测手段进行。由于一些病虫害的差异细微,很容易造成误诊。不同种类的致病病原物会使农作物的叶部呈现不同的病斑形状。因此,在病害诊断中可将叶部病斑作为农作物病害的一个重要特征,对农作物的病害进行诊断[3]。

数据挖掘又称为数据库中知识发现(Knowledge Discovery from Database,简称KDD),是一种决策支持过程[4,5]。利用数据挖掘技术,可以在大量的农业数据中进行深层次的数据信息的分析,从而获得农作物病虫害产生的原因及环境等因素之间隐藏的内在联系,对于有效识别及预防农作物病虫害具有重要意义[6]。

1 Apriori算法

关联规则挖掘是数据挖掘的一个重要领域,其目的是发现隐藏在数据库中的各数据项集间深层次的关联关系,分析出潜在的行为模式[7]。例如利用Apriori算法对大量的商品销售记录进行挖掘,可以发现不同商品之间存在的有价值的关联关系。商家结合这些关系对商品目录及摆放位置进行设计可以提高销售额,还可以进行相关的商业决策[8]。Agrawal等[9]提出了挖掘关联规则的Apriori算法,其核心是基于两阶段频集思想的递推算法。在Apriori算法中,关联规则的挖掘分为两步:利用候选项集生成频繁项集,频繁项集满足“支持度大于最小支持度阈值”。利用最终的频繁大项集生成关联规则,规则满足“置信度大于最小置信度”。其中的最小支持度阈值和最小置信度阈值都由用户事先设定。

2 Apriori算法的改进

经典Apriori算法挖掘出的关联规则一般满足“A∧B∧C->D∧E”的模式。这些关联规则侧重于描述数据库中的一组对象之间相互的关联关系。而在农业病虫害诊断的实际应用中,需要的是形如“A∧B∧C∧D->E”的规则。即根据A、B、C、D等的病害特征,可以推导出所患病害的种类。这就需要对经典的Apriori算法进行一些改动。

表1是由历史经验取得的一组关于某种农作物病害的数据。以这组数据为例,介绍利用改进后的Apriori算法对农业病害进行诊断的方法。

2.1 建立挖掘数据项

表1中每种病害的属性下都有几个不同的属性值。如属性“病斑颜色”共有“黑褐色病斑”、“粉红色病斑”和“褐色病斑”3个属性值。根据具体的病害数据的特点,将算法挖掘的数据项设置成“属性.属性值”的形式。各数据项的属性对照表如表2。

结合属性对照表,可将表1中原始的农业病害数据转换为适合挖掘的数据表(表3)。

2.2 挖掘频繁项集

Apriori算法利用两个频繁(k-1)项集连接生成新的频繁k项集,前提是,这两个频繁(k-1)项集的前(k-2)项相同。如对于频繁3项集“1.3,2.2,3.2”和“1.3,2.2,3.3”,按照连接规则,应该生成新的候选4-项集“1.3,2.2,3.2,3.3”。根据表2,可知3.2和3.3是属性“病斑形状”的两种不同取值(“半圆形”和“不规则”)。即项集3.2和3.3是互斥的关系,不可能共存。因此,对这种情况不进行连接。按照这种新的连接规则,对于表3的农业病害数据库进行挖掘,再经过最小支持度10%的筛选,最终得到的为频繁5-项集(表4)。

2.3 生成诊断规则

找出最大频繁项集之后,Apriori便开始生成关联规则。具体方法是:生成频繁项集L的所有非空子集,并依次计算每个非空子集S的置信度。若置信度不小于用户事先设定的最小置信度阈值,则生成一个关联规则“S->(L-S)”。如对频繁项集“1.1,2.1,3.1,4.1,5.1”可以生成规则“1.1∧2.1∧3.1->4.1∧5.1”,这样,规则的右端也是多个属性的集合。这种关联规则侧重于描述多个属性项之间的关联关系,而非一个可以推导出结论的决策规则。

在农业病害诊断中,单单几个病害属性间的关联关系是没有实际意义的,需要挖掘出一个可以帮助专家进行病害诊断的决策规则。即形似“A∧B∧C->D”的规则。按照这种需求,首先对于类别属性“病害名称”(即5.1,5.2,5.3)只能出现在规则的右端;其次在规则的右端,除了“病害名称”属性之外,不能再出现其他的属性。只有同时满足这两个条件的规则才是有意义的。

按照这一要求,在产生规则时,只需计算除“病害名称”属性之外的子集的置信度(保证规则的右端L-S为“病害名称”)。如,对挖掘出的频繁5-项集“1.1,2.1,3.1,4.1,5.1”,只计算除去“病害名称”属性5.1的所有子集的置信度,再按照“置信度不小于最小置信度阈值”的条件进行筛选,最后生成的决策规则如表5。

将表5和属性对照表(表2)对照后,可转换成直观的规则,如表6所示。这样专家就可以结合表6对农作物的具体病害做出一个更为准确的判断。

3 小结

农作物病害的诊断具有重要的经济意义。利用数据挖掘技术,按病害部位、病害特征等属性对大量的数据进行分析,可以验证已知的经验规律,揭示出未知的隐藏信息。进一步将其模型化,可以挖掘出隐藏的农作物病虫害的发病特征、变异等信息,带来巨大的社会效益和经济效益。

另外,利用改进的Apriori算法还可以挖掘出医学等其他领域的决策规则,并可以建立各种知识库,建立专家系统,拓展关联规则Apriori算法的应用范围。

参考文献:

[1] 刘乃森,刘福霞.人工神经网络及其在植物保护中的应用[J].安徽农业科学,2006,34(23):6237-6238.

[2] 黄光明.Apriori算法在农业病虫害分析中的应用[J].安徽农业科学,2009,37(13):6028-6029.

[3] 金海月,宋 凯.决策树算法在农业病害诊断中的应用[J].当代农机,2007(5):76-77.

[4] 张永宾.DM在分析客户忠诚度的应用[J].商场现代化,2008(34):38-39.

[5] 李 斗,李弼程.一种神经网络文本分类器的设计与实现[J].计算机工程与应用,2005(17):107-109.

[6] 谢艳新.数据挖掘技术在水稻病虫害系统中的设计与实现[J]. 湖北农业科学,2011,50(11):2340-2342.

[7] 谢宗毅.关联规则挖掘Apriori算法的研究与改进[J].杭州电子科技大学学报,2006,26(3):78-82.

第8篇

关键词:电力设备检修;文本数据;文本挖掘;大数据挖掘

随着信息化的快速发展,国家电网公司各专业积累的数据量越来越庞大。庞大数据的背后,由于数据结构和存储方式的多样化以及电力系统内部不同专业从业者的知识面层次不齐等,其中被利用的数据只占少量的部分,造成大量的有价值数据被浪费。在被浪费的数据中,以文本形式存在的数据占很大比重,如何从比较复杂的文本数据中获得需要的数据受到国家电网公司的普遍关注。国家电网公司经过SG186、三集五大等大型信息化工程的建设,积累了海量的业务数据,其中包括大量的文本数据。目前,国家电网公司对业务数据的利用主要集中在结构化数据的统计和分析,这些方法无法直接应用在非结构化文本数据中,更无法对其中隐含的价值规律进行深度分析挖掘。针对非结构化文本数据量不断增大、业务应用范围不断扩大这一现状,为了提升国家电网公司企业运营管理精益化水平,需要进一步挖掘非结构化数据中潜在的数据价值。因此,开展电力大数据文本数据挖掘技术应用场景和一般流程的研究显得尤为重要[1]。

1非结构化数据概述

与结构化数据(能够用二维表结构遵循一定的逻辑语法进行体现的数据)相比,非结构化数据不能在数据库中采用二维结构逻辑形式来表示,这些形式主要有Word文档、文本、图片、标准通用标记语言下的子集XML、HTML、Excel报表、PPT、Audio、Video、JPG、BMP等。半结构化数据处于完全结构化数据(逻辑型、关系型数据库中的数据)和完全无结构化数据(BMP、JPG、Video文件)中间,它一般的功能是对系统文件的描述,如系统应用帮助模块,有一定的逻辑结构,同时也包含数据格式,两者相融在一起,比较均衡,没有明显的界限[2]。进入21世纪后,网络技术飞速发展,特别是内联网和因特网技术取得突飞猛进的发展,各类非结构数据类型格式日益增多,以往的数据库主要用于管理结构化数据,对于非结构化数据的管理稍显乏力,为了适应非结构数据的迅猛发展,数据库的革新势在必行,在内联网和因特网技术的基础上,对数据库的内在结构进行改进和创新,使其能够兼容和处电力信息与通信技术2016年第14卷第1期8电力大数据技术理非结构数据形式。北京国信贝斯是我国非结构化数据库开发和设计的领军者,其旗下开发的IBase数据库能够兼容和处理目前市面上存在的各种文件名、格式、多媒体信息,能够基于内联网和互联网对海量信息进行搜索、管理,技术已经达到全球领先水平。

2文本挖掘技术

2.1文本挖掘

文本挖掘的对象是用自然语言描述的语句、论文、Web页面等非结构化文本信息,这类信息无法使用结构化数据的挖掘方法进行处理;文本挖掘指通过对单个词语和语法的精准分析,通过分析结构在海量的非结构化数据中检索意思相近的词语、句子或者信息[3]。

2.2文本挖掘流程

挖掘流程如图1所示。图1挖掘流程Fig.1Miningprocedure1)文本预处理:把与任务直接关联的信息文本转化成可以让文本挖掘工具处理的形式,这个过程分3步:分段;预读文本,把文本特征展现出来;特征抽取。2)文本挖掘:完成文本特征抽取后,通过智能机器检索工具识别符合主题目标的文段信息,在海量信息或者用户指定的数据域中搜索与文本预处理后得出的文本特征相符或相近的数据信息,然后通过进一步识别和判断,达到精确检索的目的,这是一个非常复杂的过程,纵跨了多个学科,包括智能技术、信息技术、智能识别技术、非结构数据库技术、可视化技术、预处理技术、读码技术等。3)模式评估:模式评估是用户根据自己的需求主题设置符合自己需求主题或目标的模式,把挖掘到的文本或信息与自己设置的模式进行匹配,如果发现符合主题要求,则存储该数据和模式以方便用户调用,如果不符合,则跳转回原来的环节进行重新检索,然后进行下一个匹配过程的模式评估。

2.3文本挖掘技术分析

解决非结构化文本挖掘问题,现阶段主要有2种方法:一是探索新型的数据挖掘算法以准确挖掘出相应的非结构化数据信息,基于数据本身所体现的复杂特性,使得算法的实施愈加困难;二是把非结构化问题直接转换成结构化,通过实施相应的数据挖掘技术达到挖掘目的。而在语义关系方面,就要应用到特定的语言处理成果完成分析过程。下文是根据文本挖掘的大致流程来介绍其所用到的相关技术。

2.3.1数据预处理技术

文本数据预处理技术大致可分为分词技术、特征表示以及特征提取法。1)分词技术主要有两大类:一种为针对词库的分词算法;另一种为针对无词典的分词技术。前者主要包含正向最大/小匹配和反向匹配等。而后者的基础思路为:在统计词频的基础上,把原文中紧密相连的2个字当作一个词来统计其出现的次数,若频率较高,就有可能是一个词,当该频率达到了预设阈值,就可把其当作一个词来进行索引。2)特征表示通常是把对应的特征项作为本文的标示,在进行文本挖掘时只需要处理相对应的特征项,就能完成非结构化的文本处理,直接实现结构化转换目的。特征表示的建立过程实际上就是挖掘模型的建立过程,其模型可分为多种类型,如向量空间模型与概率型等[5]。3)特征提取法通常是建立起特定的评价函数,以此评价完所有特征,然后把这些特征依照评价值的高低顺序进行排列,将评价值最高项作为优选项。在实际文本处理过程中所应用的评价函数主要包括信息增益、互信息以及词频等。

2.3.2挖掘常用技术

从文本挖掘技术的研究和应用情况来看,在现有的文本挖掘技术类别中应用较为广泛的主要包括文本分类、自动文摘以及文本聚类[4-5]。1)文本分类。文本分类是给机器添加相应的分类模型,当用户阅读文本时能够更为便捷,在搜索文本信息时,能够在所设定的搜索范围内快速和准确的获取。用于文本分类的算法较多,主要有决策树、贝叶斯分类、支持向量机(SVM)、向量空间模型(VectorSpaceModel,VSM)、逻辑回归(LogisticRegression,LR)以及神经网络等。2)自动文摘。自动文摘是通过计算机技术智能的把原文的中心内容浓缩成简短、连续的文字段落,以此来尽可能地降低用户阅读的文本信息量。3)文本聚类。文本聚类与文本分类的作用大抵相同,所实施的过程有所区别。文本聚类是将内容相近的文本归到同个类别,尽可能地区分内容不同的文本。其标准通常可以依照文本属性或者文本内容来进行聚类。聚类方法大致可分为平面划分法与层次聚类法。另外,除了上述常用的文本挖掘技术,许多研究还涉及关联分析、分布预测分析和结构分析等。

2.3.3文本挖掘系统模式评估方法

数据挖掘系统的评估是至关重要的,现在已有大量的研究来衡量这一标准,以下是公认的评估方法。1)查全率和查准率。查全率代表实际被检出的文本的百分比;查准率是所检索到的实际文本与查询相关文本的百分比。2)冗余度和放射性。冗余度表示信息抽取中冗余的程度;放射性表示一个系统在抽取事实不断增多时产生错误的趋势。最低的冗余度和放射性是系统追求的最终目标。3)双盲测试。先用机器生成一组输出结果,再由相关专家产生一组输出结果,然后混合2组输出结果,这种混合后的输出集再交给另一些相关专家进行验证,让他们给予准确性方面的评估。

3电力行业文本挖掘可研究实例

文本挖掘技术在国内电力行业属于新兴的前沿领域,对从业人员的素质要求相对比较高。由于现阶段知识和技术层面上匮乏,国家电网几乎没有关于此方面的项目实施。本节通过2个电力运营监测业务的应用需求,初步探讨文本挖掘的建模过程。

3.1电力运营监测业务应用需求

1)检修资金投入工作效能分析场景分析。大检修和技改是保障电网安全的重要工作。由于运检业务系统的数据质量问题,通过对量化数据的统计,无法准确掌握大修、技改资金投入的工作效能情况。但设备的实际运行状态可以通过文本类故障记录、运行日志等进行反映,因此,采用文本挖掘技术对检修工作效能进行分析与可视化展现,同时结合传统的统计方法,实现对大修技改资金投入工作效能的分析和监测。例如,可以通过分析历年的故障记录信息,反映出每年主要故障变化情况,进而结合每年大修技改资金投入情况,分析资金投入是否与预期目标相一致。2)家族缺陷识别分析。家族缺陷是指同一厂家生产的同一型号、同一批次的设备在运行过程中出现了相同或相似的缺陷。家族缺陷识别分析是通过对运行记录、故障记录等设备运行文本信息的挖掘和可视化分析,对设备家族缺陷进行识别。该场景既可以辅助基层业务人员对家族缺陷进行准确判断,同时可以作为一种辅助手段为总部专家判定家族缺陷提供参考,从而实现对家族缺陷辨识方式的优化,并基于此为检修计划制定、厂商评价、采购建议等提供决策支撑。

3.2文本分析建模过程

第1步:将原始的非结构化数据源转换为结构化数据,分析文本集合中各个文本之间共同出现的模式;汇总与家族缺陷相关的所有文档,形成原始数据源的集合。第2步:对原始数据源的集合进行分词处理,建立特征集,使用词频/逆文档频率(TermFrequency-InverseDocumentFrequency,TF/IDF)权值计算方法得到各个点的维度权值,判断关键字的词频,例如“主变1号”运行记录中多次出现,但在故障记录中很少出现,那么认为“主变1号”有很好的类别区分能力。第3步:对分词后的文档建立索引,汇总所有文档的索引形成索引库,并对索引库排序。第4步:文档向量化;构建向量空间模型,将文档表达为一个矢量,看作向量空间中的一个点;实际分析过程中对多维数据首先将其降低维度,降低维度后得到一个三维空间模型,文档向量化生成文档特征词对应表、文档相似度表。第5步:结合业务实际,对相似度较高的表中出现的关键字进行比对,例如:“主变1号”、“停电故障”等关键字在多个日志中频繁出现,则该文档所记录的相关设备存在异常的可能性较大。

3.3文本分析应用及成效

对生产信息管理系统中报缺单数据中的报缺单名称进行文本聚类,实现对缺陷的细分,进而对各类别在非聚类变量上进行分析,得出各类别的缺陷特征。经过近一年以来在国网辽宁电力公司的逐步应用,科学的分析挖掘出缺陷主要集中在开关、主变、指示灯、直流、冷却器、调速器等设备,主要出现启吕旭明(1981–),男,河北保定人,高级工程师,从事电力企业信息化、智能电网及信息安全研究与应用工作;雷振江(1976–),男,辽宁沈阳人,高级工程师,从事电力信息化项目计划、重点项目建设、信息技术研究与创新应用、信息化深化应用等相关工作;赵永彬(1975–),男,辽宁朝阳人,高级工程师,从事电力信息通信系统调度、运行、客服及信息安全等相关工作;由广浩(1983–),男,辽宁辽阳人,工程师,从事信息网络建设、信息安全等工作。作者简介:动、漏水、停机、渗水等缺陷现象。公司故障处理快速响应、及时维修、提高供电质量和服务效率得到了显著的提升。电力设备故障缺陷特征示意如图2所示。

4结语

国家电网文本挖掘的目的是从海量数据中抽取隐含的、未知的、有价值的文本数据,利用数据挖掘技术处理电力公司文本数据,将会给企业带来巨大的商业价值。本文提出的关于检修资金投入工作效能分析和家族缺陷识别分析2个文本挖掘实例只是文本挖掘在电力行业应用的一角。如今,数据挖掘技术与电力行业正处于快速发展阶段,文本挖掘的应用将越来越广泛。下一阶段的研究目标是探寻有效办法将数据挖掘技术融入到文本挖掘领域的实际应用中,使得国家电网文本挖掘项目得以顺利实施,并达到预期成效。

作者:吕旭明 雷振江 赵永彬 由广浩 单位:国网辽宁省电力有限公司 国网辽宁省电力有限公司 信息通信分公司

参考文献:

[1]费尔德曼.文本挖掘(英文版)[M].北京:人民邮电出版社,2009.

[2]孙涛.面向半结构化的数据模型和数据挖掘方法研究[D].吉林:吉林大学,2010.

[3]胡健,杨炳儒,宋泽锋,等.基于非结构化数据挖掘结构模型的Web文本聚类算法[J].北京科技大学学报,2008,30(2):217-220.HUJian,YANGBing-ru,SONGZe-feng,etal.Webtextclusteringalgorithmbasedonnonstructuraldataminingmodel[J].JournalofUniversityofScienceandTechnologyBeijing,2008,30(2):217-220.

第9篇

关键词:文本挖掘;文本特征表示;特征提取;模式识别

文本挖掘主要完成从大量的文档中发现隐含知识和模式的任务,一般处理的对象都是海量、异构、分布的文档。传统数据挖掘所处理的数据是结构化存储于数据库当中,而文档都是半结构或无结构的。所以,文本挖掘面临的首要问题是如何在计算机中表示文本,使之包含足够的信息反映文本的特征。目前的网络信息中80%是以文本的形式存放,Web文本挖掘是Web内容挖掘的重要内容。

文本的表示与特征提取是文本挖掘领域中的基本问题。目前通常采用向量空间模型生成文本向量来表示非结构化的文本数据。但直接通过分词与词频统计得到的高维度文本向量作为文本表示,不仅给文本理解等后续任务,比如:文本分类、聚类等,带来巨大的计算开销,且精确也会受到影响。因此,研究有效的文本特征选择与压缩方法来进行降维处理,是十分必要的。

目前有P文本表示的研究主要集中在文本表示模型方法与特征选择算法方面。用于表示文本的基本单位通常称为文本的特征或特征项。在中文文本中,采用字、词或短语作为表示文本的特征项。目前大多数中文文本分类系统都采用词作为特征项。(但考虑到文本挖掘的不同具体任务,有时也会将字或者短语作为特征项。)如果把所有的词都作为特征项,那么其特征向量的维数将非常高,要高性能地完成文本分类、聚类等文本理解任务将非常困难。特征提取与压缩主要是为了保持文本核心信息表达的同时,尽量降低特征向量的维度,从而提高文本处理的效率。

特征提取主要有如下四种思路:一是用映射或变换的方法把原始特征变换为较少的新特征;二是从原始特征中选取一些最具代表性的特征;三是根据专家知识选取最有影响的特征;四是用统计方法找出最具分类信息的特征,这种方法适合于文本分类任务。下面将从文本特征评估方法、文本特征选择方法、以及基于领域语义理解的文本特征提取方法等方面,对文本表示与特征提取研究领域现有的研究成果进行综述,然后再展望未来文本特征表示与提取技术可能的研究热点。

1 主流基于统计的文本特征评估方法

1.1 词频(TF: Term Frequency)、文档频度(DF: Document Frequency)与TFIDF

(1)词频(TF: Term Frequency):即一个词在文档中出现的次数。将词频小于某一阈值的词删除,从而降低特征空间的维数,完成特征选择。该方法是基于出现频率小的词对文本表达的贡献也小这一假设。但有时在信息检索方面,频率小的词可能含有更多信息。因此,不宜简单地根据词频来选择特征词。

(2)文档频度(DF: Document Frequency):即统计在整个数据集中有多少个文档包含该词。在训练文本集中对每个特征词计算其文档频度,并且根据预设阈值去除那些文档频度超高或超低的特征词。文档频度的计算复杂度较低,适用于任何语料,常用于语特征降维。

考虑到文档频度超高或超低的特征词分别代表了“代表性弱”或“区分度低”这两种极端情况,故而需要删除。DF 的缺陷是有些稀有词可能在某一类文本中并不稀有,即可能包含着重要的类别信息,如果舍弃将可能影响分类精度。

(3)TFIDF:它是由Salton在1988 年提出的。其中IDF称为反文档频率,用于计算该词区分文档的能力。TF*IDF 的基本假设是在一个文本中出现很多次的单词,在另一个同类文本中出现次数也会很多,反之亦然;同时考虑单词含有的类别区分能力,即:认为一个单词出现的文档频率越小,其类别区分能力越大。

TFIDF算法用于特征词权值估计就是为了突出重要单词,抑制次要单词。但IDF的假设认为文本频数小的单词就越重要,文本频数大的单词就越无用,并不能有效地反映单词的重要程度和特征词的分布情况,使其无法很好地完成对权值调整的功能,导致TFIDF算法法的精度并不是很高。特别是,TFIDF算法中没有体现出单词的位置信息对其重要性的影响,对于Web文档而言,权重的计算方法应该体现出HTML的结构特征。特征词在不同的标记符中对文章内容的反映程度不同,其权重的计算方法也应不同。因此如何对于在网页不同位置的特征词分别赋予不同的系数,然后乘以特征词的词频,以提高文本表示的效果,成为了研究者关注的热点。

1.2 统计词与类别信息相关度的文本特征评估方法

互信息:互信息用于衡量某个词和某个类别之间的统计独立关系。

互信息作为计算语言学模型常用分析方法,原是信息论中的概念,用于表示信息之间的关系,即两个随机变量统计相关性测度。它被用于特征提取是基于如下假设:在某个特定类别出现频率高,但在其它类别出现频率比较低的词条与该类的互信息比较大。考虑到无需对特征词和类别之间关系的性质作任何假设,非常适合于文本分类的特征和类别匹配工作。

特征词和类别的互信息体现了特征词与类别的相关程度,被广泛用于建立词关联统计模型。它与期望交叉熵不同,它没有考虑特征词出现的频率,使得互信息评估函数更倾向于选择稀有词而非有效高频词作为文本的最佳特征。以互信息作为提取特征值的评估方法时,最终会选取互信息最大的若干特征词构成文本向量。互信息计算的时间复杂度平均值等同于信息增益,它不足之处在于权重受词条边缘概率影响较大。当训练语料库没有达到一定规模的时候,特征空间中必然会存在大量的出现文档频率很低(比如低于3 次)的词条,而较低的文档频率必然导致它们只属于少数类别。但是从实验数据中发现,这些抽取出来的特征词往往为生僻词,很少一部分带有较强的类别信息,多数词携带少量的类别信息,甚至是噪音词。

二次信息熵:将二次熵函数取代互信息中的Shannon熵,形成基于二次熵的互信息评估函数。它克服了互信息的随机性。作为信息的整体测度,比互信息最大化的计算复杂度要小,可提高分类任务征选取的效率。

期望交叉熵:也称KL距离。反映的是文本某一类的概率分布与在某特征词的条件下该类的概率分布之间距离,特征词w的交叉熵越大,对文本类的分布影响也越大。它与信息增益不同,它没有考虑单词未发生的情况,只计算出现在文本中的特征项。如果特征项和类别强相关,即:P ( Ci | w )就大,而P( Ci) 又很小,则说明该特征词对分类的影响大。交叉熵的特征选择效果都要优于信息增益。

信息增益方法:用于度量已知一个特征词在某类别的文本中是否出现对该类别预测的影响程度。信息增益是一种基于熵的评估方法,用于评估某特征词为整个分类所能提供的信息量,即:不考虑任何特征词的熵与考虑该特征后的熵的差值。根据训练数据,计算出各个特征词的信息增益,删除信息增益很小的,其余的按照信息增益从大到小排序。某个特征项的信息增益值越大,对分类也越重要。

信息增益最大的问题是:它只能考察特征词对整个分类系统的贡献,而不能具体到某个类别上,这就使得它只适合用来做所谓“全局”的特征选择(指所有的类都使用相同的特征集合),而无法做“本地”的特征选择(每个类别有自己的特征集合,因为有的词,对这个类别很有区分度,对另一个类别则无足轻重)。

其它的文本特征评估方法:比如卡方统计量方法、文本证据权、优势率等,这些方法也都是用于评估特征词与文本类别的相关性。其中,在卡方统计和互信息的不同在于, 卡方统计其评估权重只对在同类文本中的词是可比的, 另外,它对低频词评估实用性不高。

2 主流的文本特征选择方法

2.1 N-Gram算法

其基本思想是将文本内容按字节流进行大小为N的滑动窗口分段,形成长度为N的字节片段序列。每个字节片段称为一个N-Gram单元,对全部N-Gram单元的出现频度进行统计,并按照事先设定的阈值进行过滤,形成关键N-Gram列表,作为该文本的特征向量空间。由于N-Gram算法可避免中文分词错误的影响,适用于中文文本处理。中文文本处理大多采用双字节进行分解,即:bigram。但是bigram切分方法在处理20%左右的中文多字~时,会产生语义和语序方面的偏差。而对于专业领域文本数据,多字词常常是文本的核心特征,处理错误将导致负面影响。于是有研究者提出改进的基于N-Gram文本特征提取算法,即:在进行bigram切分时,不仅统计bigram的出现频度,还统计某个bigram与其前邻bigram的共现情况。当共现频率大于预设阈值时,将其合并成为多字特征词。该算法,较好地弥补N-Gram算法在处理多字词方面的缺陷。

2.2主成分分析算法

该算法通过搜索最能代表原数据的正交向量,建立一个替换的、较小的特征集合,将原数据投影到这个较小的集合。主成分分析(PCA)按其处理方式的不同,又分为数据方法和矩阵方法。矩阵方法中,所有数据通过计算方差-协方差结构在矩阵中表示出来,矩阵的实现目标是确定协方差矩阵的特征向量,它们和原始数据的主要成分相对应。考虑到矩阵方法的计算复杂度随着数据维度n的增加,以n的二次方增长,有研究者提出了使用Hebbian学习规则的PCA神经网络方法。

2.3遗传算法与模拟退火算法

(1)遗传算法(Genetic Algorithm, GA):是一种通用型的优化搜索方法,它利用结构化的随机信息交换技术组合群体中各个结构中最好的生存因素,复制出最佳代码串,并使之一代一代地进化,最终获得满意的优化结果。如果将文本看作是由若干个特征词构成的多维空间,那么将文本特征提取问题就转化为了文本空间的寻优过程。有研究者已经将遗传算法应用于这个寻优过程中。首先对文本空间进行编码,以文本向量构成染色体,通过选择、交叉、变异等遗传操作,不断搜索问题域空间,使其不断得到进化,逐步得到文本的最优特征向量。

基于协同演化的遗传算法使用其它的个体来评价某一特定个体。个体优劣的标准是由在同一生存竞争环境中的其它个体决定。这种协同演化的思想与处理同类文本的特征提取问题相吻合。同一类别文本相互之间存在着相关性,各自所代表的那组个体在进化过程中存在着同类之间的相互评价和竞争。因此,每个文本的特征向量(个体)在不断的进化过程中,不仅受到其母体(文本)的评价和制约,而且还受到其它同类个体的指导。基于协同演化的遗传算法不仅能反映其母体的特征,还能反映其它同类文本的共性,从而有效地解决同一类别的多个文本的集体特征向量的提取问题,获得反映整个文本集合最佳特征向量。

(2)模拟退火算法:将特征选取看作组合优化的问题,因而可以使用解决优化问题的方法来解决特征选取的问题。模拟退火算法(Simulating Anneal,SA)就是其中一种方法。将模拟退火算法运用到特征选取中,理论上可以找到全局最优解,但在初始温度的选取和邻域的选取时,需要找到有效的策略来综合考虑解的性能和算法的速度。

3 词向量(word embedding)

深度学习(Deep Learning)中一般用到的词向量是用词向量(Word Embedding)或分布式表达方法( Distributed Representation)所表示的一种低维实数向量。维度以 50 维和 100 维比较常见。这种向量的表示不是唯一的。词向量的提出,为的是将相关或者相似的词,在距离上更接近。向量的距离可以用最传统的欧氏距离来衡量,也可以用 cos 夹角来衡量。比如:用这种方式表示的向量,“麦克”和“话筒”的距离会远远小于“麦克”和“天气”。可能理想情况下“麦克”和“话筒”的表示应该是完全一样的,但是由于有人会把英文名“迈克”也写成“麦克”,导致“麦克”一词带上了一些人名的语义,因此不会和“话筒”完全一致。该方法很好地解决了传统的文本特征向量用于文本挖掘任务时可能出现的维数灾难问题,因而被很多研究者广泛地用于各类文本挖掘的任务当中。

4 基于领域语义理解的文本特征提取方法

4.1基于语境框架的文本特征提取方法

有研究者发现,单单依靠统计无法完成语义分析。没有考虑句子的语义以及句子间的关系的情况下,无法提取准确的文本特征向量来表达文本语义。因此,研究者提出将语义分析与统计算法相结合的语境框架算法,并获得了丰富的研究成果。可以将语境框架看作是一个三维的语义描述框架,即:把文本内容抽象为领域(静态范畴)、情景(动态描述)、背景(褒贬、参照等)三个模块。在语境框架的基础上,从语义分析入手,实现了四元组表示的领域提取算法、以领域句类为核心的情景提取算法、以对象语义立场网络图为基础的褒贬判断算法。该算法可以有效地处理语言中的褒贬倾向、同义、多义等现象,表现出较好的特征提取能力。

4.2基于本体论的文本特征提取方法

有研究者提出了应用本体论(Ontology)模型,有效地解决特定领域知识的描述问题。比如:针对数字图像领域的文本特征提取问题,可以通过构建文本结构树,给出特征权值的计算公式。算法充分考虑特征词的位置以及相互之间关系的分析,利用特征词统领长度的概念和计算方法, 能够更准确地进行特征词权值的计算和文本特征的提取。

4.3基于Z义网络的概念特征提取方法

文本挖掘,特别是中文文本挖掘,处理的对象主要有字、词、短语等特征项。但字、词、短语更多体现的是文档的词汇信息,而非语义信息,因而无法准确表达文档的内容。目前的大多数关于文本特征提取的研究方法只注重考虑特征发生的概率和所处的位置,缺乏语义方面的分析。向量空间模型(VSM)最基本的假设是各个分量相互正交,但事实上,作为分量的特征词间存在很大的相关性,无法满足模型的假设。基于概念的特征提取方法是在VSM的基础上,对文本进行部分语义分析,利用英文的WordNet或中文的知网等语义网络获取词汇的语义信息,将语义相同的词汇映射到同一概念,进行概念聚类。用概念作为文档向量的特征项, 这样就能够比一般词汇更加准确地表达文档内容,减少特征之间的相关性和同义现象,从而有效降低文档向量的维数,减少文档处理计算量,提高特征提取的精度和效率。

5 总结与展望

本文对近年来文本特征提取研究领域所取得的研究成果进行了全面的综述。随着人工智能深度学习技术的发展,在未来几年中,将可能从以下几个方面取得突破:(1)文本特征提取及文本挖掘在专业领域,比如:金融领域、军事领域等的应用研究。(2)新的文本特征表示模型,比如考虑使用层次结构的向量对文本进行建模,关键词向量能快速定位用户的兴趣领域,而扩展词向量能准确反映用户在该领域上的兴趣偏好。结合领域知识,采用概念词、同义词或本体来代替具体的关键词成为特征词,体现语义层面的需求和分析。(3)改进分词算法。比如针对特征提取的需要,应用深度学习算法框架,建构高性能的分词系统。(4)改进特征评价函数。比如考虑将表达文本结构的特征提取与表达文本语义的特征提取进行交叉解码,即对特征词的权重从表达文本结构与文本语义两个层面进行评价。

责编/魏晓文

参考文献

[1] Bengio Y, Schwenk H, Senécal J, et al. Neural Probabilistic Language Models[J]. Journal of Machine Learning Research, 2003, 3(6):1137-1155.

[2] Salton G, Buckley C. Buckley, C.: Term-Weighting Approaches in Automatic Text Retrieval. Information Processing & Management 24(5), 513-523[J]. Information Processing & Management, 1988, 24(5):513-523.

[3] 刘健, 张维明. 基于互信息的文本特征选择方法研究与改进[J]. 计算机工程与应用, 2008, 44(10):135-137.

[4] 成卫青, 唐旋. 一种基于改进互信息和信息熵的文本特征选择方法[J]. 南京邮电大学学报(自然科学版), 2013, 33(5):63-68.

[5] Cavnar W B, Trenkle J M. N-Gram-Based Text Categorization[C]// In Proceedings of SDAIR-94, 3rd Annual Symposium on Document Analysis and Information Retrieval. Las Vegas, US. 1994:161--175.

[6] 陈素芬, 曾雪强. 中心修正增量主成分分析及其在文本分类中的应用[J]. 中文信息学报, 2016, 30(1):108-114..

[7] 郝占刚, 王正欧. 基于潜在语义索引和遗传算法的文本特征提取方法[J]. 情报科学, 2006, 24(1):104-107.

[8] 晋耀红, 苗传江. 一个基于语境框架的文本特征提取算法[J]. 计算机研究与发展, 2004, 41(4):582-586.