时间:2023-03-22 17:34:36
导语:在数据挖掘技术分析论文的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
【关键词】GT4;Web Service;聚类分析
1.引言
计算机网络技术的普及与应用给人们的生活带来了翻天覆地的变化,同时在网络上产生了大量杂乱无章的数据。而网格技术、Web技术的发展,为人们从分布的网络资源中寻找有价值的信息提供了新的技术支持,同时也产生了许多基于网格的数据挖掘系统。而数据挖掘算法又是决定一个数据挖掘系统性能的主要衡量指标。任何软件系统的设计都离不开算法,数据挖掘技术的执行效率也与数据挖掘算法有关,随着数据库技术与数据挖掘技术的成熟与发展,像分类、聚类、决策树、关联等等数据挖掘算法已相当成熟,可以研究借鉴现有数据挖掘方法、数据挖掘模式、数据挖掘流程,建立一个基于网格的数据挖掘系统。笔者以众多数据挖掘算法中的聚类分析算法为例,介绍基于GT4(Globus Tookit 4.0的简称,GT4的核心开发工具包(Java Web Service Core))的数据挖掘算法的设计过程。
聚类分析(Clustering Analysis)是一个应用比较广泛的数据挖掘算法,算法的理论研究与实践应用都已经很成熟,把这一成熟的理论应用于基于网格的分布式系统中,会大大提高数据挖掘的效率。本文主要研究如何将聚类分析的CURE(Cluster Using Representation)算法和K-平均方法算法应用于基于GT4数据挖掘系统中。
2.系统结构设计
基于GT4数据挖掘系统的数据源是分布式数据源,分布式数据源是指在物理上分布而逻辑上集中的数据源系统。在该系统中,处在这个网格中的每台计算机就是这个网格的一个节点,称之为网格节点。在众多的节点中,要有一个网格节点来控制和管理其他的节点,这个节点就叫做网格中心控制节点,决策支持都是由网格中心控制节点完成的。如果要完成某个数据挖掘任务,则可以由空闲的网格节点先按挖掘需求来完成本节点的挖掘任务,再由网格中心控制节点来汇总每个节点的数据挖掘情况。局部网格节点管理的信息具有局限性,涉及的范围较小,主要完成单个节点数据的管理,对局部的数据挖掘结果进行汇总分析,但是这些局部节点的数据与全局节点的数据又是有一定关联的。根据以上的分析可知,网格平台下的数据挖掘任务由全局数据挖掘与局部数据挖掘共同完成。
3.算法的Web Service设计
3.1 全局聚类算法的Web Service设计
网格环境下的全局控制网格节点与局部网格节点间的关系我们可以理解为上下层的关系,这样就可以借鉴基于层次的聚类分析算法,按照层次的自底向上的聚类方式,把全局控制节点当成是层次聚类的顶层。本课题全局聚类算法借鉴传统的利用代表点聚类算法CURE。
CURE算法将层次方法与划分方法结合到一起,选用有代表性的、固定数目的空间点来表示一个聚类。算法在开始时,每个点都是一个簇,然后将距离最近的簇结合,一直到簇的个数为要求的K。首先把每个数据点即局部网格节点看成一个聚类,然后再以一个特定的收缩因子向中心收缩它们。
CURE算法的主要执行步骤如下:
(1)从数据源样本对象中随机抽取样本集,生成一个样本集合S;
(2)将样本集合S分割为一组划分,每个划分大小为S/p;
(3)对每个划分部分进行局部聚类;
(4)通过随机采样剔除聚类增长太慢的异常数据;
(5)对局部聚类进行聚类,落在每个新形成的聚类中的代表性点,则根据用户定义的收缩因子收缩或移向聚类中心;
(6)用相应的标记对聚类中的数据标上聚类号。
有了数据挖掘算法,就可以完成数据挖掘任务了。全局聚类算法的主要功能是响应用户的数据挖掘请求,将对应的请求发送给局部网格节点,将局部网格节点的挖掘结果整理输出。全局聚类算法Web Service资源的结构包括算法Web Service接口、算法资源属性文档、算法功能实现和算法功能四个部分。
利用传统的聚类算法完成全局的数据的并行挖掘最重要的一步就是将全局聚类算法部署到GT4中,完成全局聚类算法的Web Service设计要经过过以下几步:
第一步:用WSDL(Web Service描述语言,是Web Service提供的XLM语言)来描述数据挖掘服务接口,该服务接口可以用Java来定义,利用Java-to-WSDL工具把Java定义的接口转为WSDL文件。
第二步:用Java编写全局聚类算法(CURE)代码;
第三步:用WSDD配置文件和JNDI(GT4自带文件)部署文件;
第四步:用Ant工具打包上面的所有文件,生成一个GAR文件;
第五步:向Web Service容器部署全局数据挖掘服务。
3.2 局部聚类算法的Web Service设计
局部聚类算法的主要功能是完成局部网格节点的数据挖掘任务,并把数据挖掘结果上传到全局控制节点。局部网格节点的数据挖掘任务与传统的单机数据挖掘任务类似,本课题局部聚类算法使用传统的聚类算法K-平均方法,以K为参数,把N个对象分为K个簇,簇内具有较高的相似度,而簇间的相似度较低[34]。本论文的数据挖掘任务主要是由局部网格节点实现的,下面就详细的介绍K-平均算法的主要执行过程如下:
(1)从数据集中任意选择K个对象作为各个簇的初始中心。
(2)根据现有的簇中心情况,利用距离公式计算其他对象到各个簇中心的距离。(可选的距离公式有:欧几里、行德公式、距离公式、曼哈坦距离公式、明考斯基距离公式)。
(3)根据所得各个对象的距离值,将对象分配给距离最近的中心所对应的簇。
(4)重新生成各个簇的中心。
(5)判断是否收敛。如果收敛,即簇不在发生变化,那么停止划分,否则,重复(2)到(5)。
K-平均算法是一个经典的聚类算法,将K-平均算法部署到GT4中,完成局部聚类算法的Web Service设计,部署方法与全局算法相似。
4.结论
基于GT4的数据挖掘系统中的数据挖掘服务资源有网格的中心控制节点(即全局节点)进行统一的管理,在局部网格节点挖掘过程中,根据其处理能力分配最佳的数据集给局部节点,从而使整个系统的计算负载相对均衡。其数据挖掘系统的规模可随着服务的多少动态伸缩。当系统要增加新的局部挖掘节点时,只需部署局部Web Service资源即可。将网格应用到分布式数据挖掘系统中,建立一个基于网格的数据挖掘系统,必将使其在各个领域都得到广泛的应用。
参考文献
[1]薛胜军,马廷淮,刘文杰.Globus Tookit 4:Java网格服务编程[M].北京:清华大学出版社,2009.
关键词:数据仓库,数据挖掘,电子政务
在电子政务信息建设中已经有了成功的电子政务业务处理和信息管理系统,卓有成效的过程控制指挥系统和办公自动化系统。但从电子政务全局的高层次和大范围的分析角度去审视,则感到数据分散,难以整合。因此,研究电子政务数据仓库和数据挖掘很有必要。
1.电子政务信息建设的数据仓库
电子政务数据仓库是电子政务信息架构的新焦点,它提供集成化的和历史化的电子政务业务数据;它集成种类不同的电子政务应用系统;电子政务数据仓库从事物发展和历史角度来组织和存储电子政务数据,以供信息化和分析处理之用。它是对现有电子政务信息系统深刻认识的结果,来自异地、异构的电子政务数据源或数据库的数据经过加工后在电子政务数据仓库中存储、提取和维护。传统的电子政务数据库主要面向业务处理,而电子政务数据仓库面向复杂数据分析、高层决策支持。电子政务数据仓库提供来自种类不同的电子政务应用系统的集成化和历史化的数据,为全局范围的电子政务战略决策和社会治安长期趋势分析提供有效的支持。免费论文参考网。目前,经过近20年的建设,全国电子政务信息系统建设已经积累了大量数据,对于电子政务工作起了意义深远的推动作用,电子政务工作已经初步进入了数字化、电子化、信息化,极大地提高了电子政务工作的效率。以土地管理为例,现在的管理方式是以前不能比拟的。但是,如何将这些数据用于全局范围的战略决策和长期趋势分析,则是需要进一步解决的问题。例如,土地问题,近年来始终与住房问题、物价问题和就业问题一起,成为全国人民非常关心的问题,其问题有表面的原因,也有深刻的历史原因和现实原因。如何花较少的代价,将此问题解决得圆满一些,建设电子政务数据仓库是一重要手段。免费论文参考网。
电子政务数据仓库是一种全新的分布式异构数据系统的集成方法:把各个信息源中与决策支持有关的数据,预先经过提取、转换、过滤,并与相应信息源中其它数据进行合并,按主题存放在一个中央数据库中,当用户需要查询时,可以直接访问中央数据库,不必访问其它数据源。
电子政务数据仓库包括3个基本的功能部分。数据获取:从电子政务一线数据源获取数据,数据被区分出来,进行拷贝或重新定义格式等处理后,准备载入电子政务数据仓库。数据存储和管理:负责电子政务数据仓库的内部维护和管理,包括数据存储的组织、数据的维护、数据的分发。信息访问:属于电子政务数据仓库的前端,面向用户------提取信息、分析数据集、实施决策。进行数据访问的工具主要是查询生成工具、多维分析工具和数据挖掘工具等。
电子政务数据仓库的特点:针对全局电子政务业务战略分析,非常详细的数据,第三范式数据结构,高层次和大范围的分析,详细的历史信息,存储和管理大量的数据,整个数据结构统一,索引较少。
因此,原来对分布式异构数据的复杂访问变成直接在该仓库上进行即席查询的简单操作:用户需要某些指定信息和快速查询,但不一定要最新信息,在这个环境中需要高性能和访问信息源中不能长期保存的信息。
电子政务数据仓库是一个比传统解决方法更为有效的集成技术,即对感兴趣的数据及其变化预先提取并按公共模式集成到一个中央数据库中,由于分布和异构问题被提前解决,用户可以在中央数据仓库上进行高效的查询或分析。
由于电子政务数据仓库的体系结构,必须照顾电子政务已有的信息系统的体系结构,以及相关的基础设施,因此,确定电子政务数据仓库的体系结构,必须兼顾用户需求的多变性、基础设施的复杂性、技术更新的步伐。数据仓库本身可以使用通用的或者特别要求的数据库管理系统来实现。尽管在图中表示的是一个单独的、中央化的数据仓库,实际上,为了达到理想的性能,分布式和并行性往往是必然的选择。
电子政务数据仓库技术中一些比较重要的问题是:数据仓库管理,数据源和数据仓库的演化,复制带来的不一致,过期数据处理等。电子政务数据仓库管理涉及电子政务数据仓库开发的各个阶段,与之相关的问题涉及电子政务数据仓库设计、数据装载、元数据管理等。数据源和数据仓库演化,则是研究电子政务数据仓库体系结构如何顺利处理信息源的变化问题,如模式变化、新信息源加入,旧信息源删除等。复制不一致,是指从各个信息源拷贝来的同一信息或者相关信息出现的不一致,一般用集成器对这些数据进行清理。对于电子政务数据仓库中的数据,可能会保存很多年,但是一般不会永远保留下去,这就要求研究比较可靠的技术以保证过期的数据,可以自动而有效地从电子政务数据仓库中被清除出去。
2.电子政务数据挖掘一般方法
电子政务部门在过去若干年的时间里都积累了海量的、以不同形式存贮的数据资料,例如户籍资料、土地资料和规划管理资料等。此外,电子政务工作所涉及到的数据类型是相当复杂的,例如:用地指数,其特征抽取相当复杂;土地配置规律特点,其数据联系是非平面的,也是非标准立体的。由于这些资料十分繁杂,要从中发现有价值的信息或者知识,达到为决策服务的目的,成为非常艰巨的任务。电子政务数据挖掘一般方法的提出,让用户有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。
电子政务数据挖掘是按照既定的电子政务业务目标,对大量的数据进行探索、揭示隐藏其中的规律性并进一步将其模型化的先进、有效的方法。数据是按照电子政务数据仓库的概念重组过的,在电子政务数据仓库中的数据、信息才能最有效的支持电子政务数据挖掘。因此,首先从正在运行的电子政务计算机系统中完整地将数据取出;其次各个环节的数据要按一定的规则有机、准确地衔接起来,以极易取用的数据结构方式,全面地描述该业务目标。
电子政务数据挖掘就是从大量的、不完全的、模糊的、有噪声的、随机的数据中,提取隐含在其中的、事前不知道的、但是潜在有用的信息和知识的过程。电子政务数据挖掘技术是面向应用的,不仅面向特定数据库的简单检索和查询调用,而且要对这些数据进行微观和宏观的分析、统计、综合和推理,从中发现事件间的相互关系,对未来的活动进行预测。
3.基于电子政务数据仓库的数据挖掘
基于电子政务数据仓库的数据挖掘的方法,是以电子政务数据仓库为中心,各信息源由原始数据库,经过打包和集成到电子政务数据仓库;基于电子政务数据仓库的数据挖掘,是通过模型库和方法库的协助,对电子政务数据仓库进行数据挖掘,从而获得分析预测结果和决策支持的。
基于电子政务数据仓库的数据挖掘的特点:1、规模: 电子政务数据仓库中集成和存储着来自若干分布、异质的信息源的数据。免费论文参考网。这些信息源本身就可能是一个规模庞大的电子政务数据库,可以想象数据仓库会有比一般数据库系统更大的数据规模。如何从如此巨量的数据中有效的提取有用信息,需要各方面技术的进步。从当前发展来看,支持并行处理的分布式DBMS、具有大规模并行处理(MPP)能力的计算机、超大规模的存储机构等技术的发展和协同将使电子政务数据仓库走向实用。2、历史数据:传统的电子政务数据库系统为了获得最大的执行效率,往往存储尽可能少的数据量。因为,拥有的数据越多,数据组织、重构、浏览、索引和监控的难度越大。传统电子政务数据库系统在“时间”方向的长度很有限。比较而言,电子政务数据仓库的根本特征之一就是进行长时间的历史数据存储,这使得可以进行数据长期趋势的分析。电子政务数据仓库为长期决策行为提供了独一无二的支持,电子政务数据仓库中的数据在时间方向上具有大的纵深性。3、数据集成和综合性:从全局的角度看,数据仓库集成了电子政务内各部门的全面的、综合的数据。电子政务数据挖掘面对的是关系更加复杂的全局模式的知识发现,能更好地满足高层战略决策的要求。在电子政务数据仓库中,数据已经被充分收集起来了,进行了整理、合并,有些还进行了初步的分析处理。另外,电子政务数据仓库中对数据不同粒度的集成和综合,更有效地支持了多层次、多种知识的挖掘。4、查询支持 电子政务数据仓库面向决策支持,电子政务数据仓库的体系结构努力保证查询(Query)和分析的实时性。电子政务数据仓库设计成只读方式,用户可以直接访问电子政务数据仓库,挖掘过程可以做到实时交互,使决策者的思维保持连续,挖掘出更深入、更有价值的知识。
电子政务数据仓库和数据挖掘是将来电子政务智能化的基础,可以帮助用户得到他们想知道的信息,有些数据也许隐藏人们意想不到的信息,数据挖掘就是让用户发现这些隐藏信息的工具。电子政务数据仓库和数据挖掘研究和应用所面临的主要问题:挖掘的对象:更大型的数据库、更高的维数和属性之间的复杂关系;多种形式的输入数据;用户参与和领域知识的融合;证实(Validation)技术;知识的表达和解释机制;知识的更新和维护;多平台支持、与其他系统的集成。
近年来,电子政务利用信息技术的能力大幅度提高,大量数据库被用于土地管理和城市规划。为了利用这一巨大的信息资源,从中及时发现有用的知识,提高信息的价值,使数据真正成为电子政务的有力武器,为电子政务自身的业务决策和战略发展服务,电子政务数据仓库和数据挖掘是现在和将来的一个重要发展方向。
论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。
数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。
一、数据挖掘技术的概念
随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。wWW.133229.Com从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。
二、数据挖掘技术在保护设备故障信息中的实现方法
1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。
2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。
三、数据挖掘技术保护设备故障信息管理的基本功能
1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。
2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。
四、结语
随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。
参考文献:
[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9
[2]李建业,刘志远,蔡乾,赵洪波.基于web的故障信息系统[j].电力信息化,2007,s1
论文关键词:数据挖掘;电子商务;Web数据挖掘
1 引言
当前,随着网络技术的发展和数据库技术的迅猛发展,有效推动了商务活动由传统活动向电子商务变革。电子商务就是利用计算机和网络技术以及远程通信技术,实现整个商务活动的电子化、数字化和网络化。基于Internet的电子商务快速发展,使现代企业积累了大量的数据,这些数据不仅能给企业带来更多有用信息,同时还使其他现代企业管理者能够及时准确的搜集到大量的数据。访问客户提供更多更优质的服务,成为电子商务成败的关键因素,因而受到现代电子商务经营者的高度关注,这也对计算机web数据技术提出了新的要求,Web 数据挖掘技术应运而生。它是一种能够从网上获取大量数据,并能有效地提取有用信息供企业决策者分析参考,以便科学合理制定和调整营销策略,为客户提供动态、个性化、高效率服务的全新技术。目前,它已成为电子商务活动中不可或缺的重要载体。
2 计算机web数据挖掘概述
2.1 计算机web数据挖掘的由来
计算机Web数据挖掘是一个在Web资源上将对自己有用的数据信息进行筛选的过程。Web数据挖掘是把传统的数据挖掘思想和方法移植到Web应用中,即从现有的Web文档和活动中挑选自己感兴趣且有用的模式或者隐藏的数据信息。计算机Web数据挖掘可以在多领域中展示其作用,目前已被广泛应用于数据库技术、信息获取技术、统计学、人工智能中的机器学习和神经网络等多个方面,其中对商务活动的变革起到重大的推动作用方面最为明显。
2.2 计算机Web数据挖掘含义及特征
(1) Web数据挖掘的含义。
Web 数据挖掘是指数据挖掘技术在Web 环境下的应用,是一项数据挖掘技术与WWW技术相结合产生的新技术,综合运用到了计算机语言、Internet、人工智能、统计学、信息学等多个领域的技术。具体说,就是通过充分利用网络(Internet),挖掘用户访问日志文件、商品信息、搜索信息、购销信息以及网络用户登记信息等内容,从中找出隐性的、潜在有用的和有价值的信息,最后再用于企业管理和商业决策。
(2)Web数据挖掘的特点。
计算机Web数据挖掘技术具有以下特点:一是用户不用提供主观的评价信息;二是用户“访问模式动态获取”不会过时;三是可以处理大规模的数据量,并且使用方便;四是与传统数据库和数据仓库相比,Web是一个巨大、分布广泛、全球性的信息服务中心。
(3)计算机web数据挖掘技术的类别。
web数据挖掘技术共有三类:第一类是Web使用记录挖掘。就是通过网络对Web 日志记录进行挖掘,查找用户访问Web页面的模式及潜在客户等信息,以此提高其站点所有服务的竞争力。第二类是Web内容挖掘。既是指从Web文档中抽取知识的过程。第三类是Web结构挖掘。就是通过对Web上大量文档集合的内容进行小结、聚类、关联分析的方式,从Web文档的组织结构和链接关系中预测相关信息和知识。
3 计算机web数据挖掘技术与电子商务的关系
借助计算机技术和网络技术的日臻成熟,电子商务正以其快速、便捷的特点受到越来越多的企业和个人的关注。随着电子商务企业业务规模的不断扩大,电子商务企业的商品和客户数量也随之迅速增加,电子商务企业以此获得了大量的数据,这些数据正成为了电子商务企业客户管理和销售管理的重要信息。为了更好地开发和利用这些数据资源,以便给企业和客户带来更多的便利和实惠,各种数据挖掘技术也逐渐被应用到电子商务网站中。目前,基于数据挖掘(特别是web数据挖掘)技术构建的电子商务推荐系统正成为电子商务推荐系统发展的一种趋势。
4 计算机web数据挖掘在电子商务中的具体应用
(1)电子商务中的web数据挖掘的过程。
在电子商务中,web数据挖掘的过程主要有以下三个阶段:既是数据准备阶段、数据挖掘操作阶段、结果表达和解释阶段。如果在结果表达阶段中,分析结果不能让电子商务企业的决策者满意,就需要重复上述过程,直到满意为止。
(2)Web数据挖掘技术在电子商务中的应用。
目前,电子商务在企业中得到广泛应用,极大地促进了电子商务网站的兴起,经过分析一定时期内站点上的用户的访问信息,便可发现该商务站点上潜在的客户群体、相关页面、聚类客户等数据信息,企业信息系统因此会获得大量的数据,如此多的数据使Web数据挖掘有了丰富的数据基础,使它在各种商业领域有着更加重要的实用价值。因而,电子商务必将是未来Web数据挖掘的主攻方向。Web数据挖掘技术在电子商务中的应用主要包含以下几方面:
一是寻找潜在客户。电子商务活动中,企业的销售商可以利用分类技术在Internet上找到潜在客户,通过挖掘Web日志记录等信息资源,对访问者进行分类,寻找访问客户共同的特征和规律,然后从已经存在的分类中找到潜在的客户。
二是留住访问客户。电子商务企业通过商务网站可以充分挖掘客户浏览访问时留下的信息,了解客户的浏览行为,然后根据客户不同的爱好和要求,及时做出让访问客户满意的页面推荐和专属性产品,以此来不断提高网站访问的满意度,最大限度延长客户驻留的时间,实现留住老客户发掘新客户的目的。
三是提供营销策略参考。通过Web数据挖掘,电子商务企业销售商能够通过挖掘商品访问情况和销售情况,同时结合市场的变化情况,通过聚类分析的方法,推导出客户访问的规律,不同的消费需求以及消费产品的生命周期等情况,为决策提供及时而准确的信息参考,以便决策者能够适时做出商品销售策略调整,优化商品营销。
四是完善商务网站设计。电子商务网站站点设计者能够利用关联规则,来了解客户的行为记录和反馈情况,并以此作为改进网站的依据,不断对网站的组织结构进行优化来方便客户访问,不断提高网站的点击率。
关键词:聚类分析算法 应用研究 算法描述
中图分类号:TP311.13 文献标识码:A 文章编号:1007-9416(2016)10-0143-01
聚类分析(Cluster Analysis)就是将一组物理事物或抽象对象按照某种聚类规则或检验度量函数标准划分不同聚集组别的过程,其中被划分的若干相对独立的组为一个类,是一种无监督的学习方法。聚类分析方法是数据挖掘技术中的数据分析普遍运用方法之一,其功能最终实现被研究数据按照相关聚类分析算法进行聚类,对聚类的事物对象,最终要达到相似度大的对象在同一个聚类群组中,相似度小的对象在不同的聚类群组中,从而归纳出聚类数据对象的特征性。聚类分析中的“类(Cluster)”就是一组相似度较高的数据集合。聚类分析能够将一组事物或数据按照聚类算法规则进行聚类处理,根据聚类算法规则的不同而实现各自侧重的聚类分析结果。
1 聚类分析算法
根据聚类对象数据类型的不同,聚类分析分为R型聚类和Q型聚类,R型聚类是对变量型数据的聚类分析,Q型聚类是对具体观测值数据的聚类分析。对数据对象的聚类分析要借助于聚类分析算法来实现完成,聚类分析算法的基本定义为:
目标数据集合,对于数据集合中的任一数据元素,具有个特征属性,任一数据元素的属性特征向量集表示为。通过特定的数据分析处理准则对目标数据集进行聚类处理后,目标数据集被划分成具有个子集的数据类集合,,聚类结果数据集必须满足:
根据聚类分析所采取分析方法的不同,聚类分析算法分为基于划分的聚类分析算法、基于层次的聚类分析算法、基于密度的聚类分析算法、基于网格的聚类分析算法、基于模型的聚类分析算法。
2 K―means聚类分析算法描述
对于给定包含个数据对象的数据集,按照标准偏移量的目标函数进行划分,形成K个聚类。具体操作过程为:
第一步:数据规范化处理。对数据对象进行规范化预处理,消除非法值及极值影响。
第二步:数据准备。计算各科标准差:
第三步:计算各初始聚类中心。
第四步:计算与聚类中心最近邻的数据对象,并合并成新类。
第五步:重新计算聚类中心值。
第六步:验证聚类收敛性。
if 聚类中心值o新变化
结束聚类 else 转入第四步 endif
第七步:进行各个类数据分析。
3 结语
总之,聚类分析算法是数据挖掘中一种常用算法,在数据挖掘过程中有很多算法,每种算法都有自己的优缺点,数据挖掘是一项极其复杂过程,一般情况我们都是多种算法结合起来一起应用,目的提高工作效率,提高数据挖掘的准确性,数据挖掘技术在我国应用领域比较广,并且取得一定成绩,在当今大数据时代,研究数据挖掘具有一定的现实意义,具有深远的研究价值。
参考文献
[1]吴多智.基于语义的手机类产品用户评论维度挖掘研究[J].安徽电子信息职业技术学院学报,2016(03).
[2]孙永辉.聚类分析在学生成绩分析中的应用[J].中国管理信息化,2016(06).
[3]巨晓璇,邹小斌,屈直,刘春敏.层次聚类算法在气象客户细分中的应用[J].河南科技,2015(11).
[4]许进文.数据挖掘中聚类分析算法及应用研究[J].计算机光盘软件与应用,2013(06).
关键词:Web日志挖掘;聚类;K-均值算法
1 Web日志挖掘
1.1 Web日志挖掘简介
严格的说,Web日志挖掘是Web使用模式挖掘的一种,就是通过对Web日志记录的挖掘,发现用户访问Web页面的模式,从而进一步分析和研究Web日志记录中的规律,以期改进Web站点的性能和组织结构,提高用户查找信息的质量和效率,并通过统计和关联的分析找出特定用户与特定地域、特定时间、特定页面等要素之间的内在联系。
1.2 Web日志挖掘的过程
Web日志的挖掘过程一般包括数据预处理、模式识别和模式分析三个阶段。如下图所示:
(1)数据预处理
Web日志挖掘的第一个步骤就是搜集原始数据,由于Web日志数据的特殊性,而且为了保证数据分析的准确性和数据挖掘算法的有效性,在数据分析之前必须要对搜集到的原始数据进行预处理,即将原始的日志文件经过数据清理、用户识别、会话识别、路径补充和事务识别等几个步骤,转化成可供数据挖掘阶段使用的事务数据库,以此保证模式分析阶段使用的数据是规则的、准确的、干净的、简洁的和完整的源数据,从而提高数据挖掘的精度和性能。
(2)模式识别
模式识别阶段就是运用各种技术和算法从预处理后的数据中挖掘和发现用户使用的各种潜在的规律和模式的过程。这一阶段使用的技术和算法来自各个领域,如:数据挖掘领域、社会学和统计学等领域。但是,需要注意的是,针对Web数据的特殊性,不同领域的算法和技术如果要拿过来使用的话,必须进行相应的改善,才能更好的发挥算法的优越性。在Web日志挖掘的模式识别阶段,常采用的技术有统计、关联规则、序列模式、聚类和依赖关系等。
(3)模式分析
模式分析阶段是从所挖掘的大量规则或者模式中进行分析,找出用户感兴趣的模式。目前,模式分析阶段的工作主要借助合适的技术和工具来辅助分析人员的理解,所以开发各种分析技术和工具也是非常必要的。
目前,常用的模式分析技术有以下几种:
① 知识查询:对挖掘出的大量模式,需要一种类似关系数据库SQL的知识查询机制使用户可以很方便的查询到想要的模式,从而使解释和分析有针对性。
② 联机分析处理(OLAP):把Web使用数据装入数据仓库,以便执行OLAP操作,以获得用于预测用途的模式和趋势。
③ 可视化技术(Visualization):可视化技术在其它领域应用中己经取得巨大成功,因此人们很自然的选择它来理解Web用户的行为。
1.3 Web日志挖掘技术
(1)聚类算法
聚类是将物理或抽象对象的集合分成由类似的对象组成的多个类的过程。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。一般的,一个群体就是一个类。
(2)分类算法
分类就是对数据库中的每一类数据挖掘出关于该数据的描述和模型,而这些数据库中的类是事先建立起来的。在Web日志挖掘中,分类技术可以根据用户注册信息或共同的访问模式进行分类,得出访问某一服务器文件的用户特征。
(3)关联规则
关联规则通常用在事务数据库当中,每个事务由若干事务数据项组成。它定义了数据项中的所有关联和相互关系,即事务中一组数据项的出现可能标志着其它数据项的出现。在Web日志挖掘中,关联规则可以发现某个用户生成的服务器文件中不同引用之间的关系。
(4)序列模式技术
序列模式挖掘旨在从时间序列数据库中挖掘出用户行为模式。因为用户的一次访问会在Web服务器记录一段时间,所以序列模式分析技术可以确定一段时间内所有客户访问特定页面所共有的特征。在Web日志挖掘中,序列模式挖掘着重寻找的是用户页面访问序列随时间推移发生的变化,目的是挖掘出用户访问会话之间的变化规律。
(5)路径分析技术
路径分析技术是利用链接记录文件项来决定每个访问者的路径,并将路径按时间顺序排序。在设计Web站点的合理布局时,图的节点表示Web页面,有向边表示页面的超链接。其它各式各样的图也是建立在页面与页面之间的联系或者是一定数量的用户浏览页面顺序的基础上的。
2改进的算法和原始的K-均值算法的性能比较
由于聚类分析中的类不是事先给定的,而是根据数据的相似性和距离来划分,因此,衡量一个聚类算法的优越性,我们可以从整个簇的纯度、簇内相似度和簇间相异度几个方面去比较[50]。本次实验的数据来源为依据河南商业高等专科学校的Web日志文件建立的数据表。
2.1 纯度比较
衡量改进算法的优越性,我们可以使用常用的纯度(Purity) [51]来度量。设簇Ci的大小为ni,则该簇的纯度定义为:
其中ni’表示簇Ci 与第j类的交集的大小,整个簇类的纯度定义为:
其中k为聚类最终形成的簇的数目。
通过反复聚类实验得到改进算法和原始K-均值算法的纯度比较值,如下表所示:
通过比较发现,改进的算法在纯度和稳定性方面都要优于原来的K-均值聚类算法。
2.2 簇内相似度的比较
一个好的聚类方法应当产生高质量的聚类,即簇内的相似度要高。簇内相似度即是簇内任意数据项与簇内中心点的距离,该距离越小,证明簇内的数据项越紧密,算法的优越性越好。簇内相似度的计算公式采用马氏距离进行计算。通过反复聚类实验得到改进算法和原始K-均值算法的簇内相似度的比较,如下表所示:
通过比较发现,改进的算法在簇内相似度方面要优于原来的K-均值算法,即使用改进的聚类算法得到的簇内部比较紧密。
2.3 簇间相异度的比较
一个好的聚类方法除了要保证簇内具有较高的相似度以外,而且还要保证簇间具有较高的相异度。簇间的相异度在有些参考资料上也称为簇间相似度,即是任意数据项与其所在的簇以外的其它簇内中心点的距离,该距离越大,证明簇间差别越大,聚类效果越好。簇间相异度的计算公式同样采用马氏距离进行计算。通过反复聚类操作得到改进算法和原始K-均值算法的簇间相异度的比较,如下表所示:
通过比较发现,改进的算法在簇间相异度方面要优于原来的K-均值算法。
[参考文献]
[1] 谢丹夏.Web上的数据挖掘技术和工具设计.计算机工程与应用,2001:134
[2] 毛国君,段立娟,王实等.数据挖掘原理与算法.清华大学出版社,2005:323
[3] 王澜.教学网站中数据挖掘技术的研究和应用.大连交通大学硕士学位论文,2006:23
[4] 张娥,冯秋红,宣慧玉等.Web使用模式研究中的数据挖掘.计算机应用研究,2001:18
[5] 周涓,熊忠阳,张玉芳等.基于最大最小距离法的多中心聚类算法.计算机应用,2006:1425-1428
关键词:数据挖掘 高校信息管理 应用分析
中图分类号:G647 文献标识码:A 文章编号:1674-098X(2016)11(b)-0109-02
高校多年来的教学管理工作积累了大量的数据,是一个待开发的宝藏。鉴于高校发展的需求和高校信息管理的现状,利用这些数据理性地分析高校各方面工作的成效以及学生培养过程的得失变得十分重要。该文将结合高校信息管理系统的现状和数据挖掘技术的功能,分别从教学、管理、科研等方面出发,系统研究和分析数据挖掘技术在高校各领域中的应用。
1 教学领域
教学是高校职能的核心,是关系学生业务能力和综合素质培养的关键因素,数据挖掘在教学领域的应用也显得尤为重要。
(1)课程设置层面。从某种程度上讲,学生在校学习过程中的课程学习属于循序渐进的过程,而且课程之间存在着相对较强的关联关系以及先后顺序。通常情况下,在完成一项课程学习之前,应学习一些基础性的先行课程,若是这些先行课程没有学好,则会严重影响之后那些课程项目的学习效果。借助高校教学资源库当中的历届学生成绩档案,在科学化数据挖掘以及合理化数据关联的基础上,可以从海量数据当中挖掘有用信息,从而更好地帮助其分析数据间的回归与相关性联系,最终获得价值性较强的规律。在此基础上就可以比较顺利地寻找学生成绩下降的原因,进而对课程设置实施科学化的安排。
(2)学生自身的学习评价。目前,学习评价属于高校教育工作人员的重要职责。对学生自身的学习行为进行判定,不仅可以起到相应的信息反馈作用,有效激发学生所具有的学习动机,还可以检查课程计划以及检验教学目的。除此之外,学习评价还是判定学生个性化差异的重要手段,有利于高校教师因材施教。借助相应的数据挖掘工具,可以对高校学生成绩数据库以及行为记录库等实施仔细分析与处理,得到即实性的评价结果,及时纠正学生的不良行为,克服教师在学生评价上因主观因素造成的不公平问题,还能够减轻教师在学习评价环节的工作量。
(3)课堂教学评价。该教学环节不仅可以起到良好的教学调节作用以及教学指导作用,还有着相对较强的导向性特点,属于高校管理工作的组成部分之一,同时也是高校教学评价工作的关键性手段。一般情况下,高校每学期都会搞专业化的教学评价调查,进而积累丰富数据,探讨教学效果水平高低与教师自身的年龄和职称间的联系,从而为高校教务科提供决策信息,提高高校教学效果。
(4)教务数据分析。目前高校在校学生人数已经超过几千甚至上万,教师队伍也相当强大,经过几十年的教学管理,教务数据已经达到海量,而目前对于这些数据的应用还仅仅停留在查询或简单统计,隐藏在这些数据中的大量宝贵信息还没有被发现,例如,学生后续课程的成绩到底与哪些前导课程有关;影响学生学习成绩的因素到底有多少;不同专业学生的差异性有多少等。这些都可以通过数据挖掘工具在海量的教务数据库中获得。
2 管理领域
将数据挖掘技术应用到高校日常管理工作中,不仅能够提升高校管理效率,而且能够为高校管理工作提供数据支撑和决策支持。
(1)干部考评管理。主要对高校干部进行年度考核。其作用是为了更清楚地掌握干部的个体情况,并且提供近期或动态信息。考核既是了解掌握干部情况的一个重要手段,同时也是正确实施奖惩和选拔使用干部的必要前提。结合高校现有的干部管理数据库,从干部管理数据库和职称考评数据中进行数据挖掘,找出干部工作状态和干部的年龄、职务、学历、专业、任职经历等方面的关联,找到高校干部成长进步和干部整体素质的关系,做到合理调配使用干部,为人事部门提供科学的决策信息。
(2)学生特征的仔细挖掘。结合高校学生在基础性信息、学习经历以及兴趣特征等方面的实际情况来针对性挖掘高校学生的个性化特征,从而帮助学生及时修正自身所具有的不良学习行为。凭借对高校学生特征的详细分析结果与目的制定之间的对比,高校教师可以很好地帮助学生纠正学习行为,促进学习能力的提升,日益完善学生人格,从根本上实现学生综合素质的大力培养。
(3)人员行为干预。高校教学管理数据库中记录着各届学生与教师的学习、工作、社会活动、奖励、处罚等情况,利用数据挖掘的关联分析,寻找师生各种行为活动之间的内在联系。例如,通过分析挖掘历年管理数据发现,临近学年结束时,毕业学生极易出现酗酒违纪事件,也就是:“学年结束”and“毕业学生”=>“酗酒违纪”这一关联规则的支持度和置信度非常高。所以在实际的管理工作中,对毕业学生在学年结束期间要加强行为干预,及时制定策略避免酗酒违纪现象的发生。
3 科研领域
目前,高校承担了大量的科研项目,而传统形式的统计技术以及数据管理工具已经难以满足相关管理人员的实际需求,借助数据挖掘技术能够在数据处理环节显示出相对较强的优点,而且还可以与高校的科研部门进行紧密结合。
(1)科研项目管理领域。科研项目管理包括了项目申报环节、立项环节、跟踪环节、结题环节等。高校科研管理机构建成科研管理的信息系统,其中包含了科研条件信息、课题基本信息以及科研人员信息等。其主要凭借对项目信息的有效增删、查询以及统计等,完成对课题进展、经费使用情况以及课题结题等功能,而对于项目管理者和决策人员来说,必须要对较为丰富的历史数据实施综合化分析以及科学化提炼,通过数据挖掘技术,可以帮助项目决策者发现课题承担人、科研仪器使用等信息间的联系,提高科研管理人员在发现问题以及解决问题上的能力。
(2)科研成果评估。目前,高校科研成果评估方法和数据支持方面还存在许多问题,在对科研成果的评估时还仅仅局限在机构内部的比较上,高校科研机构主要根据论文数量、专利成果、技术转让、获奖情况等指标来对专业技术干部进行评估,但是我们知道,仅仅进行内部比较不够合理,因为科学研究的性|存在差异,项目内容也有区别,另外,发表的论文被应用的次数到底有多少,论文的价值到底有多大,这些都应该成为高校科研成果评估考虑的因素。例如在某专项技术的检测中,我们可以对结构化的专业数据库和网页上的非结构数据以及用户的具体需求数据进行不间断的、长期运行的自动监测,以挖掘所需数据和知识,并通过数据分析和处理,自动生成某专项技术领域的科研成果动态监测报告,从而为院校科研成果评估专家提供数据和知识支持。
4 结语
教学、管理、科研工作是高校的一项经常性和长期性的工作,能从日常积累的海量数据中挖掘出有利于教师和学生发展的信息,是一项重要的工作。将数据挖据技术应用到高校的教学、管理、科研工作中,数据挖掘的结果对各项工作会有一定的监督和指导作用,可以更好地改善现有工作中的弊端,更好地发挥工作中的优势方面。
参考文献
[1] (美)Olivia Parr Rud,著.数据挖掘实践[M].朱杨勇,译.北京:机械工业出版社,2003.
【论文关键词】本体 语义Web 知识管理 数据挖掘
【论文摘要】本文首先对本体的概念做了简要介绍,并结合电信领域知识管理存在的问题,提出了基于本体的数据挖掘,并将本体的概念应用到电信知识管理中。最后给出了电信领域本体的开发方法、步骤,然后对本体在电信领域知识管理方面的应用进行了详细探讨。
O.引言
近几年,电信企业为了提高自己的竞争能力,争取更大的市场份额.获取更大的利润.各大运营商在现有的运营系统基础之上,引入数据仓库和数据挖掘技术,建立了各种经营分析系统和数据挖掘系统,进行辅助决策.从而产生了大量的统计分析报表和数据挖掘的结果。这些信息知识结果是企业的宝贵的财富.但是,其存在形式的多样化 (文本,数据库,图片),导致了维护管理上的困难。另一方面,即使有了大量的信息知识,却不利用,也是毫无意义的,如何让企业的员工以便捷的方式来共享这些知识.并且利用这些解决实际问题,也是迫切需要解决的问题Ⅲ。此外,由于电信网自身的发展特点,网络管理的综合必然要涉及到管理系统之间的信息交换。由于管理系统实现的独立性,如何保证系统之间无歧义的信息交换是亟待解决的问题。
语义互联网的出现,尤其本体的出现使的信息含有语义表征,即成为富有语义的知识,成为人机无歧义交互的桥梁。结合本体和知识管理的特点可有效地解决电信领域的上述难题。本文首先简要地介绍了本体和知识管理的相关信息,然后,基于对电信领域内经营分析知识的分析以及总结,引入了本体和知识管理的理论。将本体理论和知识管理相结合,构建了电信领域的知识本体,并论述了将其运用在知识管理当中的方式。
1.领域本体介绍
Ontology的概念最初起源于哲学领域,它在哲学中的定义为“对世界上客观存在物的系统地描述.即存在论”,是客观存在的一个系统的解释或说明,关心的是客观现实的抽象本质l引。在人工智能界,最早给出Ontoloyg定义的是Neches等人,他们将Ontoloyg定义为“给出构成相关领域词汇的基本术语和关系,以及利用这些术语和关系构成的规定这些词汇外延的规则的定义”。1993年,Gruber给出了Ontoloyg
的一个最为流行的定义,也是比较简单的定义——“aspecificationofac0nceptua1izati0n”,可以理解为“对某种概念化体系的规范说明”。
尽管定义有很多不同的方式,但是从内涵上来看,不同研究者对于本体的认识是统一的,都把本体当作是领域内部不同主体之间进行交流的一种语义基础,即由本体提供一种明确定义的共识。给出了领域本体的定义:领域是世界的一个片段,对该片段我们想要表示一些知识。领域概念化是依据所需要解决的任务和所应用本体语言的本体承诺(OntologyCommitment)将领域本体抽象成术语和知识。领域本体是对领域概念化的显示说明。
2.知识管理介绍
知识管理是近年来学术界和IT界研究的热点之一,知识管理过程一般包括四步:知识获取、知识存储、知识分发共享和知识应用。通过这四个步骤,企业使员工能够接受到企业内的各种经验知识信息,用来解决在工作中遇到各种难题,提高工作效率,降低了开发成本。知识管理学说源于对企业的有效管理。以提高企业的竞争力为目的。它更多的也是从企业的管理办法和经验中提取精华利创意。再应用于企业。知识管理这一新兴的学科领域近年来引起了人们的广泛关注。专门的研究机构不断出现。相关的学术著作成倍增长。专门的“知识管理”的学术期刊也开始出现来自不同领域的学者从不同的角度对知识管理进行了探索这些研究的着眼点不同。因而对知识管理实质的理解也有较大的差异。这些研究的不一致性是由于知识管理的研究还处于初步探索阶段。同时也在于知识管理所涵盖领域的广泛性和不完全明确性
3.基于本体的数据挖掘在电信知识管理领域的应用
本体是概念化规范说明,对于电信知识本体来说它包括有关数据概念的各种术语、关系并给出术语的语义。本体可以从访问用户的不同视图或侧面,例如访问用户类型、行为、状态等,进行访问用户描述,展示访问用户的不同属性及属性之间的关系。利用访问用户本体作为一种访问用户知识的展示模型可以提高商务系统与访问用户之间基于语义的协同性,从而实现访问用户信息的高度共享和重用。在挖掘过程中,本体是用来协助访问用户构成有效DM过程(可执行方案)集合。因此访问用户本体的构建至关重要,构建访问用户本体的步骤首先是访问用户本体建模,其次是在一些成熟的元本体基础上.用自然语言描述访问用户本体的概念及其之间的关系,并对自然语言描述的结果选择合适的本体描述语言对其进行形式化,最终生成可供计算机识别、处理的文件。本体的构建方法有很多,结合电子商务系统访问用户本体变化快、动态性及健壮性需求比较高的前提下,我们建议采用用软件工程思想的原型法或知识工程方法来构建访问用户本体。
基于本体的数据挖掘中.首先引入软件工程需求分析的思想.管理者通过和访问用户交流获得挖掘的目标.其次由建好的本体构建成DM所需的数据集,然后选择合适的数据预处理方法或挖掘方法,对本体库集进行挖掘,此过程中可以选择合适的挖掘算法对数据库进行优化、可视化的操作。在整个过程中,由于本体注重概念属性之间的关联和知识的共享,挖掘工作者不会忽略他们此领域中并不熟悉、但又有可能导致发现知识的数据挖掘技术。基于本体的数据挖掘可以面对海量数据,处理实时的复杂的数据分析更详细.更精确的挖掘电信数据.从而创造出更多的商业机会,提高销售预测的准确性(accuracy)和时效性(timeliness),增加顾客满意度和忠诚度。最大限度地减少收集相关商务信息(财政,库存,采购)所需的时间以降低成本。
关键词:数据挖掘 客户细分 精准营销
中图分类号:F274 文献标识码:A
文章编号:1004-4914(2010)10-267-02
随着3G业务的全面展开,运营商进入了全业务运营时代,中国移动面临着前所未有的激烈竞争,如何在全业务运营时代更好地了解用户,增加用户黏度,提高现有业务的用户忠诚度是中国移动应对其他运营商的关键所在。
3G时代将带来更多丰富多彩的业务应用,同时随着客户群体越来越向小众化、复杂化发展,终端用户对多元化业务的需要以及对高质量信息服务的要求也不断提高,这对运营商精准营销能力提出了新的挑战。“真正为客户提供所需要的应用”已经成为电信运营商营销创新的重点所在。电信运营商需要进行营销理念转变,必须依靠先进的技术手段实现电信业务的深度运营和精准营销,实现产品、管理及商务模式的创新,从粗放式营销向精准营销和深度营销转变。
一、传统客户细分方法分析
传统的客户细分方法包括基于调查资料的细分和基于客户价值的细分。基于调查资料的客户细分方法一般是基于市场调查得到的资料进行细分,优点是细分的维度较少,细分的结果容易理解,但缺点是支撑细分的对象只是少量的客户样本,因此细分结果的实施会很被动,只能等待有类似特征和需求的客户主动上门。基于客户价值的细分方法操作简单,可以识别出电信企业的高价值客户,但缺点是无法揭示各类群体在通信业务需求中的差异性,所以无法在市场营销中帮助运营商进行差异化的方案设计。
二、数据挖掘的客户细分方法
基于数据挖掘的客户细分方法是数据挖掘技术和电信企业丰富数据资源的完美结合,其特点是充分利用了电信企业内部数据,细分维度多,不仅包含客户属性,客户消费行为,还包括客户消费心理等多种因素,因此可以帮助电信企业多层面、多角度地了解客户的差异。如果将基于数据挖掘的客户细分和基于市场调查的客户细分等方法相结合,客户细分将更加完美。
客户细分是基于客户业务需求的细分,消费行为和消费价值维度能直接反映电信客户的业务需求差异,同时电信企业拥有大量的客户行为和价值数据。因此,基于行为和价值的客户细分对电信企业更具有实际意义。通过数据挖掘的聚类分析方法将有助于将客户群根据其消费行为和价值的内在差异进行合理细分。
三、数据挖掘客户细分在长沙移动增值手机订票业务中的应用
1.长沙移动手机订票精准营销系统内涵。根据长沙移动对于手机订购电影票业务的推广需求提出的,采用数据挖掘技术和分析方法对网络数据和用户数据进行分析,并对数据进行采集及关联分析的解决方案。系统通过采用一系列算法对用户市场数据和用户网络数据进行关联分析和其他挖掘分析,发现各种有价值的用户信息,以帮助长沙移动针对手机订票业务开展精准营销服务。
2.手机订票精准营销系统分析方案。该系统主要针对电影票的手机销售,其总体目标有两个,分别是:
(1)帮助长沙移动提高手机订票业务的用户渗透率和业务认知度。
(2)帮助长沙移动提高现有手机订票业务的使用普及率和成功率。为达成这个目标,必须对手机用户进行客户细分,以识别目标观影用户群,排除疑似工作人员和其他人员干扰,并确定目标观影用户群的小区(上接第267页)分布情况和分时段小区分布情况,分析目标观影用户群的移动性、社会联系性和订票观影行为特征,同时分析订票业务的关键影响因素和订票流程、用户短信交互行为,旨在提高尝试订票用户的购买成功率。系统的整体分析方案见表1。
按照业务问题和数据分析要求,必须对采集的海量网络数据进行全面整合和处理,形成有关网络和终端用户的全息数据库。针对具体手机订票业务特点,提出业务精准营销解决方案框架设计,根据该业务框架进行相应数据分析,为精准营销提供数据和建议参考。
系统收集业务需要的部分网络数据,并根据业务设计的逻辑框架进行数据分析,由于数据的局限性,仅进行部分专题内容分析,完整的业务分析将有待于进一步开展。
系统数据收集范围显示了以长沙万达影院为目标影院,三天系统网络数据收集的情况,数据覆盖大部市区,数据量为800G。
系统利用这些数据,对客户进行行为分析,以识别观影用户、进行营销手段评估,并分析影响用户手机购买的关键因素。
3.建立手机订票精准营销数据分析模型提高购买成功率。为提高目标用户对业务的认知度和提高使用用户的购买成功率,本文提出手机订票业务精准营销数据分析模型,从识别观影用户、营销手段评估,影响用户手机订票的关键因素分析这三个方面对数据进行分析聚类。(1)识别观影用户。该部分目的在于帮助运营商深入了解目标客户群,通过对网络数据中目标观影用户的识别,并通过关联技术手段排除工作人员和其他非观影人员,确定手机订票业务的真正用户群体。并且对于这部分用户进行深入分析,建立全面多维的用户档案。(2)营销手段评估。通过对目标用户的聚集度、社会活跃性和订票观影行为的深入分析,对目标用户群体进行建模,根据用户的不同特征特点,对不同的营销方案进行效果评估,并根据用户模型优选营销方案建议。(3)影响用户手机购买的关键因素分析。通过识别出尝试进行手机订票的用户,并对购票成功影响因素的分析,对用户行为和订票流程进行关联分析,确定影响购买的漏斗模型,并提出流程及业务改进建议,帮助更多的用户成功购票。
随着中国电信业改革不断深入,电信运营商之间对客户的争夺也越来越激烈。为了适应这种竞争,中国移动进行了战略转型,由“移动通信专家”转型为“移动信息专家”,开展全业务运营,重点发展增值业务等数据业务。而且随着竞争加剧,电信运营商在争夺用户市场的同时必须降低市场营销成本,那么如何识别潜在客户,如何选择有效的营销手段进行精准营销就成为市场竞争中获胜的关键。同时,电信行业是典型的数据密集行业,其业务数据中隐含着大量对企业有价值的信息,通过基于数据挖掘技术的“精准营销”可以帮助我们发现顾客需要、分析顾客行为、评估顾客价值,进而有针对性地制定营销策略,满足客户个性化的需求。
参考文献:
1.韩家炜.数据挖掘:概念与技术.机械工业出版社,2006
2.范爱民.精细化管理[M].中国纺织出版社,2005
3.彭清圳.基于数据挖掘的电信精细化营销策略研究.北京邮电大学硕士论文,2008
4.林志宏.以精细营销为目标的移动通信增值业务客户行为分析.北京邮电大学硕士论文,2008
5.樊奕.基于数据挖掘的电信企业精确营销.北京邮电大学硕士论文,2006
6.王春,谢忠,徐士才,张海鹰.3G时代增值业务运营研究.商业时代,2009(7)
7.朱海松.4I模型:3G时代的营销方法与原理.2009