时间:2023-01-15 11:27:27
导语:在数据挖掘技术论文的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
关键词:数据挖掘电子商务应用
当今,国内外电子商务类网站日益兴起。许多电子商务类网站都提供了一定程度的个性化服务,比如提供商品推荐服务。而构成这些个性化服务的基础就是数据挖掘技术。
一、数据挖掘分析
1.数据挖掘的定义。数据挖掘(datamining,DM)是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。包括存储和处理数据,选择处理大数据集的算法、解释结果、使结果可视化。
2.数据挖掘的方法。从商业的角度来看,数据挖掘是一种新的商业信息处理技术,其主要特点是对商业数据库中的大量业务数据进行抽取、转换、分析和其他模型化处理,从中提取辅助商业决策的关键性数据。数据挖掘的方法大致可以分成4类:关联分析、概括分析、分类分析、聚类分析。(1)关联分析:分析表面上不相关数据之间的内在联系,揭示各事之间的依赖性和相关性,分析范围包括简单关联、因果关联等。在电子商务中,用数据挖掘找到隐藏的关联规则,当客户浏览、搜索关联规则中的某种商品时,就可以在页面中以推荐商品的形式显示关联规则中的其它商品。在进货计划和促销计划中,也可以将这个因素考虑进去。(2)概括分析:即提取数据库中指定的数据集合的一般特性,找出遍性规律。(3)分类分析:设置分类规则,把各个事务或实体按照性质和特征不同进行归类,把数据层次化和规整化,从而建立数据的分类模型。(4)聚类分析:通过分析和归纳实体之间的特征差异,选出具相识特征的实体聚合成为一个类,并用某种规则来描述该类的相同属性,形成一种聚类规则,实际上,它是与分类分析法互逆的过程。
3.数据挖掘的过程。该过程从大型数据库中挖掘先前未知的、有效的、可实用的信息,并使用这些信息做出决策或丰富知识。(1)确定业务对象:清晰地定义出业务问题,认清数据挖掘的目的是数据挖掘的重要一步。挖掘的最后结构是不可预测的,但要探索的问题应是有预见的,为了数据挖掘而数据挖掘则带有盲目性,是不会成功的。(2)数据准备。数据的选择:搜索所有与业务对象有关的内部和外部数据信息,并从中选择出适用于数据挖掘应用的数据。(3)数据挖掘:对所得到的经过转换的数据进行挖掘。除了完善从选择合适的挖掘算法外,其余一切工作都能自动地完成。(4)结果分析:解释并评估结果。其使用的分析方法一般应作数据挖掘操作而定,通常会用到可视化技术。(5)知识的同化:将分析所得到的知识集成到业务信息系统的组织结构中去。
二、数据挖掘与电子商务的关系
在电子商务企业中,数据挖掘运用于客户行为分析,企业从中受益体现在以下四个方面:(1)可以发现客户和访问者的爱好、生活模式。(2)可以争取新顾客,怎样使产品适销对路、怎样给产品定价、怎样吸引单个客户、怎样优化Web网站。(3)可以用相应的信息确定顾客的消费周期,针对不同的产品制定相应的营销策略。(4)可以确定客户细分,为每一个客户的独特需求设计“量身定制”的产品。三、数据挖掘技术在电子商务中的应用
1.面向电子商务的数据挖掘系统设计。本系统电子商务平台采用基于三层体系结构构建,服务器端采用先进的J2EE平台构架,有完整的体系框架组成,具有很好的可扩展性、互联性和可维护性。因此面向电子商务的数据挖掘系统由数据库服务器、应用服务器和客户端三层组成,整个体系结构是以J2EE企业级的构建技术为基础。对数据挖掘过程中产生的数据,采用独立的数据挖掘库表存放,这样既不影响也不依赖数据挖掘的数据源。应用服务器完成所有的数据挖掘运算,通过接受客户端的设置,完成所有对数据进行探索、转换、挖掘的工作。数据挖掘系统的每个功能模块都以EJB的形式进行封装,以实现分布式计算和负载平衡等分布式计算的要求,把具有繁重计算任务的模块和用户交互模块分开。客户端要负责数据挖掘流程的创建工作、所有功能模块参数的设定以及各种可视化结果的显示。用户可以根据自己的要求任意创建各种形式的挖掘流程,同时按照需要执行某部分流程,获取相应的可视化分析结果,其系统体系结构如图所示。
面向电子商务的数据挖掘系统体系结构图
2.面向电子商务的数据挖掘系统功能设计。面向电子商务的数据挖掘系统主要以下几大功能模块:(1)用户信息分析。运用分类和聚类挖掘方法对用户的信息分析,可以得到用户的些特征。对用户分类相当于对具有某些公共属性的用户群体建立了概要特征描述,这些特征可以用来对新增的用户进行分类,可以发现未来的潜在用户并开展有针对性的商务活动,如自动给一类特定的用户发送销售邮件,当属于同一类的用户再次访问站点时为其动态地改变站点的内容等。通过这些举措使商务活动能够在一定程度上满足用户的要求,实现目标营销。(2)商品信息分析。运用关联规则挖掘发现商品访问中所有关联和相联系的规则,可以从交易事务数据库中发现商品间的相互联系。这对电子商务公司组织站点网页结构、开展有效的营销策略非常有帮助。(3)物流信息分析。采用神经网络预测技术,根据各物流配送点接到的网站用户订单来预测其库存数量。预测信息可以给物流配送中心以参考,用来合理地确定各配送点仓库的库存量,使各配送点的补货能更加合理有序,降低物流成本,节约库存费用。
四、结束语
数据挖掘是一个新兴的领域,具有广阔应用前景,目前,电子商务在我国正处于快速发展和应用阶段,利用数据挖掘技术,能够强化对客户的服务、促进市场最优化、加速资金周转、实现企业的创新发展。电子商务平台上的数据挖掘技术有待人们去进行更深入的研究工作,这将不断的推动数据挖掘技术的深入发展和广泛应用,创造出更多的社会和经济价值。
参考文献:
[1]张云涛龚铃:数据挖掘原理与技术.北京,电子工业出版社,2004年1月
[2]方真等:电子商务教程[M].北京:清华大学出版社.2004
1.1云计算
云计算是并行计算和分布计算以及网格计算的发展,是一种在海量数据大规模的集合中能动态处理各种服务器数据资源的一类计算平台,在电子商务、商业金融、科研开发等领域能得到广泛的应用。它具有大规模、虚拟化、高效率、通用性、廉价等特点,能针对不同的用户的不同需求,动态透明地提供其所需的虚拟化计算和资源储存,并能及时动态回收当前用户暂不利用的数据资源以提供给其他用户,而其廉价、通用的特点,使得一般用户实现大规模的数据操作成为可能。目前来说,云计算的平台已得到良好的发展,日益成熟,基于云计算的应用已经可以相当方便的部署和操作其数据资源。
1.2数据挖掘
数据挖掘技术是现代知识发现领域的一个重要技术,它是指一个从随机的大量而不完整的模糊的实际数据中提取其中某些隐含着的具有潜在价值的实用知识与信息的过程。其具体技术有特征化、聚类、关联和预测分析等等,涉及到的高级技术领域有统计学、机器学习、模式识别、人工智能等方面。
2基于云计算的数据挖掘平台构架
网络云的发展给数据挖掘提出了新的问题和时代的挑战,同时,也为数据挖掘提供了新的计算平台和发展机遇。基于云计算的数据挖掘系统平台的发现,解决了传统的数据挖掘技术出现的时代滞慢、效率较低、功能落后、成本高昂等问题。云计算是一种商业计算模式,是网格计算与并行计算及分布式计算在一定程度上的商业实现,其动态、可伸缩的计算基于云计算的数据挖掘平台架构及其关键技术探讨文/张瑶刘辉云计算是一种在互联网时代中应运而生的新兴的网络技术,具有高效率、高容量、动态处理的特点,在社会的商业领域和科研领域表现出了其相当高的应用价值。将云计算应用于数据挖掘平台的构架之中后,将能在很大程度上为现代社会中越来越海量的数据挖掘提供一个高效率的技术平台。本文将结合云计算和数据挖掘的基本概念和现代意义,对数据挖掘的平台构架和相应的关键技术做出简要的分析探讨。摘要能力使得进行高效的海量数据挖掘的目标不再遥远。同时,云计算SaaS功能日益被理解和标准化,使得基于云计算SaaS化的数据挖掘有了理论和技术的指导,并具有了企业化与大众化的发展趋势。
2.1数据挖掘平台构架
建立在关系型数据库之上的传统的数据挖掘技术构架在现时代数据急剧膨胀和分析需求渐增的发展下已经难以应付社会的数据处理问题。而云计算的分布式存储与计算形式则接受了当代的数据挖掘难题,促成了适应时代的云计算数据挖掘平台构架的形成。其包含了面向组件的设计理念和分层设计的思想方法。其构架自下向上总共分为3层,分别为底层的云计算支撑平台层、中间的数据挖掘能力层和上层的数据挖掘云服务层。
2.2基于云计算的数据挖掘平台构架各层意义
云计算支撑平台层:顾名思义,该平台层是云计算数据挖掘平台的基础处理平台,其主要具有的功能是对分布式文件存储与数据库提供资源存储,以及实行对数据的有关处理和计算功能。数据挖掘能力层:该平台结构层主要是提供挖掘的基础能力,是数据挖掘的核心支撑平台,并对数据挖掘云服务层提供能力支撑。该平台层包含了算法数据并行处理、调度引起和服务管理的框架,该平台层可以提供系统内部的数据挖掘处理和推荐算法库,亦支持第三方的数据挖掘算法工具的进入。数据挖掘云服务层:数据挖掘云服务层的主要功能是对外提供数据挖掘操作的云服务,同时也能提供基于结构化查询的语言语句访问,提供相关的解析引擎,以便于自动调用云服务。对外数据挖掘云服务能力封装的接口形式多样,包含了基于简单对象访问协议下的Webservice、XML、HTTP以及本地应用程序的编程接口等多种形式。另外,在必要的时候,云服务层的各个业务系统可以进行数据挖掘云服务的调用和组装。
3基于云计算的数据挖掘平台构架的关键技术探讨
基于云计算的数据挖掘平台构架的形成,离不开现代先进的科技技术,其中几项关键的技术应用将在这里进行简要的阐述:
3.1云计算技术
3.1.1分布式储存技术
通过采用分布式存储的方式来存储数据,是云计算技术保证数据处理高可靠性和经济性的重要保证。用可靠的软件来弥补硬件的不足,是分布式存储技术提供廉价而又海量的数据挖掘支持的重要途径。
3.1.2虚拟化技术
在云计算的环境下,数据挖掘能实现对大量的可用的虚拟化技术的应用、整合,发展出一套全面虚拟化的运行战略。云计算和虚拟化的共同组合,使数据挖掘实现了跨系统下的资源调度,将海量的来源数据进行IT资源汇合,动态地实现对用户的虚拟化资源的供给,从而以高效率、海量动态的特点完成服务任务。
3.1.3并行云计算技术
并行云计算技术是一种对于高效执行数据挖掘计算任务极其重要的技术,并且它对云计算的某些技术细节做出了封装,例如任务并行、任务调度、任务容错和系统容错以及数据分布等。该功能代替了用户对这些细节的考虑,使得研发效率得到了提高。
3.2数据汇集调度中心
数据汇集调度中心的功能主要是完成对不同类型的数据进行汇集。它实现了对接入该云计算数据挖掘平台的业务数据收集汇合,能够解决与不同数据的相关规约问题,并能支持多样的源数据格式。
3.3服务调度与管理技术
对于基于云计算的数据挖掘平台,为了使不同业务系统能够使用本计算平台,必须要提供相应的服务调度与管理功能。服务调度解决云服务下的并行互斥以及隔离等问题,以保证安全、可靠的平台的云服务。服务管理功能要实现统一的服务注册与服务暴露功能,并且支持接入第三方的数据挖掘,以更好地扩展平台的服务能力。
4结束语
0前言
随着现代商业经济和信息技术的发展,商业信息的增长速度呈现指数上升,积累了海量的、以不同形式存储的商业数据资料,原有的决策支持系统(DSS)和领导执行系统(EIS)已不能满足需要,这时出现数据挖掘技术,它能够去粗存精、去伪存真,从海量的商业信息中提取知识和有用信息的技术。现代信息技术处理商业信息经过一定的发展,逐步形成现在的商业数据挖掘技术。
1.数据挖掘方法在商业信息中应用的规则
数据挖掘技术在商业中的应用主要基于AI、机器学习、统计学等技术,高度自动化地分析商业原始数据,做出归纳性的推理,从中挖掘出潜在的模式,预测客户的行为,帮助商业决策者调整市场策略,减少风险,做出正确的决策,体现一种决策支持过程。
1.1商业信息泛化、简约和特征提取规则。商业信息泛化是为了商业数据更好的理解和掌握,将其具体一般的数据信息抽象到较高层次的过程;商业信息简约是为了采用一定的手段对信息进行描述;商业信息特征是找出这些信息的共同特征,寻找信息的通用性特征式。
1.2商业信息分类技术规则。商业信息分类是按照一组商业信息对象的特征给出信息对象划分的过程。其目的是学会一个分类函数或分类模型,该模型能把数据库的数据信息项映射到给定类别中的某一个。
1.3商业信息的聚类规则。聚类规则是识别一组信息对象的内在规则,从而将对象分组,构成相似的对象类,从而找出数据信息的分布规律,并进一步去发现隐含在一组混杂的数据信息集里的分类规则。聚类是把一组个体按照相似性归类,即"物以类聚"。使属于同一类别的个体之间的距离尽可能小,而不同类别的个体间的距离尽可能大。
1.4商业信息的关联规则。关联规则的商业数据挖掘已经从单一概念层次的关联规则发展到多概念层次的关联规则的发现。关联规则是如下的一种规则:"我们在研究大型商场的顾客在购买上衣和裤子的时候,发现其中在这些顾客中有10%的顾客同时买了帽子(上衣+裤子+帽子),这就形成简单的关联规则。除了具有上述关联规律,还有时间或序列上的规律,在不同的时间(春夏秋冬)所购的衣服、裤子以及帽子是不相同的,并且不同层次或者不同年龄的人所购商品又有一定的规律性。
2.数据挖掘技术在商业信息中的应用
数据挖掘技术是目前在商业信息处理中应用的比较多的一项技术,为了在商业领域中对海量数据库和大量复杂信息中提取有价值的知识,进一步提高信息的利用率,对公司及时制定相应的对策有非常重要的意义,在这里,讨论几个主要商业行业中的商业信息处理。
2.1数据挖掘技术在电子商务网站数据中的应用
随着Web技术的发展,电子商务网站正在成为现在商家的必争之地。如何让电子商务网站有效益要想有效益就必须吸引客户,增加能带来效益的客户忠诚度。电子商务网站每天都可能有上百万次的在线交易,生成大量的记录文件和登记表,如何对这些数据进行分析和挖掘,充分了解客户的喜好、购买模式,甚至是客户一时的冲动,设计出满足于不同客户群体需要的个性化网站,进而增加其竞争力,几乎变得势在必行。若想在竞争中生存进而获胜,就要比您的竞争对手更了解客户。
在对网站进行数据挖掘时,所需要的数据主要来自于两个方面:一方面是客户的背景信息,此部分信息主要来自于客户的登记表;而另外一部分数据主要来自浏览者的点击流,此部分数据主要用于考察客户的行为表现。但有的时候,客户对自己的背景信息十分珍重,不肯把这部分信息填写在登记表上,这就会给数据分析和挖掘带来不便。在这种情况之下,就不得不从浏览者的表现数据中来推测客户的背景信息,进而再加以利用。就分析和建立模型的技术和算法而言,网站的数据挖掘和原来的数据挖掘差别并不是特别大,很多方法和分析思想都可以运用。所不同的是网站的数据格式有很大一部分来自于点击流,和传统的数据库格式有区别。因而对电子商务网站进行数据挖掘所做的主要工作是数据准备。
2.2数据挖掘技术可以用在金融领域的应用
金融事务需要搜集和处理大量数据,对这些数据进行分析,发现其数据模式及特征,然后可能发现某个客户、消费群体或组织的金融和商业兴趣,并可观察金融市场的变化趋势。
数据挖掘在银行信息中的应用。商业银行业务的利润和风险是共存的。为了保证最大的利润和最小的风险,必须对账户进行科学的分析和归类,并进行信用评估,利用数据挖掘工具,可以根据客户的消费模式预测何时为客户提供何种产品。银行如何让一家新开的银行网点实现快速赢利呢?银行结合了GPS推理信息系统和商业智能应用系统,在银行的客户信息中,详细记录有客户的常驻地,并且,当银行客户到该银行网点办理业务时,银行商业智能系统将自动记录客户的操作信息,以及银行网点地址信息。经过大量的记录,客户的常驻地到银行网点的行动路线,将被通过数据分析而得出。大量的客户路线得出后,我们可能会发现,某个地区进行银行业务操作的客户特别多,但他们附近没有银行网点,而是要到离他们较远的地方去办理,于是银行就决定在这个地区开办一个银行网点。
数据挖掘在证券信息中的应用。上市公司定期公布的财务报告具有很强的信息含量,但是当期会计盈余数据的信息会在披露前后在股票市价中迅速得以体现。因此对于中长期投资者来说,重要的是预见未来。质地优良且未来具有较高盈利增长能力的公司是中长期投资者(包括普通投资者,证券投资基金和券商)普遍关注的对象,因为只有这类公司才能给投资者带来持续的回报。而财务报告包含了大量描述公司经营状况的数据。这些数据应能为投资者提供关于公司未来盈利能力的信息。对于中长期投资者而言,需要做的就是利用这些信息挖掘出未来能够具有较高盈利水平同时又具有较好的成长性公司。采用数据挖掘技术来发掘这些财务报告中是否包含关于公司未来盈利情况的信息,获得较精确的预测效果,选出的投资组合能否获得超额收益,这对于投资者来说是非常重要的。
2.3数据挖掘技术在企业市场营销中的应用
数据挖掘技术在企业市场营销中得到了比较普遍的应用,它是以市场营销学的市场细分原理为基础,其基本假定是"消费者过去的行为是其今后消费倾向的最好说明"。通过收集、加工和处理涉及消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,然后以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。这些来自各种渠道的数据信息被组合,应用超级计算机、并行处理、神经元网络、模型化算法和其他信息处理技术手段进行处理,从中得到商家用于向特定消费群体或个体进行定向营销的决策信息。4数据挖掘技术在民用通信部门中的应用
我国各种民用通信用得最多的国家之一,为了分析出那一类收费对应那类层次的人群,我们就可以利用数据挖掘技术,把当前电信消费者的数据进行收集、分析、总结,制定出有效的管理办法,这既有利于公司又有利于客户的优惠政策,这样能够及时发现问题,减少顾客流失,为通信公司挽回损失。数据挖掘在通信部门中体现在三个方面:(1)客户挽留解决方案;(2)电信业客户细分解决方案;(3)电信业交叉销售和提升销售解决方案。这三个项目的实施,可以为民用通信部门解决三个决策问题:第一,预测哪些客户最具有流失的倾向以及影响客户流失的关键因素,通过预制的分析模型提供"流失记分"帮助识别风险客户,在客户流失之前采取针对性措施来挽留他们。第二,根据客户可能的行为和潜在的盈利性对客户进行分类,制定更准确的产品组合、更准确的产品介绍和产品捆绑服务。第三,从现有客户中识别出有可能接受交叉销售和提升销售的客户人选,评估客户过去的购买模式,预测客户下一步可能购买什么。
[关键词]数据挖掘技术;软件工程;数据预处理
[引言]随着我国信息技术的进步,数据挖掘技术得到广泛应用,在软件工程中需要对数据信息进行搜集、分类与整理,通过数据挖掘技术的应用可以有效提高工作效率,推动软件工程的有序发展。我国对数据挖掘技术的应用与研究虽然处于初级阶段,但通过不断的经验积累也能够发挥技术的更多价值。
1数据挖掘技术概述
数据挖掘技术指的是在信息技术发展背景下,对信息数据展开处理的技术。与过去的信息处理技术相比,数据挖掘技术功能更加强大,可以应用在各个领域,无论是数据处理、数据转换还是数据分析,都能够完成相互之间的联系,并对数据进行最终评估。将数据挖掘技术应用在软件工程中,能够提高企业处理信息数据的效率,避免操作失误,保护企业数据准确[1]。
2数据挖掘技术在软件工程中的重要性分析
2.1高效整合多样化信息数据
由于数据挖掘技术的功能比较多,其中包含了传统处理技术的功能,实现多样化信息的收集与分类,并将数据按照类别存储与整理。数据挖掘技术可以在多样化数据中实现数据的系统化管理,为人们进行数据查阅工作带来方便。在软件工程中应用该技术,方便信息数据的高效整合,帮助企业全方位了解信息与数据[2]。
2.2保证信息数据的准确率
数据挖掘技术拥有强大数据运算功能,以往的数据信息系统运算数据时需要耗费大量时间与成本。如果信息数据体系庞大,系统运算时会面临瘫痪问题。在软件工程中,一旦系统发生瘫痪,系统将无法正常使用,数据也会受到破坏。应用数据挖掘技术之后可以有效解决以上问题,实现系统的优化,使系统可以在最短时间内处理数据,防止信息数据发生丢失现象,提高数据处理的时效性。面对大量的信息数据,有的数据得不到利用,但长期处于系统中会影响系统运行效率,应用数据挖掘技术可以将无价值的数据剔除,留下有用的信息数据,保证系统的运行效率和数据质量。
2.3缩短信息数据处理时间
在软件工程中应用数据挖掘技术可以分类处理杂乱无章的数据,实现数据的转换与调用。对数据进行深入挖掘处理时也可以应用数据挖掘技术进行数据的分类,并对模糊数据及时清理,提高系统内现存数据的实用价值。人们获取到的信息数据需要进行反复核对,以此保证数据真实性,通过数据挖掘技术的应用减少时间浪费,提高数据核对效率。
3数据挖掘技术在软件工程中的应用分析
3.1系统结构
数据挖掘技术应用流程主要分为三个阶段:数据预处理、数据挖掘、模式评估与知识表示。在数据预处理阶段中,高效得到原始数据的根本原因在于确定任务处理对象,得到符合软件工程需求的数据。通过数据清洗弥补原始数据存在的缺陷,确保数据的完整性。数据抽取需要从数据库中选择与软件工程任务相符合的信息。数据转换需要将数据格式加以转化,实现数据的适用性。在数据挖掘中需要制定一定的挖掘任务,通过对数据的分类与评价总结,合理应用运算方法进行数据推敲。在模式评估与知识表示中,其实际用途在于挖掘成功的表达,将兴趣度作为衡量标准,提高数据表达的识别能力。
针对软件工程中数据挖掘技术的优化应用,可以从系统结构方面入手,具体如下:(1)检测软件工程中的克隆代码。以软件工程为标准,将一部分代码复制,结合实际情况更改一部分代码,并对这些代码进行检测,代码检测与更改可以同时进行,能有效提高检测效率,实现系统的维护工作。当前应用数据挖掘技术进行克隆代码检测的方式一共有四种,具体为比较标识符、对比文本、检测系统程序结构与度量圈。在实际操作中,要求人们结合实际情况选择相应的克隆代码检测方法。(2)数据信息挖掘法。这是以横切关注点为主的挖掘方法,在软件工程中应用该方法可以改造系统,对数据信息达到良好的处理效果[3]。
3.2软件管理
为了让数据挖掘技术更好地应用在软件工程中,需要从软件管理角度入手,采用以下两方面举措。一方面,深入挖掘数据的组织关系,另一方面,挖掘版本控制信息。软件工程系统比较繁琐,挖掘组织关系时较为困难,人们需要合理调配各项信息,以此作为挖掘的依据。如果以软件工程管理流程作为主题,对电子邮件与共享文件展开组织关系挖掘,可以有效避免系统流程发生混乱,保护软件管理的秩序。当信息数据发生变化时,应用数据挖掘技术进行软件管理,将版本控制作为重要依据,将数据挖掘技术与版本控制相联系,降低系统运行成本,并达到警示的效果,提高软件工程的管理水平。
3.3软件开发
在软件工程初期阶段,人们将数据挖掘技术看成数据库,随着技术的发展,软件工程发展到现实应用,系统和现实共同发展。软件工程将各项指标与要求紧密结合,研发出最新产品,以往的软件工程中软件开发十分困难,而如今应用数据挖掘技术,可以将其与数据库相融合,发挥数据库内信息的最大价值,有效推动软件开发的进步。不仅如此,软件工程可以对信息进行更深层次的挖掘,充分发挥软件工程的价值,利用数据挖掘技术实现数据的更新,保证软件开发质量,优化软件操作流程。在技术的支持下,人们可以合理划分软件内部,方便及时发现问题,并展开积极有效的问题处理。利用数据挖掘技术可以进行网站设计,对网站内容进行挖掘,特别是对文本内容的挖掘,随后整合网站信息,通过自动归类技术实现信息的层次性组织。在软件或网站管理中,应用数据挖掘技术可以根据用户对网站的访问记录,进行记录信息挖掘,从中了解用户对该网站内容的兴趣,进而对用户提供信息推送服务和定制服务,以此吸引更多用户访问该网站。
在软件开发阶段,可以使用DataAnalytics轻量级业务数据可视化分析平台,这是数据挖掘技术的一项成果。该平台能够实现异构数据源的高效整合,可以兼容各种数据源类型,支持海量数据。可接入Excel/CSV等数据文件、企业各种业务系统、第三方互联网数据、公共数据服务平台等来源,轻松整合所有相关业务数据,帮助企业消灭数据孤岛。企业利用该平台可以完成数据的深度交互分析,DataAnalytics基于探索式分析,支持智能推荐图形与图表,二者可以协同过滤,帮助用户快速定位,通过数据挖掘找出问题,以拖拽式操作方法解决问题。
3.4聚类
在数据挖掘技术中聚类指的是对各个环节数据加以分析,结合软件工程的具体要求实现数据细化,以类型细化作为基础,为原始数据类型做出保障。通过聚类可以让同种类型数据具有相似性特点,在存在相似性的同时,也存在一定的差异,突出各自的特点。应用数据挖掘技术实现聚类划分时,面对的对象无法预测,与其他算法相比,聚类拥有更加广泛的应用范围,进行数据分析时更加独特,挖掘信息数据时可以确保检测结果的有效性与真实性。
4结论
总而言之,随着信息技术的深入发展,人们已经步入信息时代,数据挖掘技术也成为对信息数据展开处理和存储的有效方式。在软件工程中应用数据挖掘技术,有利于提高软件开发效率,提升软件管理质量,加强数据挖掘力度,使数据挖掘技术发挥巨大效果,人们可以应用数据挖掘技术完成数据的聚类和网站设计,为人们的生活带来便利。
[软件工程硕士论文参考文献]
[1]张立鉴.数据挖掘技术在软件工程中的应用研究[J].网络安全技术与应用,2019(6):47-48.
[2]王祥顺.数据挖掘技术在软件工程中的实践与探索[J].电脑编程技巧与维护,2019(4):82-83+100.
关键词:数据仓库,数据挖掘,电子政务
在电子政务信息建设中已经有了成功的电子政务业务处理和信息管理系统,卓有成效的过程控制指挥系统和办公自动化系统。但从电子政务全局的高层次和大范围的分析角度去审视,则感到数据分散,难以整合。因此,研究电子政务数据仓库和数据挖掘很有必要。
1.电子政务信息建设的数据仓库
电子政务数据仓库是电子政务信息架构的新焦点,它提供集成化的和历史化的电子政务业务数据;它集成种类不同的电子政务应用系统;电子政务数据仓库从事物发展和历史角度来组织和存储电子政务数据,以供信息化和分析处理之用。它是对现有电子政务信息系统深刻认识的结果,来自异地、异构的电子政务数据源或数据库的数据经过加工后在电子政务数据仓库中存储、提取和维护。传统的电子政务数据库主要面向业务处理,而电子政务数据仓库面向复杂数据分析、高层决策支持。电子政务数据仓库提供来自种类不同的电子政务应用系统的集成化和历史化的数据,为全局范围的电子政务战略决策和社会治安长期趋势分析提供有效的支持。免费论文参考网。目前,经过近20年的建设,全国电子政务信息系统建设已经积累了大量数据,对于电子政务工作起了意义深远的推动作用,电子政务工作已经初步进入了数字化、电子化、信息化,极大地提高了电子政务工作的效率。以土地管理为例,现在的管理方式是以前不能比拟的。但是,如何将这些数据用于全局范围的战略决策和长期趋势分析,则是需要进一步解决的问题。例如,土地问题,近年来始终与住房问题、物价问题和就业问题一起,成为全国人民非常关心的问题,其问题有表面的原因,也有深刻的历史原因和现实原因。如何花较少的代价,将此问题解决得圆满一些,建设电子政务数据仓库是一重要手段。免费论文参考网。
电子政务数据仓库是一种全新的分布式异构数据系统的集成方法:把各个信息源中与决策支持有关的数据,预先经过提取、转换、过滤,并与相应信息源中其它数据进行合并,按主题存放在一个中央数据库中,当用户需要查询时,可以直接访问中央数据库,不必访问其它数据源。
电子政务数据仓库包括3个基本的功能部分。数据获取:从电子政务一线数据源获取数据,数据被区分出来,进行拷贝或重新定义格式等处理后,准备载入电子政务数据仓库。数据存储和管理:负责电子政务数据仓库的内部维护和管理,包括数据存储的组织、数据的维护、数据的分发。信息访问:属于电子政务数据仓库的前端,面向用户------提取信息、分析数据集、实施决策。进行数据访问的工具主要是查询生成工具、多维分析工具和数据挖掘工具等。
电子政务数据仓库的特点:针对全局电子政务业务战略分析,非常详细的数据,第三范式数据结构,高层次和大范围的分析,详细的历史信息,存储和管理大量的数据,整个数据结构统一,索引较少。
因此,原来对分布式异构数据的复杂访问变成直接在该仓库上进行即席查询的简单操作:用户需要某些指定信息和快速查询,但不一定要最新信息,在这个环境中需要高性能和访问信息源中不能长期保存的信息。
电子政务数据仓库是一个比传统解决方法更为有效的集成技术,即对感兴趣的数据及其变化预先提取并按公共模式集成到一个中央数据库中,由于分布和异构问题被提前解决,用户可以在中央数据仓库上进行高效的查询或分析。
由于电子政务数据仓库的体系结构,必须照顾电子政务已有的信息系统的体系结构,以及相关的基础设施,因此,确定电子政务数据仓库的体系结构,必须兼顾用户需求的多变性、基础设施的复杂性、技术更新的步伐。数据仓库本身可以使用通用的或者特别要求的数据库管理系统来实现。尽管在图中表示的是一个单独的、中央化的数据仓库,实际上,为了达到理想的性能,分布式和并行性往往是必然的选择。
电子政务数据仓库技术中一些比较重要的问题是:数据仓库管理,数据源和数据仓库的演化,复制带来的不一致,过期数据处理等。电子政务数据仓库管理涉及电子政务数据仓库开发的各个阶段,与之相关的问题涉及电子政务数据仓库设计、数据装载、元数据管理等。数据源和数据仓库演化,则是研究电子政务数据仓库体系结构如何顺利处理信息源的变化问题,如模式变化、新信息源加入,旧信息源删除等。复制不一致,是指从各个信息源拷贝来的同一信息或者相关信息出现的不一致,一般用集成器对这些数据进行清理。对于电子政务数据仓库中的数据,可能会保存很多年,但是一般不会永远保留下去,这就要求研究比较可靠的技术以保证过期的数据,可以自动而有效地从电子政务数据仓库中被清除出去。
2.电子政务数据挖掘一般方法
电子政务部门在过去若干年的时间里都积累了海量的、以不同形式存贮的数据资料,例如户籍资料、土地资料和规划管理资料等。此外,电子政务工作所涉及到的数据类型是相当复杂的,例如:用地指数,其特征抽取相当复杂;土地配置规律特点,其数据联系是非平面的,也是非标准立体的。由于这些资料十分繁杂,要从中发现有价值的信息或者知识,达到为决策服务的目的,成为非常艰巨的任务。电子政务数据挖掘一般方法的提出,让用户有能力最终认识数据的真正价值,即蕴藏在数据中的信息和知识。
电子政务数据挖掘是按照既定的电子政务业务目标,对大量的数据进行探索、揭示隐藏其中的规律性并进一步将其模型化的先进、有效的方法。数据是按照电子政务数据仓库的概念重组过的,在电子政务数据仓库中的数据、信息才能最有效的支持电子政务数据挖掘。因此,首先从正在运行的电子政务计算机系统中完整地将数据取出;其次各个环节的数据要按一定的规则有机、准确地衔接起来,以极易取用的数据结构方式,全面地描述该业务目标。
电子政务数据挖掘就是从大量的、不完全的、模糊的、有噪声的、随机的数据中,提取隐含在其中的、事前不知道的、但是潜在有用的信息和知识的过程。电子政务数据挖掘技术是面向应用的,不仅面向特定数据库的简单检索和查询调用,而且要对这些数据进行微观和宏观的分析、统计、综合和推理,从中发现事件间的相互关系,对未来的活动进行预测。
3.基于电子政务数据仓库的数据挖掘
基于电子政务数据仓库的数据挖掘的方法,是以电子政务数据仓库为中心,各信息源由原始数据库,经过打包和集成到电子政务数据仓库;基于电子政务数据仓库的数据挖掘,是通过模型库和方法库的协助,对电子政务数据仓库进行数据挖掘,从而获得分析预测结果和决策支持的。
基于电子政务数据仓库的数据挖掘的特点:1、规模: 电子政务数据仓库中集成和存储着来自若干分布、异质的信息源的数据。免费论文参考网。这些信息源本身就可能是一个规模庞大的电子政务数据库,可以想象数据仓库会有比一般数据库系统更大的数据规模。如何从如此巨量的数据中有效的提取有用信息,需要各方面技术的进步。从当前发展来看,支持并行处理的分布式DBMS、具有大规模并行处理(MPP)能力的计算机、超大规模的存储机构等技术的发展和协同将使电子政务数据仓库走向实用。2、历史数据:传统的电子政务数据库系统为了获得最大的执行效率,往往存储尽可能少的数据量。因为,拥有的数据越多,数据组织、重构、浏览、索引和监控的难度越大。传统电子政务数据库系统在“时间”方向的长度很有限。比较而言,电子政务数据仓库的根本特征之一就是进行长时间的历史数据存储,这使得可以进行数据长期趋势的分析。电子政务数据仓库为长期决策行为提供了独一无二的支持,电子政务数据仓库中的数据在时间方向上具有大的纵深性。3、数据集成和综合性:从全局的角度看,数据仓库集成了电子政务内各部门的全面的、综合的数据。电子政务数据挖掘面对的是关系更加复杂的全局模式的知识发现,能更好地满足高层战略决策的要求。在电子政务数据仓库中,数据已经被充分收集起来了,进行了整理、合并,有些还进行了初步的分析处理。另外,电子政务数据仓库中对数据不同粒度的集成和综合,更有效地支持了多层次、多种知识的挖掘。4、查询支持 电子政务数据仓库面向决策支持,电子政务数据仓库的体系结构努力保证查询(Query)和分析的实时性。电子政务数据仓库设计成只读方式,用户可以直接访问电子政务数据仓库,挖掘过程可以做到实时交互,使决策者的思维保持连续,挖掘出更深入、更有价值的知识。
电子政务数据仓库和数据挖掘是将来电子政务智能化的基础,可以帮助用户得到他们想知道的信息,有些数据也许隐藏人们意想不到的信息,数据挖掘就是让用户发现这些隐藏信息的工具。电子政务数据仓库和数据挖掘研究和应用所面临的主要问题:挖掘的对象:更大型的数据库、更高的维数和属性之间的复杂关系;多种形式的输入数据;用户参与和领域知识的融合;证实(Validation)技术;知识的表达和解释机制;知识的更新和维护;多平台支持、与其他系统的集成。
近年来,电子政务利用信息技术的能力大幅度提高,大量数据库被用于土地管理和城市规划。为了利用这一巨大的信息资源,从中及时发现有用的知识,提高信息的价值,使数据真正成为电子政务的有力武器,为电子政务自身的业务决策和战略发展服务,电子政务数据仓库和数据挖掘是现在和将来的一个重要发展方向。
论文摘要:随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,从大型的数据库数据中挖掘一些人们比较感兴趣的知识,本文主要讲了数据挖掘技术的概念、数据挖掘技术在保护设备故障信息中的实现方法以及数据挖掘技术保护设备故障信息管理的基本功能等问题。
数据挖掘技术作为当前计算机信息技术中的一项较为新兴的技术,综合运用了数理统计、模式识别、计算智能、人工智能等多项先进技术,主要是从大量的数据中来发现和挖掘一些隐含的有价值的知识,也就是从大型的数据库数据中挖掘一些人们比较感兴趣的知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,数据挖掘技术也是现在智能理论系统的重要研究内容,已经开始被应用于行政管理、医学、金融、商业、工业等不同的领域当中,在保护设备故障信息管理方面发挥出了积极的作用。
一、数据挖掘技术的概念
随着数据库技术和人工智能技术的不断进步,数据挖掘技术逐步发展起来,主要是指从大量的数据中发现和挖掘一些隐含的有价值的有用信息和知识,这些被提取的知识通常会表现为模式、规律、规则和概念,将数据挖掘的所有对象定义成数据库或者是文件系统以及其他的一些组织在一起的数据集合,当前数据挖掘技术已经逐渐被应用于了医药业、保险业、制造业、电信业、银行业、市场营销等不同的领域,随着计算技术、网络技术以及信息技术的不断进步,在故障诊断过程中所采集到的数据可以被广泛地存储在不同的数据库当中,如果依然采用传统的数据处理方法来对这些海量的信息数据进行分析处理,不仅会浪费大量的实践而且也很难挖掘到有效的信息数据,同时,尽管智能诊断以及专家系统等方式在故障的诊断过程中已经被得到了广泛的应用,但是这些方法却仍然存在着很多推理困难、知识瓶颈等一些尚未完全被解决的问题,采用数据挖掘技术就可以比较有效地来解决这些难题,在故障诊断的过程中发挥其独特的优势。wWW.133229.Com从不同的角度进行分析,数据挖掘技术可以分为不同的方法,就目前的发展现状来看,常用的数据挖掘技术方法主要有遗传算法、粗集方法、神经网络方法以及决策树方法等。
二、数据挖掘技术在保护设备故障信息中的实现方法
1.基本原理。在设备出现故障时采用数据挖掘技术对设备进行一系列的故障诊断,也就是说根据这一设备的运行记录,对其运行的趋势进行预测,并对其可能存在的运行状态进行分类,故障诊断的实质就是一种模式识别方式,对机器设备的故障进行诊断的过程也就是该模式匹配和获取的过程。
2.对故障诊断的数据挖掘方法建模。针对机械故障的诊断来说,首先就应当获取一些关于本机组的一些运行参数,既要包括机器在正常运行以及平稳工作时的信息数据,也应当包括机器在出现故障时的一些信息数据,在现场的监控系统中往往就会存在着相应的正常工作状态下以及出现故障时的不同运行参数,而数据挖掘的任务就是从这些杂乱无章的信息样本库中找出其中所隐藏着的内在规律,并且从中提取各自故障的不同特征,在对故障的模式进行划分时,我们通常可以借助概率统计的方式,在对故障模式进行识别时可以采用较为成熟的关联规则理论,实现变量之间的关联关系,并最终得到分类所需要用到的一些规则,从而最终达到分类的目的,依据这些规则,就可以对一些新来的数据进行判断,而且可以准确地对故障进行分类,找出故障所产生的原因和解决故障的正确方法。
三、数据挖掘技术保护设备故障信息管理的基本功能
1.数据传输功能。数据挖掘技术保护设备故障信息管理与分析系统的主要数据来源就是故障信息的分站系统,而分站系统中的数据是各个子站的一个数据汇总,而保护设备故障信息管理与分析系统所采用的获取数据的主要方式就是一些专门的通信程序构建起系统与分站之间的联系,将分站上的一些汇总数据传输到故障信息系统的数据库中,分析系统所具有的数据传输功能,在进行数据的处理时又能做到不影响原先分站数据库的正常运行,并且具备抗干扰能力强、计算效率高的优点。
2.数据的分析功能。系统在正常运行时,会从故障信息子站或者是分站采集相关的数据并且对这些采集到的数据进行分析整理,最终得到有用的数据信息,利用数据挖掘技术对庞大的故障数据进行分析、分类以及整理,能够有效地找出有用的信息,归并一些冗余的信息,对信息进行有效地存储和分类。另外,数据挖掘技术还具有信息查询的功能,可以进行不同条件下的查询,例如按时间段、报告类型、设备型号以及单位等进行查询,实现查询后的备份转存等,根据故障信息系统所提供高的数据信息以及本系统库中所保存的一些整定阻抗值,可以通过逻辑判断生产继电保护动作的分析报告,主要包括对故障过程的简述、故障切除情况以及保护动作情况等,可以便于继电保护人员直观的对保护装置的动作情况进行分析。
四、结语
随着企业自动化程度的不断提高以及数据库技术的迅速发展,很多企业在一些重要的设备方面都安装了监测系统,对设备运行过程中的一些重要参数和数据进行采集,采用数据挖掘技术可以有效地解决设备故障诊断中的一些知识获取瓶颈,将数据挖掘系统充分应用到监控系统中,有效解决故障诊断中的一些困难,事实证明,将数据挖掘技术应用到故障诊断中是非常有效的,也是值得研究和学习的新型技术手段。
参考文献:
[1]李勋,龚庆武,杨群瑛,罗思需,李社勇.基于数据挖掘技术的保护设备故障信息管理与分析系统[j].电力自动化设备,2011,9
[2]李建业,刘志远,蔡乾,赵洪波.基于web的故障信息系统[j].电力信息化,2007,s1
【关键词】 计算机 数据挖掘技术 开发
引言:计算机数据挖掘技术是基于计算机原有的功能基础之上,融入了一些统计学理论,使人们可以利用数据挖掘技术在众多的计算机系统内部的信息中抓取自己需要的信息和数据。计算机数据挖掘技术的出现极大的促进了社会整体的进步,引领了社会各个领域内的数据量潮流,人们要想在无限的数据中采集有用信息,就必须深入计算机数据挖掘技术的开发研究。
一、计算机数据挖掘技术开发流程
1.1明确数据挖掘目的
由于数据挖掘技术的功能是多种多样的,所以在开发具体的计算机数据挖掘技术过程中需要根据自身需要明确数据挖掘目的,进而选择对应数据库。因为在开发过程中,不同的数据挖掘目标需要依靠不同的挖掘技术数据算法,如果目的不明很容易造成最终开发结果的偏差[1]。
1.2数据选择和预处理
明确数据挖掘目标、数据库后还要对所持有的数据进行选择和预处理,数据选择是要将数据中的部分信息纳入数据挖掘研究范围内,预处理是将这些数据中的错误信息进行删除和修正,确保列下有用信息。
1.3数据挖掘
数据挖掘过程中要有两个步骤,其一是根据挖掘目标确定接下来要利用的开发技术和采用的算法,其二是在确定了挖掘技术和数据算法后构建出数学模型,以此来推动挖掘技术的开发。
1.4评估结果
评估结果的最大作用就是对开发出的数据挖掘结果进行科学评估,对数据挖掘技术的开发成果进行检测和验证。如果数据挖掘结果不能够达到数据挖掘开发目的要求,就要及时进行修正,如果数据开发结果符合数据开发目的要求,那么就可以将其投入到实践应用之中[2]。
二、计算机数据挖掘技术开发
1、可视化技术开发。要想得到有效的信息,就需要从计算机系统中获得的信息入手,但是当前的网络信息中存在不少的隐性信息,这些信息的获得就要依靠计算机数据挖掘技术。采用计算机挖掘技术可以有效的抓取隐性信息的某些特征,当利用散点图的方式将这些隐性信息表现出来。所以可视化技术是计算机数据挖掘技术开发项目中的一个重点。
2、联机分析处理。网络是复杂的,其中的网络信息和数据更是十分的庞杂,要想快速、准确的抓取到自己想要的信息,需要依靠联机分析出不同地域和时段的多维数据,联机分析处理方式需要依靠用户的配合。在处理多维数据时,需要所有计算机用户自行的使用或者筛选出分析算法,利用这些分析算法对数据做处理,这样对探索数据也有巨大的推动作用。
3、决策树。计算机数据挖掘技术的开发中需要对决策树进行规则化建立,决策树是一项重要的开发项目,因为决策树的作用是发挥预测和分类的功能,对所处理的数据信息进行具体的预测和分类。目前开发的决策树算法已经有很多种,主要有SLIQ、SPRINT、ID3、C4.5等,SLIQ算法具备连续性属性,还可以对数据做出具体的分类,SPRINT算法与SLIQ算法有同样的功能属性,并且这两种算法可以通过大型训练集对决策时做出归纳[3]。
4、计算机神经网络。计算机数据挖掘技术在开发之中借助了医学神经系统的研究结果,将人体神经元研究脉络通过技术处理形成了计算机网络神经的研究,并且经过一系列的深入探索,目前已经取得了重大的成果。计算机中研发出的神经网络是安全输入、输出和处理单元三种类型进行规划的,这三个层面代表了计算机神经网络系统,当前的开发结果中显示,可以利用计算机神经网络技术实现数据的调整、计算和整理。
5、遗传算法。计算机数据挖掘技术的开发中借鉴了许多其他学科领域中的研究方向和理论,在自然学科中,生物基因可以通过遗传中的不同变化促进后代的自我优化,利用这种思想理论,在计算机数据挖掘技术的开发中也可以通过对不同模型进行组合、演变来创新开发出新的数据算法。
结束语:计算机数据挖掘技术属于当前社会中最重要的分析工具之一,数据挖掘技术已经被各个领域广泛的应用,并且其功能得到验证,极大的促进了社会行业的快速发展。随着科技水平的日益提升,相信计算机数据挖掘技术将会得到更多方面的创新研究和开发,给社会带来更大的促进作用。
参 考 文 献
[1]夏天维. 计算机数据挖掘技术的开发及其应用探究[A]. 《Q策与信息》杂志社、北京大学经济管理学院.“决策论坛――管理科学与工程研究学术研讨会”论文集(下)[C].《决策与信息》杂志社、北京大学经济管理学院:,2016:1.
关键词: 科研成果管理; 决策支持; 数据仓库; 联机分析处理; 数据挖掘
中图分类号: TN911?34; TM417 文献标识码: A 文章编号: 1004?373X(2016)07?0120?04
Abstract: The traditional scientific research achievement management uses the database to store the result data. The multiple data types of the scientific research achievement and unified storage way become the obstacle to obtain the valid result data in decision?making analysis, simultaneously the traditional scientific research achievement system can only extract the result information. In view of the above problems, the scientific research achievement management and decision support system based on data warehouse is proposed, in which the data warehouse, on?line analysis processing (OLAP) and association rule mining algorithm are integrated. The system supports that the management personnel can discover the potential achievement, evaluate the scientific research projects, and reasonably allocate the human resources. The association rules of the data were mined in college paper database. It is found that paper quantity and time dimension have some relationship, which conforms with the practical training situation. The effectiveness of using Apriori in this system was verified.
Keywords: scientific research achievement management; decision support; data warehouse; OLAP; data mining
0 引 言
传统的科研项目管理过程费时费力,且浪费了大量的人力资源。科研过程中产生的有价值的信息,也被这样死板的管理方法给淹没了,人们不能也不愿意从纸质的资料文献中去发现价值。科研管理方式效率低会严重影响到科研项目开发的进度。随着科学技术的快速发展,科研单位虽然对传统方法进行了改进,开始建立管理系统,但是还远远不能满足要求[1]。
近年来,国内研究机构也开始重视科研项目管理方面的研究,目的多是为了提高项目管理的水平,对优秀的科研成果进行公示,共同分享研究信息[2]。科研成果管理决策支持系统的目的是为了解决传统科研管理系统对成果资源的浪费情况,加强对科研成果信息中潜在知识的利用,提高科研项目管理中对成果管理的有效性,利用数据挖掘充分发挥成果数据的潜力,为管理层提供决策支持依据[3]。
1 SRAM?DSS的需求分析
1.1 功能需求
科研成果管理决策支持系统主要面向科研项目的成果进行管理,这些成果包括学术论文、著作、期刊、专利等。数据仓库的应用可以对成果数据采取智能的分析,将成果数据进行归类和按照成果数据的分析要求进行整理,从中发现成果与项目、人员之间的联系和潜在的规律,帮助决策者调整科研定位,做出科学的决策。
基本管理功能要求用户可以利用本系统完成对成果的基本管理,包括成果提交、 审核、审批等流程的规范管理,还有对保密项目成果的加密处理,不仅要系统能够保存使用过程中存入的成果,还可以导入外部数据库的成果数据,为数据挖掘功能提供数据基础,对数据的集成程度要求很高,因此需要利用数据仓库存放成果数据[4]。
1.2 用户需求
系统的主要角色包括科研员,科研管理员,决策员,数据管理员,系统管理员。
2 总体设计
2.1 科研成果数据仓库的设计
对于科研成果数据仓库从概念模型、逻辑模型、物理模型三方面进行建模。需要根据不同的主题把数据仓库中的数据划分好具体的维度[5]。以成果主题为例,成果数据包括成果名称,成果类型,成果来源,成果性质,成果作者,成果审核结果,所属项目,成果完成时间,成果数量等,以此作为分析的依据。因为数据仓库是多维的,OLAP要在多维数据集之上才能进行,成果数据要满足分析的要求可以根据维层次继续划分,成果类型包括论文,专利,专著,软件成果等;成果性质包括科技,医药,航天等[6]。
(1) 逻辑模型
系统主要用户利用成果信息进行分析,以此来评估科研项目,并为决策者提供决策支持。分析成果事实表中的数据信息有用户维、成果维、时间维。在OLAP分析时可以按照不同的层次进行分析,如图2所示。
(2) 物理模型
在设计数据仓库的物理模型时,定义成果数据的数据标准是需要注意的重点,目的是使成果数据在数据仓库中都有一个统一的格式,定义表示成果的相关属性来描述成果逻辑关系,得到对成果数据仓库的特征进行完整描述。系统采用SQLServer2008建立数据库[7]。利用AnalysisServices获得后台数据库里面的信息,这样建立的数据仓库可以满足需求。
2.2 SRAM?DSS功能的设计
为实现科研成果管理科学,全方位管理,设计成果管理,决策支持,用户管理,系统管理四个模块的内容,并且用户在登陆系统之前要进行身份验证。
(1) 成果管理模块
成果管理主要包括成果查询,添加成果,申报成果,成果审核,成果加密以及成果导出等功能,系统采用分组加密方式进行加密。
(2) 决策支持模块
数据仓库是决策支持功能的数据基础,有了数据就需要更多的操作来完成决策支持。对于系统中不同的数据来源,包括外部导入数据利用ETL过程,实现规范化。然后将符合标准的数据装入数据仓库中。然后针对用户的要求进行联机分析处理和关联规则挖掘。
(3) 用户管理模块
用户在Web地址栏输入URL进入登录,用户名文本框内输入用户姓名,在密码框内输入密码。系统认证平台会判断用户身份,若是新用户要完成注册才能登陆,注册时要填写用户真实的信息,才能获得登陆权利,若用户输入的用户信息正确,登录成功。用户可以在用户管理中进行创建,添加到用户数据表中,也能获得系统的使用权限[8]。
(4) 系统管理模块
系统管理模块主要是针对系统的权限分配,系统维护以及一些常用工具的设计。不同的用户进行的操作不同,能够看到的信息不同,就要求系统控制权限,建立权限分配制度,有利于对用户权限进行合理的分配也保证了系统的安全运行。系统维护是管理系统中必不可少的关键功能,包括对系统用户数据,成果信息数据等的备份工作,实现数据库的安全管理,管理相应功能结构规范性,为系统的更新与升级提供支持。
3 系统实现
3.1 基于数据仓库的OLAP模型
联机分析处理技术能够高效的分析数据,发现事物发展规律,捕获异常和细节。OLAP支持数据分析,而数据仓库里的数据是经过ETL处理后集成到一起,保证了分析在一个快速的时间内给予响应。所以本阶段就是基于数据仓库建立OLAP模型,从而得到更为可靠的数据立方体,既降低了刷新代价又提高了响应速度。
OLAP包括了维和度量,在前面建立数据仓库时已经完成。利用SQL Server中的Analysis Services项目模板建立多维数据集,定义数据源以及建立事实表与维表之间的关系。
OLAP模型对数据仓库中的数据利用MDX进行多维查找,可以有效分析多维数据集。MDX是OLAP的查询语句,语法与结构化查询语言SQL很类似。在成果管理系统中,通过MDX语言把科研员和决策者需要的成果数据查询出来,展现在前台界面里。
利用OLAP模型进行分析,决策者可以依据分析要求,选择更多角度去分析数据,能得到的分析也更多,如下:
(1) 由科研成果的类型分布来看整体项目的侧重重点,以及在成果突出领域的发展机会和潜力;
(2) 由科研成果参与者和第一申请单位作者与项目之间的关系,可以看到参与者职称水平,技术支持水平对成果完成数量与质量的关系,并不是参与者越多的成果越完善,可以以此作为合理分配人才资源参与项目开发的依据,也可以以此评估参与人员的水平,作为考核参考;
(3) 以科研成果在一定时间内的增长,作为项目进度和发展的一个参考标准。也可以看到成果的趋势和项目完成单位的能力和业务的提升;
(4) 可以利用数据库,对以往成果信息进行分析,由于在传统的数据库中不具备OLAP的功能。
3.2 基于数据仓库的关联规则挖掘
基于数据仓库的关联规则挖掘,Apriori算法的核心是提高关联规则产生的效率。利用Apriori算法对科研成果数据进行分析的时候要明确成果的特征,根据成果特征描述来看,适合利用Apriori算法进行关联规则的挖掘。科研成果数据的特征如下:成果数据是按照项目进程时间节点进行录入的,存储在成果库中;成果评估方式不统一,对成果的评估应采取统一的标准;科研成果的数据存储在数据库中,每一个成果都对应一条记录,每一个记录的属性都一样。
以本校论文库的数据为实验数据,在论文管理系统中可导出相关TXT文档数据,利用系统成果导入功能,添加到系统中,对数据进行统一的处理。选取2012―2015年间,数学、物理、计算机、兵器学科的论文成果数据。论文所属学科层次划分到一级子学科,时间层次按照年学年,继续划分下去。
(1) 数据预处理
数据经过清洗,转换,去掉无效的数据,采用统一的数据编码规则,用离散字母代替时间层次,同时将学科按照统一的编码规则,重新编码。进一步按照论文数量划分等级,五份为一级,等级越高代表论文数量越多。
(2) 算法实现
设置最小支持度 min_sup=4,支持度=40%,置信度=80%,通过Apriori算法计算出的关联规则信任度见表2。
(3) 结果分析
采用的实验数据来自于论文数据库,由于学校毕业论文按照培养计划有周期性,学术性硕士的培养周期为2.5学年,所以硕士毕业多集中于第一学年3月份左右,工程硕士的培养周期为第二学年9月份,所以对数据的分析结果多集中于上半年。
规则1表示,在2012年第一学年在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2013年第二学年在5篇左右的支持度为40%,信任度为80%。
规则2表示,在2013年第一学年在5篇以内且2013年第二学年毕业论文在5篇以内的学科专业,则在2012年第一学年在5篇左右的支持度为40%,信任度为80%。
规则3表示,在2012年第一学年在5篇以内且2013年第一学年毕业论文在5篇以内的学科专业,则在2014年第二学年在5篇左右的支持度为40%,信任度为80%。
3.3 关联规则说明
由于系统中的测试数据多来自网络和本校的数据库,对关联规则的挖掘也许存在偏差,但是整体提供的关联规则数据信息还是符合实际的。简要介绍以下几点:
(1) 选取成果完成人的职称级别和所提交的成果类型与数量作为关联规则挖掘的维度,发现成果完成人职称较低的数量较多,存在关联规则;
(2) 选取固定时间内论文数量和专利数量进行关联规则挖掘,发现时间维度与论文数量多,关联较高;
(3) 对不同高校的成果数量进行关联分析,985与211高校的科研论文,期刊发表数量多具有关联规则。
4 界面展示
用户登陆界面:输入正确的用户名和密码登陆系统,用户可以选择“记住我”,在下次进入系统时可以免登陆,若是新用户第一次登陆系统,需要注册,完成注册后即获得登陆权限。
登陆后看到的首页,左侧导航栏显示了主要的功能,成果展示系统中的成果数量以及系统中的成果列表。
5 结 论
本文在调研了解科研成果管理的决策分析需求的基础上,认真研究了数据仓库的有关技术知识,联机分析处理技术的应用以及数据挖掘关联规则算法的原理。提出了基于数据仓库的科研成果管理决策支持系统。
开发系统应用的主要技术包括OLAP和Apriori算法,将OLAP和Apriori算法结合运用于实际的系统开发中,关联规则计算在OLAP物化了的多维数据集基础上进行,减少了重新计算的时间,使决策分析更加智能化,使数据挖掘的步骤更具目标化,全面提升辅助决策在科研成果管理中的实用价值。
参考文献
[1] 贺建英.大数据下MongoDB数据库档案文档存储去重研究[J].现代电子技术,2015,38(16):51?55.
[2] SUN Hongmei, JIA Ruisheng. Research on the analysis and design of general test database management system [J]. Procedia engineering, 2012, 29: 489?493.
[3] ESLAMIPOOR R, SEPEHRIAR A. Firm relocation as a potential solution for environment improvement using a SWOT?AHP hybrid method [J]. Process safety and environmental protection, 2014, 92(3): 269?276.
[4] KLAUS S R, NEUBAUER J, GOETZ?NEUNHOEFFER F. Hydration kinetics of CA2 and CA?investigations performed on a synthetic calcium aluminate cement [J]. Cement and concrete research, 2013, 43(1): 62?69.
[5] PENG G Y. Marketing decision and decision support system design based on Web [J]. Advanced materials research, 2013, 850: 1048?1051.
[6] 赵维宁.运用数据仓库技术构建电信企业经营分析系统[J].中文信息,2014(8):22?26.
论文关键词:中药材市场,电子商务平台,构建研究
一、构建中药材电子商务平台必要性分析
1、国内外市场现状分析
中医药是祖国传统文化灿烂宝库中的重要组成部分,人们普遍应用中医药进行保健、医疗。国外,民众对中医的疗效越来越认可和兴趣。广大民众对中医药的需求,推动了中药材的种植、加工、储存、买卖、应用。其中,中药材集约式买卖交易造就了大型的中药材专业市场。信息时代,民众迫切盼望通过网络能查询了解中医药知识,中药材专业市场、中药商、中药消费者非常希望能利用网络查寻掌握中药材的行情信息,通过网上洽谈买卖交易。开发构建规模大,功能齐全的中医药网络信息与交易服务平台是中药材产业发展的需要。
2、传统中药材市场改革的需要
投巨资建设的玉林中药材市场,占地175亩,总建筑面积23万平方米,铺面共有3980间。是我国西南地区最大中药材集散中心。玉林中药材市场虽然规模大,基础设施好,但市场交易方式仍停留在传统的、单一的摊位对手交易,效率低、成本高、信息不畅,不利于客商业务扩展电子商务论文,不利于市场规范管理。在信息化时代,国内外各类市场趋向于电子网络商务的大背景下,玉林中药材市场没有构建电子信息服务、网络商务,无法与国内、国际市场接轨,市场发展将受到很大的制约,随着时间的推移,市场优势也将会消失。玉林中药材市场迫切需要构建中药材网络电子商务信息应用与交易平台。
目前,国外,主要是西药网站,以新药品信息和广告为主,没有中药网站和相关的平台。国内,尚未发现大型专业中药材网络信息与交易服务平台,多为综合性药品网站,中药材信息是网站的一部分,单独而专业的中药材网站少,规模小,功能少。构建功能强大,集市场信息和查询、网上洽商和交易、质量检查、商铺信用评级、市场需求价格分析预测、行业培训、商铺网站、市场管理、中药材数据挖掘、中药资讯查寻、药品洽谈交易等功能信息服务平台,是发展趋势。
二、构建中药材电子商务平台展望
1、构建中药材网络电子商务平台,实体商铺交易与网络商铺交易并举,与国内国际市场接轨,造就大批现代药商,业态升级,做大做强市场。
玉林中药材市场构建中药材网络电子商务平台,实行网络化运作,就走上“业态提升、功能扩充、管理升级、产业促进”的改革之路。改变传统的、单一的摊位对手交易,实行市场+网络商铺+经营业户的经营模式。使中药材市场逐步形成药材集散、价格形成、信息反馈、产业带动为一体的现代网络化市场。实现长效科学规范管理,市场的组织化程度提高,市场的公平性、诚信度提升,市场运作效率提高,市场的活力、竞争力得到增强中国期刊全文数据库。
中药材网络电子商务平台将中药材市场传统的商务流程数字化、电子化、网络化,突破时间空间的局限,大大提高商业运作效率;造就现代药商电子商务论文,开阔视野,在驾驭瞬息万变的市场中始终处于主动和优势。
中药材网络电子商务平台可实现远程实时商务洽谈、交易,为商企低成本拓展全国、东南亚、国际市场铺就了一条低成本的黄金商道,非常有利于玉林中药材市场走向全国、全球,从而把市场做大做强。
2、构建中药材网络电子商务平台,能提高商业运作效率、降低流通成本,快捷提供丰富的商业资讯,创造更多商机,规避商业风险,增强商企的竞争力。
中药材网络电子商务平台,让商务流程转化为网络化的电子流、信息流,不受时空限制,大大提高商业运作效率。中药网络信息应用与交易平台可实现远程实时商务洽谈、交易,简化了客商之间的流通环节,最大限度地降低了流通成本,能有效地提高中药材客商在现代商业活动中的竞争力。
中药材网络电子商务平台为中药材市场提供一种基于互联网的商务活动,具有开放性、共享性、全球性的特点,可为企业、个人提供丰富的商业信息资源,创造更多商业机会,同时有助于客商规避商业风险。
中药材网络电子商务平台对买卖交易活动频繁的企业非常有利,能有效对企业商业活动的进行科学、规范化管理。
中药材网络电子商务平台使中小企业拥有和大企业一样的流通渠道和信息资源,这样也使中小企业以与大型企业相同的成本进行网上交易,高速高效拓展业务,极大提高了中小企业的竞争力。
3、中药材网络电子商务平台及时提供、准确、可靠、全面的市场供需信息,产销联动,避免盲目种植药材,保障药农收益,促进中药种植业发展。
玉林中药材市场的发展,带动了周边地区,乃至中西南部众多省份中药材种植,中药材种植面积逐年扩大,逐步成为农民增收的一个途径。但农民种植药材决策主要来源于市场人员的直觉信息,由于信息缺乏真实性、全面性,从而导致种植的盲目性电子商务论文,影响药材种植的收益和积极性,对药材种植业带来消极影响。
中药材网络电子商务平台提供及时、准确、可靠、全面的市场供需信息,并提供专家对市场的分析、预测,有效地帮助药农及时调整种植品种,产销紧密结合,确保中药种植收益最大化,有利于中药种植业良性发展。
4、中药材网络电子商务平台能促进中药材相关行业发展,创造更多的商机,拓展就业,带动经济发展。
中药材网络电子商务平台众多的优势,将推动玉林中药材市场的快速发展,交易额大幅上升,市场辐射效应加倍扩展,进而带动中药材相关行业,如:加工、物流、旅业、通讯等二、三产业的蓬勃发展,创造更多的商机,增加就业机会,带动经济发展。
三、中药材网络电子商务平台的结构与布局
1、中药材网络电子商务平台功能规划
中药材市场涉及中药材的种植、加工、质检、交易、仓储、物流,技术服务等环节,业务范畴广、流程复杂,具有鲜明的行业特点。中药材网络电子商务平台应该基于一条龙服务的宗旨进行功能规划,从技术角度来看是一个全面的解决方案。中药材网络电子商务平台需要具有如下功能:
(1)向市场提供丰富的商业信息资源,创造更多商业机会。(2)网上洽商和交易,简化了客商之间的流通环节,提高商业运作效率,最大限度地降低了流通成本,有效地提高中药材客商的商业竞争力。(3)有效对客商、企业商业活动的进行科学、规范管理,提高市场的组织化程度,增强市场的竞争力。(4)使中药材市场逐步形成药材集散、价格形成、信息反馈、产业带动为一体的现代网络化市场。
2、中药材网络电子商务平台子系统的设置
根据中药材网络电子商务平台的功能规划,可考虑设置九个子系统:市场信息和查询系统、市场需求价格分析预测系统、网上洽商和交易系统、市场管理系统、质量管理系统、商铺网站系统、商铺信用评级系统、中药材数据挖掘系统、行业培训系统等九大功能系统。同时,平台还建立交易中介担保机制和数据安全机制。
3、中药材网络电子商务平台的功能模块设置
对应中药材网络电子商务平台九个子系统进行功能模块的规划设置。
(1)市场信息和查询系统
药材资讯:行业动态、各地快讯、产地信息、药材展会、招商合作、药材进出口。
药材供应信息:最新供应信息、所有供应信息、供应信息综合查询、供应信息反馈统计。
药材求购信息:最新求购信息、所有求购信息、求购信息综合查询、求购信息反馈统计。
药材价格信息:最新价格变动、全部价格、价格走势、分析预测。
药材排行榜:供应金额排行、供应数量排行、求购金额排行、求购数量排行、成交金额排行、成交数量排行、价格查询热度排行、资讯查询热度排行、查询总热度排行。
药材商铺:商铺基本信息、商铺供求信息、商铺其它信息、商铺综合排行、商铺问询、推荐商铺。
(2)市场需求价格分析预测系统:供求分析、供求预测、价格分析、价格预测。
(3)网上洽商和交易系统:会员管理、网上洽谈、网上交易、网上付款、收发货管理、货款拨退。
(4)市场管理系统:通知公告、文件流转、租赁管理、合同管理、收费管理。
(5)质量管理系统:质量抽样检验、商品标识抽检、索证备案检查、进货台帐检查、下柜退市货物检查、虚假宣传检查、侵权检查、检查综合评分、排行处理。
(6)商铺网站系统:商铺网站注册、商铺网站模板管理、商铺网站信息上传、商铺网站综合排行、商铺网站综合管理。
(7)商铺信用评级系统:商铺信用评分、商铺信用排行、商铺信用监督。
(8)中药材数据挖掘系统:数据挖掘模型管理、数据挖掘、数据挖掘结果储存、数据挖掘结果显示、挖掘特点统计。
(9)行业培训系统:中药材种植技术培训、中药材加工技术培训、中药材鉴别培训、中药材储存知识培训、中药材医用培训、其它知识培训。
四、构建中药材网络电子商务平台可行性
网络电子商务平台的技术基础和社会基础:现代社会,网络信息技术发展迅速,应用广泛电子商务论文,技术成熟。有众多的成功的网络信息服务平台范例可供借鉴,构建中药材网络电子商务平台具有良好的技术基础中国期刊全文数据库。随着计算机网络在社会各行各业、各阶层的广泛应用,计算机网络已是人们的工作、生活密不可分的工具,社会已普遍形成了应用计算机网络良好行为习惯,构建中药材网络电子商务平台也具有了广泛的社会基础。
五、关键技术与创新
与一般信息网站、网络信息服务平台不同,中药材市场涉及中药材的种植、加工、质检、交易、仓储、物流,技术服务等环节,业务范畴广、流程复杂,行业特色明显。因此,中药材网络电子商务平台规模大,集成九大功能系统,设置七十六个模块,需要解决的关键技术不少。如:(1)网上交易中,不同企业、不同技术标准的系统之间实现数据实时传送、接收。(2)使用不同开发工具的系统集成到一个平台,并实现数据无缝互通。(3)复杂多样的业务数据交换标准的研制。(4)巨量数据并发处理机制设计。(5)多服务器分布处理响应。(6)平台交易数据安全技术。(7)中药材数据挖掘技术。(8)多媒体培训课件的设计与集成等等。
网络信息应用模式的创新:(1)创建现代网络化中药材市场。(2)中药材网上交易。(3)创建中药材网络商铺。(4)中药材市场信息平台中的数据挖掘技术应用。(5)中药材交易资讯服务。(6)中药材种植资讯服务。(7)网络化市场管理。(8)网络多媒体中药材综合知识培训等。在实际开发构建中药材网络电子商务平台的过程中,对这些技术关键,要进行大量的分析研究,逐个攻关解决。
参考文献
俞文群,城市公共信息服务平台的设计与实现[J].宁波工程学院学报,2006,(2):34-37