时间:2022-08-23 10:04:32
导语:在大数据技术的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
关键词:大数据;分布集群;高可用;高可靠
中图分类号:TP391 文献标识码:A 文章编号:1009-3044(2016)03-0019-02
1 概述
当前,互联网的发展已经进入到一个全新阶段,互联网的应用已经深入到人们的日常生活中,尤其是移动互联网技术的发展和运用已经日益成熟,传统企业都已经开始自觉地运用移动互联网技术和概念拓展新业务和方向[1]。在此背景下,大数据技术应运而生,针对大数据这一新兴概念,麦肯锡全球研究所曾给出这样的定义:一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合,具有海量的数据规模、快速的数据流转、多样的数据类型和价值密度低四大特征。
2 分布集群数据库
组成分布集群数据库系统的每台计算机可单独放在一个地方,其中每台计算机都可能保存一份数据库的完整拷贝副本,或者是部分副本,每台计算机单元具有自己局部的数据库,位于不同地点。这些计算机之间通过网络进行连接,共同组成一个完整的、全局的逻辑上集中、物理上分布的大型数据库。
在分布式集群系统中,数据库对用户来说是一个逻辑上的数据库整体,数据库的一致性、完整性及安全性都是对这一逻辑整体进行管理控制的。分布集群服务器对共享的数据进行统一的管理,但是非数据库的处理操作可以由客户机来完成。
在分布式集群系统中,通常采用外部链接技术进行数据库的远程控制。组成分布式集群的各计算机之间可以通过网络进行相互通讯,用户可以远程透明地单独访问远程各数据库单元的数据,也可以组合多个数据库的数据以满足多工作组、部门的复杂应用需求。远程数据库链接技术连接了各分散的数据库单元,逻辑的将他们组合为一个整体,从应用视图的角度来看,分布集中数据库系统就是一个整体的数据库服务系统。用户对此系统的单一逻辑的数据库访问请求都被自动分解、自动寻址、自动转换为网络请求,并在相应数据库结点上实现相应的操作请求。
分布集群数据库系统支持混合的网络拓扑结构,并采用混合的网络协议,自动地进行网络协议的转换。在分布集群数据库系统中,在保证海量数据存储的基础上,混合了高可用集群和高可靠集群,提高了数据库系统的可用性和可靠性,满足了现代互联网应用的需求。
物化视图是从一个或几个基表导出的表,同视图相比,它存储了导出表的真实数据。当基表中的数据发生变化时,物化视图所存储的数据将变得陈旧,用户可以通过手动刷新或自动刷新来对数据进行同步。物化视图包括了查询结果的数据对象,是远程数据的本地副本快照。物化视图允许你在本地维护远程数据的副本,但是只能读取这些副本[2]。
3 高可用集群
数据库高可用集群通过缓存交换技术实现,它基于同一份数据文件、但提供了多个数据库实例,即数据库服务进程。高可用性首要确保数据不丢失,数据不丢失是高可靠性的最基本的要求,是必须要保证的;其次是使数据库一直维持在正常的运行状态,确保不停机,以避免给客户造成损失。
在大数据应用环境下,数据库系统的停机分为两类,即计划性停机和非计划性停机。计划性停机一般在数据库管理软件升级、系统维护或者硬件维护的情况下进行,是有计划地安排节点或者系统的停机。非计划性停机是异常突然停机,具有不可预见性,这种情况一般是数据库管理系统缺陷或系统故障或硬件故障等[3]。
高可用集群数据库技术主要包含如下几点:
1)负载均衡技术:支持静态和动态负载均衡技术,实现系统范围内各节点负载均匀,避免出现单一节点或者部分节点负载过重而影响整体性能。
2)全局事务并发控制技术:通过高速缓存复制技术,各节点保持字典数据一致,同时能够看到全局锁和事务视图,使得能够正常实现事务的ACID特性。
3)多节点并发访问文件控制技术:由于多个节点共享同一份数据,控制好各节点对同一份数据的更新操作,避免出现错误的文件读写导致的数据不一致的问题。
4)动态增加和移除节点技术:在高可用集群环境中,能够在不中断服务的情况下,通过增加节点来提升系统性能,同时也能够在节点出现故障时,从集群中自动移除该节点,并且不影响整个集群系统对外提供服务。
4 高可靠集群
一般采用数据复制技术来保证数据库系统的高可靠性,数据复制同时也是一种分担系统访问压力、加快异地访问响应速的技术,数据复制具有物理和逻辑之分。通过将一个服务器实例上的数据变更复制到另外的服务器实例。可以用于解决大、中型应用中出现的因来自不同地域、不同部门、不同类型的数据访问、请求导致数据库服务器超负荷运行、网络阻塞、远程用户的数据响应迟缓的问题。
高可靠集群提供数据库的容灾、数据保护、故障恢复等,实现数据库快速切换与灾难性恢复。在生产数据库的保证"事务一致性"时,使用生产库的物理全备份创建备库,备库能够通过生产库传输过来的归档日志或重做条目自动维护备用数据库。
高可靠集群的数据同步技术有以下优势:
1)数据库自身内置的功能;
2)配置管理较简单,不需要熟悉其他第三方的软件产品。
3)物理Standby数据库支持任何类型的数据对象和数据类型;
4)逻辑Standby数据库处于打开状态,可以在保持数据同步的同时执行查询等操作。
5)在最大保护模式下,可确保数据的零丢失。
5 MPP技术的应用
MPP 架构采用统一的并行操作数据库引擎,将数据分散在不同的数据库节点上,在高速的内部网络环境下,对于海量数据的并发查询可极大地减少 I/O,提高查询效率。MPP 系统工作起来就像是一台单独的计算机,由于采用自动化的并行处理,在分析型数据仓库等 OLAP 应用中,查询性能比传统的单节点数据库大大提高。MPP 系统为新一代数据仓库所需的大规模数据和复杂查询提供了先进的软件级解决方案,具有业界先进的架构和高度的可靠性,能帮助企业管理好数据,使之更好地服务于企业,推动数据依赖型企业的发展。
6 大数据中的应用
基于数据库管理系统,搭建高可用、高可靠的分布集群数据库系统,结构如图 1所示。
在此环境中,高可用集群之间可搭建成主备关系,与任意高可靠集群或任意单机数据库服务器通过外部链接构成逻辑上统一的分布集群数据库系统。对于用户而言,仍然是单一的数据库服务。
单机数据库服务器、高可用集群、高可靠集群都可通过外部链接作为单独节点加入到分布集群数据库系统中,利用数据库系统的分布集群事务机制,既保留了局部数据库的自治特性,又可以作为全局分布集群系统中的一员参与到整个海量数据分析中。
解决了海量规模数据存储的问题后,针对快速的数据流转、多样的数据类型和价值密度低问题,数据库技术还实现了以下功能:
1)物化视图技术和高级复制技术解决分布集群系统中数据流转速度慢的问题。
2)支持面相对象、xml数据类型,满足数据类型多样化的需求。
3)数据挖掘技术,是决策分析技术的一个更高层次,数据挖掘技术采用人工智能的决策分析方法,按照用户既定的业务目标,对数据进行筛选,揭示其中的规律,并进一步将其模型化。
7 结束语
随着计算机技术的发展,数据库管理系统作为处理数据的核心之一,在大数据中的应用不应被忽视。因此,加强数据库新技术的研发,对于各个国家在大数据时代的信息战中都显得尤为重要。
参考文献:
[1] 齐磊.大数据分析场景下分布式数据库技术的应用[J].移动通信,2015(12):58-62.
关键词:大数据技术;计算与数据;协作机制
引言
在现今信息技术发展中,数据同计算可以说是信息技术发展过程中的两个重要主题,在这两个主题的基础上,信息技术也逐渐出现了大数据技术概念。从严格意义来说,所谓大数据技术,即是针对于海量数据的分析、存储以及技术。对于这部分海量数据来说,我们很难直接对其进行应用,在获得数据之后,需要在经过一定处理后才能够获得有用的数据,如何能够实现大数据时代下数据同计算的科学协作、并能够将其形成一种机制,则成为了目前非常重要的一项问题。
1 计算同数据协作机制对比
对于面对数据系统来说,其一般为分布式系统类型,即通过将计算向数据进行迁移对系统中数据传递代价进行降低,可以说是一种通过计算对数据进行寻找的方式。要想对数据进行计算,实现数据的定位可以说是一项重要的前提,而数据切分以及存储方式情况也将对计算的模式以及处理效率产生影响。对此,要想对数据同计算间的科学协作进行实现,就需要对数据在分布式文件系统中的存储方式进行研究。而由于在分布式系统当中,需要对数据冗余、节点失效以及备份等问题进行解决,就对数据同计算协作价值的研究带来了较大的挑战。在两者协作机制研究中,数据同计算的一致性可以说是研究重点,需要首先从该方面进行讨论与解决。
1.1 位置一致性映射模型
对于分布式系统中数据同计算的一致性问题,我们可以将其理解为将两者在同一节点位置映射,即在数据存储区域发起计算。以网格计算系统为例,其到达客户节点的数据是计算先于数据,并根据客户端请求将数据映射到客户端中进行处理。对于Hadoop系统来说,就是先将数据存储到系统的一个节点当中,当系统发起计算时,再对元数据进行查询后对数据存储位置进行获得,并将计算任务映射到节点当中进行处理。根据此种情况,我们可以将计算同数据间的映射比作是数据到节点的映射过程,在该过程中,数据片同计算程序在按照一定规则到节点进行定位之后将两者注入到节点当中,而到该节点失效时,数据片则会按照相应的规则进行数据备份以及迁移,并重新按照规则实现到节点的对应。
在上述模型中,我们可以将计算视作是一种具有特殊特征的数据类型,这是因为对于计算而言,其自身就是程序语言设计的可执行程序片,在系统映射过程中,可以将其同数据进行同等的看待,且在程序中一般也将包括相关数据的逻辑位置信息。在分布式文件中,其中的定位算法也正是数据同节点间的映射功能,即要想对两者的一致性位置进行实现,就离不开分布式文件系统的支持。同时,由于在分布式系统中计算迁移、存储迁移以及数据冗余问题的存在,在具体功能实现时,也将对存储冗余以及均衡调度等技术进行结合性的应用,以此对两者科学协作、且具有稳定健壮特征的系统进行实现。映射方式方面,则有哈希映射以及元数据映射等。
1.2 元数据映射算法
对于该类算法来说,其可以说是最为基础的对存储位置同计算一致性进行实现的方法,在实际应用中,该方式通过数据块存储位置的查找使该位置能够同指定的存储节点进行映射,在其对计算同数据的定位实现中,同网络路由表原理较为类似,即两者通过对有路由的查询保证数据能够同计算被分配到同一个节点当中。对于应用该方式的系统来说,其一般为主从结构类型,如果其中出现单点失效情况,则将对整个系统产生较大的影响。对于HDFS以及GFS结构来说,就是以该数据方式构建的。在实际对数据进行存储时,其一般会根据节点目前存储负载情况进行判断,而为了避免结构对失效情况具有过高的敏感性,也有学者通过对元数据进行复制的方式提升系统可用性。
通过该方式的应用,则能够以较为便利的方式对机群系统目前状态进行利用,在以其为依据的基础上对系统的负载均衡进行实现。此时,系统主节点则会通过一定调度算法的应用对数据计算以及存储进行分配,在对系统负载均衡进行实现的同将分配信息作为元数据进行保存。目前,很多针对集群负载均衡算法都能够在元数据方法中进行应用、并将其作为对柱节点资源进行分配的依据。在实际应用中,虽然该方式在网络信息搜索以及大量复杂均衡算法的应用方面具有较好的表现,但当系统具有较多数量小文件时,则需要对路由数据进行大量的维护,并因此对数据的查询效果产生影响。
1.3 哈希映射算法
哈希算法是一种从稀疏到紧密值的映射方式,在计算以及存储定位时,可以将其视作路由算法的一种,通过该方式的应用,则能够将目标定位到节点位置。对于传统的哈希算法,其在扩展性以及容错性方面的表现都一般,并不能够较为有效的对面向数据系统节点的动态变化相适应,1997年,学者David Karger提出了使用一致性哈希算法对数据进行定位,并在后续的改进中逐渐使其成为了分布式存储中的标准技术类型。当系统对该方式进行应用之后,则不需要对中心节点元数据进行维护,可以说对普通元数据服务器性能瓶颈以及单点失效问题进行了较好的解决,其实现过程为:首先通过Key值的应用将MD5算法变换成一个32位长度的16进制数值,在以该数值进行232取模后将其映射到环状哈希空间,并以相同的方式将节点映射到环状哈希空间当中,此时Key则会在哈希空间中寻找到节点值作为路由值。
2 计算同数据的流式拓朴协作机制
2.1 Storm系统
流水线技术是对高性能数据进行处理的重要技术类型,其主要技术思想即将一个任务分解成多个具有前后关系的子任务,在流水线模式中,各个子任务的启动同之前顺序任务的完成情况具有依赖,对具有先后相关性数据分析方面具有较好的实用性特征。目前,以分布式系统以及流式技术为协作的框架机制已经在应用中表现出了较好的生命力以及灵活性,在本研究中,将以Storm系统为例进行简单的介绍。
Storm是由Twitter所推出的一种流式分布式系统,在该集群中,由多个工作节点以及一个主节点组成,其中,主节点可以说是系统的核心,具有任务布置、代码分配以及故障检测等作用。在该系统中,当其要对实时计算任务进行完成时,需要对一个Topology进行建立,并由该模块对数据处理进行规划。在Storm系统中,元组是基本的数据流单位,可以将其看作是一个被封装的数据结构类型,在Storm系统中,Topology可以说是最高级别的执行单元,其是由很多个节点所组成的拓扑,在拓扑中,由不同节点对相应的计算逻辑进行完成。在该系统中,Spout是系统的数据流生成器,而Bolt则为不同的处理位置。对于数据流来说,由于Spout为数据源头,在实际运行中,其在对数据进行读取之后则会实现向Bolt的传送,其不仅能够对多个输入流进行接收,且能够较好的对数据进行特定处理。在Storm系统对Topology进行应用之后,其则具有了更为强大以及更为灵活的数据处理能力,节点在根据Topology逻辑对任务进行分配之后将任务分配到相应物理节点之上。而从整个架构情况看来,在数据以及计算协作处理方面,系统主要是通过Topology进行分配,并在按照其描述之后由对应的节点程序进行处理,并由主节点将根据一个逻辑实现物理节点的映射。
2.2 流式拓朴映射模型
在Storm系统中,其通过Topology结构的应用,则能够对较为复杂的分布式数据处理任务进行实现,在整个过程中,对于不同计算任务,Topology好比是逻辑规划,并没有对相应的物理节点进行对应,在系统主节点中,可能具有数量较多的该种结构,而对于每一个结构都可以将其视作为对特殊问题进行处理的逻辑规划,可以说,通过Topology结构的应用,则能够对大多数问题的处理方式进行描述。其整个过程可以抽象如图1所示。
在图1中,每一个操作就可以将其是作为Bolt,而数据发生器则为Spout,在该系统中,同样由主节点对很多个处理节点进行管理与监控,对于每个任务的逻辑规划,主节点都会在一定策略的基础上对物理节点进行分配,以此对相关的计算恩物进行完成。如上图中,主节点为操作1分配物理节点1,为操作2分配物理节点2,为操作3分配物理节点3,为操作4分配物理节点1,在以该种方式进行分配之后,Topology则能够被映射为集群物理结构,并能够对相应的计算任务进行完成。而作为编程人员,在工作当中仅仅需要对Topology的逻辑结构进行定义即可,其后续相关工作则完全由系统进行维护,作为设计人员,在整个操作过程中也不需要对失效问题进行担心,这是因为当某个节点出现失效情况时,主节点将根据对应操作将其对一个好的物理节点进行重新的映射,以此保证整个规划能够得到顺利的实现。
通过上述的分析可以了解到,通过流式拓朴映射方法的应用,则能够使系统根据Topology描述的情况对不同的集群计算结构进行自动组合,以此以更为灵活的方式对复杂问题进行处理。在整个过程中,系统的主节点具有数据路由以及计算的作用,并通过Topology的描述对协作机制的跟踪定位进行实现。
在此,我们以MPS对Topology到物理的映射过程进行模拟,在节点间,将通过Mpi_Send()函数的应用将流数据元组注入到节点当中,并在该节点上对相关操作进行发起,之后,通过MPI_Recv()函数的应用对前端数据进行接收,以此对节点间通讯进行实现。对于该种方式来说,其能够对不同数据系统仅仅能够进行非实时数据批处理的问题进行了较好的避免,具有较好的应用效果。
3 结束语
在现今大数据时代背景下,数据同计算间的协作具有了更为重要的意义。在上文章,我们对大数据技术中计算与数据的协作机制进行了一定的研究,需要能够联系实际进行系统模式的选择与应用,以此更好的对数据处理任务进行实现。
参考文献
[1]罗象宏,舒继武.存储系统中的纠删码研究综述[J].计算机研究与发展,2012(1):77-79.
关键词:大数据 数据挖掘 挖掘技术
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2016)05-0000-00
1数据挖掘与数据挖掘技术的方法分析
“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题,由此而诞生的数据挖掘技术其实就是用以处理这一尴尬问题的技术。数据挖掘实际上是相对比较新型的一门学科,在几十年的发展过程中,已经不可同日而语。其实数据挖掘技术的本质就是人工智能技术,而数据挖掘技术的利用相对应的就是指人工智能技术的开发与应用,也就是说数据挖掘其实是依赖技术的提升来实现数据的整体创新的技术,所以,整个数据挖掘技术实际上是非常具有信息价值的,它能够帮助决策者更快的得到重要信息并作出决策,提高效率和准确率,是非常重要的知识凭证,能够在一定程度上提高当下企业的整体竞争力。
数据挖掘技术的核心就是分析,通过分析方法的不同来解决不同类别的问题,以实现数据挖掘的潜在内容。简单来说就是对症下药以保证药到病除。
1.1聚类分析法
简单来说聚类分析就是通过将数据对象进行聚类分组,然后形成板块,将毫无逻辑的数据变成了有联系性的分组数据,然后从其中获取具有一定价值的数据内容进行进一步的利用。由于这种分析方法不能够较好的就数据类别、属性进行分类,所以聚类分析法一般都运用在心理学、统计学、数据识别等方面。
1.2人工神经网络
人工神经网络是通过大批量的数据进行分析,而这种数据分析方式本身是建立在一定的数据模型基础上的,因此通常都可以随时根据数据需求进行分类,所以人工神经网络也是当下数据挖掘技术中最常用的一种数据分析方式之一。
1.3关联性分析法
有时数据本身存在一定的隐蔽性使得很难通过普通的数据分析法进行数据挖掘和利用,这就需要通过关联性分析法完成对于数据信息的关联性识别,来帮助人力完成对于数据分辨的任务,这种数据分析方法通常是带着某种目的性进行的,因此比较适用于对数据精准度相对较高的信息管理工作。
1.4特征性数据分析法
网络数据随着信息时代的到来变成了数据爆炸式,其数据资源十分广泛并且得到了一定的普及,如何就网络爆炸式数据进行关于特性的分类就成为了当下数据整理分类的主要内容。在上文中提到的人工神经网络数据分析也属于这其中的一种,此外还有很多方法都是通过计算机来进行虚拟数据的分类,寻找数据之间存在的普遍规律性完成数据的特性分析从而进行进一步分类。
2大数据时代下数据挖掘技术的具体应用
数据挖掘技术的具体流程就是先通过对于海量数据的保存,然后就已有数据中进行分析、整理、选择、转换等,数据的准备工作是数据挖掘技术的前提,也是决定数据挖掘技术效率及质量的主要因素。在完成数据准备工作后进一步对数据进行挖掘,然后对数据进行评估,最后实现运用。因此,数据挖掘能够运用到很多方面。
2.1市场营销领域
市场营销其实就是数据挖掘技术最早运用的领域,通常根据客户的具体需求,进行客户分析,将不同的消费习惯和消费特点的客户进行简单的分类管理,以此来保证商品能够顺利销售,并提高个人销售的成功率和业绩。而销售的范围也从最初的超市购物扩展到了包括保险、银行、电信等各个方面。
2.2科学研究领域
科学研究与实验测试等都需要对数据进行关系分析为进一步的实验和总结失败做准备,而实验测试和科学研究产生的数据往往是巨大的,因此数据挖掘技术在科学研究领域也得以广泛运用。通常都是通过科学研究内容选择数据挖掘技术分析法进行计算来找到数据中存在的规律,实现数据挖掘的部分价值――科学知识的分析与运用。
2.3电信业领域
随着信息化时代的到来,电信产业也飞速发展起来,到目前为止,电信产业已经形成了一个巨大的网络信息载体,如何将其中信息数据进行整合就成为电信产业发展过程中的重要问题。而数据挖掘技术的运用则在一定程度上解决了这一问题,大量的数据通过数据挖掘技术得到了有效分类,并在这个过程中通过运算得出数据之间的关联性,运用规律进一步进行数据分类。
2.4教育教学领域
教学评价、教学资源、学生个人基本信息等组成了教育教学领域的数据库,利用数据挖掘技术来实现教学资源的优化配置,对学生的个人信息整理归档,从而保证教育教学领域中数据整理的良好运作。
3结语
综上所述,数据挖掘技术对于当今社会的发展有着不可替代的作用,而如何改善当下数据挖掘技术中存在的问题,进一步提高数据挖掘技术的质量和效率就成为了数据挖掘技术进步的方向。本文通过对于数据挖掘与数据挖掘技术的方法分析和大数据时代下数据挖掘技术的具体应用两个方面对于数据挖掘技术进行了简要的阐述和分析,相信在未来伴随着科学技术的进一步发展,数据挖掘技术也将更加强大。
参考文献
[1]程军锋.Web数据挖掘研究[J].重庆三峡学院学报,2013(03).
关键词:告警数据 Hadoop Spark
1 引言
随着电信网络的不断演进,全省数据网、交换网、接入网设备单月产生告警原始日志近亿条。以上告警通过网元网管、专业综合网管、智能网管系统[1]三层收敛,监控人员每月需处理影响业务或网络质量的告警事件为20万条,但一些对网络可能造成隐患的告警信息被过滤掉。如何从海量告警数据中获取与网络性能指标、运维效率相关的有价值的数据,对于传统的关系型数据库架构而言,似乎是一个不可能完成的任务。
在一般告警量情况下,ORACLE数据处理能力基本可以满足分析需求,但当告警分析量上升到亿级,如果采用传统的数据存储和计算方式,一方面数据量过大,表的管理、维护开销过大,要做到每个字段建索引,存储浪费巨大;另一方面计算分析过程耗时过长,无法满足实时和准实时分析需求。因此必须采用新的技术架构来分析处理海量告警信息,支撑主动维护工作显得尤为必要,为此我们引入了大数据技术。
2 分析目标
(1)数据源:电信运营商网络设备告警日志数据,每天50 G。
(2)数据分析目标:完成高频翻转类(瞬断)告警分析;完成自定义网元、自定义告警等可定制告警分析;完成被过滤掉的告警分析、TOPN告警分析;核心设备和重要业务监控。
(3)分析平台硬件配置:云计算平台分配8台虚拟机,每台虚机配置CPU16核;内存32 G;硬盘2 T。
3 制定方案
进入大数据时代,行业内涌现了大量的数据挖掘技术,数据处理和分析更高效、更有价值。Google、Facebook等公司提供可行的思路是通过类似Hadoop[2]的分布式计算、MapReduce[3]、Spark[4]算法等构造而成的新型架构,挖掘有价值信息。
Hadoop是Apache基金会用JAVA语言开发的分布式框架,通过利用计算机集群对大规模数据进行分布式计算分析。Hadoop框架最重要的两个核心是HDFS和MapReduce,HDFS用于分布式存储,MapReduce则实现分布式任务计算。
一个HDFS集群包含元数据节点(NameNode)、若干数据节点(DataNode)和客户端(Client)。NameNode管理HDFS的文件系统,DataNode存储数据块文件。HDFS将一个文件划分成若干个数据块,这些数据块存储DataNode节点上。
MapReduce是Google公司提出的针对大数据的编程模型。核心思想是将计算过程分解成Map(映射)和Reduce(归约)两个过程,也就是将一个大的计算任务拆分为多个小任务,MapReduce框架化繁为简,轻松地解决了数据分布式存储的计算问题,让不熟悉并行编程的程序员也能轻松写出分布式计算程序。MapReduce最大的不足则在于Map和Reduce都是以进程为单位调度、运行、结束的,磁盘I/O开销大、效率低,无法满足实时计算需求。
Spark是由加州伯克利大学AMP实验室开发的类Hadoop MapReduce的分布式并行计算框架,主要特点是弹性分布式数据集RDD[5],中间输出结果可以保存在内存中,节省了大量的磁盘I/O操作。Spark除拥有Hadoop MapReduce所具有的优点外,还支持多次迭代计算,特别适合流计算和图计算。
基于成本、效率、复杂性等因素,我们选择了HDFS+Spark实现对告警数据的挖掘分析。
4 分析平台设计
4.1 Hadoop集群搭建
基于CentOS-6.5系统环境搭建Hadoop集群,配置如表1所示。
4.2 Spark参数设置[6]
Spark参数设置如表2所示。
4.3 数据采集层
数据采集:由于需采集的告警设备种类繁多,故采取分布式的告警采集,数据网设备、交换网设备、接入网设备分别通过IP综合网管、天元综合网管、PON综合网管进行采集,采集周期5分钟一次。采集机先将采集到的告警日志文件,通过FTP接口上传到智能网管系统文件服务器上,再对文件进行校验,通过Sqoop推送到Hadoop集群上。
4.4 逻辑处理层
(1)建立高频翻转告警监控工作流程
先将海量告警进行初步删选,通过数量、位置和时间三个维度的分析,得出高频翻转类告警清单列表,最后由专业工程师甄别确认,对某类告警进行重点关注和监控。
(2)差异化定制方案
按组网架构细分,针对核心重要节点的所有告警均纳入实时监控方案;
按业务网络细分,针对不同业务网络设计个性化的监控方案;
按客户业务细分,针对客户数字出租电路设计个性化的监控方案。
4.5 数据分析层
Spark读取Hive[7]表的告警数据,然后在Spark引擎中进行SQL统计分析。Spark SQL模K在进行分析时,将外部告警数据源转化为DataFrame[8],并像操作RDD或者将其注册为临时表的方式处理和分析这些数据。一旦将DataFrame注册成临时表,就可以使用类SQL的方式操作查询分析告警数据。表3是利用Spark SQL对告警工单做的一个简单分析:
5 平台实践应用
探索运维数据分析的新方法,利用大数据分析技术,分析可能影响业务/设备整体性能的设备告警,结合网络性能数据,找到网络隐患,实现主动维护的工作目标。
5.1 高频翻转类告警监控
首先制定了高频翻转类告警分析规则,将连续7天每天原始告警发生24次以上定义为高频翻转类告警,并基于大数据平台开发了相应的分析脚本,目前已实现全专业所有告警类型的分析。表4是全省高频翻转类TOP10排名。
5.2 核心设备和重要业务监控
目前以设备厂商或专家经验评定告警监控级别往往会与实际形成偏差,主要表现在以下几个方面:监控级别的差异化设定基于已知的告警类型,一旦网络重大故障上报未知的告警类型就无法在第一时间有效监控到;同一类型的故障告警出现在不同网络层面可能影响业务的程度是完全不同的;不同保障级别的客户对故障告警监控的实时性要求也是不同的。
通过大数据分析平台对差异化监控提供了灵活的定制手段,可根据告警关键字,分专业、地市、网管、机房、告警频次等维度自主定制需要的告警数据,实现日、周、月、某个时间区等统计分析。
应用案例:省NOC通过大数据分析出一条编号为CTVPN80113的中国平安大客户电路在一段时间内频繁产生线路劣化告警,但用户未申告,省NOC随即预警给政企支撑工程师,政支工程师与用户沟通后,派维护人员至现场处理,发现线路接头松动,紧急处理后告警消除、业务恢复。
5.3 被过滤告警分析
全省每天网络告警数据300万条~500万条,其中99%都会根据告警过滤规则进行过滤筛选,把过滤后的告警呈现给网络监控人员。过滤规则的准确性直接影响告警数据的质量。一般来说告警过滤规则可以从具有丰富运维经验的网络维护人员获得,但是这个过程非常繁琐,而且通过人工途径获得的告警过滤规则在不同的应用环境可能存在差异,无法满足网络维护的整体需要。采用大数据技术对被过滤的告警进行分析可以很好地完善过滤规则,让真正急迫需要处理的告警优先呈现给维护人员及时处理,真正做到先于客户发现故障。表5是动环专业被过滤的告警情况分布。
5.4 动环深放电分析
动环网管通过C接口采集蓄电池电压数据,在停电告警产生之后,电压数据首次下降到45 V,表示该局站电池出现深放电现象,通过计算这一放电过程的持续时间,记为深放电时长,该时长可以初步反映电池的放电性能。一个局站每天产生几十万条电压等动环实时数据。
在告警数据分析的基础上,实现对蓄电池电压变化数据的分析,提醒分公司关注那些深放电次数过多和放电时长过短的局站,核查蓄电池、油机配置、发电安排等,并进行整治。利用Spark SQL统计了一个月内抚州、赣州、吉安三分公司几十亿条动环数据,分析了其中深放电的情况如表6所示。
6 结论
本文利用HDFS+Spark技术,实验性地解决告警数据存储和分析等相关问题:一是通过数据分析,从海量告警数据中发现潜在的网络隐患;二是结合资源信息和不同专业的告警,最终为用户提供综合预警;三是转变网络监控思路和方式,通过数据汇聚、数据相关性分析、数据可视化展示,提高了网络监控效率;最后还扩展到对动环实时数据、信令数据进行分析。
从实际运行效果来看,HDFS和Spark完全可以取代传统的数据存储和计算方式,满足电信运营商主动运维的需求。
参考文献:
[1] 中国电信股份有限公司. 中国电信智能网管技术规范-总体分册[Z]. 2015.
[2] Tom white. Hadoop权威指南[M]. 4版. 南京: 东南大学出版社, 2015.
[3] RP Raji. MapReduce: Simplified Data Processing on Large Clusters[Z]. 2004.
[4] Spark. Apache Spark?[EB/OL]. [2016-11-27]. http:///.
[5] Matei Zaharia, Mosharaf Chowdhury, Tathagata Das, et al. Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing[J]. Usenix Conference on Networked Systems Design & Implementation, 2012,70(2): 141-146.
[6] S鹏. Apache Spark源码剖析[M]. 北京: 电子工业出版社, 2015.
[7] Hive. Apache HiveTM[EB/OL]. [2016-11-27]. http:///.
[8] Holden Karau, Andy Konwinski, Patrick Wendell, et al. Learning Spark: Lightning-Fast Big Data Analysis[M]. Oreilly & Associates Inc, 2015.
[9] 员建厦. 基于动态存储策略的数据管理系统[J]. 无线电工程, 2014,44(11): 52-54.
【关键词】云计算技术 大数据 数据处理
随着物联网、网络、移动通信等的快速发展,特别是互联网的普及使得信息传播的规模和速度呈现几何增长,人们获取信息的途径和方式开始变得异常丰富,人们事实上已经进入了“信息大爆炸”时代。与此同时信息传播的大容量、高效性和准确性也对现有的数据处理体系提出了更高要求。根据大数据摩尔定律,人类世界的数据产生量将按照每两年一倍的速率增长,预计2020年世界数据量将超过35亿GB,“大数据”时代迫在眉睫。“大数据”具有离散型、随机性、发散性、爆发性等特点。近年来,随着云技术的兴起全面革新了传统的数据技术,大容量、多样化、快速处理、信息价值性和准确性为了云技术背景下大数据处理的五大主要特征。如何利用云计算技术对大数据进行高效处理已经成为了信息技术发展亟待解决的关键问题。
1 大数据和云计算的关系
云计算技术是指利用集中式远程计算资源池,通过按需分配的方式,为终端用户提供强大而廉价的计算服务技术。云计算技术作为一种数据处理方式,其技术特点包括:一是资源池在物理上是对终端用户完全透明的;二是能够为任何行业提供规模化计算服务,其服务能力可看做是“无限”的;三是其应用部署快速便捷,服务能力和方式是可以完全按照终端客户要求定制的,具有极强的弹性伸缩能力;四是云端数据获取方便,能够资源共享,用户使用成本低廉。
云计算技术是目前最强大的数据存储、传输和处理平台,它是大数据处理的最优选择。云计算能够为大数据提供几乎“无限”的存储空间和处理能力,满足其超大容量存储和超级复杂的处理需求,也是传统存储方式无法实现的。云计算侧重数据的计算处理,而大数据需要强大数据处理能力,因而它是云计算的处理对象。此外大数据所产生的业务需求也为云计算的实现提供了更多的形式。
2 基于云计算的大数据处理技术
2.1 大数据的采集技术
目前数据采集方式主要分为集中式和分布式两大类。其中分布式的灵活性较强,而集中式的全局性较好。实际上大数据采集的对象通常包括组织内部和相互独立组织间的各类数据,而云计算恰好具有并行处理的优势,因而可采取混合式采集方式能够更加有效地完成数据采集任务。即在各个组织内部采用集中式数据采集方式,通过在组织内配置中心服务器,作为集中式数据注册机构,用于存储和共享内部的数据。在相互独立组织间,采用云计算的集群技术、虚拟化技术等在各独立组织中心服务器间采用分布式采集方式实现数据采集、组织间对接和共享。大数据结构类型包括结构化、半结构和非结构化数据,因而在应用云计算技术进行分布式采集时,可依托其超强的扩展性和容错力,将数据池内数据进行同构化,从而实现数据进行分类存储。
2.2 大数据的存储技术
由于超大体量、离散、复杂的数据特点,传统数据存储模式已经难以满足大数据存储要求。一方面单结点的数据仓库在容量上难以满足呈几何增长的数据量,在运行效率上也难以满足大数据的分析处理需求。另一方面传统数据仓库按行存储模式,虽然可以实现大容量索引和视图,但实际操作中其时间和空间过高。而云计算主要采取列式存储模式,即区分数据不同属性,不同属性列都单独存放。云计算中列式存储的优势在于在投影数据时只需查询其属性列,系统处理量和处理效率显著提升。此外按数据属性进行列式存储,数据仓库中相邻列数据的相似性更高,因而能够得到更高的数据压缩率,进一步减少存储所需空间。
2.3 大数据的挖掘技术
联机分析能够完成数据的复杂处理,得到直观结果,实现决策性分析。云计算并行模式下联机分析能够基于数据全局,建立多维分析模型对数据进行多维度分析,从而尽可能获得全面的分析结构。由此可见多维度分析是联机分析的重要特征,而云计算技术下数据仓库正好是通过多维数据组织的。
联机分析对数据的处理仅仅只是表面的,其获取的信息价值并不高,难以得到数据深层次的含义与内在关联。而数据挖掘正是在联机分析的基础上,从超大体量的数据仓库中提取数据所蕴含的隐性信息,并将这些信息用规律、概念或是模型等表现出来。基于云计算的数据挖掘主要采用分布式并行挖掘技术。与其他串行方式相比,云计算技术下并行数据挖掘能够利用机器集群拆分分布式系统中的并行任务,并将拆分后的各个任务分别交由不同的机器去处理,从而实现大规模数据处理,其时间成本也大大降低。
2.4 大数据的可视化技术
上文所述数据挖掘可实现大数据的深层次、多维度分析,获取更多有用信息。而云计算平台下可视化技术则能够将上述信息具体化,从而使数据及其有关结构的相关信息能够更直观地表现出来,更容易被发觉和理解。可视化技术是指在存储空间中,将数据库及其中数据以图像(图形)的形式表示出来,并在其中再采用其他的分析手段获取图像中所蕴含的未知信息。而原有的数据处理仅仅只能够从数据本身入手,分析和观察数据中的内在信息。云计算下的可视化技术不但能够实现非空间数据的多维度图像显示,而且能够实现检索过程的直观图形显示,从而帮助人们更好地挖掘和理解信息,信息检索效率也大大提升。
3 结语
在数据爆炸时代,云计算的出现为大数据的存储和处理提供了可能,也为数据处理系统的功能扩展提供了重要保障。以往的数据管理将收集和存储作为重点,而在云计算模式下,大数据管理将更多地侧重数据分析、挖掘及管理模式的创新。目前数据采集和统计技术已经较为成熟,利用云计算进一步丰富大数据的存储和处理方式,实现更高层次的数据挖掘和可视化将是今后需要解决的问题之一。
参考文献
[1]孟小峰,慈祥.大数据管理:概念,技术与挑战[J].计算机研究与发展,2013,50(1):146+169.
[2]吴雪琴,基于云计算的大数据信息检索技术研究[J].电脑知识与技术,2014,10(10):38-41.
[3]迪莉娅.基于云计算的电子政务大数据管理研究[J].信息管理与信息学,2013(12):50-51.
【关键词】物联网;大数据;审计
一、引言
审计是依照国家相关法律,对政府、企事业单位、金融机构等进行重大项目的和财务收支情况进行事前或事后的独立性检查监督活动,发现并纠正违法违规活动,促进各类组织依法经营、依法办事。审计工作围绕着审计对象的经营活动展开,与大量的数据和关系打交道,尤其是大范围跨组织的审计工作,错综复杂,耗时耗力。而信息技术的发展以及经营活动的电子化,实现了数据信息的电子承载,计算机运算,其可关联、可追踪和智能化的特性大大提高了审计的效率。而进入物联网时代,物物相连,信息交互进入微观层面,审计工作可以通过基于物联网的大数据技术做得跟家深入和透彻。
二、大数据对审计工作的影响
信息通信技术的发展促进了生产生活的联网化和信息化,如电子商务、生活服务O2O、快捷支付等等。越来越多的产品和服务交易活动通过电子订单和电子支付的形式保存成海量的电子信息记录,而每一次交易又可以在各类终端上的各种账户相互绑定的关联。大数据时代下的审计工作因为信息处理的高效率而变得简单,但同时也因为数据的可靠性降低而加大了验证和识别的难度。
大数据的实时性、移动性和智能化使得审计工作发生了颠覆性变化,包括持续性和不定期审计成为审计工作的常态、作业模式发生革命性变化、内部审计管理自动化和智能化。首先企业和组织的业务信息化后,每天的业务经营活动都能够通过管理信息系统或者ERP系统转化为结构化的数据,并且通过系统软件智能化地刷新和统计。同时数据的实时可查看、检索和共享,为持续性和不定期审计提供了能力支撑。企业和组织内部、外部独立审计可以进行动态审计管理,提高审计频率,将风险的发生概率降低到最小;对信息的实时全面掌握,以及计算机智能化运算统计技术的运用,极大地改变了审计的作业模式。审计的对象从业务模块风险排序专项全面系统性审计、审计依据从“经验+风险评估”专项量化数据估算、工作方式也从人工审核转向信息化+智能化的工作方式;而对于企业和组织内部审计管理而言,通过审计工作的流程化和自动化,能够实施管控业务和资源配置,通过智能管理系统与审计要求相匹配。进而大大提升了内部审计的日常化和智能化。
大数据给审计工作带来巨大改进的同时,也带来了巨大挑战。企业和组织的经营活动数据化,涉及到各种实体活动与信息的匹配、数字凭证的可靠性和真实性、数据本身的真实性、审计相关法律法规的适应性等问题。业务的数据化并不能百分之百真实反映实际的业务活动,例如电子商务中的在线订单信息有可能与实际货物流转信息不匹配,资金来往与物权转移不匹配,尤其是中小企业和一人企业的业务信息错乱尤为严重;大数据时代的企业经营新的商业模式和交易手段层出不穷,但审计的相关法律法规的更新速度远远跟不上企业和组织经营的信息化变革,因此通过大数据进行审计经常会遇到缺少匹配法规依据而企业又无实物审计对象的窘境。
三、物联网技术下的大数据特征
物联网是通过射频、红外、全球定位、激光、电气感应灯技术,按照通信协议约定,将任何物品接入互联网,实现微观物与物的识别和链接。物联网技术的基础是感应识别技术与互联网技术,物联网技术将微观实物信息化和数字化,以便实现更加丰富的应用。物联网技术下的大数据与传统大数据相比,具有更多的独特性。
首先,物联网技术下实物对象的数字标签与实体的关联性更强。传统大数据中代表实物的数据仅仅只是一个符号,例如库存数据、产品位置信息等等,数据表面并不一定代表着实体对象的形态和位置。而物联网技术下的大数据,微观实物具备了智能识别标签,普通的实体与能够像手机一样,能够通过位置的识别码以及实时定位信号进行准确的识别和定位。实体对象的任何状态变化都能够反映在物联网管理平台中,即数据记载与实体对象的真实情况的一致性大大强加了。其次,物联网技术下的大数据能够真实反映个体、企业和组织的行为规律。物联网将人与物、物与物互相真实地关联起来,实物的状态变化与人的行为联动,因此通过物联网大数据能够反映万事万物的状态变化信息,也就反映了彼此之前的关系和影响。
物联网大数据的挖掘不仅能够反映现实世界的各种活庸媛桑还能指导我们通过控制实物的规模、形态、位置等因素,来影响人的行为和心理。因此,从企业和组织而言,物联网大数据必然是未来经营管理的“核武器”。目前物联网已经应用于智能交通、智慧城市、智慧环境、智慧农业等多个领域。随着企业和组织、以及个人越来越多地参与到物联网技术的应用中,将会逐渐提高数据与实物的关联性,也就提升了数据信息的真实性和可靠性。对于审计工作而言,物联网大数据进一步为审计工作提供了强有力的武器,并能够解决很多因为信息真实性导致的审计阻碍。
四、基于物联网技术的大数据审计
从审计的手段方法角度看,一是物联网大数据为验证实物资产的存在性提供了快捷的工具。实物资产盘点是审计中核实信息真实性以及比对数据记录的重要工作,但由于工作量大导致实际审计工作中给审计带来巨大的人力物力负担,同时也容易出现忽视和错误。而物联网技术运用到实物资产识别中以后,实物资产具有唯一的电子标签,并且能够通过感应、扫码等技术快速地识别和统计实物信息,并且与审计系统中的各种账目进行比对,从而极大提升了审计的效率。二是远程联网审计实现实时全面的审计,尤其是对于跨区域的大型项目的审计的作用更加突出。例如政府工程审计设计的地理区域、主体、资产类型、交易模式等等错综复杂,传统工程审计需要奔波于各个现场进行观察、测量和统计分析。而通过物联网技术,可以通过食物识别、定位、视频航拍、扫描测量等技术进行远程联动审计。例如无锡市滨湖区在2010年就引入了物联网技术对某工程项目进行审计,工作时间缩短了70%,工作效率提高了近6倍。
从审计绩效提升角度看,物联网大数据让审计对经济社会发展的推动作用大大提升。审计的工作的目标是为了推动经济活动能够严格按照政策、法规等要求健康有序地开展。而传统审计工作由于工作量大、审计结果的实时性和可视化程度不高,因此审计的对象及结果影响还不够突出。而物联网技术下的大数据审计,能够真实可视化地反映更多审计对象的运营状况,并且能够更加全面和立体化地开展审计工作。例如对城市管理绩效的审计,通过物联网技术能够动态反映城市的交通、环保、能耗等工作的现实,并且能够将问题精准地定位到特定区域、特定主体、特定原因。如对于企业排污的审计,通过排污管道的智能监控、对排污出口环境数据的实时监测,并通过定位系统实现网络化实时物联网数据展现,能够精准地监控各个企业的排污情况,包括排污的体量、污染物类型和比例以、以及对环境带来的影响大小。即基于物联网技术的审计,能够深入到经济社会发展的发发面面,每一个主体的每一次活动,从而做到“天网恢恢,疏而不漏”。
从审计工作的科学性上,物联网技术的大数据审计的可靠性更高。传统审计工作时基于对法规的理解,从经验上和风险评估上进行定性和定量结合的考量方式,由于人为影响较大,因此审计结果和改进措施的科学性和严谨性受到限制。而基于物联网技术的大数据审计是基于个体识别而产生的信息,基于数据的量化分析挖掘,真够最大程度地真实反映现实情况,并通过对模型化的智能演算,能够推演出影响和结果的发生概率和大小,以及各个影响因子的作用。因此,通过物联网大数据审计,能够提升审计结果的可靠性和科学性,改进措施建议的指导性也更强。
五、结语
基于物联网技术的大数据审计,不仅需要物联网在各行各业的应用落地,还需要物联网相关法规的建立,例如电子标签的法律规定以及市场要求,提升电子抱歉与实物之间的绑定关系。另外,审计部门需要加快基于物联网的审计平台和工具建设,以匹配物联网大数据的发展步伐,提升自身的工作能力。
⒖嘉南祝
[1]陈伟,SMIELIAUSKAS Wally.大数据环境下的电子数据审计:机遇、挑战与方法[J].计算机科学.2016(01) .
[2]杨凯茜.浅谈大数据审计的特点及实现――以审计署对2012年中石油的审计结果为例 [J].财经界(学术版).2015(12).
[关键词]大数据;信息技术;数据处理
[中图分类号]TP274[文献标识码]A
20世纪中叶计算机的诞生标志着电子时代正式开始,从此人类社会开始生产并存储各类型的数据。经过数次计算机技术革命,单位面积所能存储的数据量大大提高。近年来,由于WEB2.0应用的全面爆发,网络参与者同时也成了网络信息的制造者,由WEB2.0带来的大规模非结构化数据开始呈现出几何增长。因此,麦肯锡公司在2011年的报告《Big Data:the Next Frontier for Innovation》[1]中,对这种密集型数据爆炸的现象成为“大数据”时代的到来。
1大数据的概念
大数据的概念并不是凭空出现的,它的前身是海量数据。但两者之间有所区别。海量数据强调了数据量的规模之大,并没有对其特性进行定义。而大数据的概念包含了大数据的体积、传播速率、特征等内容。虽然截至目前还没有对大数据有统一的定义,但被广泛接受的定义为:大数据是无法在一定时间内用通常的软件工具进行收集、分析、管理的大量数据的集合[2]。大数据的特点一般归纳为四点:一是数据总量大,目前大数据的最小单位一般被认为是10~20TB的量级;二是数据类型多,包括了结构化、非结构化和半结构化数据;三是数据的价值密度很低;四是数据产生和处理的速度非常快。这四个特点又被称作大数据的4 V理念,即:Volume,Variety,Value,Velocity[3]。
2大数据的技术
依据大数据生命周期的不同阶段,可以将与大数据处理相关的技术分为相应的三个方面:
2.1大数据存储
从海量数据时代开始,大规模数据的长期保存、数据迁移一直都是研究的重点。从20世纪90年代末至今,数据存储始终是依据数据量大小的不断变化和不断优化向前发展的。其中主要有:DAS(Direct Attached Storage),直接外挂存储;NAS(Network Attached Storage),网络附加存储;SAN(Storage Area Network),存储域网络和SAN IP等存储方式[4]。这几种存储方式虽然是不同时代的产物,但各自的优缺点都十分鲜明,数据中心往往是根据自身的服务器数量和要处理的数据对象进行选择。
此外,这两年数据存储的虚拟化从研究走向现实。所谓虚拟化,就是将原有的服务器进行软件虚拟化,将其划分为若干个独立的服务空间,如此可以在一台服务器上提供多种存储服务,大大提高了存储效率,节约存储成本,是异构数据平台的最佳选择。从技术角度来讲,虚拟化可以分为存储虚拟化和网络虚拟化,网络虚拟化是存储虚拟化的辅助,能够大幅度提升数据中心的网络利用率和传输速率。目前IBM、浪潮、思科等公司纷纷发力虚拟化市场,可以预见虚拟化会成为未来大数据存储的一个主流技术。
2.2大数据挖掘
在大数据的处理技术中,超大规模的数据挖掘一直是难点,也是重点。面对上百TB,甚至PB级别的异构数据,常规的处理工具往往难以担当重任。需要考虑到的是大数据是个不断生长的有机体,因此在挖掘过程中还要考虑到未来数据继续增长所带来的影响。
因此,大数据的挖掘需要采用分布式挖掘和云计算技术。Google公司一直是分布式挖掘技术的领导者,它研发了MapReduce分布式挖掘工具[5],英特尔公司在此基础上开发了Hadoop分布式挖掘工具。这两个工具都具有高效、高扩展、高可靠性和高容错率的特点,并提供免费版本,适用于各种类型的大数据挖掘。
2.3大数据分析
从内容来说,大数据的分析分为技术和方法两种类型。从技术上讲,主要是分布式的数据分析和非结构化数据处理等。从方法上讲,主要是利用常用的数理统计方法来进行数据分析,例如使用可视化的数据分析工具。但两者是一个有机的整体。大数据处理的最终目的是为了将数据之间的关系以可视化的方式呈现在用户面前,包括了处理的全部过程和展现的过程。在数据分析过程中,不仅仅是需要计算机进行自动化的分析,更需要人工进行数据选择和参数的设定,两个是辩证的关系。
随着大数据行业的兴起,产生了一个新的职业,被称作数据科学,而从事该行业的人员被称作数据科学家。这类科学家的一个特点就是能够艺术性地将数据进行可视化分析,简单明了而且能够展现出数据之间的关联关系。
3大数据的应用
麦肯锡在大数据的研究报告中指出,大数据的应用已经渗透到每一个行业和业务职能领域,逐渐成为了重要的生产因素[6]。按照专业领域划分,信息技术、互联网行业、商业、遥感探测已经开始应用大数据技术来进行研究和生产效益;生物信息技术、科研情报所、图书情报领域已经对大数据展开了研究,并进行了规划;其他专业和行业对大数据可能仍处于了解阶段,但大数据的浪潮很快就会波及大部分的行业领域。
从大数据的应用效果来看,总体趋势与上述的三类专业呈现出一致性。百度、淘宝等公司作为信息技术、互联网和商业领域的杰出代表,已经对大数据开始了深度应用,马云在卸任阿里巴巴CEO时更是阐述了大数据时代将改变互联网商业的面貌,谁提前开始大数据的应用,就可以获得未来行业发展的优势。大数据的普及需要一个过程,首先从重点应用行业开始,例如信息技术领域行业,逐渐扩展到其他行业。美国已经由白宫颁布了大数据开发与利用的国家级战略,由美国国防部和国土安全局牵头开展全面推广大数据的应用。我国目前对大数据的研究并不多,应用更是缺乏。如果要推动大数据的应用,应当由国家层面进行大数据的平台建设。在今年的国家自然科学基金和社会科学基金的课题指南中,已经提出了很多设计大数据的课题,相信在未来几年内国家会对大数据的研究、开发与利用提供政策和资金支持。
总而言之,大数据的技术与应用还是处于起步阶段,其应用的前景不可估量。各个行业应当把握时代脉搏,充分认识到大数据所能带来的革命性改变,只有这样才能够保持创新与进步,从而站在行业的最前沿。
参考文献:
[1]Manyika J,McKinsey Global Insti? tute,Chui M,et al. Big data: The next fron? tier for innovation,competition,and produc? tivity[M]. McKinsey Global Institute,2011.
[2]卢胜军,王忠军,栗琳.赛博空间与大数据双重视角下的钱学森情报思想[J].情报理论与实践,2013,36(004): 1-5.
[3]Hirt C W,Nichols B D. Volume of fluid(VOF)method for the dynamics of free boundaries[J].Journalofcomputational physics,1981,39(1): 201-225.
[4]Chirillo J,Blaul S. Storage Security: Protecting,SANs,NAS and DAS[M].John Wiley & Sons,Inc.,2002.
[5]Dean J,Ghemawat S. MapReduce: simplified data processing on large clusters[J]. Communications of the ACM,2008,51(1): 107-113.
[6]郑玲微.大步跨入“大数据”时代[J].信息化建设,2013(1).
(一)外审领域信息技术的发展催生“大数据”
现代审计范围不断扩大,随着云计算、互联网等信息技术的发展,财务软件、ERP管理系统、SAP管理系统、审计软件等的应用,注册会计师可以从众多渠道、更容易地获取大量的数据和信息,不断积累的数据已在体量上形成“大数据”。
注册会计师所收集的数据,可能包含企业自成立到审计时几年、几十年的相关信息,也可能包含行业的、类似企业的比较数据,这些数据既可能与财务相关,也可能与财务无关,但都是必要的,没有多余的信息。唐代的韩愈在《进学解》中说:“玉札丹砂,赤箭青芝,牛溲马勃,败鼓之皮,俱收并蓄,待用无遗者,医师之良也。”注册会计师作为外部审计的“良医”、“良工”,需要的是对这些“数据”俱收并蓄、善加利用。
(二)风险在哪里?“大数据”来告诉你
对于注册会计师来说,大数据就像是一座金矿,有用的信息就蕴含在其中,需要审计人员采用大数据技术去分析和提炼。大数据技术告诉我们只有掌握足够大的数据样本,运用大数据理念进行分析和挖掘,才能发现用其他方法很难或无法发现的规律、趋势和异常;且大数据只会告诉我们分析的结果,而不会告诉我们原因,即只知其然而不知其所以然。对我们的审计工作来说,知道风险所在、异常记录,揭示了错报风险领域就已经达到了风险评估的目的,完成了这一阶段的任务。
(三)运用“大数据”,构建数据库是前提
国务院《关于加强审计工作的意见》中提出:“推进有关部门、金融机构和国有企事业单位等与审计机关实现信息共享,加大数据集中力度,构建国家审计数据系统。” [2]随着国家审计数据系统、“国家政府信息开放统一平台和基础数据资源库”的构建和完善,以及政府数据资源共享开放工程的推进,将对注册会计师利用大数据技术进行审计提供极大的便利。同时加强注册会计师行业内的信息化建设与共享,对于外部审计领域成功应用大数据具有重要作用。广大的会计师事务所从业人员,也期望注册会计师协会作为行业的管理者和引领者,能够整合注册会计师掌握的海量原始数据、政府部门及其他来源的数据,在已经运行的法律法规库和经济数据库的基础上,构建行业内的更大规模的审计数据系统。
当然,大量的数据还是依靠注册会计师和会计事务所的长期搜集、整理和积累,事实上国内外许多知名会计事务所早已建有自己的数据系统,在提供审计、管理咨询等服务时,发挥了重要作用。
二、在实质性程序阶段,运用大数据改进审计方法
(一)以详细审计、整体审计,取代抽样审计
从世界审计史的发展来看,在审计发展的早期阶段――19世纪末以前,审计师大都运用详细审计技术对财务资料或其他记录进行逐笔审查。当时,企业规模较小,经济业务不很复杂,审计师有能力做到这一点。但是,随着社会生产力的发展,企业规模越来越大,经营活动日趋复杂,会计记录成倍增长,致使审计师无论从专业能力,还是花费的时间、费用来看,都无法继续运用详细审计。[3]在这种情况下,抽样审计就应运而生了,并逐渐取代了详细审计。但抽样审计无论抽样方法设计的多么科学,始终都是对部分样本的审查,是以部分推测整体,它提供的只能是合理保证;甚至是以偏概全、审计失败,这样的案例并不少见。可以说,抽样审计是在经济、科技发展水平限制下的无奈之举。
在社会经济、科学技术高度发展的今天,“互联网+”、云计算、大数据技术纷纷出现,深刻地改变了人们做事的思维和方法。大数据技术的出现、审计科学的发展,使审计师能够快速获取、分析并审查一个跨国的、拥有众多分支的庞大商业帝国海量的财务和非财务数据,采用详细审计的技术条件、物质条件已经具备。运用大数据技术进行详细审计,检查所有的样本,显然能够避免抽样审计以偏概全的弊端,使所有异常记录都无处遁形,对于保证审计质量、避免审计风险,具有重要乃至革命性的作用。
(二)仰之弥高的“大数据”,如何“入吾彀中”、为我所用
唯有创新电子审计技术,充分运用互联网、云计算等信息处理技术,开发和完善审计软件、数据分析软件等辅助工具,才能促使大数据审计技术落地。大数据是经济、科技发展的产物,其运用也必须以电子技术、信息处理技术等作为支撑和基础。财务核算软件、ERP管理系统、SAP管理系统等为越来越多的企业所采用,企业信息生成越来越电子化、自动化、数据化。这就要求注册会计师审计也必须适应这种变化,充分运用电子、信息等技术手段,实现审计数据采集、分析、处理的自动化、智能化,提高审计手段的科技含量。
在手工记帐时代,财务数据的采集、各种审计明细表的填列,耗费了注册会计师大量宝贵时间,往往填列一个较复杂表格就需耗费半天甚至一天的时间。而企业采用财务软件实行电算化后,注册会计师借助各种审计软件的“取数工具”,可在数分钟内完成一年甚至多年财务数据的采集,大大简化了审计工作流程、提高了审计工作效率。
现在,随着“互联网+”、云计算等信息处理技术的发展,“财务云”、“审计云”的出现,审计数据在技术上已经可以实现实时传输,审计模式也正在由集中审计向分散审计、实时审计发展,这必将推动审计由事后审计向事前审计、事中审计发展,大大提高审计成果的时效性。
数据采集的便利化、实时化,为大数据技术的运用创造了前提条件。但如果依靠人工去分析、核查这些海量数据,无疑是“无法完成的任务”。这就要求创新电子审计技术,开发适应大数据审计所需的审计软件、“尖端数据分析工具”,以配合注册会计师的人工分析、职业判断。大数据审计技术的运用,可以将审计人员从繁杂、重复的“低级”工作中解放出来,使之能够将有限的时间和精力放到更有价值的审计分析和职业判断上。这必将大大提高注册会计师的审计工作能力和效率,解放和提升审计“生产力”,促进外部审计领域的供给侧改革。
三、在审计报告阶段,利用大数据形成综合性审计成果
注册会计师在运用大数据技术进行审计的过程中,通过采集、分析、挖掘、判断大量数据信息,不但可以获取有关审计结论的证据,还可以发现企业在经营管理、内部控制等方面存在的问题,以及揭示企业的发展趋势、面临的风险等。
“智慧中国(Smarter China)”是以信息化为龙头,以科技为支撑,以创新为驱动,以环境为载体,以智慧为本位,涵盖城乡管理生产、生活、环境、文化等方面的智能化。“智慧中国(Smarter China)”是“数字中国(Digital China)”发展的高级阶段。形象地讲:数字中国+物联网+云计算+大数据+……=智慧中国。因之,智慧中国离不开大数据技术,我们必须用大数据技术来建设智慧中国。
大数据的定义及特征
联合国资料显示,全球互联网流量累计达到1EB(即10亿GB或1000PB)的时间在2001年是一年,在2004年是一个月,在2007年是一周,而2013年仅需一天。未来10年里预计数字信息总量将从2009年到2020年增长44倍,全球数据使用量将达到大约35.2ZB(1ZB=10亿TB)。
大数据(Big data)泛指P(1000个T)级以上的数据(包括E(100万个T)、Z(10亿个T)级大数据)。维基百科把大数据定义为一个大而复杂的、难以用现有数据库管理工具处理的数据集。广义上,大数据有三层内涵:一是数据量巨大、来源多样和类型多样的数据集;二是新型的数据处理和分析技术;三是运用数据分析形成价值。因之,业界将大数据的特征概括为4V:Volume(大量)、Velocity(高速)、Variety(多样)、Value(价值)和“1秒定律”。
大数据技术包括信息的采集技术、整理加工技术、存储技术、管理技术、传输技术、搜索技术等各个方面,涉及到数据库、网络、人工智能、通信、地理信息系统、多媒体、仿真等信息技术的各个专业领域,其核心技术是数据挖掘(DM)和数据分析技术,其本质是知识发现(KDD)。
物联网、云计算、移动互联网、车联网、手机、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或者承载的方式。在智慧中国建设中,大数据将会如基础设施一样,有数据提供方、管理者、监管者,数据的交叉复用将大数据变成智慧中国的一大产业。据统计,目前大数据所形成的市场规模在51亿美元左右,而到2017年,此数据预计会上涨到530亿美元
大数据对智慧中国建设的推动作用
大数据将对智慧中国的科学研究、经济建设、社会发展和文化生活等各个领域产生革命性的影响;对培育数据产业,服务智慧中国,促进经济结构调整和产业转型,将产生巨大的推动作用。
大数据将改变智慧中国的治理模式、企业业务流程和个人生活方式。大数据时代网民和消费者的界限正在消弭,企业的疆界变得模糊,数据成为核心的资产,并将深刻影响企业的业务模式,甚至重构其文化和组织。因此,利用大数据更加贴近消费者、深刻理解需求、高效分析信息并作出预判,将对智慧中国治理模式、对企业的决策、组织和业务流程、对个人生活方式都将产生巨大的影响。
大数据将引发智慧中国新一轮信息化投资和建设热潮。据麦肯锡预测未来智慧中国大数据产品的潜在市场规模有望达到1.57万亿元,给IT行业开拓了一个新的黄金时代。数据处理技术和设备提供商、IT系统咨询和ERP/CRM/BI改造服务商、智能化和人机交互应用以及信息安全提供商将获巨大需求,相应公司将获得机会。
大数据为智慧中国拥有数据资产的企业提供发展机遇。预计今明两年将是大数据市场的培育期,2015年以后大数据产品将会形成业绩。由于国际巨头在硬件层和基础软件层垄断优势明显,本土企业将主要依靠对客户需求的了解和客户资源优势,以及本地化服务的优势,在应用软件层分得蛋糕,拥有大数据处理、挖掘技术、数据分析人才以及数据资产的公司值得看好,将在智慧中国建设中迎来难得的发展机遇。
大数据反映智慧中国的舆情和民意。网民在网上产生的海量数据,记录着他们的思想、行为乃至情感,这是信息时代现实社会与网络空间深度融合的产物,蕴含着丰富的内涵和很多规律性信息。根据中国互联网络信息中心统计,2013年底我国网民数已超过8亿,手机网民已超过6亿,通过分析相关数据,可以了解智慧中国的大众需求、诉求和意见。
大数据将对智慧中国社会发展带来巨大推动作用。企业和政府的信息系统每天源源不断产生大量数据,根据赛门铁克公司的调研报告,全球企业的信息存储总量年增67%。医院、学校和银行等也都会收集和存储大量信息。政府可以部署传感器等感知单元,收集环境和社会管理所需的信息。智慧中国倘若能够更有效地组织和使用大数据,国家将得到更多的机会发挥科学技术对社会发展的巨大推动作用。
选择重点领域推进智慧中国大数据建设。
用大数据技术建设智慧中国要重点选择以下八个具有大数据基础的领域和具有迫切需求的行业,探索“数据、平台、应用、终端”四位一体的新型商业模式,推进大数据产业发展,促进大数据技术成果惠及广大民众。
城市规划。根据全国城镇化建设工作会议的战略部署,重新搞好各地的城镇建设规划;通过对城乡地理、气象等自然数据和经济、社会、文化、人口等人文社会信息的挖掘,为城镇规划提供强大的决策支持,强化城镇规划的科学性和前瞻性;尽快实施数字化城市管理新模式,使城市管理实现快捷有序科学化。
智慧交通。针对交通规划、综合交通决策、跨部门协同管理、个性化的公众信息服务等需求,建设全方位交通大数据服务平台。整合城乡道路交通、公共交通的大数据资源,汇聚气象、环境、人口、土地等行业数据,逐步建设交通大数据库,提供道路交通状况判别及预测,辅助交通决策管理,支撑智慧出行服务,加快交通大数据服务模式创新。针对现代物流业务的需求,建设物流大数据平台。汇聚整合城乡货物、运输车辆等数据,融合多源物联网、北斗导航等数据,实现货运数据共享服务,建立基于大数据的现代货运物流服务体系。
医疗卫生。针对临床质量分析、医疗资源分配、医疗辅助决策、科研数据服务、个性化健康引导的需求,建设全民医疗健康公共服务平台。在健康信息网已有数据的基础上,汇聚整合医疗、药品、气象和社交网络等大数据资源,形成智能临床诊治模式、自助就医模式等服务模式创新,为民众、医生、政府提供医疗资源配置、流行病跟踪与分析、临床诊疗精细决策、疫情监测及处置、疾病就医导航、健康自我检查等服务。建设完善涵盖城乡所有患者的电子诊疗档案库,形成PB级的医疗健康大数据资源,实现支撑城乡主治医生同时在线诊疗的辅助能力。
食品安全。针对食品安全和管理的需求,建设食品安全大数据服务平台。汇聚政府各部门的食品安全监管数据、食品检验监测数据、食品生产经营企业索证索票数据、食品安全投诉举报数据,建成食品安全大数据资源库,进行食品安全预警,发现潜在的食品安全问题,促进政府部门间联合监管,为企业、第三方机构、公众提供食品安全大数据服务。
数字生活。针对日益增长的现代化生活需求,建设数字生活大数据服务系统。收集整合流行时尚、行业发展指数、用户消费习惯、收视记录、社交媒体、地理位置等大数据,充分挖掘用户的消费习惯和兴趣偏好,提升企业辅助决策能力,形成有市场竞争力的创新商业模式,面向所有消费者提供个性化衣食住行生活互动信息。
制造业。针对科学评价生产系统规划、降低产品缺陷率等需求,建立制造业大数据系统。整合已有的车间制造、质量体系、工序数据、成本核算等建模数据,为工厂生产、实际建设提供决策依据。收集产品生产过程各环节的实时质量数据,实现敏捷的一体化质量监测和管控,并支持产品质量追溯,形成基于大数据的一贯过程质量控制及分析系统,并向第三方提供服务。
公共安全。针对治安防控、反恐维稳、情报研判、案情侦破等实战需求,建设基于大数据的公共安全管理和应用平台。汇聚融合涉及公共安全的人口、警情、网吧、宾馆、视频、人脸、指纹等海量业务数据,建设公共安全领域的大数据资源库,全面提升公共安全突发事件监测预警、快速响应和高效打击犯罪等能力。
科技服务。针对科技服务数据整合、交互式服务、发展趋势预测、战略决策支持等需求,探索科技服务链整合、众包分包、供需对接的交互式平台型服务模式,建立科技服务业资源共享体系,建设跨领域科技服务与工程创新平台。汇聚科技成果、项目、人才、服务、互联网创新创意等大数据资源,支撑研发设计、技术转化、创新创业、科技咨询等方面的科技服务。打造“科联工程”,形成跨领域的大数据服务模式。
依托统计部门为全国大数据采集应用探索新路。
统计部门是城乡大数据采集应用的主导部门,在业务工作中要不断明确工作重点,有条不紊地落实和推进大数据应用工作,为全国大数据采集应用探索新路。一在专业突破方面,以价格统计和贸易统计为例,逐步研究采集互联网信息特别是电商交易数据和价格数据以补充完善调查样本,研究建立商场、超市和电商企业向统计部门提供完整电子化交易记录的制度。二在企业电子化记录应用方面,要与有关高校和科研部门协作,积极研究开发企业电子化生产经营记录自动导入统计联网直报系统的技术,争取2014年在联网直报平台正式加载自动导入软件。三在应用政府部门电子化行政记录方面,进一步加强与民政、工商等部门的协作配合,推进电子化行政记录和统计信息的共享。在居民收入、劳动工资等统计中,要不断研究通过对税务、银行等部门行政记录的分析,评估公民收入、工资、家庭资产等统计数据,特别是评估与校验高收入阶层的相关数据。四在利用大数据开展经济走势预测方面,各级统计部门要与网络公司、科研单位和咨询机构等开展合作,探索利用网络搜索数据建立相关统计分析和计量模型,进行经济形势分析预测,为各级政府决策提供服务。
用大数据建设智慧中国应采取的对策
大数据的应用与分析对做出科学决策具有重要意义,我们从现在开始就应该为数据收集和数据分析做好充分准备,以确保智慧中国快速建设。
建设“大数据”宽带高速通道。大数据如同节假日高速公路上的汽车,如果路面狭窄就会发生严重拥堵。该文原载于中国社会科学院文献信息中心主办的《环球市场信息导报》杂志http://总第535期2014年第03期-----转载须注名来源对此,我国电信、移动、联通、广电等电信企业要积极落实“国家宽带工程战略”,争取在“十二五”末建成融合3G(第三代移动通信)、4G(第四代移动通信)、WLAN(无线局域网)、宽带固网及NGB(下一代广播电视网)等城域高速网络,实现高速安全、多层次、立体化网络覆盖;实施“宽带中国”战略,全面实现“百兆到户,千兆到企”的宽带接入能力,城域网全面支持IPv6(国际互联网协议第6版)访问与解析;WLAN热点覆盖广泛,城乡无线宽带网络覆盖率达到90%;力争实现TD-LTE(分时长期演进)网络全面商用,极大满足智慧中国建设的需求,为大数据的广泛应用拓宽通道。
实施“三网融合”和数字家庭试点。推动基于互联网、通信网、广播电视网的产业转型和资源融合,重点发展基于广电网的电信增值业务、互联网接入业务和电信运营商的IPTV(交互式网络电视)业务;开展“三网融合”数字家庭试点示范,普及家庭高清互动娱乐、视频通信、节能管理、安全监控、远程教育、家庭医疗保健等智能化信息应用。到“十二五”末,形成全国统一有线广播电视网,建成IPTV、手机电视集成播控平台和综合业务管理平台,全面实现广电和电信业务双向进入,使数字、图像、视频等大数据公开使用,畅通无阻。
构建各级政府大数据中心。建设和完善人口、法人、空间地理和宏观经济等基础信息数据库,以及市场监管、社会信用等专题信息数据库,制定管理办法,完善信息动态更新机制,依托各级云计算中心建设政府大数据中心,提高从大量数据中采集、访问、组织、分析和可视化处理信息的水平。到“十二五”末,各级要建成多层次的空间信息云服务体系,建成宏观经济数据库,为贮存、计算、处理、分析大数据,满足城乡管理、企业生产经营、公民生活需求和政府智慧决策提供服务。
建立政府和社会联动的大数据形成和应用机制。各级政府部门和各行业要全面实施信息公开制度,推动公共数据资源的开发利用,提高信息资源社会价值和经济价值。积极推行政府网上办事,收集分析挖掘社会政务服务需求,推进公共服务个性化和政府决策智能化。支持公共服务机构和商业机构开放与社会民生密切相关的公共数据。推进国民经济各行业和企业数据开发,发展商业智能。鼓励开展服务大众的大数据应用,提升智慧生活品质。
制定实施大数据的有关政策措施。大数据就是资源,建设智慧中国离不开大数据的开发应用,必须制定有关政策措施,确保大数据这一科技生产力发挥作用,以推动智慧中国建设。
创新体系建设。各省市要成立“大数据产业技术创新战略联盟”,设立“大数据科学实验室”、建设“数据工程技术研究中心”等,以大数据技术创新及产业应用为目标、以联盟为纽带促进形成若干引领大数据产业技术创新的企业联合实体;以合同契约为保障有效整合产、学、研、用等各方资源,以技术创新为驱动力、市场刚性需求为推动力,发展拥有自主知识产权且符合国内外产业发展需求的共性应用技术、产业标准和产品规范。
培养专业人才。开展数据专业领域人才的培养,培训一批资深数据工程师,培育跨界复合型人才,与国内外数据专家形成持续稳定的协作关系。鼓励高等院校和企业合作,开展数据科学和大数据专业学历教育,依托社会化教育资源,提高大数据产业人员的业务水平,发挥大数据高层次引进人才的重要作用,开展大数据专业培训,形成人才梯队。
完善制度法规。研究大数据产业相关的政策法规,提出数据资源权益、隐私保护等方面的法规细则建议,制定大数据相关标准,并提出技术解决手段,在保护数据资源的同时,促进数据资源合理有序地开发利用。在人才、财税、科技金融等方面设计有利于数据人才和数据产业发展的政策,逐步建立有利于各地大数据研究与发展、并保障大数据安全的制度法规体系。