时间:2024-01-05 17:06:02
导语:在大数据云计算技术的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
混合云将成企业模式
尽管EMC在存储业界堪称老大,但目睹了EMC World 2011的宏大规模还是令记者吃惊不已:会议举办地拉斯维加斯机场里竖立的一块块广告牌、偌大的大会会场座无虚席的火爆场面、上万人参会的熙熙攘攘的会场内外、现场500多场讲座和100场动手实验室及展示、一次次的新闻⋯⋯这些除了表明EMC在业界的领导地位和影响力外,更说明企业用户急需解决当前IT遇到的种种难题和困惑。
对于当前用户面对的海量数据,Joe Tucci分析说,在疯狂增长的企业数据中,有90%的数据是非结构化数据,像文件、照片、视频、电子邮件或社交网络通信。同时,除了数据量的增长外,目前使用的数据类型、管理数据的方式,以及企业员工使用的设备(包括桌面和智能手机)的数量也在不断增加。他认为,新型的开源网络应用框架正在改变数据创建和访问的方式,而具有新型框架的客户将会把内部基础架构转移到基于x86服务器的私有云,并与公共云服务合作伙伴结成联盟,未来企业云的模式将是由私有云和公共云共同组成的混合云。而无论是私有云、公共云还是混合云以及大数据,都给企业带来了IT转型的机会。这些大趋势正在转变企业管理信息资产、从信息资产提取价值的方式。
Gartner数据显示,2010年有35%的企业部署了私有云,而2011年还将有超过30%的企业参与其中。Joe Tucci表示:“在云计算中,信息安全是企业关注的首要问题,因此,能否让企业信任私有云、公共云或混合云是云计算发展的关键所在,我们确信EMC能够得到企业的认同。”
为了帮助用户尽快踏上“云”的征程,有效管理大数据,在这次大会上,EMC推出了新一代全球可访问云存储平台Atmos 2.0,以更加强大、高效率地管理分布式大数据和云环境。Atmos 2.0的管理速度提高了5倍,管理效率提高了65%。
另外,EMC还宣布Symmetrix VMAX系列存储系统为进一步加速用户的云计算进程而增加了多项新功能。据说,今年以来,EMC已经推出超过50种全新的Symmetrix VMAX功能,促使EMC今年第一季度高端存储产品收入增长了25%。
“闪电计划(Project Lightning)”是EMC此次的一项进一步促进闪存技术应用的战略,即推出基于PCIe/闪存的服务器高速缓存技术,在服务器中集成闪存,并将其作为阵列的高速缓存和存储系统。此消息一出,尽管EMC否认其将涉足服务器领域,但还是有不少人对此表示怀疑。
大数据重在数据分析
“大数据(Big Data)”可以说是继云计算之后的又一新鲜名词,也是此次EMC World的主题之一。
会上,EMC推出了据称是世界上最大的单一文件系统EMC Isilon IQ 108NL横向扩展NAS,在单一文件系统和单个卷中可扩展至15PB以上,从而为最大限度地利用大数据机遇提供了存储基础。同时,EMC还针对常用于数据密集型分布式应用的Apache Hadoop开源软件,推出了世界上第一个定制的、高性能的Hadoop专用数据协同处理设备Greenplum HD数据计算设备,它结合Hadoop和Greenplum数据库,在一个单一、无缝的解决方案中实现了结构化和非结构化数据的协同处理,并同时推出了面向Hadoop的Greenplum HD社区版和企业版软件。
【关键词】云计算 大数据 网络
云计算技术是基于网络,提供数据计算服务、存储服务的新型网络管理调度技术,统筹的将网格计算、并行计算以及分布式计算加以实现,应用到了网络数据管理中,并结合其他软件、硬件提供给用户多种服务。利用云技术,可以大幅度的提高资源利用率,这一新型的超级计算其数据非常密集,能够实现集数据存储、数据计算、服务器功能、应用软件功能、IT软硬件设备资源虚拟化。当今全球互联网的流量也在爆炸式的增涨着,云计算与大数据的应用是数据处理的重要技术。并且,随着网络技术、软件技术的发展,云技术在数据的处理中展现出了越来越多优势,如表1所示。
大数据是在云技术之上兴起的新课题,大数据往往具备以下四个特征:
(1)大量的数据;
(2)多种类型的数据;
(3)数据生成及处理速度快;
(4)大数据的巨大价值;这也就是大数据的4V特征。
并且S着基于云计算技术的大数据不断的发展,还提出了大数据的第五点特征及要求,便是强化大数据处理分析中的准确性(Veracity),目前的大数据处理已经进入了5V时代。
1 大数据的特点
大数据技术对比传统数据的诸多特性来分析,具有非常明显的差异。这些差异主要体现在数据的计算、存储以及检索等多方面。传统的数据线性特征显著,对比离散型显著的大数据而言,大数据的发散性、随机性、爆发性显得更为复杂,但是这种复杂的数据能够体现出更为客观的现象,具备更有效的价值。
2 关键技术
2.1 数据存储技术
信息数据在进行存储时的可靠性、安全性以及读写时的效率是云计算技术的基础,利用云计算技术在存储时,往往采用分布式存储,将大量的数据进行汇总并储存到集群服务器中。这种存储技术往往会对数据进行备份储存,利用先进的数据加密技术配合冗余存储能够确保数据的可靠性、安全性。以HDFS为例:
HDFS是一种分布式文件存储系统,被广泛应用在通用硬件中。这一系统具备较高的容错功能,能够在廉价设备上实现应用,并且其对数据访问的吞吐量也很大,适合应用在大数据集的处理上。HDFS系统可以进一步的实现文件系统中的数据流式读取,在大数据处理中,HDFS常被设计成能够实现平台间便于迁移的系统,这就令大数据集的应用更便捷,如图1所示。
2.2 虚拟化数据管理
云计算的主要功能在于针对大量的数据进行分布式的分析处理,并且为用户提供高效的服务,这就需要强大的数据管理能力作为支撑,而基于云计算的大数据技术在数据管理中具备虚拟化特征。将数据处理的计算机系统转换成了虚拟层,利用硬件设备资源,配合操作系统建立了这样一个虚拟的空间链接数据处理的各层级。令上下层的配合更灵活,极大程度的缩减了开销,提高了资源利用率。
3 大数据与云计算的关联
大数据的处理是将云计算技术视为一种技术平台,大数据在进行数据处理时的首选处理形式则是云计算技术,云计算为大数据的处理分析提供了最适的存储空间及计算能力,可以令大量的数据信息迅速的分析出结果,便于使用付诸现实。而云计算技术的主要功能在于计算能力,大数据则可以视为接受计算处理的对象,前者对于计算能力更为注重,后者则是更倾向于存储功能。将存储的大数据付诸应用的重点在于数据处理,而云计算恰好满足了这一功能性要求。
4 总结
大数据处理技术与云计算在信息处理中展现出了极大的潜力,结合这两种技术能够实现信息传递的高效性、准确性、大容量。在很多领域,应用基于云计算的大数据处理技术表现出强大的功能。随着网络信息技术的高速发展,信息数据的传播数量及速度都亟待提升。基于云计算的大数据处理仍需进一步的开发,并对这一新技术加以应用,相关技术的研究也是当前学术界的关注点。
参考文献
[1]丁有伟,秦小麟,刘亮,王涛春.一种异构集群中能量高效的大数据处理算法[J].计算机研究与发展,2015(02):377-390.
[2]李贞强,陈康,武永卫,郑纬民.大数据处理模式――系统结构,方法以及发展趋势[J].小型微型计算机系统,2015(04):641-647.
[3]李敏,倪少权,邱小平,黄强.物联网环境下基于上下文的Hadoop大数据处理系统模型[J].计算机应用,2015(05):1267-1272.
[4]彭建华,李臣明,邱军林,李晓芳,徐立中.接收与处理分离的实时大数据处理模型[J]. 计算机科学与探索,2015(08):906-913.
[5]张少敏,毛冬,王保义.大数据处理技术在风电机组齿轮箱故障诊断与预警中的应用[J].电力系统自动化,2016(14):129-134.
Informatica是全球首屈一指的独立数据集成软件提供商。现在,世界各地的组织在Informatica公司的帮助下,都能为其主要的业务需求提供及时、相关和可信的数据,使其在当今全球信息经济中获得竞争优势。目前,全球已有超过 4,500 多家企业依靠 Informatica 提供的解决方案访问、集成并信任其位于企业内外及云中的信息资产。凭借对技术和客户应用趋势的准确把握,Informatica对于2012年云和大数据的变化有了非常清晰而深入的掌控。
2012年,企业对于云解决方案的思维模式将发生变化。首先,在企业以及政府部门中,云将从考虑阶段广泛进入实施。更多的IT机构将从成本中心转向利润中心,这部分是因为采用了云计算。另外,“离群”云集成和点到点应用集成将被更具战略性的、全公司范围的数据集成战略所取代。这个战略跨越了本地部署和云环境,为即使是中型企业提供了一个单一、统一的公司数据视图。
由于云计算部署的加快,在公共云方面,Gartner预测,到2013年,云计算在整体IT预算中会增长20%或更多,到2016年底,有超过50%的Global 1000公司将在公共云中存放客户敏感数据。在Informatica,我们相信,在2012年,混合环境将成为常态,机构将需要访问和分析在其IT环境中的数据,全面跨越传统的本地部署,以及私有和公共云。
云部署的加快,对大数据解决方案产生了深刻的影响。Informatica相信,越来越多的客户数据“生存”在完全不同的云环境中,公司向面临更多的对于数据质量的挑战。尽管价值客户的慷慨赠与就在云中,但要得到一个非常理想的其客户的单一视图以告知以客户为中心的营销战略,会更难而不是更容易。
同时,2012年,法规遵从、风险管理和推动以客户为中心将继续是机构了解和改善其数据状态的推动力。然而,Gartner预测,“到2015年,超过85%的财富500企业将无法有效地利用大数据获得竞争优势。”Informatica相信,尽管有关于大数据的持续的推广,但是大多数的机构将继续为实现他们所访问的数据的1%的潜在价值而努力,需要利用大数据解决方案获得更大的竞争优势。
在2012年,在大数据解决方案将会如何影响客户服务和关系方面,Gartner预测,“对访问和识别能力的需求,在‘大数据’源,如社交网络中,单个客户、产品和供应商被推荐,以及把他们内部地连接到授权的主数据上,将为改善市场、销售和客户服务提供一个新的机会。”Informatica相信,机构将从理论和计划转向实际部署数据治理和主数据管理(MDM)最佳实践。同时,通过对社交和位置数据的分析获得对客户前所未有的了解,将使得更多的机构放弃大众化营销,转而赞成不仅仅是针对个体的个性化营销,而且针对那些可以影响其他人购买行为的个体进行个性化营销。
在大数据中即将产生的变化影响IT团队方面,Informatica认为,随着企业不断寻求更高的数据回报,Data Steward的角色将变为主流,很多数据相关的责任业务分析师与IT专家已经非正式地结合在一起形成了一个正式的工作职能。而且,对Hadoop开发者将会有更高的需求,技能短缺将继续且很可能加剧。在明年,Hadoop将继续获得牵引力,但在2015年前都不会成为真正的主流。
关键词:云计算;大数据;数据容灾
中图分类号:TP393 文献标识码:A 文章编号:1009-3044(2014)32-7574-02
1 概述
当代云计算数据中心的存储节点数量少则几十万多则上百万,在规模如此庞大的海量存储系统中,节点失效或磁盘损毁已然成为一种常态,此外,由于网络设备或者传输线路故障等原因导致的数据丢失或短时不可用现象也常有发生。如果用户或企业不能随时随地存取自己所需的数据,甚至发生数据丢失的现象,将大大影响客户满意度,甚至给企业带来巨大的经济损失,因此,必须采取有效措施及相关技术策略来保证云端数据的可靠存储。
2 云端数据中心拓扑结构
云端数据中心是大数据存储的基础平台,数据的可靠性及访问效率与网络节点的拓扑结构紧密相关。按节点功能类型的不同,可将数据中心节点的拓扑结构分成三种类型[1]:①以server(服务器)为为中央节点的星型结构;②以 switch(交换机)为中央节点的星型结构;③混合结构。三种拓扑结构的特点如下:
以server为中央节点的结构将多台server通过传输介质直接互连起来,在这种结构中,server兼任switch的角色,一方面承担数据的加工处理工作,另一方面承担分组的存储转发工作,以server为中心的结构增加了服务器之间的网络带宽,摆脱了对交换机的过度依赖,提高了吞吐量;但是server之间的链路带宽的不均衡增加了布网的复杂度。
以switch为中央节点的结构将各台server通过switch进行互连,switch和server各司其职,switch负责分组的路由转发,server负责数据的存储加工,这种结构布网简单,操作方便,可扩展性强,在现代企业数据中心应用较广泛;但以交换机为中心的结构存在底层server利用率低、switch资源浪费较为严重、网络带宽容量有限、灵活性差等缺点。
混合结构是以上两种结构的一种扩展,其设计融合了这两种结构的优点并有效避开了各自的缺陷。
3 云端数据容灾技术
容灾技术是云端大数据可靠存储的一种关键技术,良好的容灾策略不但能有效提升大数据存储系统的可靠性,还有助于提升系统的访问效率。容灾策略一般都采用冗余备份技术来实现,以确保当出现某种突发状况导致存储系统中的文件、数据、片段丢失或者严重损坏时,系统可准确而快速地访问冗余数据来维持系统的稳定运行[2]。一般来说,容灾技术按策略的不同主要分两种:①复制冗余策略;②纠删编码冗余策略。
3.1 复制冗余策略
复制冗余策略为系统中的每一个数据都建立一个或多个副本,并把若干个副本分散存储在不同的网络节点上,当遇到某个数据损毁或失效不能正常使用时,可通过访问最近的存储节点来获取与原件完全一致的副本数据[3]。基于复制的冗余策略主要关注2个方面的问题:(1)副本数量设置;(2)数据放置方法。
3.1.1副本数量设置
副本系数设置主要采取两种方式: ①静态设置副本数量,目前主流的分布式文件系统Hadoop的HDFS、谷歌的GFS都采用3副本策略,这种静态设置方法操作简单,但灵活性差;②随机动态设置副本数量,即系统根据数据的访问频率、出错概率及网络状况等动态因素随机地确定副本系数,动态地删除或添加副本,这种动态机制能大大增加存储空间的利用率,但动态计算过程增加了系统的开销;
3.1.2数据放置方法
巧妙的数据放置方法能通过提高并行访问量来提升云端大规模数据的访问效率,目前,数据放置方法一般采用顺序放置和随机放置[4]。
①顺序放置方法把数据副本按顺序分布存储在不同节点上,使得排列数目相对较少,针对系统的随机失效有一定的防护性,顺序放置方法技术简单、易于实现和维护,但在具体应用时,因失效具有很强的相关性,局部的网络故障或节点失效就有可能导致整个机架的数据不可访问。
②随机放置方法是在可放置节点中随机地选择一系列节点来存放数据副本,此方法能够降低关联对系统可靠性带来的负面影响,但在实际应用中,由于节点的存储、计算能力各不相同、数据的访问热度也不尽一致,往往达不到理想的均衡负载效果。
3.2纠删编码冗余策略
3.2.2 LDPC编码
LDPC码是从蒙特卡洛及图论演进而成的编译码技术,因其稀疏检验矩阵(少量元素是1,其余部分全是0)特性,被研究者广泛用于设计复杂度低的解码算法,LDPC码可以有效提升系统的容灾能力,但是构造不规则码字的难度也相应成倍地增加。
3.2.3阵列编码
阵列码的编译码过程只涉及基础的二进制异或运算,技术实现相对容易,而且在采用同等编译码的前提下,阵列码比RS码更能有效地提高系统的可靠性,与此同时保持其计算域不变大,阵列码技术一直是大数据可靠存储关键技术的研究热点,被广泛的应用于磁盘阵列及网格存储系统中。
3.2.4 RS编码
RS码是一种高效的纠错码,既可以纠正突发错误,又可以纠正随机错误,在通信领域中有极其广泛的应用,近年来,随着大数据存储技术的快速、多元化发展,有研究者对RS编码行了改造,并将其应用于数据存储领域以提高系统的容错性。
4 云端系统节能减耗技术
数据存储是各种云计算服务赖以施展的基础,在云计算环境下,底层数据中心节点的规模庞大,使得数据存储成本极高,主要源于添置各种网络硬件设施(大型服务器、交换机、路由器等)以及支付各种存储设备的高额电能消耗等。高涨的能耗开销不但增加了系统的运营及维护成本,更催化了大气温室效应,严重破坏了自然界的生态环境,因此,不论从服务商盈利的角度,还是从环境保护的角度出发,节能减耗技术都显得尤为必要。
当前,分布式存储系统的节能减耗技术主要集中在两个方面:①硬件节能策略,主要致力于降低存储系统中的硬件设备能耗;②软件节能策略,通过使用一些专业软件来实现系统资源的有效分配及使用。
参考文献:
[1] Popa L, Ratnasamy S, Iannaccone G,et al. A Cost Comparison of Data Center Network Architectures[Z]. 2010.
[2] 吴朱华.云计算核心技术剖析[M].北京:人民邮电出版社,2011.
[3] 郭仁东.网络数据容灾备份技术及其应用浅析[J].电脑知识与技术,2012(31).
大数据并非海市蜃楼
有关专家表示:“尽管大数据因其热潮而带来更多的投资和关注,其背后确蕴藏着实质资产。我们的研究突显了一项事实,即所有产业与地区的企业皆看见了大数据的商机及实际商业价值,而非仅止于虚幻的海市蜃楼。”
Gartner于2013年6月针对全球720位Gartner Research Circle的会员进行调查,旨在检视企业对大数据技术的投资计划、采用阶段、所能解决的业务问题、资料、技术以及挑战。
该调查发现,2013年,64%的企业正投资或计划投资大数据技术。其中,30%已投资大数据技术,19%计划于明年投资,另有15%预计在未来的两年内将会进行投资。
2013年领先投资大数据的产业分别为:媒体与传播业、银行与服务业。39%的媒体与传播企业表示已投资大数据,其次是银行机构(34%)以及服务机构(32%)。预期在未来两年内进行投资的前三大产业分别为运输(50%)、医疗(41%)及保险(40%)。然而,所有垂直产业皆有大数据投资及未来投资计划。
就区域而言,北美仍是投资领先的地区,38%的受访企业表示已投资于专门设计以因应大数据挑战的技术。企图心向来最强的亚太地区企业表现出的,高达45%表示其计划于未来两年内进行投资。与Gartner过去的观察一致,欧洲、中东及非洲地区(EMEA)和拉丁美洲,其技术采用的步调向来较为缓慢,于大数据方面亦是如此。
无论在任何地区,企业的投资通常会经历不同阶段。初期先累积知识并制定策略,此时期仅进行少量投资,且大多会依时间调整。接着通常会进行实验或概念验证,但仍属小规模、具尝试性质的投资。当试营运成功,企业即开始第一阶段的部署,此时投资曲线就会开始上扬。假以时日,企业的营运即开始仰赖所部署的系统,且投资也会从系统的建置转移到系统的管理。
大数据仍处于部署阶段
Gartner研究副总裁Frank Buytendijk表示:“就大数据而言,2013年为实验及早期部署的一年。企业的采用仍属早期阶段,低于8%的受访者表示其企业已部署大数据解决方案。20%的企业正在试营运及实验阶段,18%处于策略发展时期,19%尚在累积知识,然而其余企业则无任何规划或者尚处未知。”
仔细观察已投资并采用大数据的企业,70%已经跨越早期累积知识与策略形成,并且进入试营运(44%)与部署(25%)的阶段。至于那些计划于未来两年内投资的企业,其中的80%正处于早期阶段(累积知识和制定策略)。
如同大数据的优先要务不断改变,Gartner观察到大数据的挑战正随着企业在信息管理(尤其是大数据的处理)的成熟度而转变。
关键词:云计算;互联网大脑;大数据;物联网;移动互联网
1 物联网、云计算和大数据的定义
物联网(Internet of Things,缩写IOT)是一个基于传统电信网、互联网等的信息承载体,让所有可以被独立寻址的普通现实物理对象实现互联互通的一个网络系统。通俗地讲就是“物物相连”,即通过信息传感设备,把物品与互联网连接起来,进行信息交换和通讯,以达到智能化和自动化的一种新型网络。
云计算是基于互联网的一种计算方式,是互联网的核心软件层和核心硬件层的集合,是基于互联网的相关服务的增加、使用和交互模式,也是互联网中枢神经系统萌芽。通常是虚拟化的且涉及通过互联网来支持动态易扩展的经常资源。这种服务可以是互联网、软件和IT相关,也可以是其他服务。
大数据代表了互联网络的信息层,是互联网意识和智慧产生的源泉。现代社会,大数据在政治、经济、文化等各方面产生了深远影响,大数据可以引导人们开启循“数”思维模式,当下社会三分技术、七分数据,掌握数据者得天下。
2 物联网、云计算和大数据的特点
2.1 物联网的特点
(1)物联网不但具有智能处理的能力,其本身也提供了传感器的连接,可以对现实物体实现智能控制。物联网把智能处理和传感器结合起来,利用模式识别、云计算等多种智能技术,扩展物联网的应用领域。
(2)它是一种广泛的网络。物联网成立在互联网上,其技术的核心和重要基础仍旧是互联网,利用各种无线网络和有线网络与互联网进行融合,准确地实时地传递出物体的信息。
(3)物联网对多种感知技术进行了充分的应用。它部署了多种的大量的传感器,各个传感器均是一个信息源,不同种类的传感器所获取的信息格式和信息内容是不同的。
2.2 云计算的特点
(1)虚拟化。用户可以使用各种终端、可以在任意位置获取云计算所提供的应用服务。所请求的资源不是有形的固定的实体,实质是来自于“云”。存在于“云”中某地方来运行,用户只需要一个手机或者一台笔记本,就可以通过网络服务来满足我们的一切需要,而不用担心、也无需了解存在运行的具置。用户通过云甚至可以完成超级计算这样的庞大任务。
(2)规模庞大。“云”具有超大的规模,Google云计算目前已拥有超过百万台的服务器,企业私有云通常拥有成百上千台服务器,Yahoo、微软、IBM、Amazon等的“云”都已经拥有了近百万台的服务器。 “云”赋予了用户史无前例的超级计算能力。
(3)平台的广泛通用性。云计算可以构造出和支撑千变万化的应用,而不是只针对某种特定的应用,同一个“云”能够同时支撑多种不同的应用运行。
(4)可靠性很高。“云”运用了计算节点同构可互换、数据多副本容错等措施来保障服务有超高的可靠性,实现比起使用本地计算机,使用云计算更可靠。
(5)服务的可需求化。“云”是一个超级庞大的资源海洋,你可以按照自己的需求来购买;云也可以像电,煤气,自来水那样来计费购买。
(6)扩展性超高。“云”具有可动态伸缩其规模的特点,满足用户规模增长和应用扩展的需要。
2.3 大数据的特点
(1)数据的类型繁多。像前面提到的地理位置、图片、视频、网络日志信息等等。
(2)处理速度快,1秒定律,可从各种类型的数据中快速获得高价值的信息,这一特点在本质上不同于传统的数据挖掘技术。
(3)数据的数量和体积都非常之巨大。从TB级别直线跃升至PB级别。
(4)在对数据其进行准确、正确的分析并合理利用的前提下将会取得超高的价值回报。
3 大数据、云计算和物联网的关系
物联网、移动互联网等是大数据的来源,物联网产生大数据,而大数据分析则是为物联网和移动互联网提供有用的分析,获取价值。云计算与大数据两者之间有很多的交集,业界主要做云的公司有谷歌、亚马逊等都拥有大量大数据。大数据应用必须在云设施上跑,大数据离不开云。
物联网对应了互联网的感觉和运动神经系统。传统互联网,移动互联网,物联网在源源不断的向互联网的大数据层接受数据和汇聚数据。物联网的数据亦可以说是社交数据,实质是物与人、物与物的社会合作信息,而不是人与人之间的交往信息。
在互联网虚拟大脑的架构中,互联网虚拟大脑的中枢神经系统的功能是将互联网的核心软件层、核心硬件层及互联网信息层统一起来,为互联网各虚拟神经系统提供服务和支持,从定义上看,云计算与互联网虚拟大脑中枢神经系统的特征非常吻合。在理想状态下,物联网的传感器和互联网的使用者通过网络线路和计算机终端与云计算进行交互,向云计算提供数据,接受云计算提供的服务。
30年前,世界上最出色的预言家也无法预言今天网络的力量。信息世界与物理世界的融合,虚拟社会与现实社会的交织,我们已离不开网络。今天的信息网络,链接着人类社会的未来,引导着我们不断前行。在信息化建设的深入发展中,物联网更是智慧城市的重要组成部分。统计数据显示,我国在“十二五”期间将会有近千个城市加入到智慧城市的队伍中来。
参考文献:
当前云计算、物联网、移动互联网等技术飞速发展,数据的种类和规模以前所未有的速度增长,如何管理和利用大数据成为当前研究的热点。云计算和大数据技术对数据处理及服务方式产生巨大影响。文章阐述了云计算和大数据的内涵特征基础,结合医疗领域,论述了大数据的研究意义及云计算下大数据处理方式。阐述了云计算下大数据技术不仅改变了传统的数据管理模式,必将带来极大的经济与社会价值。
【关键字】
云计算;大数据;医疗行业数据;应用研究
一、前言
随着社会的发展,人们日常生活与工作产生的数据量越来越大,人类已经步入了大数据时代。数据变化具有以下趋势:第一是海量数据的需求。数据基本是以每年成倍的速度进行增长,数据量的需求分析也更细,对它的门槛要求也更低,传统的数据库无法满足这种需求。第二是快的需求。数据得到的同时,希望有智能的产生,希望能够直接产生效果。第三现在的开发者,需求是多样化的,很多时候关系型数据库并不是最优的解决方案。数据的不断增长,给数据存储、数据管理和分析利用带来了机遇;在这些包括个人信息、消费记录等的海量数据之中,蕴含着许多有价值的信息,能够为企业经营及管理提供参考。云计算作为这个大数据时代的主流技术,对于大数据的应用管理又有着重要影响。云计算是大数据的IT基础,而大数据是云计算的一个重要应用。
二、大数据的概念与意义
1、大数据的概念
大数据,即巨大数据量,不能够通过主流的软件工具,在适当的时间内收集管理处理及组织起来,使之作为企业决策的有用信息。大数据,需要特别的技术,由大规模并行处理(MPP)数据库、数据挖掘网格、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统组成。“大数据”,需要更多的决策权及洞察发现力及过程地大规模优化能力,应对新模式高增长率及信息资产多样化。大数据技术的战略意义并不是一个巨大的数据信息的掌握,而是因为这些包含了专门的数据进行处理。大数据的特点可以概括为4个“V”(大量Volume,多样Va-riety,价值Value,高速Velocity)。首先,庞大的数据量。大数据的初始测量单元至少为P(1000个T),E(100万个T)或Z(10亿个T);二、数据类型丰富。例如,网络日志,视频,图片,位置信息等。第三,低密度,高商业价值。第四、快速处理速度。这最后一点是传统的数据挖掘技术本质上是不同的。大数据技术,是一种先进的数据分析技术,能够从各类数据快速获取有价值地信息,它需要新地加工方式,实现更大决策力地海量高增长率及多样化的信息。
2、大数据的意义
面对大数据直接从所有的数据分析,挖掘所需信息。分析数据挖掘是混合的有不同来源数据结构,要求其对样品的精度高并且关注数据相关性地研究。大数据为云计算及计算能力提供了解决空间,对于大数据存储挖掘及云计算业务,大数据需要高效节能的海量云服务器,并从海量数据提取有价值地信息,能够对政府金融零售娱乐及媒体领域带来革命性的变化。云计算是基础信息存储,为数据共享和挖掘方法提供有用的工具,通过数据的分析和预测使决策更加准确。中国拥有庞大地高度复杂性充满变化的用户群体,将成为世界数据量最大的国家。探索基于大数据的解决方案能够解决海量数据带来的问题,并使国内产业升级和提高效率。
三、云计算技术与大数据结合应用
1、云计算技术
云计算,是互联网基础设施底层的抽象,是互联网相关服务的使用和交付模式,并提供一个具有扩展性和虚拟性地动态资源。云计算,将加工程序自动分割成许多较小子程序,通过互联网使一个或多个服务器搜索大量系统的计算和分析的巨大处理能力。最后将计算处理结果反馈给用户。云计算,强调动态计算能力,大数据,是静态计算的对象。
2、云计算与大数据关系
云计算和大数据是相辅相成的关系。云计算提供了大数据存储和操作地一个计算平台,大数据则利用分布式处理方法来应用此平台,云计算与大数据,前者强调计算能力,需要处理大量复杂数据:包括数据获取、整理、转换、统计。云计算,要用大量数据作为运算地基础,两者是必然趋势结合。在具体实际应用中,云计算促进了大数据的实际应用,这种应用出现在公共问题领域等。借助云计算、云存储、数据丢失、病毒入侵等问题的优势,保障数据安全和爆炸性增长的数据为企业带来了新的机遇和挑战。
四、大数据在医疗行业应用
1、医疗行业数据分析
随着医院信息化的快速发展,医疗行业产生大量的医疗数据,如何使这些数据提供帮助,即节约医疗成本,提高医疗质量,目前,医疗数据的应用,还有一些问题,一是医疗数据分散在各个医疗机构,二是数据利用率很低,医院信息系统积累了大量的数据,但在大多数情况下仅限于管理层面,很少涉及临床专业水平。在面对大量的医疗数据积累的情况下,如果可以进行有效的数据分析和数据挖掘,可以获得大量的有价值的信息,可以帮助医疗和医院决策者,从而推动到医院提供更好的医疗服务,提高治疗质量。大数据技术将在医疗领域的公共基础服务领域应用,将能够帮助医院推动医疗行业的进步。
2、大数据的应用
由于区域医疗信息化及医疗物联网地应用,能够产生大量地数据:如测试结果、成本数据、传感器数据、基因数据和图像数据等,并且还包括大量的在线实时数据分析和处理的需求数据,它们满足大数据4V特征,属于大数据类别。为了创造经济和社会价值,如何有效地管理利用这些海量地医疗数据是医疗行业面临的挑战。在医学领域中大数据技术的应用前景广泛。主要包括以下几个方面:
(1)临床决策支持系统
将大数据技术应用于临床决策支持系统,能使系统更加智能化。由于大数据分析技术的非结构化数据的强大的分析能力。例如:在医学文献数据库通过数据挖掘,为医师提出更合理的诊断及治疗意见,提醒医生对于预防潜在的错误,例如由于药品不良反应等,通过采用图像分析与识别技术,对医学图像数据进行识别并提高诊断和治疗的质量。
(2)个性化地医疗系统
通过对患者进行如基因组数据分析的个性化医疗大型数据。综合分析患者的特点及疗效数据及对患者进行基因测序的调查,对某一疾病患者的药物特殊性和敏感性的反应关系,及在治疗过程中的特殊性进行靶向治疗。
(3)监测与预报流行病
在中国疾病预防控制中心,建设突发公共卫生事件和国家传染病网络报告系统已投入运行,每年存储的病例报告和信息有600多万左右,覆盖了全国所有县疾病控制机构信息的年度报告。通过大数据技术报告海量数据可以进行综合性地分析及检测,对于通过综合疾病监测及反应程序,准确预测传播时间和路径,方便采取有效措施,减少传染病的患病率。流感的准确预测是利用大数据技术成功案例。谷歌公司对流感准确预测的成功案例是大数据技术的应用。谷歌公司把美国最常使用的搜索条目。与流感疫情在美国疾病预防控制中心的数据相比,确诊了是否感染流感。人们通过使用特定的如“咳嗽和发热药”搜索词,便获得流感治疗的互联网信息,建立了特定的搜索条件和时间空间与流感之间联系。比美国疾病控制和预防中心的数据提前一周。检测流感传播路径,他们的判断很及时。近年来,医疗行业面临着海量数据和非结构化数据的挑战,许多国家都在积极推动医疗信息化的发展。因此,大数据技术在医学领域的应用前景十分广阔。
五、结束语
大数据技术在医疗领域的大规模应用尚不完全成熟,但随着高速网络、云计算中心等基础设施建设日趋完善和大数据技术的发展,医学领域发展的趋势,将是推动大数据技术的个性化、创新化,便利化医疗。云计算、移动互联网和物联网技术的快速发展,全球范围内数据增长规模越来越大,大数据将被应用到各行各业,不仅改变了传统的数据管理模式,带来了新的思维、业务转型和管理创新,提高企业和公共部门的生产力和竞争力,也会带来巨大的经济和社会价值。大数据已成为新发明和新服务的来源,是社会新的财富。
作者:郭群 单位:辽宁对外经贸学院信息管理系
参考文献:
[1]张德丰.大数据走向云计算[M].北京:人民邮电出版社.2014.4.1.
关键词关键词:大数据;云计算;媒介
中图分类号:TP301 文献标识码:A 文章编号文章编号:16727800(2013)008000102
作者简介作者简介:胡伟(1987-),男,武汉大学新闻与传播学院硕士研究生,研究方向为网络传播 。
1 大数据时代
英特尔创始人戈登·摩尔(Gordon Moore)曾预测,计算机的处理能力大约每隔18个月便增加一倍。随着互联网,尤其是电子商务、社交媒体、智能终端的普及,每天都会产生大量的碎片化数据。以下一组数据可以反映:一天之内在互联网上被传输、使用、观看的图片是2.5亿幅;每秒钟人们发送290 封电子邮件;每分钟人们在youtube上传20h的视频;人们每月总共在Facebook 上浏览7 000 亿min;每月移动互联网用户发送和上传的数据量达到1.3exabytes,相当于1018bytes;每秒钟亚马逊处理72.9 笔订单;每天在新浪微博上发表的信息超过1亿条……以上的种种无不在宣告一个事实:数据大爆炸的信息时代正在到来,我们即将迈入一个大数据的时代。
最早提出“大数据”时代到来的是著名管理咨询公司麦肯锡:“数据,已经渗透到当今每一个行业和业务职能领域,成为重要的生产因素。人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈余浪潮的到来。” 进入2012年,“大数据”(Big Data)一词被越来越多地提及。人们用它来描述、定义信息爆炸时代产生的海量数据,并命名与之相关的技术发展与创新。那么何为大数据呢?
对于大数据我们首先想到的是数据量巨大。从TB级别,跃升到PB级别;再次就是数据的非结构化,数据类型繁多,遍布文字、视频、图片、地理位置信息等等;第三在于数据的价值密度低。以视频为例,连续不间断监控过程中,可能有用的数据仅仅有1~2s。最后在于处理速度快,在纷繁浩杂的数据中发觉问题,能否第一时间处理问题是大数据时代能否制胜的关键。
巨量数据正在成为一种资源、一种生产要素,渗透至各个领域,而拥有大数据能力,即善于聚合信息并有效利用数据,将会带来层出不穷的创新,从某种意义上说它代表着一种生产力。正是基于此,奥巴马政府将数据定义为“未来的新石油”,并表示一个国家拥有数据的规模、活性及解释运用的能力将成为综合国力的重要组成部分,未来对数据的占有和控制甚至将成为陆权、海权、空权之外的另一种国家核心资产。2012年3月22日,奥巴马政府宣布投资2亿美元拉动大数据相关产业发展,将“大数据战略”上升为国家意志。联合国也在2012年了大数据政务白皮书,指出大数据对于联合国和各国政府来说是一个历史性的机遇,人们如今可以使用极为丰富的数据资源,来对社会经济进行前所未有的实时分析,帮助政府更好地响应社会和经济运行。
综上所诉,我们不难看出,未来的时代必将是一个大数据的时代,大数据在经济、政治、文化、社会、军事等诸多领域定将会给人类带来翻天覆地的变化。但是,面对海量数据,我们如何从中精确选择、准确分析进而指导我们的行为呢?
2 大数据时代离不开云计算
提起云计算,我们首先想到的是其无比宏大的计算处理能力,但现今我们也不得不发出“英雄无用武之地”的感叹,因为当今云计算依然停留在一个概念化的层面,无论是现今的云存储还是所谓的云电视,都只是概念化的操作,毕竟缺乏巨大数据处理量支撑的云计算永远没有“落地生根”的驱动力。但是,“大数据”时代的到来,宣告着云计算春天的来临。云计算与大数据的关系是静与动的关系;云计算强调的是计算,这是动的概念;而数据则是计算的对象,是静的概念。如果结合实际的应用,前者强调的是计算能力,后者看重的是存储能力,大数据需要处理大数据的能力,其实就是强大的计算能力;另一方面,云计算的动也是相对而言,比如存储提供的主要是数据存储能力,但是主要的关键还是在于服务器的处理计算能力,因此云计算可谓是动中有静,以动为主。
面对大数据时代卷帙浩繁的非结构性数据,传统的数据统计早已落伍,面对这些问题,云计算无疑是唯一也是最佳的选择。云计算的核心在于“云”,它可将分散的、非结构性来自于各种终端的数据通过网络最后都统一到云平台中,通过云平台超大量的服务处理器对各种数据进行计算。因此,在大数据时代云计算是处理海量数据最经济最有效率也是利用率最高的技术选择。
3 大数据时代云计算对媒介发展的影响
在2012年中国新媒体峰会上,传媒梦工场的《传媒梦工场观察》对未来传媒格局做了一个绝非危言耸听的预测:“未来中国大数据媒体集团不会超过10家,单纯依赖广告的媒体活不过10年,产业面临重构,七成以上传统采编将转岗,平台型超级媒体将出现在现有框架之外…”,并大声疾呼“没有大数据,免谈大媒体”。梦工场的这一预言的根据在于其认为互联网对媒介产生的最深刻的变革是,将媒介从一个特殊经济的部门转变成一种全民适用的分享工具,在移动互联网时代这种转变尤甚,未来的大媒体集团必然为拥有强大数据库支撑的平台型公司。
反思梦工场的结论,我们可以看出尽管现今“大媒体”、“全媒体”的口号在业界甚嚣尘上,但是仔细思考,何为“大媒体”?何为“全媒体”呢?在未来必将是网络主宰的时代,在智能手机、PAD等智能移动终端日益普及,移动互联网高速发展的时代,传统媒体难道仅凭单纯的平台融合就可以继续生存吗?答案是否定的。
正如传媒梦工场总结的那样,媒介正从一个特殊经济部门转变成一种全民适用的分享工具,在移动互联网时代尤甚。根据中国互联网络信息中心(CNNIC)的《第30次中国互联网络发展状况统计报告》显示,截至2012年6月底,中国网民数量达到5.38亿,手机网民规模达到3.88亿,较2011年底增加了约3 270万人,网民中用手机接入互联网的用户占比由上年底的69.3%提升至72.2%,手机首次超越台式电脑成为第一大上网终端。而在手机应用方面手机微博延续2011年快速增长的势头,截至2012年6月底,其在手机网民中的使用率提升5.3个百分点至43.8%,是使用率增幅最大的手机应用。无论是“宜黄拆迁”、“表哥”事件还是“微博反腐”,以微博为代表的社会化媒体正将我们带入了一个“赋权”的时代,“传播权”不再是以往媒介的专利,媒介已经成为了“四海之内皆可用”的工具。
可以预见,在移动互联网时代,公众可能不再看报纸、电视,但会通过移动媒体客户端浏览新闻、信息。公众的终端变得越来越多,的信息不再仅仅是文字、图片,将来一定会涵盖音频、视频等诸多形式。公众对互联网的依赖程度变得越来越大,在网络上他可以完成购物、交流、工作等更多的活动。公众对新闻内容的生产将会有三方面的需求:①及时性。媒体需要在第一时间告诉公众欲知、未知、应知的消息,困难在于面对未来众多不同终端的UGC信息,媒体如何做到全面、迅速获取是关键;②个性化。正所谓“一千个读者有一千个哈姆雷特”,在同质化信息来源泛滥的碎片化时代,如何能迅速准确抓住受众需求,并提供相应的个性化信息是媒体差异化生存的关键;③深度性。深度不仅仅体现在信息的二次多次挖掘,更体现在如何能在最短的时间内提供最具深度的内容,“慢工出细活”在未来信息泛滥的快节奏时代不再适用。
在媒介发展从“技术为王”到“内容为王”再到“用户为王”的背后,宣告了未来一个海量非结构化的碎片数据到来的时代,即大数据时代的到来。在大数据时代谁能对数据做出准确、迅速的反应,谁就有生存下来的本钱。此时,云计算技术对媒体来说至关重要。在大数据时代的媒体必然是“全媒体”,但绝不是单纯意义上平台整合的媒体。他是在云计算技术的帮助下集合成一个大的公有平台,借助于这个平台对数据进行处理的同时,进行资源与信息共享。一方面,借助于云计算,媒体才能保证迅速、快捷的从海量数据中去粗存精、去伪存真、“溺水三千,只取所需”进而进行内容的有效加工,同时结合收集到的用户习惯、用户实时地点等信息,进行云平台整合,最终及时提供给受众个性化信息;另一方面,无论何时,广告都是媒体生存不可或缺的重要部分,广告讲求投放率,只有在充分收集用户数据、准确分析的前提下才能针对特定受众投放相应广告。因此,在大数据时代,只有借助于云计算的媒体才会真正得到广告主的青睐,其广告份额也才会有保障。
4 结语
未来的时代必将是互联网的时代,互联网的时代伴随的必然是大数据来临的时代。在大数据时代,数据就是财富,无论对于企业、政府还是媒体,收集数据、整合数据、分析数据并做出快速反应都是安身立命之本。对于媒体而言,“受众就是上帝”,随着智能移动终端、电子商务、移动互联网的快速发展,受众的相关数据成几何级的倍增都是近在咫尺的事情,美国有句谚语“除了上帝,所有人都必须用数据说话”。媒体要想生存就必须对数据做出强有力的反应,在云计算的指引下,媒体的未来任重道远。
参考文献参考文献:
[1] 白云川. 利用大数据的商业价值[J]. 中国制造业信息化,2011(20).
[2] IOD.云计算、移动应用点亮大数据盛宴[J].硅谷,2011(22).
关键词:激光雷达测量技术 直升机 云计算 三维激光点云数据
直升机激光扫描技术应用前景广泛,该技术可应用于输电线路及变电站的规划设计、施工建设、运行维护和三维可视化管理等各环节。机载激光LiDAR测量技术采集三维数据具有精度高、信息丰富、数据使用方便等优点,并能大大减少野外工作量。
一、项目需求分析
基于对目前国家电网公司范围内需求调研结果进行分析,针对如何有效提高在复杂地理环境下、高电压、大功率、长距离输电线路的安全性评估,如何真实再现现实环境中的线路本体和线路走廊,如何量测输电线路真实的距离这三方面是现阶段国网公司在直升机LiDAR技术应用上的主要需求。主要体现在以下几方面:(1)基于激光点云和线路设计参数,建立线路模型,重现线路走廊三维信息;
(2)经过对采集到的点云数据进行分类、滤波、平滑等处理过程后,生成高精度的数字高程模型DEM、数字正射影像DOM;
(3)行成对点云数据的预处理规范;
(4)实现输电线路本体三维逆向建模,构建不同电压等级、杆塔类型的杆塔模型库,并以此为基础通过人工编辑的方式对输电本体点云进行矢量化,实现杆塔、绝缘子串、导线等实体对象的空间位置匹配;
(5)提供俯视图、剖面图等多种视图对三维线路本体及线路走廊进行展现;
(6)实现对任意地物点、任意线路点的距离量测;
(7)对进行弧垂、覆冰、风偏、导线增容、树高等模拟基础上的,任意地物点和线路任意点间的趋势模拟量测;
(8)考虑在自重、覆冰、风吹等效应作用下,架空线路的弧垂、风偏等对线路相间、线路与周边地物距离的影响,并结合对应电压等级系统对安全净距的要求实现安全距离超限预警;
(9)根据不同电压等级线路安全距离,沿着输电线路生成以线路为中心、半径为安全距离的柱状通道,系统自动实现通道与树木(倒落树木)、建筑等地物之间的空间分析;
(10)根据不同电压等级线路安全距离,沿着多条交叉跨越线路生成以线路为中心、半径为安全距离的柱状通道,系统自动检测多个通道之间是否存在交集;
(11)模拟导线弧垂及风偏状态、输电线路增容、地质灾害地形、输电走廊内树木生长等场景;
(12)根据安全评估分析自动出具安全评估报告,并能根据报告在三维场景中实现对安全隐患区域的标绘。
二、创新点
(1)独创的输电线路本体及走廊三维快速建模技术
(2)首创的输电线路高精度三维量测技术
(3)首次实现了输电线路动态安全性评估
(4)独有的海量存储混合压缩算法
(5)首次采用大数据分析技术,进行有效数据分析
(6)平台与PMS系统集成
三、基于航空Lidar技术的专家评估云计算分析平台建设思路
基于航空Lidar技术的专家评估平台,将实现在三维场景中实现巡视计划的制定及路径规划,巡视过程的跟踪及结果的时时反馈及预警,对采集结果进行输电线路安全性评估并生成评估报告。
基于项目重点研究的核心内容以及应用需求,平台形成快速量测子系统、三维重建子系统和安全评估子系统三个专业子系统,全面满足业务生产需求。
(1) 快速量测子系统
快速量测子系统主要基于直升机与激光LiDAR设备的集成组装,通过与安全评估子系统巡视计划功能的综合应用,实现巡视计划提示与执行,形成巡视路线的智能分析设置;在巡视过程中完成三维点云数据的自动快速扫描,并实现安全存储;为保障直升机的安全与管理要求,直升机实时回传位置与状态信息,满足系统端的监测与历史记录要求;系统提供符合专业要求的三维点云数据存储与预处理,系统自行检查并修正数据中可能引起数据处理速度减缓的问题数据,保障后期三维场景的顺畅重建。
(2) 三维重建子系统
三维重建子系统主要是为了满足后期实际应用,将LiDAR采集的初始点云数据进行三维建模,形成数据量较小的实用化数据。为保障三维重建的快速与专业化,系统实现了三维模型库建设,完成电力应用中标准化的设施、设备模型及常见场景模型存储。
(3) 安全评估子系统
安全评估子系统主要满足直升机巡检数据的计算与分析,同时提供直升机巡检计划制定与监测,以及三维图形展示功能。
四、能够解决的问题及社会效益
基于航空LiDAR技术的专家评估平台的建设是满足电力基础设施因为经济高速发展、人民安全意识不断增强、现实地理环境负责多变而需要提供更高的安全运行与稳定保障要求,满足电网信息化建设对数据不断增强的精度要求,它所产生的社会效益主要包括以下几点:
(1)直升机激光LiDAR技术的应用可以直接采集线路走廊高精度三维激光点云和高分辨率航空数码影像,从而可分析线路与走廊地物、导线之间距离等是否满足安全运行要求,从而及时发现输电线路和通道的安全隐患;且在基础数据的基础上可实现导线弧垂及风偏状态、输电线路增容、地质灾害地形、输电走廊内树木生长等多种场景的模拟,进而辅助评估线路安全性,提高输电线路的安全性保障;
(2)机载LiDAR技术快速、便捷的优点,将极大推进电力系统三维可视化、数字化电网建设速度,从而加快为社会展现真实的电网的速度;增强输电线路及变电站运行、维护、应急抢险和管理水平,提高电网抵御恶劣环境能力,减少大量的人力、物力、财力投入;
(3)机载LiDAR技术在数据采集上的优势可应用于输电线路及变电站的规划设计、施工建设、运行维护和三维可视化管理等各环节,从而辅助电力公司规划建设安全性高、维护管理成本低、抗险御恶能力强的电力相关设施。
结束语:
基于航空LiDAR技术的大数据专家评估云计算分析平台全面保证了激光LiDAR技术应用与巡检质量,进一步促进了直升机巡检的工作展开。基于直升机巡视监控过程的分析,围绕如何实现激光操作平台的集成化改装、有效提高巡检工作质量和效率、有效利用巡视数据做出管理决策等角度拟定开发解决方案,为大规模建设的智能化电网作出了突出贡献。
参考文献:
[1]李福金,秦志伟,基于航空LIDAR点云数据提取城市地区建筑物的目标.测绘与空间地理信息,2011年3期.