时间:2023-06-12 16:20:26
导语:在数据分析设计的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
关键词:互联网+;中职英语;闯关模式;数据分析
一、引言
随着“互联网+”时代的到来,各行各业都发生了巨大变化。把互联网平台、云数据、信息通信技术与教育行业结合,或许可以在教育领域里创造一种新生态。[1]在互联网信息技术支持下,职业教育手段多样,学习途径也可以变得简单方便。信息化的教学手段不仅可以激发学生的学习兴趣,更可以使学生利用零散时间学习,打破传统教学时间和地域的限制。除此外,利用平台反馈的各种数据,教师可以随时掌握学生的学习进展和学习效果,因地制宜规划教学任务、改进教学方法、调节教学进度等。另一方面,基于闯关模式的信息化教学平台也在逐渐走入中职院校的教学课堂。由于目前大多数中职院校的英语教学主要采用传统的课堂教学手段,即“填鸭式”的教学方法。在这种教学情形下,学生学习的主动性不高,师生课堂互动少,学生缺乏学习成就感,厌学情绪强烈,导致教学效果不理想。因此,“互联网+”背景下的闯关模式教学正是利用中职学生爱玩游戏的天性,在模拟闯关游戏的情境下,在教学平台上进行游戏式英语教学。[2]让学生在游戏中主动学习,在学习中感受到游戏带来的乐趣,达到在轻松氛围中掌握知识的目的。与此同时,闯关模式的教学进度和教学成果的数据分析功能也尤为重要,通过数据分析教师可以更好的反思自己教学方式需要改进的地方,从而进一步优化教学内容。文章通过研究闯关模式的教学意义、教学流程以及教学数据分析在中职英语教学的应用,可为现阶段基于闯关模式的中职英语教学实践提供有效的方法,具有中职英语教学借鉴价值。
二、闯关模式在中职英语的应用
职业教育是以学生服务为核心的服务型教育,目的在于培育学生在步入社会工作时拥有一技之长,而不仅仅是一纸证书。大部分传统课堂教学有师资、授课时间和地点的要求,由于课时和课外精力有限,教师往往以急于完成教学大纲要求,采取“满堂灌”“一刀切”的教学方法。由于中职院校学生的基础较差,学习主动性不强,学生彼此能力不一,教师对学生的基础及进步空间不了解,“教师灌输,学生厌学”的教学方式使得教学效果很不理想。英语作为基础学科具有一定的特殊性。在中职英语教学过程中,师生互动和生生互动是非常重要的学习过程,学生敢于表达是学好英语最有效的方法。所以,在教学过程中,首先应激发学生的学习兴趣,提高学生的学习自信心,让学生敢于用英语表达,乐于用英语进行互动。使学生于交流表达互动中,逐步掌握英语的词汇、语法等。闯关模式是基于游戏设置,通过合理设计“游戏关卡”来逐层加深知识的难易程度,整个闯关游戏所有的关卡设置内容既包含理论知识所需要掌握的知识要点,又包含具体应用的实操技能训练环节,形式多样。闯关模式的实质是利用游戏激发学生的学习兴趣,在游戏成功闯关后让学生获得学习成就感,增强学习信心与动力,从而爱上学习英语,变被动学习为主动学习。[3]闯关模式设置时一定严格按照教学大纲的内容,并且时刻注意学生学习过程中反馈的各种数据,根据数据分析掌握学生学情。
(一)闯关模式在中职英语学习中的设置
闯关模式按照学习内容的难易程度设置成不同等级的关卡,以移动终端的网络平台为支撑,学生以个人或小组的形式进行闯关。闯关模式的目的在于吸引学生主动参与学习,通过这种教学模式提高了学生应用英语的整体水平,同时也提升了教师的英语教学技能和研究能力。所以,游戏是手段,不能只注重学习过程,而忽视教学成果。学生要想闯关成功,就必须要掌握融入到闯关游戏中的各种英语知识和相关表达。闯关模式教学内容的设定是核心工作,是教师应“三思而后行”的任务。教师应依据教学任务,首先将教材内容进行分析梳理,按照教学流程(单词-语句-阅读)或者所学内容的难以程度进行梯度划分,将梯度设置成“关口”。[4]在每一次闯关之前,教师可以将教学任务中布置的闯关相关词汇和句型进行讲解,建立所谓的“闯关须知”,学生要想闯关成功,必须先学会相关的词汇和句型。开始闯关后,可将闯关任务分解,以个人或团体的形式闯关。教师可以将全部的学习任务放入“通关锦囊”中,供闯关失败的学生参考,为下一次闯关做储备。在闯关任务完成后,教师应及时通过后台数据了解学生的学习情况,如答题速度,思考时间,正确率,易错选项等数据,及时对学生的闯关结果进行考核与评价,以最快的速度了解学生学情,进而对教学内容和教学进度进行调整,以适应学生的学习步伐。教师在考核评价完成后应将闯关结果及时反馈给学生,学生在收到教师根据数据发表的相关评价后及时进行学结,为以后的闯关打好基础。下面以“MyInterest”主题教学任务为例,按照上述流程教师可将该主题分解成“兴趣词汇”“兴趣对话”“兴趣展示与比拼”等几个游戏环节,按照对应内容依次设立成“基础词汇关”“提升句型关”“终极表达关”“兴趣展示关”等难度不一的关卡,再根据教学任务要求,将和MyInterest有关的词汇、句型和片段阅读放入“闯关须知”中,让学生进行闯关前预习,以便于他们掌握通关的基本技能,降低闯关难度。闯关过程中,教师也可结合学生闯关的情况,随时发现学生的学习问题,随时记录,以便后期问题的讲解。任务结束后,将教学大纲中的主题相关课程讲解放在“通关锦囊”中,帮助学生学结。
(二)闯关模式教学设置的注意事项
首先,闯关设置的教学内容应遵循教学大纲规定。按照大纲规定的课程学习内容进行选择,并且要注重理论与实际的结合。闯关任务的设置应将教学目标自然地融入关卡中,紧密结合实训课程的能力目标,注意关卡中知识的环环相扣,知识点的引入要全面且不超纲。其次,教师要明确设置的关卡难度,根据教学内容的由浅入深,闯关所需掌握的知识也应按逐级增加的原则设置,这样学生才会有闯关的成就感,有继续闯关的勇气,在逐级过关后积累知识。[5]例如闯关时设为一颗星难度、两颗星难度、三颗星难度等类推。每一次闯关都要明确必备知识,时间限制和过关要求等等。以上文提到的“MyInterest”话题为例,具体任务分解可参照一下表格:在学生完成任务后,教师可以要求学生写出完成任务后的困惑、感想及感悟等,同要求掌握的词汇和句型一并放到“通关锦囊”中,作为闯关失败重新闯关或者后面闯关同学的闯关指南。最后,闯关设置任务切勿本末倒置。闯关的是为了提高学生的学习兴趣,使学生在轻松愉快的环境中完成学习。闯关不是目的,达到教学目标让学生掌握必备的英语技能才是最终目的。因此,在闯关后,教师应该针对学生闯关过程中表现出来的学习情况、能力表现等进行客观、真实地评价。利用平台数据的反馈建立相应的学生测评报告,将实训成绩纳入学生期中期末的总成绩中,激发学生的竞争意识。笔者曾针对中职英语教学现状和中职英语闯关模式教学现状对学生进行过问卷调查,问卷调查的对象分别是笔者所在的南靖第一职业技术学校2015级随机抽取的60名学生,共发放60份问卷,收回60份问卷,回收率100%。虽然该调查具有局限性,但是在一定程度上也反映了目前中职学生英语学习的现状对比情况。从问卷调查结果中可以看出:闯关模式教学可以提高学生的学习兴趣,有助于提高学生的英语学习成绩,并且有效提高了英语课堂的学习气氛,提高了学生的学习主动性。
三、闯关模式教学中数据分析的重要性
互联网带动了云数据的发展,使人们无论在何时何地都能用数据进行总结分析和预测。在中职英语的闯关模式教学中,教师除了设置闯关教学内容外,还要重视平台反馈的数据,要对数据进行收集整理和分析,从数据中采集学生学情等信息。利用闯关模式教学的目的在于激发学生的学习兴趣,如何验证教学模式的有效性?闯关模式的平台可以设置诸多数据,仍以上文提到的“MyInterest”学习主题的第一关基础词汇关为例,可以根据单词的闯关测试设置拼写速度、反应时间、正确率、历史错误率等数据。学生每闯过一关,教师就可以在后台收集相应的数据,收集所有学生的数据后,进行分析,为每一学生建立测评报告。通过测评报告,教师可以了解学生知识掌握情况,结合线下教学,帮助学生补短板,提高整体英语学习水平。除了学生的个人测评报告,教师还应建立闯关模式教学任务的整体测评报告。例如:对于错误率较高的单个知识点找到学生犯错的共性,利用线下教学面授优势,为学生细心巧妙讲解,突破重点难点。同时教师利用闯关模式平台数据可以直击学生学习难点,有效地指导学生学习,利用数据结果提高备课速度,不断优化设定的教学内容。总之,应用闯关模式等其他互联网平台作为新型教学手段,改革传统中职英语的教学模式,可不断提升中职学生对英语的学习兴趣和能力,同时通过平台中的数据反馈与分析还可以大大提升中职英语的教学成果,可实现为企业输送优秀的英语人才。
参考文献:
[1]张聪.基于“互联网+”积件式资源建设的中职英语教学探索[J].考试周刊,2016(32).
[2]王彩云.“互联网+”时代背景下的中职英语教学初探[J].教育(文摘版),2016(2).
[3]曾丽婷.闯关式翻转课堂教学模式构建与实施[J].中国教育信息化,2015(12).
[4]陈寅,张玉珊.互联网+环境下英语教育改革与创新思考:兼评《英语语言教学改革与创新二互联网+教育探讨》[J].中国高教研究,2016(2).
关键词:价格预测;分布式网络爬虫;数码产品网站;大数据;数学建模
中图分类号:TP311 文献标识码:A 文章编号:1009-3044(2017)17-0269-02
1概述
据《中国互联网络发展状况统计报告》显示,截至2016年6月,我国网络购物用户规模达到4.48亿,可见通过网上获取信息的人很多。在互联网+和大数据时代下,IT行业逐步成为人们热议的焦点,其发展也得到愈来愈多的人关注。而目前国内的IT类资讯网站大多没有预测产品价格这个功能,本文将着重研究价格预测的实现功能的实现。
2网站设计与开发的可行性与适应性分析
2.1从技术角度看
开发一个基于大数据的分析的数码产品价格预测网站需要大量的数据做支撑,这些数据可以通过各大电商平台进行获取。各大电商平台往往会将这些数据按照一定的格式展现在网站上,我们可以通过分布式数据爬虫技术将这些数据实时采集。数据爬虫是一种非常流行的数据采集程序,目前互联网上拥有大量的爬虫框架供我们使用,我们只需编写简单的代码便可以开始获取数据。当拥有海量数据后我们可以对各个商品进行建模,基于hadoop框架进行分布式运算,设计相关预测算法对数码产品价格进行分析并预测出价格的未来走势。
2.2从资源角度看
对于数码产品,互联网可以提供各种各样的信息,比如各大手机生产企业会在他们的网站上数码产品的配置信息、评测信息等。在网站建立的初期我们可以从这些网站获取大量的数据来填充我们的数据库。对于部分具有版权的数据,我们将采用外链的方式将原网站提供给用户浏览,这样可以节约开发资源,并让网站专注于价格预测的实现。
2.3从商业价值角度看
一个可以有效预测价格变化的网站是比较有市场前景的,目前互联网上充斥着各种各样的历史价格查看网站,但是大多没有可以对价格进行预测的网站。如果我们可以成功的预测价格走势,我们就可以引导消费,帮助消费者省钱,这也便是网站最大的商业价值。
3网站概述
网站以用户需求为出发点,利用网络爬虫、PHP、HTML5、JAVASCRIPT、MYSQL等技术设计开发。在网站里可以查询到参数、评测、价格和图片等关于数码产品的详细信息。网站的功能包括数码产品价格预测(预测到某款数码产品在未来一段时间内的价格)、信息查询(含有数码产品名称、各项参数、各角度拍摄图片等信息)、价格对比(及参数对比、图片对比和综合对比)等,目的是为人们提供一个简单易操作、具有现实意义的数码产品信息查询平台。网站技术框架如下图所示:
4网站设计
4.1网站主要功能设计
4.1.1产品价格预测模块设计
产品降价预测模块是网站的重点功能。用户可以通过网站查询某个产品的基本信息,并且能够得知该产品的历史价格走势和该产品在未来一段时间的价格走势,这对于比较注重价格的用户来说,便可以综合各类信息和自身需求,更加理性和有计划地选择性价比较高的产品。
网站利用分布式爬虫采集互联网各大平台的IT产品价格数据,形成一个较全面的价格走势图,再通过对产品价格进行建模,从建模结果中得到IT产品在未来一段时间的价格走势。需要说明的是,因为价格容易受到社会、经济条件以及国际等多种因素的影响,所以预测的价格走势会有一定的波动。另外,对于不同时期的价格预测也不同,短期内影响因素主要是数码产品的市场供应,一般采用指数平滑法。这种方法预测主要是靠历史价格数据逐步往后推导预测价格。对于较长时间,则采用二次指数平滑法较好,因为对于一些时间序列变化可能存在线性的趋势,这种方法的好处在于能减少预测值的滞后性。如果数据的变化受季节影响,预测方法应当采用温特线性季节性指数平滑较好,因为这个预测方法是根据季节的变化来进行价格预测,这样预测的价格更为准确。
4.1.2产品基本搜索功能设计
产品的搜索功能也是网站的基本功能之一。产品的搜索功能不仅仅只是简单的产品搜索,它是一个包括商品搜索、查看热门产品、查看最新产品、今日推荐等多模块组合成的一个大模块。用户通过这些搜索信息并结合自己需求,可以理性谨慎地对产品进行对比选购。换言之,产品搜索模块将完成对商品的导购功能。
4.1.3产品详情模块设计
产品详情页面包括很多内容,其子页面也非常多。其中包括:概览页面、具体参数页面、报价页面、点评页面、图片页面以及竞品对比页面等等,每一个页面的功能都不同,设计时将合理安排功能的布局,以方便用户获取自己所需要的资料。
4.2价格的采集与预测
4.2.1分布式网络爬虫
实现价格预测的前提是有大量的历史价格数据,所以W站利用分布式网络爬虫技术从各大网站采集数据,爬虫主要由两个模块组成:
爬虫引擎:分布式运行且完成下载网站页面内容,并将数据存入数据库的工作。
数据清洗:将下载下来的价格信息进行清洗处理,剔除无效信息和冗余信息。
分布式爬虫技术实现需要对于特定的网页编写用于分析其网站源码和获取信息的脚本代码,数据或许后再通过数据清洗去除掉不必要的数据信息,最后把需要的数据存放到数据库中保存。
4.2.2预测价格
在比较多种预测方法后,我们发现时间序列法较适合预测数码产品的价格。时间序列即是某些序列按照时间的先后顺序排列而成的一种特殊序列。若利用这组数列,应用数理统计方法加以处理,以解决实际问题,则称为时间序列分析法。时间序列分析是以时间序列为研究对象,分析序列的本质波动,探究其真实规律的一种定量分析法。在实际中,通常被用于预测未来现象或指标的波动情况。由于数据量庞大、涉及的商品较多,为了提高计算速度,预测模型需要构架在Hadoop等分布式平台之上。
5网站的开发
5.1数据爬虫程序
开发一个数据爬虫,需要用到scrapy框架,该框架是基于python语言编写的,用python语言开发程序最大的特点那就是简单易读。Scrapy框架非常的简单易用只需编写爬虫规则就可以开始高效获取数据,并且该框架是可分布式运行,速度可控,支持JavaScript,非常适合用来采集各大网站的数码产品数据,最重要的是该框架是免费而且开源的,故运用scrapy框架进行开发满足网站需要的爬虫系统。
5.2价格数据分析系统
对于海量的数据传统程序没办法很好的处理,传统的win-dows系统也很难有效的承载。故我们选用hadoop生态体系进行数据分析,该程序可以高可靠的运行在多台电脑上。为了程序可以长期稳定地运行,我们选择在linux上进行数据分析,这样的好处是系统稳定性强,硬件资源可以高效利用。
5.3网站搭建
和大多数网站一样,本网站采用BS(Browser/Server)架构,该架构具备以下几个特点:客户端电脑负荷大大简化、系统维护和升级成本低、同时也降低了用户的总体成本。
我们运用HTML、CSS、JavaScript开发网站前台页面,用PHP开发网站后台,MySQL作为后台数据库。网站运行在Linux系统下的Apache软件下,网站的所有软件均为免费软件,实现成本较低,也符合当下流行趋势。
关键词: 大数据分析; 选课; 模型设计; 信息融合
中图分类号: TN911?34; TP391 文献标识码: A 文章编号: 1004?373X(2017)14?0030?03
Abstract: In order to improve the optimal allocation performance in students′course selection and utilization efficiency of curriculum resources, a design method of a course selection model based on large data analysis is proposed. The overall structure model of student optimal course selection model is constructed firstly. A large data analysis method is used to conduct information fusion and optimal access design of student course resource database to get comprehensive decision model of student course selection by combining adaptive equilibrium with grey correlation analysis. The program development is performed in Linux kernel. The cross compile environment for student elective system is established based on X86 architecture. A script menu is collocated in the virtual file system. HTTP server and telnet server functions are integrated in the network module to realize data sharing and remote transmission of the curriculum information. The system software development and debugging analysis results show that the course selection scheme model has good data analysis ability and strong reliability, and can realize the optimization configuration and selection of courses.
Keywords: big data analysis; course selection; model design; information fusion
S着高等教育深化改革和发展,为了更好地发挥高等院校的教学资源优势,结合学生的课程和专业的差异性,采用选课制进行课程搭配设计。这样既尊重了学生的个性化学习需求,也更科学地搭配高校的教学资源。选课制,也称课程选修制,允许学生对学校所开设的课程有一定的选择自由,对任课教师、上课时间以及进度仅有一定组合的选课机制,采用选课制教学,更有利于扩充学生的知识面,更好地整合高等教育的教学资源。然而,学生在进行选课中具有一定的盲目性和自发性,需要有效的信息系统进行指导,设学生选课方案优化信息管理系统,在大数据信息时代,对更好地利用高校的教学资源具有积极重要的意义。
1 学生最优选课方案设计总体构架
为了实现对大数据处理环境下的学生最优选课方案模型的优化设计,首先分析软件系统的总体结构模型,基于大数据分析的学生最优选课方案模型是建立在学生选课资源数据库的信息融合和优化访问设计基础上的,结合数据信息处理模型进行学生最优选课方案模型设计,采用LabWindows/CVI进行大数据处理环境的选课方案分析[1?2],结合均衡博弈思想进行选课资源的优化配置。学生最优选课方案模型系统建立在嵌入式操作系统Linux基础上,本文设计基于大数据分析的学生最优选课方案模型主要元件包括如下几个方面:
(1) 最优选课方案的特征采集计算元件(CE)。选课方案中对教育资源信息的采样频率大于200 Hz,寄存器基器件采用IEEE?488协议进行课程信息缓存和多线程输出,在集成控制中枢单元对课程信息进行特征提取和网格计算[3]。
关键词 分析化验;业务域;POSC Epicentre逻辑模型;业务活动
中图分类号:TP311 文献标识码:A 文章编号:1671-7597(2014)04-0017-02
1 业务对象分析
库房中储存的样品主要是岩石样和流体样,根据取样方式的不同可以把岩石样分为岩心样、壁心样、岩屑样和露头样,把流体样分为常温常压流体样和高温高压(统称PVT)样,根据流体相态又可以把流体样分为油样、气样和水样。
分析化验所使用的样品是小样,也叫做实验用样,是大块岩石样或大桶流体样中的一部分。根据实验的目的和要求,可以把小样分为水平样和垂直样。
2 分析化验项目分析
根据样品的类型可以把分析化验分为流体样实验、岩石样实验和岩石样-流体相共存实验3种。
2.1 流体样实验
流体样实验是对从井筒或地面上取得的流体样进行分析的,研究井筒中流体的特性,为油气田开发前期设计提供参考依据,为生产井提能分配或井下作业提供基本数据支持。
根据流体取样方式的不同,把流体样实验分为常温常压流体实验和PVT实验,由于流体相可以分为油相、气相和水相,所以流体实验又细分为常温常压油样实验、常温常压气样实验、常温常压水样实验、原油PVT实验、易挥发油PVT实验和凝析气PVT实验。
2.2 岩石样实验
岩石样实验是对钻井过程中取到的岩石所进行的分析或鉴定,是地层岩石特性最直接、最准确的表现。
根据实验的目的不同,把岩石实验分为常规岩心分析、特殊岩心分析、岩石地化分析等。
2.3 岩石样-流体相共存实验
岩石样-流体相共存实验是分析岩石在以不同的流体相作用下,所呈现出来的岩石的润湿性和联通性等,主要有毛管压力实验和相对渗透率实验等。
根据流体相作用方式的不同可以分为压汞法和驱替法,驱替实验分为油驱替水、水驱替油和气驱替水等。
3 业务分析
业务分析是数据库设计的基石,只有业务分析好,才能设计出满足需要的业务模型。根据工作内容可以把业务分析分为业务调研、业务划分、业务活动分析和数据分析。
3.1 业务调研
确定分析化验业务域的业务调研范围和调研内容,形成业务调研清单,并制定业务调研模板。业务调研模板是业务调研的依据,必须要包含业务名称、业务流程和数据应用情况等。在执行调研时,按照业务调研模板内容,详细了解分析化验业务现状、数据库现状、应用现状和数据管理机制等,并收集相关资料(报表、数据、业务规范等)。
3.2 业务划分
根据业务调研情况对分析化验业务域进行业务划分,划分为一级业务和业务活动,一级业务主要有常规岩心分析、特殊岩心分析、岩石地化分析、油气地化分析、岩矿分析、同位素分析、岩石力学分析、古生物分析、油气水分析和流体PVT分析等。
业务活动是对一级业务进行细分,直至划分到不能再分为止。如一级业务常规岩心分析包含有岩石物性分析、岩心伽玛测定和岩心CT扫描等。
3.3 业务活动分析
根据业务划分得到一个个业务活动,每一个业务活动都有自己的业务含义和业务范围。业务活动分析就是要详细分析每一个业务活动流程,如业务活动的时间、地点、参与人员、业务规则、输入数据、输出数据、相关的标准规范等。如岩石物性分析是实验员(who)收到分析化验任务后(when),在实验室(where)根据样品基本信息和检测任务单的要求对岩心样品(which)进行岩石孔隙度、渗透率、含油饱和度、密度、碳酸盐岩含量的分析化验,形成岩石物性分析成果数据表和业务分析报告(what),为表征岩石孔隙的发育程度、储集流体的通过能力和岩石渗流特征提供重要参数,为储量计算、采收率确定等提供参数依据(why)。
3.4 数据分析
数据分析是对业务活动数据集和现有专业数据库物理表进行详细分析,业务活动数据集分析是对业务活动的输入数据和输出数据进行分析,规范业务活动输入数据集和输出数据集,形成业务活动数据集;现有专业数据库物理表分析是对现有在用专业数据库物理数据表进行分析,分析出专业数据库物理数据表的实际业务含义,具体是哪个业务活动产生的,对应于业务活动的哪个数据集,形成专业数据库物理数据表对业务活动数据集的映射关系。
数据分析表如下:
业务活动 输入数据 输出数据 业务活动数据集 专业数据库
岩石物性分析 检测任务单 岩石物性
分析报告 岩石物性分析报告 文档数据库
实验样品信息 岩石物性分析
成果数据 分析化验数据库
4 数据模型设计
数据模型设计是实现业务分析到物理模型设计的所有过程,主要分为业务模型设计、采集模型设计、逻辑模型设计和物理模型设计。
4.1 业务模型设计
根据业务调研和分析成果,对业务模型进行标准化梳理,对数据流进行详细分析,完成从业务分析到业务模型的转换,形成业务模型。
4.2 采集模型设计
制定业务模型中数据集合并原则,根据这些原则分析业务模型中需要合并的数据集,通过专业工具完成业务模型数据集的合并工作,实现从业务模型到采集模型的转换。业务模型数据集合并原则:首先是业务活动场景相同;其次是业务活动产生的数据项相似。
4.3 逻辑模型设计
通过对POSC Epicentre逻辑模型和PPDM模型的研究,结合石油企业业务实际,采用面向对象的设计方法设计分析化验逻辑模型。逻辑模型主要分为对象模型、活动模型和属性模型。对象模型是对分析化验业务域中所涉及到的业务进行抽象,提取出一个个业务对象,用前缀OOE_表示,如岩心的对象模型是OOE_Core等;活动模型是对分析化验业务域中所有业务场景进行抽象,形成业务活动编目,存储在OOE_Activity实体里,具体的业务分析活动只是业务活动编目的具体实例。如岩石物性分析是业务活动,***井岩心常规分析报告是业务活动实例;属性模型是业务活动数据集中的相同数据项的抽象,提取出一个个属性对象,使用前缀OOP_表示,如孔隙度的属性模型是OOP_Porosity。
4.4 物理模型设计
设计从逻辑模型到物理模型的投影规则,依据投影规则实现逻辑模型到物理模型的转换,投影出不同版本的数据库,以支持不同的数据存储和管理需求。常用的投影规则有直接投影、复制投影和合并投影,不同的实体具有不同的投影规则。在投影时,为了保证物理模型的最优化设计和数据存储的最少冗余,要求分析所有实体对应的最优投影规则,根据最优投影规则一次投影出物理模型。
5 总结
分析化验对象数据库的设计是依据国际先进的POSC Epicentre模型,根据对象设计方法设计的,具有对象的特征,能很好的满足业务人员的使用习惯,为今后的勘探开发设计提供强有力的支持。
〔关键词〕图书馆;决策分析;大数据清洗;系统设计
DOI:10.3969/j.issn.1008-0821.2016.09.018
〔中图分类号〕G25076〔文献标识码〕A〔文章编号〕1008-0821(2016)09-0107-05
〔Abstract〕The librarys era of big data is coming,data quality issues will result very important influence on big data applications of libraries,big data cleaning is one of the important methods to improve libraries data quality.This paper introduced the types of dirty data and reasons in libraries,and designed of big data cleaning system for library based on big data decision analysis needs,the system not only improved the efficiency and accuracy of big data cleaning,but also greatly reduced the complexity of big data decision analysis for library.
〔Key words〕library;decision analysis;big data cleaning;system design
当前,图书馆已进入大数据时代。随着移动互联网、云计算和物联网技术在图书馆中的广泛应用,图书馆可通过监控和采集服务器运行数据、读者个体特征、阅读行为数据、阅读关系数据、阅读终端数据等,实现了对图书馆服务模式和读者阅读需求的全面感知与预测,大幅度提升了图书馆的服务能力和读者阅读满意度。但是,随着图书馆服务复杂度和服务模式多样化的发展,其大数据环境呈现出“4V+1C”的特点(分别是数据体量巨大(Volume)、数据类型繁多(Variety)、价值密度低(Value)、处理速度快(Velocity)和具有较强的复杂性(Complexity)),图书馆采集与存储的原始大数据中混杂着许多不完整、错误和重复的“不清洁”数据,导致图书馆大数据存在着不一致、不完整性、低价值密度、不可控和不可用的特性[1]。图书馆如果一味强调提升IT基础设施的大数据处理性能、数据分析方法的科学性、数据分析师的大数据素养,而不通过大数据清洗有效提升数据的质量和可用性,将会导致图书馆大数据应用的收益率和数据决策科学性下降。
据美国普化永道会计事务所(Price Waterhouse Coopers Consulting,PWC)的研究表明,75%的被调查公司存在着因不清洁数据问题而导致经济损失的现象,只有35%的被调查公司对自己的数据质量充满信心;在很多涉及数据仓库的项目中,数据清洗在开发时间和整体预算方面所占的比例大概在30%~80%,而将不同数据源的数据进行抽取和整合时,可能会产生一些新的不清洁数据[2]。因此,如何制定和执行安全、高效的数据清洗策略,实现对图书馆大数据资源的检测、校验、修正、整合与分解,及时发现并纠正大数据中存在的错误、缺失、异常和可疑数据,确保图书馆大数据资源结构完整、正确和无重复,是关系图书馆大数据应用与决策安全、科学、高效、经济和可控的重要问题。
1图书馆大数据清洗的需求与挑战
11大数据环境下数据清洗的需求发生变化
大数据时代,图书馆数据的结构、类型、规模和复杂度发生了巨大变化,其大数据内容主要由IT服务系统运营日志与参数数据、用户服务数据、读者个体特征数据、读者行为监测与社会关系数据、阅读终端运行数据、视频监测数据和传感器网络数据等组成,这些数据具有海量、多类型、高价值和处理速度快的大数据“4V”特点,因此,与“小数据”时代图书馆的数据清洗需求有本质区别。
大数据时代,非结构化、半结构化数据占据图书馆大数据总量的85%以上,图书馆数据清洗的重点已从“小数据”时代的标准化文本、数字、符号等结构化数据为主,转变为以全文文本、图像、声音、影视、超媒体等非结构化复杂数据为核心[3]。其次,“小数据”时代图书馆数据清洗的主要对象是实例层的数据,依据函数依赖等完整性约束条件对数据记录进行处理,而“大数据”时代则重点关注处理模式中数据属性之间的语义关系。第三,图书馆数据清洗工具的效率、互操作性和可扩展性,以及数据清洗工具描述性语言能否满足数据清理中关键词大致匹配的需要,是关系图书馆大数据清洗科学、高效、精确和经济的关键。
12图书馆大数据采集方式多样性易导致数据结构不完整当前,为了提升读者服务的科学性、实时性、可预测性和个性化水平,图书馆大数据应用采取了全面采集、实时分析、动态决策和评估反馈的原则,有效提升了图书馆大数据资源的价值密度、分析科学性和服务可靠性。图书馆大数据来源主要包括Web服务器日志数据、视频监控数据、用户管理系统数据、传感器网络数据和读者满意度反馈数据等,这些数据的数据采集来源、采集方式和数据模式标准不同,导致所采集的元数据存在着字段缺失、字段名和数据结构前后不一致、数据被异常破坏等现象,严重影响了图书馆大数据结构的完整性。其次,这些不完整大数据如涉及读者的个体ID标示、数据价值关键字段、信息集成模式的匹配,则会导致数据资源不可用或者大数据决策错误。因此,如何科学、高效和准确地发现图书馆大数据中的缺失字段,并在规定的时间内对缺失字段进行修复,是图书馆确保大数据结构完整的重要措施[4]。第三,图书馆对大数据资源库查询请求的科学、完整和可控性,是关系数据查询结果清洁性的关键。因此,如何完善、修补不同来源和不同类型的缺失数据字段,并有效挖掘其中蕴含的知识,是关系图书馆从不完整大数据中发现数据价值信息和保障知识服务效率的重要问题。
13海量、重复的大数据严重降低了数据决策效率
为了提升大数据的价值总量,图书馆会利用多数据采集源多方位、多角度和不间断地进行相关大数据的采集。读者个体特征和行为数据,是图书馆进行读者阅读需求预测、服务模式制定、服务满意度评估和服务过程优化的关键数据,为了保证相关大数据采集的全面性、完整性、可用性和可靠性,图书馆会通过视频监控设备、服务器日志、传感器网络、移动基站监测设备、阅读终端监测设备等,尽可能全面地采集读者相关大数据,并描绘一幅完整、精确的读者阅读行为自画像。多个不同类型终端设备全方位、不间断地采集同一读者的个体大数据,会导致读者个体大数据采集过程低效率、重复和识别精度低,这大幅度增加了图书馆大数据处理、分析和决策的复杂度与系统资源损耗。因此,如何删除图书馆采集的海量、重复大数据,是关系图书馆大数据决策可用性和经济性的关键。
其次,随着图书馆服务智能化和个性化水平的提升,机器人等人工智能技术已广泛运用到图书馆的管理与读者服务中去。机器人通过深度学习技术,可为读者提供诸如阅读导航、服务推荐、问题解答、微博更新和聊天等服务,实现了机器人与读者的实时互动与交流。但是,这些机器人产生的数据除具有动态生成、海量、多类型和低相关性的特点外,还存在着数据重复采集、标示多样和部分错误的现象,因此,如何有效区分、清洗机器人产生的大数据,将对图书馆在服务中实施读者阅读行为跟踪、读者阅读需求分析、用户精确画像和科学服务决策产生极大影响[5]。
14图书馆对错误大数据的识别与修正需求
图书馆大数据主要由数据中心IT服务系统配置参数与运营数据、用户与服务管理数据、读者个体行为与阅读数据、传感器网络数据、服务资源数据、读者阅读反馈与满意度评估数据等组成,这些数据的产生具有多数据来源、多采集模式、编码与存储复杂、数据清洗难度大的特点,大幅增加了图书馆对错误大数据识别与修正的难度。
随着图书馆组织结构和内部业务关系复杂度的增长,图书馆员在向业务系统录入元数据时,可能存在着滥用缩写词与惯用语、数据录入错误、数据中内嵌信息错误、重复记录、丢失数据字段、拼写错误、计量单位错误和过时的数字编码等问题。同时,图书馆当前业务管理系统数据纠错的智能水平较低,不能完全识别与纠错数据录入中存在的数据错输成全角数字字符、字符串数据后面存在空格符、日期格式错误与日期越界等。其次,OCR(光学字符识别)软件在对印刷体文字转换成为黑白点阵的图像文件,以及通过识别软件将图像中的文字转换成文本格式时,OCR软件的拒识率、误识率、识别速度、用户界面友好性、产品稳定性和易用性等,也是关系图书馆数字化文献资源加工正确率的重要因素。第三,近年来,射频识别(RFID)技术因其快速扫描、体积小、可重复使用、无线穿透性和无屏障阅读等优势,已广泛应用到智慧图书馆的构建和读者智慧服务中,有效实现了图书馆无线门禁的进出管理、人员精确定位、区域定位管理、安全防卫和图书智能化存取等功能。由于RFID硬件设备易受数据传输距离、环境噪声、地理环境、无线干扰等影响,导致RFID阅读器存在着漏读、多读和不清洁读等现象,如何识别与纠正RFID阅读器在大数据采集过程中丢失、重复、模糊和错误的数据,已成为关系RFID应用有效的关键[6]。
15图书馆大数据清洗需制定科学的行业规范和标准图书馆大数据具有海量、多类型、高价值和处理快速的4“V”特征,据统计,其结构化与非结构化数据占据大数据总量的85%以上,且随着图书馆服务模式多样化和数据环境复杂度的不断增长,其非结构化数据占据大数据的总比例将快速上升,因此,大数据海量、多类型和结构复杂的特点给图书馆的数据管理带来了很大困难。
不同类型的图书馆在大数据采集源的结构和数据库类型上差别巨大,导致不同图书馆在大数据的采集方式、组织结构、存取方法和数据库构建类型上有较大区别,即使是同一种数据的存储也存在着多种不同标准和数据库关系结构。因此,制定统一的数据库建设和数据管理、存取标准,提升数据清洗工具与数据库系统在数据端口、清洗规则和配置参数上的兼容性,是关系图书馆大数据高效清洗和多用户共享的前提。
在实际的工程操作中,数据清洗通常会占据数据分析全过程50%~80%的时间,因此,依据国家标准构建图书馆界的数据行业规范,是关系图书馆大数据开放性和降低大数据决策成本的重要问题。图书馆内部不同部门之间也存在着大数据重复采集和数据标准、类型不统一的问题,我国图书馆界与其它行业或第三方运营商,在数据库建设规范、数据传输接口、相关应用程序上也存在较大差异,给大数据的清洗、共享和分析带来了额外的负担[7]。此外,图书馆对所属大数据的安全性管理、读者隐私大数据保护、大数据价值和可用性保证等,也大幅增加了图书馆大数据清洗过程的复杂度和成本投入。
2图书馆大数据清洗平台的构建与大数据清洗关键问题21图书馆大数据清洗平台的构建
图书馆数据除具备大数据的4“V”特性外,还存在着诸如不清洁数据来源多元化、随机产生、隐匿性强和噪声过滤难度大的特点。因此,在图书馆大数据清洗系统的设计中,作者依据图书馆业务导向和大数据的信息流程,重点突出了大数据源分类存储、不清洁数据识别与发现、不清洁数据清洗和数据清洗流程控制等4个系统功能与流程的设计,实现了从数据产生与存储、不清洁数据发现与清洗、清洗有效性评估、评估结果对清洗流程的反馈控制等4个过程的大数据生命周期质量管理[8]。所设计的图书馆大数据清洗系统功能结构如图1所示:图1图书馆大数据清洗系统功能结构图
为了保证图书馆大数据存储系统安全、高效、经济和可控,系统底层的大数据存储库依据大数据的来源、类型、应用对象和不清洁数据特点,划分为客户管理元数据库、系统配置与运行数据库、读者服务数据库和主数据库等,这些数据库的不清洁数据主要存在结构不完整、数据重复、错误和不一致的问题。
不清洁数据发现系统平台主要由大数据的获取、数据完整性检测、数据重复性检测和错误数据检测4个功能模块组成,通过对大数据变量的取值范围、相关性、无效性、缺失值和重复值的判定,将从大数据源中发现、提取出的不清洁数据传输至不清洁数据清洗模块。
不清洁数据清洗系统平台是大数据清洗系统的核心,数据管理员在对不清洁数据产生的原因、存在形式和数据结构复杂度进行分析后,制定出科学的不清洁数据定义、评估、清洗和规则反馈优化程序,依据数据清洗的实时性需求,控制系统实现不清洁数据的离线清洗和在线清洗,并对清洗后数据的完整性、有效性、一致性、准确性和相关性等进行判定,如果清洗结果不达标则进行不清洁数据的二次清洗[9]。
不清洁数据清洗管理平台由图书馆元数据管理、大数据清洗模型管理、数据清洗安全性管理和质量管理4个模块组成,负责元数据存取、大数据清洗流程控制、数据清洗过程的数据安全性和不清洁数据清洗质量的管理,可有效保证不清洁数据清洗过程安全、高效、经济、高价值和可用。
22关系图书馆大数据清洗质量和数据可用性的关键问题221有针对性地选取图书馆大数据的清洗对象
大数据是图书馆IT系统构建、读者管理和服务模式变革的直接决策依据,大数据的价值总量、密度和清洁度等,直接关系图书馆大数据决策的科学性、效率、经济性和可用性。图书馆大数据具有海量和总量级数递增的特点,但是,不同类型的大数据在数据价值总量、价值密度、分析可用性和与决策对象的相关性上差异较大,导致不同大数据在图书馆决策的科学性、精确度、可靠性和经济性上的影响度不同。因此,图书馆应根据大数据决策的对象、内容、精确度和经济性需求,有选择地开展大数据的清洗活动。
个性化智慧服务是未来图书馆读者服务的重要目标,而精确地判定读者需求、图书馆未来服务资源总量和读者阅读情景,则是确保图书馆读者个性化智慧服务内容实时、精准投放的前提。因此,图书馆对大数据清洗对象的选择上,在保证大数据获取难度可控、数据覆盖率广泛和具备一定的数据规模前提下,应选取与读者个性化智慧服务决策相关性较大的数据,并重点清洗与读者个性化智慧服务决策相关性较大的诸如读者个体特征、阅读历史行为、阅读实时兴趣、个体移动路径、阅读终端模式、读者服务评价与满意度反馈、系统未来服务资源总量与服务负载等数据,才能在较小大数据清洗成本投入和降低清洗复杂度的前提下,大幅度提升图书馆大数据的价值密度与数据可用性。
222依据大数据决策实时性需求制定数据清洗策略
图书馆大数据决策可划分为实时决策和离线决策两部分。实时决策主要应用于图书馆安全与服务即时管理、读者在线服务需求实时判定、实时服务策略制定与服务推送、服务系统的实时评估与优化等方面,要求大数据应用平台在较短的时间内获取、清洗和分析实时数据,为大数据实时、动态决策提供科学数据支持。实时决策对大数据获取、传输、清洗、分析和决策过程的时效性要求较高,数据总量偏小、低清洁度和价值有限的实时大数据可能会影响图书馆实时决策的科学性和可用性。离线决策主要应用于图书馆的宏观战略方案制定、用户服务模式变革、服务有效性评估和服务市场竞争环境分析等方面,这些离线决策虽然因为海量大数据的复杂分析而降低了决策的时效性,但决策结果具有较高的科学性、准确度和可靠性。因此,图书馆必须依据大数据决策实时性需求制定相关的大数据清洗策略。
大数据清洗策略的制定应以图书馆服务效率的提升和读者阅读满意度为依据,结合图书馆数据中心大数据应用系统的资源总量和大数据清洗的负载量,依据决策内容实现大数据清洗实时性、算法复杂度、精确度和可靠性的完美结合。大数据在线清洗对实时性的要求较强,因此,图书馆应完全记录用户服务流程线上的实际数据,依据决策对象的重要性、实时性、相关性和服务收益需求,对需要清洗的数据进行优先级别划分和系统资源分配,确保在线清洗结果的时效性、准确性、可用性和可靠性综合评估最优。在离线大数据清洗策略的制定中,图书馆对数据清洗优先级别的划分,重点应放在决策对象的重要性、服务的收益率、系统资源的损耗和实时性需求上,科学分配二级子指标的权重比例,并依据读者需求和图书馆服务模式变革进行动态反馈调控,不断提升宏观决策的科学性和可行性。
223图书馆大数据清洗质量评估标准的几个重要维度
图书馆对不清洁数据清洗质量评估的科学性,既是关系图书馆数据价值保证和大数据决策可用性的关键,也是图书馆对数据清洗系统进行反馈控制、优化和完善的重要依据,因此,必须选择科学、全面、完整和可操作的大数据清洗质量评估维度,才能确保大数据清洗过程高效、优质、快捷、经济和可控。
图书馆大数据清洗质量评估体系的构建应坚持评估指标覆盖面广泛、指标因子权重分配合理、评估系统开放和易于操作的原则,所设计的图书馆大数据清洗质量评估维度如表1所示:表1图书馆大数据清洗质量评估维度表
编号维度内容大数据清洗评估维度的描述1规范性数据的存在性、质量及存储标准2完整性与准确性数据结构完整度、准确性和可用性3重复性数据在字段、记录内容或数据集外重复4一致性和同步性在不同数据库、应用和系统中的一致和同步5及时性和可用性非实时数据的清洗和价值可用性测量6可识别和相关性数据可理解、价值可测量和可相融程度7易用性和可维护性数据可访问、使用、更新、维护和管理的程度8数据价值覆盖度数据在决策中的价值、对象和内容覆盖程度
此外,对图书馆大数据清洗质量的评估,应根据大数据决策过程对数据清洁度、价值密度和可用性的需求,动态调整大数据清洗质量评估维度表中各指标的权重因子,增强大数据评估结果对大数据清洗系统的反馈控制与优化功能,才能确保大数据清洗过程安全、高效、经济和可控。
224图书馆大数据清洗流程的设计
大数据清洗流程的科学性、数据流可控性和评估标准有效性,是关系图书馆大数据清洗流程安全、高效、快速和经济的重要问题。因此,本文在图书馆大数据清洗流程的设计中,坚持在保持大数据价值总量不变的前提下,以提升大数据的价值密度、可用性、决策实时性和降低大数据应用成本为根本目标,有效保证了大数据决策的科学性、可靠性、实时性和经济性。图书馆大数据清洗流程如图2所示:
图书馆大数据清洗系统首先对所接收的大数据进行预处理,并将拟清洗的大数据导入数据清洗系统,检查元数据诸如字段解释、数据来源、代码表等内容描述是否正确,初步统计拟清洗数据的类型、结构、实时性需求和存在模式问题[10]。其次,在大数据的清洗中,应根据大数据清洗的复杂度、大数据总量多少和流程相关性,按照去除和修补缺失大数据、去除重复和逻辑错误大数据、异常大数据的检测与处理、非需求大数据清洗、大数据的关联性验证等步骤进行,最后对已清洗大数据的质量和可用性进行评估,并将不符合大数据决策需求的不清洁数据传输至数据清洗输入接口进行二次清洗。
3结语
图书馆大数据具有多数据来源、多维度、多采集方法和多存储模式的特点,导致大数据中不可避免地存在着错误、粗糙和不合时宜的非清洁数据。这些非清洁数据的存在,增加了图书馆大数据应用的复杂度和数据决策成本,降低了图书馆对读者阅读需求的感知和对未来服务发展趋势的预测能力,严重影响了图书馆服务决策从主观经验主义向大数据决策的转变。因此,如何通过科学、高效、经济和实时的数据清洗,将非清洁数据转化为高质量的干净数据,是图书馆增强大数据可用性、提升大数据决策效率和提升知识服务水平的关键。
图书馆大数据清洗是一个涉及面广泛和影响力深远的工程,不科学的清洗流程和方法会导致数据清洗收益率下降,甚至产生新的不清洁数据而影响图书馆大数据决策科学性。因此,图书馆在大数据的采集、传输、存储、标准化处理、分析和决策中,首先应将数据质量管理和数据清洁引入图书馆大数据生命周期的不同阶段,从制度上规划保证数据质量管理有效和防止不清洁数据的产生。其次,应加强对大数据融合、集成和演化流程的监控与检测,防止因为大数据的产生、流入或数据更改而产生新的不清洁数据。第三,数据清洗过程会消耗大量的系统资源和大数据应用成本,因此,图书馆数据清洗目标的制定应以大数据决策需求为依据,不能人为制定过高的数据清洗清洁度目标而导致大数据决策综合收益下降。
参考文献
[1]王曰芬,章成志,张蓓蓓,等.数据清洗研究综述[J].现代图书情报技术,2007,(12):50-56.
[2]吴向军,姜云飞,凌应标.基于STRIPS的领域知识提取策略[J].软件学报,2007,18(3):490-504.
[3]刘喜文,郑昌兴,王文龙,等.构建数据仓库过程中的数据清洗研究[J].图书与情报,2013,(5):22-28.
[4]蒋勋,刘喜文.大数据环境下面向知识服务的数据清洗研究[J].图书与情报,2013,(5):16-21.
[5]王永红.定量专利分析的样本选取与数据清洗[J].情报理论与实践,2007,30(1):93-96.
[6]The Economist.Data,data,everywhere-A special report on managing information[EB/OL].http:∥/node/15557443,2016-05-16.
[7]黄沈滨,王海洁,朱振华.大数据云清洗系统的设计与实现[J].智能计算机与应用,2015,5(3):88-90.
[8]FAN W,LI J,MA S,et al.Yu.CerFix:A system for cleaning data with certain fixes[J].PVLDB,2011,4(12):1375-1378.
关键词:老龄化社区;Eucalyptus;数据分析;云计算
中图分类号:TP311 文献标识码:A 文章编号:2095-1302(2016)12-00-03
0 引 言
随着科学技术的快速发展和老龄化程度不断加深及其服务需求的不断增多,中国的养老服务正面临着巨大的挑战。中国社区养老模式起步较慢,其传统养老主要是基于社会服务的家庭照顾方式,关注老年人身体和心理健康,给予有困难的三无老人、“空巢”老人和残疾老人帮助[1]。
国外许多社区养老模式已发展成熟,“智能化养老”由英国一个生命信托基金会首次正式提出,该基金会提出的理念是建设能够使老年人在家中养老并提高生活质量的全智能化老年公寓。美国是世界范围内最先开始研究适老化相关技术的国家,它根据老年人的生理状况、年龄和喜好建设,可照顾社区内形态各异的老人,适合不同需求的老年人居住。日本是老年住宅的先驱,其最早的“银发住宅建设计划”[2]提出了为可以自理的老龄化人群提供租赁式公寓的理念。日本成立了专门的研究会制定了一系列发展规划,从智能家庭、智能设备发展到智能建筑、智能城市,为智能化城市的发展做出了巨大贡献。
本文结合云技术研究了能够提供不同养老服务的社区智能服务平台,老人只需通过移动终端就可以实现如家政服务、医疗服务等功能,为老人们提供了安全、便捷的服务。
1 系统需求分析
在研究老龄化社区智能服务平台之前,需要先了解我们平台用户即老人们的需求。调查国内社区老人居住的现状,了解在社区养老服务过程中老人需要的服务内容与服务方式,以提供满足需求的服务。
1.1 社区对象的需求
老年人生活中普遍存在独居、老年病频发、居住条件差、社区质量不好等特点,在此基础上,老龄化社区智能服务平台的研究主要是为了满足老人们的生理需求和心理需求。
1.1.1 老年人的生理需求
老年人的感知能力和自身生理素质都会随着各项生理机能的衰退而产生变化,这会给他们的正常生活带来诸多困难与不便。老人的生理需求主要集中体现在“医疗保健”和“生活照料”两方面[3]。
(1)“医疗保健”在为所有老年人群体提供日常保健护理工作的基础上,还会根据老年人的具体情况提供相应的药物、医疗等服务;
(2)“生活照料”主要向独居老人提供介绍保姆、日常包裹代收、推荐日常养老机构等服务[4]。
1.1.2 老年人的心理需求
老年人大部分时间都是在家独自度过,他们的人际圈会变得更加狭窄,所以他们更需要心灵和情感寄托。故该系统提供了“文化娱乐”“老年教育”等内容。
1.2 系统概述
本文的设计基于云技术的老龄化社区智能服务系统,可以将传统信息化社区中多个独立的系统进行整合,为社区提供一个软件管理平台。系统的设计目标是可以随时随地利用移动终端或者电脑来完成各种服务功能,因此该系统设计的界面简单、易操作,针对不同的终端,界面的适应性要强。智能服务系统架构图如图1所示。
如图1所示,智能社区子系统主要分为社区安防、信息管理、公共服务和居家服务共四个模块,其中,公共服务包括医疗卫生、养老机构、教育机构等,居家服务包括家政服务等。
2 云服务系统组成
2.1 Eucalyptus云计算平台
AbiCloud、Eucalyptus和Nim-bus是目前较流行的开源云计算平台,而Eucalyptus能提供应用开发研究所需的硬件资源,并且该平台安装、部署和维护比较方便。Eucalyptus架构如图2所示,包括客户端层、云控制台层和云后端层。
客户与Eucalyptus平台交互通过最上层中基于Rest和Soap的Web服务就可以实现。逻辑上,云控制器(CLC)、集群控制器(CC)、存储控制器(SC)、存储服务组件(Walrus)、节点控制器(NC)是Eucalyptus的5个组件,它们相互协作共同提供用户所需的云服务。CLC控制管理局域网内所有NC和负责高层次的资源调度,是架构的核心部分。CC负责管理整个虚拟机实例网络,通过开启虚拟机实例的请求路由到具有可用资源的NC节点上[5]。SC与Walrus联合工作存储和访问用户数据及虚拟机映像。Walrus主要管理对Eucalyptus存储服务的访问。NC是控制当前机器节点上虚拟机实例的最终计算节点。一台单独的虚拟机在一个节点机器上作为一个独立的实例存在,多个节点控制器组成了特定的云[6]。
2.2 数据分析
Hadoop是具有高可靠性的开源分布式系统基础架构,它运行的环境可以是由大量廉价硬件设备组成的集群[7]。Hadoop具有效率高、可移植性高、扩容能力强等优点,许多知名公司如阿里巴巴、雅虎、百度等都利用Hadoop构建自己的数据中心,用其对海量数据进行存储分析。
HDFS(分布式文件系统)和MapReduce算法模型是Hadoop框架最核心的设计[8]。其基本架构如图3所示。
2.3 公共服务云架构
云计算平台为公共服务云架构提供了各种信息,并统一存储、管理、融合和处理信息。为了实现社区系统子功能的扩展,采用了可以实现社区云服务融合并提供统一接口的松耦合式架构。社区云可将社区安防、信息管理、公共服务和居家管理等子系统全部整合在一个完善的系统中,这些子系统的软硬件具体实现环节我们无需具体了解,它们均由公共服务云平台屏蔽。普通住户可以通过连接服务平台来使用资源。
2.3.1 云服务平台的构建
社区云服务平台的硬件资源设计如图4所示。
图4 云服务平台构造图
平台主要由以下四部分构成:
(1)防火墙左边是用于部署Gridsphere门户系统的门户端(192.168.142.167),是管理员管理云资源的入口,安装的Euca2ools工具以及访问Eucalyptus平台的相应证书信息,可作为访问云服务平台的中间件[9]。
(2)用于存储上传至云平台的镜像文件[10]和存储各子系统(如监控数据库、物业综合服务系统)的FTP服务器(192. 168.142.162)。
(3)云平台的外部存储(192.168.142.163-192.168.142.165)主要组合了Hadoop存储架构技术,门户系统需要用到MySQL数据库,数据库存放在外部存储中,实现了虚拟机的备份与快照。
(4)前端和后端的私有云。其架构由三台物理机构成,前端(192.168.142.166)安装了Eucalyptus云平台的四大组件,分别为CC、Walrus、CLC和SC;后端包括两台刀片机(192.168.142.160和192.168.142.161),它们均安装了Node Controller组件以运行虚拟机。
2.3.2 云架构平台
图5所示为社区智能系统云架构平台。
云平台分为基础设施即服务(IaaS)、平台即服务(PaaS)和软件即服务(SaaS)三部分。智慧社区系统从云服务提供商那里租用基础设施,以Eucalyptus+Hadoop框架为基础,构建PaaS平台,该平台具有对海量数据的存储能力和并行批处理能力,最后以SaaS模式到互联网上,供社区租用。
3 基于Android终端的控制
3.1 系统的整体设计
系统使用Android Studio作为开发环境,用户通过手机App与系统交互,利用Android系统提供的内部资源实现智慧社区中的各种功能。
3.2 客户端实现
3.2.1 用户控制
客户端设计的主要内容是用户UI界面设计与使用。用户UI界面使用XML布局文件和Java代码混合控制的方式,XML页面布局文件采用多种布局方式相结合的方法,包括LinearLayout,TableLayout,RelativeLayout以及GridLayout。Java代码实现了Android四大组件Activity,Service,Broadcast Receiver和ContentProvider的结合,使其可实现更多功能。
3.2.2 功能实现
在ActivityGroup中设计了“邻里”“物业”“我的”和“更多”4个子界面。
(1) “邻里”列表主要负责展示社区的各种活动和通知等;
(2)“物业”模块主要包括收缴电费、故障报修等内容;
(3)“我的”界面主要是社区居民个人信息管理;
(4)“更多”模块包括其他一些如外卖等额外服务。
图6所示为客户登录界面,图7所示为客户端操作界面。
4 结 语
本文介绍了Eucalyptus和Hadoop云计算平台,结合老年用户的特殊要求,研究了能够提供不同养老服务的社区智能服务平台,给出了平台的具体架构和实现方法,并在此基础上提取了相关数据分析模型,设计了相应的服务终端软件,为社区老年居民的生活带来便利,为未来养老模式的发展提供了参考。
参考文献
[1]龚静怡.居家养老―社区养老服务:符合中国国情的城镇养老模式[J].河海大学学报(哲学社会科学版),2004,6(4):72-74.
[2]李川瑜.我国城市居家养老社区服务研究[D].杭州:浙江大学,2007.
[3]马泽华.城市社区居家养老模式中完善社区服务问题研究[D].大连:辽宁师范大学,2013.
[4]周莉.城市居民居家养老社区支持体系研究[D].长沙:中南大学,2012.
[5]崔巍,李益发,斯雪明.基于Eucalyptus的基础设施即服务云框架协议设计[J].电子与信息学报,2012,34(7):1748-1754.
[6]方薇,崔超远,王儒敬.Eucalyptus开源框架下云平台的构建与性能分析[J].计算机系统应用,2012,21(6):1-5.
[7]陈吉荣,乐嘉锦.基于Hadoop生态系统的大数据解决方案综述[J].计算机工程与科学,2013,35(10):25-35.
[8]杨来,史忠植,梁帆,等.基于Hadoop云平台的并行数据挖掘方法[J]. 系统仿真学报,2013,25(5):936-944.
关键词:飞行计划 飞行参数计算 数据库结构 软件实施
中图分类号:TP311 文献标识码:A 文章编号:1672-3791(2012)12(c)-0227-01
1 飞行计划计算的基本方式
在飞行计划设计中需要进行一些列的相关计算这样才能保证多个航班之间相互配合,实现合理的空管。而在分布式数据库参与的飞行计划系统设计中这些计算方式将成为系统分配数据的基础依据。具体步骤如下。
(1)按照对应的航班选择飞行计划参数;(2)确定起飞的最大重量和目标机场的降落重量等;(3)确定航路的对应点经纬坐标等;(4)按照飞行航路确定航路上具体的气象数据;(5)从针对飞机的重量进行分析对比,确定平均重量;(6)按照平衡的重量计算下降时的飞机重量,配合降落机场的性能;(7)按照备降目标机场结合气象因素、时间、油量等获得以重量为参考的步长;(8)对计算的着陆重量来确定巡航距离,计算飞行规划;(9)经过反复计算获得最终的飞行参数;(10)确定好着陆的重量后,就可利用下降性能表获得下降的油量而获得起飞重量;(11)计算完成后将滑出、辅助动力的油量计入到起飞重量,得出在停机坪上的重量,然后将上面的总体油量汇总就得出了起飞的总油量;(12)最后是利用总体载荷减去空机的重量而获得业载的重量,以此按照不同的航路进行计算,将里程、时间、油耗等输出,即得到飞行计划。
2 分布式数据库对飞行计划的帮助
综合上面的计算过程,不难发现飞行计划的设计较为复杂,而涉及到的数据也十分庞大,如果单纯依靠独立的计算机进行计算其耗费的时间较长,不利行计划的灵活性需求。所以在设计中应借助与数据库技术来帮助解决。具体分析器所用的数据特征如下:(1)气象信息,在计算过程中有上百万的信息将被记录和查询,如果计算中每一个航路点仅仅计算一次,且每日定时更新,每次更新时间长度15分钟;(2)飞机性能信息,按照不同的飞行高度与性能就可分为9个基本信息类型,而细分数据类型则多达百万。(3)航班、机型、飞机数据等大部分都是来自于数据规模较小的数据库,对每个航班的计算仅仅查询一次,通畅更新频率低;(4)全球的航路点、航线信息,此类数据的量为10万左右,对每个航班的飞行计划查询频次为一次,更新频率为28天一次,每次计算都需要进行一次查找,这些数据通常与FOC共享服务器。
具体看,数据库的服务器和性能数据库服务器利用IBM设备进行控制,提高其性能;而气象数据的服务器则利用高性能的PC来提供服务,其系统利用window系统,客户端也采用高性能的PC作为服务器,操作系统也为widow系统,数据库系统则为ORACLE系统,在物理设计上性能数据库和气象数据库为分区保存。这就完成了飞行计划相关数据的分布式框架。
然后系统将利用计算模型进行分析与调用。以此构成一个飞行计划设计的系统,利用软件编辑实现前面飞行计划算法的自动化,数据准备模块中实现数据预处理,而等待模块、备降下降模块,备降巡航对应。备降爬升的过程;主要航段的下降、巡航、爬升等计算与备降阶段是一致的。因为数据准备模块不参与到性能数据分析中,所以这个模块可以放在客户端完成。数据准备完成后,其他模块都会仅仅和性能数据库向关联,这些模块除了是计算依据外,不会产生控制依赖,所以每个系统的计算模块都有独立的进程,通过各个独立进行的交错完成并行运算以节约时间,所以在分布式数据库构造一个组织,使得不同的航班飞行计划可以交错的并行且执行,降低了用户终端的响应耗时。
3 飞行管理上的应用
3.1 监控平台建立
在实际应用中飞行计划必须与飞行管理向配合,为了可以充分的将分布式的数据库利用起来,并且实现资源共享,在飞行管理中借助行计划管理系统来帮助实现对飞行计划的审核与评价,建立的计划管理监控功能模块,其中包括的模块是飞行计划数据库的管理模块;飞行预报管理模块;航线显示与监控模块;错误或者冲突判断模块,同时将地面雷达的信号与数据进入到监控系统中,实现对飞行计划的全面监控;将前面分析的油量监控计算引入到监控系统;地理信息和支持系统以及各种飞行参数进行全面监控。指挥人员利用该系统对整个分布式的数据进行调用与分析,从而实现对飞行计划的全面监控。
3.2 关键软件与技术实现
系统的软件构成:飞行计划设计软件;飞行航线显示;飞行冲突分析判断;雷达情报的引入与标准格式生成软件;地理信息管理与引入软件;飞行参数数据库的动态化共享。折现软件在系统中都在为飞行管理提供数据服务,并且保证飞行计划在设计与执行中保证准确。
关键技术:在飞行管理系统中,分布式数据库的数据共享必须考虑到多种数据的结合分析,根据飞行计划与航迹的综合性分析,来实现多数数据的共享,通常采用的是定性与定量的分析模式,利用综合性的比较来完成各种分布式传感器以及数据的综合性统计,从而与航迹直接管理方便管理,其中影响其判断的因素包括:偏航因素、时差因素、方向因素、速度因素、区域因素等,当然这五个因素中偏航因素与时差因素反应的是航迹的时间与空间的运行准确度,其作用是相似的;而方向因素与速度因素是飞行计划的决定性因素,如果方向与速度都出现偏差则所有的关联数据都会发生错误;区域因素是一个相对特殊的因素,其为有效因素则只需利用区域因素和偏航因素就可监控飞行计划的准确性。
4 结语
在飞行计划的设计中,需要考虑到多种因素的影响,其中包括了天气、场地、机型、航线距离等等,这些数据在处理过程中会消耗大部分资源,所以在规飞行计划设计中应借助于分布式的思路,缩短飞行计划系统工作的耗时,提高其响应的效率,尤其是将网络技术与之结合,则会大幅度提高系统的工作效率。
参考文献
[1] 程学军.新航行系统及其在航空电子系统中的应用[J].电讯技术,2009,16(5):56-57.
【关键词】数据中心基础设施建设设计
随着计算机技术的不断发展,数据中心不断涌现且规模也日益扩大,数据中心部署的计算机能力、存储系统容量以及通信系统传输速度都在飞速的增长。为了和世界水平接轨,仅仅是通过高性能计算机硬件的研制是远远不够的,要求一套具有适用性的机房场地环境系统,并且以此作为高性能计算机运行的基础。
一、设计的规范和标准
(1)TIA-942标准。它是集现有相关标准和规范于一体,并且有效的解决了数据中心基础设施的建设和设计阶段的信息隔阂问题,同时对于电力之上的问题也有全面的考虑。它全面的描述了在设备规划、数据中心的建设等方面的内容,为数据中心的规划、设计和施工提供了要求和指南。(2)THE UPTIME INSTITUTE数据中心等级标准。这个标准能够帮助建设人员针对数据中心在建设当中充分利用资源,达到资源的优化配置,减少资源浪费,进而有效的降低投资成本,提高设备的利用率减少故障发生的几率,并且能够有效的提高组织效率。
二、配电系统设计
(1)数据中心用电负荷。对UPS电源系统进行统计之时,如果能够明确具体负荷设备,则直接根据设备数据进行统计;如果无法明确,则按照设备机柜平均负荷进行统计;如果无法确认机柜数量,则根据机房面积平均负荷进行估计。对于变配电系统负荷统计,主要是对UPS电源、机房照明等相关设备进行统计。(2)供电电源。根据数据中心的具体情况确定供电电压,通常情况选择10kv。如果有长远的规划,且规划当中要求用电负荷较大,则选择35kv及其以上。同时电源引入应该根据数据中心具体情况而定,比如用途、等级等方面。需要建立专线以供数据中心使用,并且应该从两个独立的变电所引入,如果选择一个变电所,则供电母线必须是两段独立的存在。(3)应急电源。数据中心必须要有相应的应急电源,以保障可靠性运转。通常可以使用柴油发电机组,并且充分满足相应的电力需求。
三、平面布局设计
平面布局的设计和子系统之间联系十分紧密,而且是进行子系统设计的前提和基础。如果平面布局的设计出现不合理情况而需要变更,不仅会严重影响到子系统,而且变更所需要的费用非常高,变更的整个过程还存在诸多不可控的潜在风险。因此在设计之时要进行充分的讨论和全面的考虑,并且结合数据中心建设的具体要求,以及相关的标准规范,最终保障设计的科学性和合理性,尽量减少后期和建设当中的更改机率,促进建设工作的顺利完成。通常情况下,需要考虑数据中心的四个方面的内容,即动力区、主机房区、辅助机房区、总控中心区四个区域。
为了方便进行统一的安全管理,可以在数据中心的每个楼层只设计一个安全出入口。应信息安全要求,在出入口应当设置专人看守,并且配备相应的出入闸机等设备。在进行重点机房的部署之时,应该布置在整个建筑的中心位置,并且需要将机房的外墙和建筑的外墙有效分离,保持机房外墙的独立性。而针对辅助机房以及机房的走道,则可以部署在建筑物的。通过此种布局,不仅能够最大限度的减少空调能耗,而且也能够进一步的加强重点地方的安全性。
四、精密空调系统的设计
为了达到既能够有效提高制冷的效率,又能够保持能耗最大限度降低的目标,可以通过以下几种方式进行:合理布置冷热通道,保持气流的组织良好,进而达到加强制冷的效果,同时有效的降低耗能;完善内墙的作用,加强其的保温处理效果;通过使用智能化的照明系统,进而最大限度的减少电力的浪费,以及降低冷气的损失;通过分步的方式进行发展,机电设备的最佳运行情况是保持在75%左右;分析气流同时优化布线,保持机房内部的冷气可以畅通。
五、综合布线系统的设计
在进行设计之时也要严格的按照TIA-942的标准进行,建筑物单独设置冗余的接入运营商以及接入间的位置。针对核心网络区、主干路径与水平路径都必须使用冗余备份,只有这样才能在最大程度之上保障网络的可靠性。数据中心可以使用结构化的综合布线系统构架,将布线的路径简化,减少网线的数量,集中跳线区域,提高网络扩展的便利性,降低故障发生率和宕机情况。结构化综合布线系统和传统方式相比具有无与伦比的优越性,其使用了预端接光缆技术,大大提高了部署的速度,从而保障了管理简单且容易,并且故障发生几率也被有效降低,可靠性提高。
六、装饰装修系统
(1)首先针对隔断的设计。为了保证机房内不出现内柱,所以机房的建筑通常使用的是大跨度结构。为了方便控制空调、灰尘、噪音,以及便于统一的管理,因此针对大的机房可以通过玻璃的方式将其隔断,最终形成一个个较小的相对独立的区域。为了保障机房的安全性,要求门窗的设计应该要防火防盗,因此可以选择无框的大玻璃门,既美观又安全明亮。(2)其次是对地面的设计。由于机房具有一定的特殊性,所以通常要求地板要防静电,为了便于拆卸还可以运用活动地板。(3)然后是吊顶设计,一般选择金属板材。在进行设计之时还要充分考虑限制层高、美观以及成本问题。最后是墙面设计。对于墙面的设计和吊顶类似,也通常使用金属板材,不仅质量有所保障而且看起来美观,还能够充分满足防火要求,同时施工简易效率较高。
七、绿色理念在设计当中的运用
目前在进行数据中心的基础设施建设和设计之时,大部分都不太注意绿色理念的运用。在进行设计之时通常只考虑处理能力、网络规划等问题。对于能耗、环保问题等考虑较少。而以上阐述的设计方案充分运用了绿色设计理念,立足于最大限度的降低能耗,减少对环境的污染和破坏,进而降低运营成本。这是符合我国的节能减排决策,同时符合可持续发展目标。
在进行建设之时可以充分的吸收和利用国外先进技术和成功经验,并且结合自身的特点以及建设要求,进而达到最佳的建设效果。比如针对机房的散热问题,可以通过改变排列方式,进而增加散热效果,既不用增加制冷的设备在一定程度之上减少浪费和污染,又是符合绿色理念的。针对传统的队列式摆放,可以使用“面对面,背靠背”的方式以改进。但这种方式比较适合正在修建当中的机房,如果是已经完成的机房,改换摆放方式将会涉及到多个设施的改变,包括布线、地板等。
八、结束语
综上所述在进行数据中心基础设施的建设和设计之时,要严格按照设计的标准和规范进行,尤其是要注意空调、配电系统、布线系统等的设计。在设计之中为了符合环保要求还需要引入绿色理念,既能够有效的满足所有的建设需求,又能够有效的降低成本保护环境。
参考文献
[1]李长春,赵利红,张谦.需求层次理论与数据中心基础设施建设[J].信息系统工程,2012,11:27-29
[2]孙鑫.面向云环境数据中心的高效资源调度机制研究[D].北京邮电大学,2012
[3]邓果.区域教育基础信息数据库的规划与设计[D].华中师范大学,2013
【关键字】 D-S 威胁感知平台 威胁精准探知 风险分析与控制
Construction of Mobile Threat-Awareness Platform Based on Multi-Dimensional Data Analysis(China Mobile communication group Zhejiang Co., Ltd.,Zhejiang、310000)
Abstract:Information Technology is now experiencing an unprecedented rapid development, due to its nature of being convenient, efficient and as the core of information technology, mobile application inevitably has become an indispensable part of people’s daily work and study life. However, on account of its technological immaturity, and lack of a mobile applications targeted security management platform, have resulted in a significant number of user privacy leaks, corporate financial lost, and damaged interests, and have caused an incalculable impact on our society.This paper will introduce the D-S Model-based Threat-Awareness Platform of Mobile Application. By data mining and analyzing the mobile terminal threat, this security platform not only provides users with relevant threat intelligence information but also indicates the source of the threat with accurate positioning and control.All in all, Threat-Awareness platform is an innovative and efficient mobile security management platform that can close the loopholes which traditional security management architectures have failed to do so.
KEY words: D-S MODEL, Threat-Awareness Platform, Precise Threat Detection, Risk Analysis and Management.
一、背景和意x
随着移动互联网时代的到来,浙江省移动公司CRM系统的移动APP办公模式正在逐渐取代传统柜台式服务模式,该模式极大的提升了业务人员的办公效率和展业效率。但是随着国际、国内移动应用环境的不断复杂化,移动APP应用的攻击事件呈快速增长趋势。针对CRM系统移动APP自身业务层面的违规操作和攻击事件始终未曾停止过,虽然APP在最初设计中已经进行了一定的安全防护措施,但依然存在诸多异常数据无法精准判定,主要表现在:同一UUID对应多个员工账号,账号存在跨区域业务办理;业务办理过程中提交的数据不完整,存在某些字段为空的违规数据形式;部分账号在同一时间进行业务办理,同一账号会在一次操作中进行多次业务办理,存在多账号办理业务时间间隔相同等等。从后台数据中虽然可以确定存在异常信息,但是缺乏专业的分析系统和分析人员,导致无法定位异常信息的来源和攻击形式。
我公司曾经对异常数据进行排查,发现大部分缘由是一些员工或者公司进行违规操作而造成。信安部结合相关业务部门通过明察暗访确实发现下属员工和公司存在通过手机模拟器软件进行批量业务操作的行为,也发现公司购买外挂、位置造假等软件进行违规业务办理操作,甚至还有部分员工非法购买个人信息进行批量性的黑卡办理操作从中谋取暴利。以上行为不仅影响了公司业务系统的正常运行,而且黑卡流入社会为电信欺诈提供了赖以生存的沃土,不但影响移动公司的形象,也对人民群众的生命财产安全造成严重威胁。
同时G20峰会的召开,保证峰会期间移动CRM系统的安全运行至关重要。
二、项目特点及主要技术功能介绍
针对日益复杂和难以界定(比如:批量注册、刷单)的移动平台攻击,依靠单一技术或简单规则来发现阻断攻击己经不可能实现,防御的最佳策略是及早发现并实时响应。通过在移动平台上多维度多层次采集数据,构建基于多维度取证和响应同时交互进行的防御架构,不仅可以提高取证分析追溯能力,还能更好的弥合主动取证和快速响应之间的安全间隙。充分考虑时间跨度,提出一种状态加响应的证据链取证方法,对这种证据链进行有效保存和深度挖掘,从而更好的解决一些持久的入侵取证分析。利用D-S证据理论对取证数据进行有效处理,更加有利于进行精准的预测和高效的决策。通过构建与浙江移动业务强关联的威胁检测模型,尽可能早的发现潜在的安全威胁并迅速采取响应,将类似黑卡、信息伪造等复杂攻击带来的损失减小到最低甚至阻止其发生。
2.1基于终端多维度多级的信息采集
终端多维度多级信息采集采用“采集器”和“传感器”相结合的信息采集模式,采集器实时将数据上报传感器,并由服务器集群进行快速的数据分析,进行可疑行为的判断与定位。利用终端多维度数据采集主动发现可疑行为并迅速采取应急响应是更早发现威胁的最佳途径,该途径还可以将威胁的影响大幅度减小。由于移动市场的复杂化,终端的多样化,确保每个终端进行有效的取证和响应存在很大的难度。终端取证采用多维度终端取证和响应相结合可以尽可能的构建及时的安全分析及响应体系。
在预防和检测移动威胁方面,通过不同安全分析模块对数据进行分析和处理,从而可以快速的发现威胁事件。由于采用取证加响应的模式收集证据,使得证据链在时间上有一定的跨度,从而保证在长时间持续性的进行分析和保护。
在攻击证据追踪方面,基于层次化的证据链收集方式(对C&C流量分析),有利于还原攻击场景,定位威胁源位置。各级的证据数据库提供了大量的生动的证据链,短时间内只需在对不同时期,不同位置的证据链进行关联分析,就可以快速确定威胁形式。基于长时间的证据链汇总和采用先进的算法,可以还原攻击的每个细节。
2.2证据链模型
证据链是由取证状态和响应动作共同构成,能够有助于更好的还原整个攻击的完整过程。同时,取证状态和响应动作相互配合,可以最大限度的将攻击的危害减小到最小。终端取证可以发现如可疑的应用操作、可疑应用权限、可疑的系统调用等值得注意的变化。响应动作可以采取:标记可疑目标为不信任、进一步审计、生成攻击记录、进一步筛查可疑文件、迅速定位可疑状态来源、可阻止运行。终端取证和终端响应相互配合,相互联动是形成证据链的根本。
证据链的形成过程主要是依据终端取证和响应发生的时间节点作为依据,充分考虑运用证据链在恢复攻击场景时的作用(如图1所示)。对于终端取证每发现到一个可疑改变时做出详细的时间记录,可以更好在以后的有关证据的整合、最新攻击的查找定位中起到很好的作用。对于响应的时间记录可以有助于分析哪些响应更加有效和有针对性。
证据链的分析主要是依据取证和响应的时间跨度进行分析,同时也是发生在每一级端点的分布式分析。如果取证发现的最新的可疑行为与系统已存在文件之间有关联时,可以通过这个已存在文件的加载时间,在防御系统中查询这一时间段的己经发现并存储的攻击证据链,能够更加精确定位到威胁的来源并迅速采取相应的措施。同时通过一些指标的分析确定系统所处的安全环境和防御的有效性。
同时,取证的证据还包括:不同攻击的安装模块、技术细节和认证形式,分析它们之间的联系和相关性等信息,尤其是通过对认证形式的分析找出可疑的事件。C &C通信的细节也是取证的关键,可以判断出攻击端的通信网络模式(WiFi, 4G) ,使用的终端类型,终端系统版本等信息。
2.3 D-S综合决策模型
D-S综合决策模型是对不断收集到的证据链,通过一定的规则和函数高效的利用取证和响应信息,并将诊断对象对安全运行状态变化的敏感程度设置为阈值;得到的可疑威胁特征构成识别诊断对象安全状态的证据。利用D-S证据理论构建证据融合诊断决策模型对所获取的证据进行处理,从而达到对这些证据链进行融合处理与分析的目的;最终通过对比事先商定并可以不断改进的诊断策略规则和可调整的阈值得出诊断结论。
2.3.1基于C据链的决策步骤
利用三级端点取证和响应系统,可以获得大量的信息,基于D-S的证据理论可以更好的将这些信息进行有效的利用。结合D-S证据理论决策融合的基本过程和威胁感知的信息融合结构,可以得到D-S证据理论信息融合威胁诊断方法的步骤(如图2所示):
1)确定攻击威胁空间在查阅目标保护端点上的各类审计信息的基础上,统计曾经发现过的攻击的具体活动方式和前期威胁特征(比如访问终端变化,权限的更改,关键系统资源的非法访问等等);然后把这些前期特征和实施方式归纳为若干个典型的威胁类型(刷单、信息造假等);最后,由这些典型的攻击威胁类型构成“攻击威胁空间”。
2)确定攻击威胁空间,利用三级端点取证和响应系统当前获取的证据链信息,首先,结合一定的规则将证据链拆分成孤立的威胁特征,形成“攻击威胁空间”中的各种威胁特征并关联到已经知道的攻击方式。然后进一步结合审计系统细化攻击特征构造各种“攻击威胁特征子集”,同时形成“攻击威胁空间”。
3)选择证据体利用攻击威胁特征子集,结合识别框架中各种攻击的特点,从不同侧面构造能够识别“诊断对象信息系统”安全状态的证据体。证据体的选择主要追溯攻击源头,为查找攻击规律提供便利。这些证据体主要是三级端点取证和响应系统获取经过处理的证据链,历史数据等。
4)确定出各证据的基本可信度,并分配在深入分析各证据与识别框架中各命题对应关系的基础上,结合具体的安全管理策略,安全管理策略和相关参数可以不断优化和动态调整。综合采用多种确定证据可信度的方法如专家打分法、概率统计法等,计算出各个证据对识别框架中各命题的支持程度。
5)分别计算各证据的信度函数和真度函数利用各证据体的基本可信度分配计算出各命题的信度区间,对于己经发现的运用次数较多的证据体可信度数值自然比较高。