HI,欢迎来到好期刊网!

数据统计论文

时间:2023-03-22 17:34:16

导语:在数据统计论文的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。

数据统计论文

第1篇

【关键词】网络数据 系统

1 医院学术论文管理情况现状

随着计算机的广泛应用,绝大多数医院管理论文的方法已经从手工登记转变为使用计算机软件管理,其中最为普及的是使用Excel软件制作电子表格登记论文资料。这种方法可以较好地帮助工作人员解决查找和数据统计的问题。但是,数据的收集需要做大量的前期工作,由论文作者上报至科教科,再由科教科工作人员进行手工录入制成Excel表格,需要生成报表和统计数据的时候也必须手动操作。

大量繁琐枯燥的手工录入工作制成的Excel的本地文件,却并不能较好的实现数据共享。因此,随着网络的普及,部分医院建立了基于Web的论文管理系统。依靠B/S架构的Web论文管理系统,可以很好的解决数据共享的问题。相比于使用Excel文件记录论文数据,网络论文管理系统的优点在于只要有可用的网络,无论何时何地都可以通过手机或个人计算机进入系统,进行论文上报、登记、查询操作,使论文管理工作不仅限于办公室。并且依靠计算机技术也可以一定程度的简化手工工作,以鼠标点选、自动生成等方式优化录入、统计分析的过程。

2 基于网络数据抓取的医院论文管理系统

基于网络数据抓取的医院论文管理系统保留了普通网络论文管理系统的优点,着力优化和完善最为繁琐的数据录入过程,从国内权威的论文数据库中直接抓取需要的数据存入自己的数据库。

据了解,国内绝大部分正规期刊上发表的文献在见刊1-2个月后就会被知网、万方、维普等专业的文献数据库收录。普通用户通过检索,可以获取到论文的题目、发表刊物、见刊时间、作者姓名、单位、关键词、摘要等数据,足以满足医院论文管理系统的需求。只要实现并使用抓取功能获得需要的数据,就能大大简化手工录入的工作,同时能有效的避免论文漏报、错报。

2.1 系统的体系结构

目前基于网络的系统体系结构主要是C/S(客户端/服务器)架构与B/S(浏览器/服务器)架构。C/S架构将大部分的运算放在客户端处理,要求进入系统的计算机安装相应的客户端程序,对计算机操作系统等条件有特定的要求,限制了用户群,具有较高的安全性,但是灵活性不强,不便于后期维护和系统升级。B/S架构基于HTTP和TCP/IP协议,运用服务器完成大量的运算,将运算结果传输给浏览器显示,用户只需要使用浏览器就可以在个人计算机或智能手机上进行操作,不受局域网、软件和运行平台的限制,可以实现跨平台的使用,并且后期维护成本低,更新方便。

为了系统后期的维护及功能完善,本系统采用B/S架构,也更能适应目前信息系统的发展趋势。

2.2 系统的功能模块

如图1所示,本系统分为五个功能模块,分别为:部门管理模块、职工管理模块、论文抓取模块、论文录入模块、查询统计模块。

2.2.1 部门管理模块

部门管理模块的主要功能是通过添加、修改、删除操作设置医院部门信息,构建一个完整的部门树形结构,以便在查询统计时可以实现按照部门查询统计,有助于分析和比较各科室部门的情况。

2.2.2 职工管理模块

职工管理模块同样通过数据库的操作建立职工的花名册,并且将每个职工按照实际情况分配到科室和部门,如此便建立了论文、作者、部门的关系。

2.2.3 论文数据抓取模块

论文数据抓取模块使用网络数据抓取的方法,通过请求URL、对返回数据进行分析、提取论文相关数据,将其存入论文信息表,并与医院职工进行关联。

2.2.4 论文数据录入模块

本模块的主要功能是手工维护论文数据,以对论文数据的添加、修改、删除操作,提供是一个查缺补漏渠道,对数据抓取过程中出现的不完善数据进行人工修改。

2.2.5 统计查询模块

模块提供作者姓名查询、关键词查询、期刊查询、发表时间查询、科室查询等丰富的查询方法。统计各科室数量、各种期刊上的数量、关键词相关论文数量、任意时间段数量等以供比较分析。

2.3 网络数据抓取模块设计

数据抓取功能是本系统的特色和亮点,其设计原理类似于简化的网络爬虫,抓取数据更具针对性,抓取范围仅限于较权威的论文期刊数据库。以下介绍设计思路。

2.3.1 抓取模块涉及的数据库设计

为了能在网络上抓取数据,需要一个表存放URL信息,其中包括的主要字段有URL、URL的MD5编码、访问状态、请求的页面类型等。

另外需要一个存放论文信息的表存放抓取到的数据,包含题目、刊名、发表时间、作者、关键词、摘要等字段。

2.3.2 抓取数据的主要步骤

首先程序从URL表中取出一条访问状态为未访问的数据,请求此URL并接收返回数据,根据URL请求的页面类型做提取论数据或者提取URL数据的操作。

对于返回的是论文页面,需要提取论文详细信息,然后到论文信息表中查找,判断是否为已经抓取过的论文数据,若已抓取,则标记请求的URL为已访问,然后进行下一个URL的请求。否则将论文数据整理并入库,将作者与职工关联,之后请求下一个URL。

若非论文详情页面,则需分离提取页面中的URL,将提取到的URL逐个进行MD5编码后到URL表中,将非重数据标记为未访问然后入库。

3 实现本系统的意义

基于网络数据抓取的医院论文管理系统可以有效地减少论文管理过程中的繁琐工作,简化管理流程,为管理人员减负。同时,得益于系统采用B/S架构,可以实现跨平台、跨区域的管理。抓取来自论文数据库的数据相对全面,以此数据做出的分析统计能够更加有效的指导医院科研的发展方向和重心。设计并实现本系统,有效地提高了科教管理工作效率。

第2篇

1.1 色散

在光纤信号的传输过程中,不同成分的光源群在传输速度上存在一定的差异,这种差异会产生一定的时间延迟,从而形成色散。色散主要包括模式色散、色度色散以及偏振色散三种类型,其中色度色散又可以分为材料色散和波导色散两种,色散问题在超长距离光纤通信中表现得尤为明显。目前,传统的方法是通过利用具有负色散系数性质的DCF进行色散补偿,但是该方法存在十分显著的非线性效应,会产生较大的损耗,而且这种损耗随补偿距离的增加而增大,在超长距离通信系统中采用该方案会产生极高的成本。针对传统色散补偿方法成本过高的问题,已经有厂家开发出了FBG色散补偿模块,该模块能够利用光栅对不同波长的发射特性实现对色散的补偿,其损耗值与补偿距离无关,有效弥补了传统补偿方法的缺点。

1.2 信噪比

在长距离通信系统中,光放大器在放大光信号的同时,会产生一定程度的自发辐射放大噪声,由于线路的长度较长,因此会产生较大的损耗,信号衰减十分严重,在经过放大器放大之后,这种放大噪声很可能与信号能量非常接近,导致接收端无法正常的分辨信号,影响系统的正常运行。针对这类问题,一般在前置放大器中加装滤波器,这样能够过滤掉信号光周边的部分噪声信号,从而提高信噪比。

1.3 功率

在超长距离通信系统中,光纤信号在传输时,由于光波与传播媒介之间的相互作用会导致光能发生一定程度的衰减,当能量衰减到一定程度之后,接收端无法从噪声中正确的辨识出光信号,限制正常的光通信。针对这些问题,一般通过功率补偿的方式来降低信号衰减所产生的损耗。目前在超长距离通信系统中采用的最主要手段是EDFA。EDFA分为功率放大器和前置放大器,其中功率放大器通常配置在传输系统的发射端后,以最大限度提升发射功率,前置放大器通常配置在接收端前,主要作用是提高接收灵敏度。当通信线路的长度达到一定距离后,仅仅采用功率放大器和前置放大器很难保证接收端正常的接收信号,此时需要在该方法的基础上对光源进行附加调制或采用外接调制器进行附加调相,从而增大入射光的谱宽。目前,该方法在国家电网以及南方电网的超高压输电公司中得到了较好的应用。

二、超长距离通信技术在电力系统中的应用方案

我国的超长距离通信从2007年开始试验,最初是由光迅科技与南方电网超高压输电公司进行合作所进行的长度为345km的2.5Gbit/s的超长距离无中继通信工程,该段线路中配置了FEC、EDFA、RFA及光栅型DCM,系统保持了3个月的试运行,其整个运行过程的测试结果均十分良好。南方电网在“十一五”黔电送粤施秉——贤令山500kV输电工程中,对上述技术进行了广泛的使用,在该输电工程中,采用超长距离通信技术的线路跨度长达318km。系统从2008年7月开始运行以来,一直保持十分稳定的工作状态,此系统也是我国到目前为止唯一没有设置中继站而传输距离超过300km的实际工程。根据设计中的预算,相对于实际已建成的系统而言,采用中继站将会增加约200万元的成本。由此也可以看出,通过超长距无中继通信技术在电力系统中的运用,能够使电力通信系统的经济性及运行可靠性大大提升,同时也使得通信系统的维护难度大幅度降低。此后,该技术在多项电力通信工程中得到广泛应用。

三、结论

第3篇

1.1异步转换技术

这种技术是一种面向连接宽带的交换技术,是传统分组交换技术和电路交换技术的延伸和发展。该技术是使用定长分组把语音和图像等信息分解成固定长度53b的信息,定长分组就是信元。作用机制是将信元作为单位进行复接、传输、交换,获得了空信元就可以插入信息,且插入的位置可以是随意的,然后进行信息传输。这种技术的优点是能进行无连接传输,有助于宽带高速交换,简化了网络协议和功能等。主要业务有互联局域网、虚拟局域网组建、支持无连接数据通信业务、支持帧中继业务等。

1.2光交换技术

这是建立在光纤介质上的交换技术,可以分为波分光交换技术、时分光交换技术和空分光交换技术。波分光交换技术的基础是波分复用技术,能开展超大容量的数据传输,采用的方法是波长变换和波长选择。该技术分别有N条输入和输出管线,且每条光纤都是借助波分复用技术有n个波长的载波信号,并在每个复用器之间实现N路光纤的n个波长信号交换的。时分光交换技术的基础上时分复用技术,原理是时隙互换。时分复用技术是将时间化成好多帧,将每个帧划分成N个长度一样的时隙,并将时隙分别分给N个信号,最后将N个信号复接到一条光纤上的传输技术。空分光交换技术的基础是光开关技术,通过光开关技术把光信号的传送通路进行变化,达到传输的目的。此外,光交换技术还有一种是对上述三个技术的组合,形成组合光交换技术。组合光交换技术主要是由光开关阵列和波分复用器组成的。

2强化交换技术在现代数据通信中作用的建议

在现代数据通信中,选择并使用合适的交换技术是至关重要的,尤其是对提高数据通信质量有直接影响。要想充分发挥交换技术在现代数据通信中的作用,很重要的一个衡量指标是要确保数据通信的可靠性和有效性,即保障数据通信质量。为了强化换技术在现代数据通信中的作用,提高数据通信质量,必须做到以下几点。

(1)制定科学合理的通信协议。即要尽量减少数据包的长度,可以使用长度字节来对数据包长度进行标志;已经制定好的通信协议要经过多次验证,提高有效性;可以采用合理的帧进行同步标志。

(2)最大程度的降低波特率相对误差。

(3)合理使用软件抗干扰技术。软件抗干扰技术是一种单片机系统的自身防御,系统中控制程序代码必须要不被损坏是该技术的使用前提。

3结语

第4篇

网络通信有一定的风险性,对数据加密技术的需求比较大,结合网络通信的实践应用,通过例举网络通信中的风险表现,分析其对数据加密技术的需求。网络通信的安全风险有:①网络通信的过程中,面临着攻击者的监听、窃取破坏,很容易丢失传输中的数据信息;②攻击者随意更改网络通信中的信息,冒充管理者截取传输信息,导致网络通信的数据丢失;③网络通信中的数据信息被恶意复制,引起了系统瘫痪、信息不准确的问题。由此可见:网络通信中,必须强化数据加密技术的应用,采取数据加密技术,保护网络通信的整个过程,预防攻击行为,提高网络通信的安全水平,避免出现恶意攻击的现象,保障网络通信的安全性和积极性,表明数据加密技术的重要性,进而完善网络通信的环境。

2数据加密技术在网络通信中的应用

数据加密技术提升了网络通信的安全性,规范了网络通信的运营环境,规避了潜在的风险因素。网络通信中的数据加密,主要分为方法和技术两部分,对其做如下分析:

2.1网络通信中的数据加密方法

2.1.1对称加密

对称加密方法在网络通信中比较常用,利用相同的密钥,完成通信数据加密到解密的过程,降低了数据加密的难度。对称加密中,比较有代表性的方法是DES加密,属于标准对称加密的方法。例如:DES在网络通信中的应用,使用了固定的加密框架,DES通过密钥,迭代子密钥,将56bit密钥分解成16组48bit,迭代的过程中进行加密,而解密的过程与加密流程相似,使用的密钥也完全相同,加密与解密密钥的使用正好相反,根据网络通信的数据类型,完成对称加密。

2.1.2非对称加密

非对称加密方法的难度稍高,加密与解密的过程,采用了不同的密钥,以公钥、私钥的方式,对网络通信实行非对称加密。公钥和私钥配对后,才能打开非对称加密的网络通信数据,其私钥由网络通信的管理者保管,不能公开使用。非对称加密方法在网络通信中的应用,解密时仅需要管理者主动输入密钥的数据即可,操作方法非常简单,而且具有较高的安全水平,提高了加密解密的时间效率。

2.2网络通信中的数据加密技术

2.2.1链路加密

网络通信中的链路加密,实际是一种在线加密技术,按照网络通信的链路分配,提供可行的加密方法。网络通信的数据信息在传输前,已经进入了加密的状态,链路节点先进行解密,在下一链路环境中,重新进入加密状态,整个网络通信链路传输的过程中,都是按照先解密在加密的方式进行,链路上的数据信息,均处于密文保护状态,隐藏了数据信息的各项属性,避免数据信息被攻击窃取。

2.2.2节点加密

节点加密技术确保了网络通信节点位置数据信息的安全性,通过节点处的数据信息,都不会是明文形式,均表现为密文,促使节点加密成为具有安全保护功能的模块,安全的连接了网络通信中的信息。加点加密技术在网络通信中的应用,依赖于密码装置,用于完成节点信息的加密、解密,但是此类应用也存在一个明显的缺陷,即:报头、路由信息为明文方式,由此增加了节点加密的难度,很容易为攻击者提供窃取条件,是节点加密技术应用中需要重点考虑的问题。

2.2.3端到端加密

网络通信的端到端加密,是指出发点到接收点,整个过程不能出现明文状态的数据信息。端到端加密的过程中,不会出现解密行为,数据信息进入到接收点后,接收人借助密钥加密信息,提高网络通信的安全性,即使网络通信的节点发生安全破坏,也不会造成数据信息的攻击丢失,起到优质的加密作用。端到端加密时,应该做好出发点、接收点位置的网络通信加密,以便确保整个网络通信过程的安全性。

3结束语

第5篇

为避免MPU和HCU同时对双口RAM的同一个内存单元进行访问,本设计没有采用双口RAM的中断或者信号量等机制,而是采用一种基于角色的环形缓冲收发机制,将双口RAM划分为两个独立环形缓冲区:发送环形缓冲区和接收环形缓冲区。发送环形缓冲区负责将MPU数据传递给HCU,最终发送给外部设备;HCU从外部设备接收到数据,放到接收环形缓冲区,并传递给MPU。

1.1数据处理

三取二安全计算机逻辑运算模块的运行周期为600ms,该模块按照周期进行数据接收、数据处理、数据输出。在第n个周期,MPU上的控制逻辑运算模块从双口RAM接收到数据后,放到逻辑接收缓冲区;从逻辑接收缓冲区取出n-1个周期的数据并进行逻辑处理;将n-2个周期的逻辑处理结果,从逻辑发送缓冲区中取出,放到双口RAM中。MPU上的控制逻辑运算模块对安全数据进行逻辑处理的时间不超过300ms,如果超过,就会影响MPU接收或者发送数据。同样,MPU上的控制逻辑运算模块接收、发送数据超过300ms,也会影响逻辑处理功能。在接收发送处理阶段,300ms中的280ms被分为20个发送接收子周期,每一个子周期的时间为14ms。在HCU中,也是按照同样的运行节拍从双口RAM中写入或读出数据。MPU与HCU之间交互的数据,按照预先定义的双口RAM交换数据帧进行。数据帧定义略———编者注。

1.2数据接收

HCU通过网络接口接收到数据后,对数据进行预处理,按照交换数据帧进行数据组包。根据当前周期号设置“cycle”,同时确定该数据包需要被放到D、E、F三个区块中写入区块角色标志“role”,将“flag”设置为1(即为输入),并交换数据帧的其他字段,按照源网络数据包中的信息进行设置。HCU根据当前周期号确定在接收环形缓冲区中的写入区块后,将组包之后的交换数据帧放到写入区块中。MPU根据当前周期号确定在接收环形缓冲区中的读出区块后,从读出区块中获取交换数据帧,然后对数据帧进行解包,并通过“cycle”、“role”、“flag”、“safety”、“crc”等信息来验证数据帧的唯一性和正确性,正常的数据帧被放到逻辑接收缓冲区,异常的数据帧被丢弃。同时MPU根据当前周期号,确定在接收环形缓冲区中的测试区块,利用内存检测算法对测试区块进行双口RAM内存区块检测。

1.3数据发送

在当前周期的600ms内,MPU进行逻辑运算处理在300ms内完成后,MPU从逻辑发送缓冲区中读取上个周期的逻辑处理结果数据,并对结果数据进行预处理,按照交换数据帧进行数据组包。根据当前周期号设置“cycle”,同时确定该数据包需要被放到A、B、C三个区块中写入区块角色标志“role”,将“flag”设置为1(即为输入),并交换数据帧的其他字段,按照源网络数据包中的信息进行设置。MPU根据当前周期号,确定在发送环形缓冲区中的写入区块后,将组包之后的交换数据帧放到写入区块中。HCU根据当前周期号,确定在接收环形缓冲区中的读出区块后,从读出区块中获取交换数据帧,然后对数据帧进行解包,并通过“cycle”、“role”、“flag”、“safety”、“crc”等信息来验证数据帧的唯一性和正确性,验证数据帧的正确性。异常的数据帧被丢弃,正常的数据帧按照网络数据帧进行组包,并通过网络发送给轨旁设备或者车载控制器。同时HCU根据当前周期号,确定在发送环形缓冲区中的测试区块,利用内存检测算法对测试区块进行双口RAM内存区块检测。

1.4区块角色轮换

双口RAM的发送与接收环形缓冲区的3个区块,在任意一个周期都只能处于读出、写入、测试3种中的某一种角色,而且这3个角色进行周期轮换,区块角色轮换表略———编者注。MPU与HCU通过双口RAM区块角色进行数据交互的步骤略———编者注。MPU与HCU通过相同的外部时钟中断来驱动数据处理软件模块的运行,MPU与HCU在对双口RAM进行访问时可以做到同步、流水线作业。在同一个处理周期内,发送环形缓冲区或者接收环形缓冲区中任何一个区块都有明确固定的角色,MPU板和HCU板不会同时访问操作相同区块,只有一个板卡对特定区块进行访问,从而解决了双口RAM的访问冲突问题,不需要另外采取硬件仲裁、软件仲裁或者信号量交互等手段。

1.5双口RAM检测

应用在三取二安全计算机中双口RAM可能存在一些功能性缺陷。无论门级电子元件的制造缺陷,还是板卡电路级的设计错误,都可能导致双口RAM的存储功能性故障,从而降低其功能完整性和可靠性。双口RAM存储单元具有多种类型的故障略———编者注。实际项目应用中,开发人员需要关注双口RAM存储功能的完整性和可靠性,可以通过存储器检测算法来对其进行检测和诊断,能够及时地发现和定位双口RAM的存储功能故障,并及时采取相应的措施,避免因双口RAM存储单元的数据错误导致的严重后果。本文采用硬件BIST架构(HBIST),在硬件电路中设计专门的硬件逻辑部件来对内存进行测试,其图形测试向量有专门的硬件电路模块生成,自动对内存的各种功能故障进行测试,硬件架构内建测试的内存故障测试覆盖率高,而且测试速度快,设计选取的图形测试向量主要用于覆盖高层次的内存故障,如NPSF、CF、DRF。HBIST利用March-TB内存测试算法对系统的内存进行测试,使用硬件HBIST电路来生成图形测试向量,并由硬件HBIST电路来进行测试,HBIST测试电路模型略———编者注。在硬件BIST处于非工作状态时,会拉低BIST的时钟信号,BIST电路进入休眠状态。当系统在夜间进入非繁忙状态,会产生BIST_MODE信号,来激活BIST电路的BIST模式控制器,并拉高时钟信号,BIST模式控制器发出控制信号,会接管对整个RAM的访问控制,并对RAM开始进行测试。BIST模式控制器控制测试向量产生器、地址与数据生成逻辑工作,产生相应的测试向量对RAM进行测试。同时,并将测试结果在BIST结果比较器中进行比较,如果发现异常,退出BIST_MODE模式,通知MPU测试异常,MPU产生相应的告警和错误处理。HBIST在进行内存检测时一共具有4种状态:idle、test、error、wait。idle表示处于等待测试数据进行测试的空闲状态;test表示获得测试向量对相应内存单元进行测试;error表示检测到内存单元出错;wait表示处于休眠状态,等待CPU模块激活HBIST。HBIST状态机的状态转移图略———编者注。HBIST状态机的VHDL程序略———编者注。在测试的过程中,通过植入内存故障,并用逻辑分析仪获取出错信号,硬件BIST模块检测内存出错图如图3所示。圆圈里面的测试结果与期望结果不一致,内存检测出错。

1.6数据交互软硬件设计

双口RAM是双端口SRAM芯片,本设计采用CY7C028V-15AXI,读写速度最高为15ns,数据容量为64K×16位。双口RAM连接HCU板的一端为MPC8247的LO-CALBUS总线,连接MPU板的一端为CPCI总线桥接芯片的LOCALBUS总线,HCU可以直接通过LOCALBUS总线访问双口RAM,而MPU板通过PCI总线访问,其中还有控制信号,如片选、读写、中断、BUSY信号等。双口RAM交互电路图略———编者注。在MPU和HCU中,通过设计的软件模块,来完成双口RAM的访问操作。双口RAM的MPU上软件交互关键代码略———编者注。

2结语

第6篇

现代经济正步入以世界统一市场为标志的世界经济一体化轨道,企业的成败,取决于信息获取、识别、处理、转换、传递的准确性、效率与速度。因此,信息在企业经营管理中的重要作用也将愈来愈显著。随着我国改革开放,确立市场经济体制,和加入WTO,企业要能在国际国内激烈的市场竞争中求得生存与此同时发展,一个重要的条件就是——必须要有一个健全的高效的信息系统,以满足企业经营管理决策所需的各种内外信息。因此,作为提供信息的企业统计必将在其中扮演重要角色,发挥重要作用。特别是对我们**系统来说,随着“大企业、大市场、大品牌”的形成,以行政区划为单一的卷烟市场割据将很快被打破,搬掉门槛推倒墙是大势所趋。再下一步就有可能是**专卖法的取消,所有这些都告诉我们,**行业也将马上面临着国际国内激烈的市场竞争。想在这种激烈的竞争中生存发展,必须要有一支能够为企业的决策和管理者提供准确数据的素质过硬的统计队伍。

近年来,我国统计工作取得了比较显著的成绩。从总体上来看,我国现有的统计数据,基本上还是能够反映客观实际的。但是,随着社会主义市场经济的不断发展,经济结构复杂化,利益主体多元化,再加上体制转化过程中经济秩序混乱,人为干扰增多,因而搞准统计数据的难度也就日益增大,统计失实的潜在危险性也就日渐严重,并将逐步暴露。对此,我们必须要有清醒的认识,要始终不渝地把提高统计数据质量问题,摆到统计工作的首要位置,并采取综合治理措施,切实抓紧抓好。下面就统计数据质量问题谈谈自己一些粗浅的看法。

一、统计数据质量控制的意义

企业统计的目的是为企业经营决策管理提供统计信息。在市场经济条件下,企业经营决策极具风险性,风险产生于不确定性并由不确定性程度决定风险的大小,而不确定性又与信息的准确和及时程度直接相关,信息愈准确及时,不确定性愈低,反之,亦然。所以,准确性和及时性是对统计资料的两项基本要求。其中,准确性的要求是第一位的,是统计工作的生命。它确定着统计资料是否有效和价值的高低,是衡量统计数据质量的根本标志。准确可靠的统计数据,便于决策和管理者正确地把握形势,客观地剖析问题,从而作出科学的决策。反之,有水分的、失实的统计数据,相互矛盾的统计数据,给决策者以错误的信号,将会误导决策和调控,对企业的发展将会造成重大损失。因此,统计工作者必须以对本职工作高度负责的精神,以统计数据为对象,以消除统计数据的差错为目标,千方百计搞准统计数据,达到强化统计数据质量控制的目的。

二、常见的统计数据质量问题及分析

(一)数据虚假

这是最常见的统计数据质量问题,也是危害最为严重的数据质量问题。这类统计数据完全是虚构的杜撰的,毫无事实根据。造成统计数据虚假的因素多种多样,比如,有意虚报,瞒报统计数据资料,指标制定不严密,统计制度不完善,不配套等。

(二)拼凑的数据

这种数据是把不同地点,不同条件,不同性质的数据在收集、加工、传递过程中,人为地拼凑成同一时间、地点、条件和性质下的同一数据。这种东拼西凑的数据,虽然分别有事实根据,但是从整体上看数据是不符合事实的,其性质与数据虚构相同。

(三)指标数值背离指标原意

这是由于对指标的理解不准确,或者是因为指标含义模糊,指标计算的随意性大等原因造成的数据质量问题,表现为收集整理的统计数据不是所要求的统计内容,数据与指标原意出现走样,面目全非。

(四)数据的逻辑性错误

这是指统计资料的排列不合逻辑,各个数据、项目之间相互矛盾。例如,企业卷烟库存商品中主要的组成部分是省产烟、省外烟、国外烟,如果企业报送的统计资料中,卷烟库存商品总金额显著下降,而省产烟库存金额大幅度上升,省外烟和国外烟库存金额只是持平或只有小幅度的下降,这就存在矛盾,表明数据有逻辑性错误。

(五)数据的非同一性

它是指同一个指标在不同时期的统计范围、口径、内容、方法、单位和价格上有差别而造成的数据的不可比性。例如,2003年的统计资料中不含税价在30元以上的卷烟为一类卷烟,而在2004年的统计资料中,不含税价50元以上的卷烟为一类卷烟,如果在此基础上来比较两年的一类卷烟的销售量,而得出一类卷烟销售量大幅度下降的结论显然是不合理的。

(六)数据不完整

这里指调查单位出现遗漏,所列项目的资料没有搜集齐全,不符合统计资料完整性的要求。数据不完整,就不可能反映研究对象的全貌和正确认识现象总体特征,最终也就难以对现象变化的规律性做出明确的判断,甚至会得出错误的结论。

(七)统计手段和统计分析落后

目前许多企业统计工作仍处于手工状态,很原始!即使采用计算机也仅仅是减少工作量去做一些汇总、指标计算,并没真正引用先进的计算机技术和网络技术。所做的统计分析也局限于事后分析,即对统计数据进行单纯的讲解说明;不能利用网络技术实行信息共享等方式进行事前分析和预测。换句话说,“统计预测”这一职能根本没有发挥作用,缺乏对信息的收集、综合和系统化。

此外,常见的统计数据问题还有计算错误、笔误等。

可见,统计数据质量问题既可能是来自于设计阶段,也可能是来自于统计资料的整理阶段。

三、统计数据质量控制方法

(一)、统计数据质量控制的原则应当是全过程的、全员参加的、以预防为主的数据质量控制。

首先,统计数据质量控制要贯穿于统计工作的全过程。每进行一步,都要对已完成的工作进行检查、对已发生的差错及时进行纠正,做到层层把关,防止差错流入下一个工作环节,以保证统计数据的质量。其次,参加统计数据质量管理和控制的人员应当是全面的。全体统计工作者都要树立数据质量意识,各个主要的工作环节都要落实专人负责。统计数据质量的好坏,是许多工作和许多统计工作环节质量的综合反映,牵涉到统计工作的所有部门和人员,因此,提高数据质量需要依靠所有统计工作者的共同努力,决不是单纯靠某一个部门或少数人所能搞得好、抓得了的。只有人人关心数据质量,大家都对数据质量高度负责,产生优质的统计数据才有坚实的群众基础。因而,统计数据质量控制要求把差错消灭在它的形成过程中,做到防检结合,以防为主。这就要求有关人员在质量控制中具有超前意识,抛弃那种出现了统计数据问题才想办法解决问题的被动的局面。

实行全员性的质量控制,就要把统计数据质量目标及其关键交给广大统计工作者,落实到每个工作岗位,使每个岗位都有明确的工作质量标准,做到合理分工、职责明确,职责越明确,数据质量控制就越有保证。

(二)、统计设计阶段的质量控制

统计设计是统计工作的首要环节,统计数据质量的好坏,首先决定于这个过程,它是提高统计数据质量的前提。如果设计过程的工作质量不好,就会给统计数据质量留下许多后遗症。设计过程的质量控制需要抓好以下几项工作:

1、正确规定统计数据质量标准。数据质量标准是指根据不同的统计目的对统计数据精度所提出的要求。满足统计目的精度的统计数据就是准确的,高质量的统计数据。首先要作充分的调查,系统地收集市场和用户对统计数据的反映和实际使用效果的情况;其次要分析研究过去统计数据的主要质量问题,找准统计数据质量控制的主攻方向;最后要进行反复论证,考虑到统计工作中实际能够达到的水平。

2、合理设计统计指标体系及其计算方法。

统计指标设计得是否合理,也是影响统计数据质量的因素之一。采用统计报表搜集资料,首先要实行标准化管理,制定的指标要符合统计制度的规定,范围要全,分组要准,指标涵义的解释和计算方法要精确;其次要对统计报表的设计、颁发、填制、汇总的全过程实行全面质量管理。

(三)、资料整理鉴别阶段的质量控制

统计资料整理鉴别阶段出现的差错是统计数据质量问题的重要方面。如果资料不准确,就会影响结论的正确。因此,要特别注意审查资料的可靠性和适用性,要弄清楚统计指标的口径范围、计算方法和时期时点。对于口径不一致或不完整的资料,需要进行调整、补充;对于相互比较的资料,必须要注意有无可比性;一旦发现数据有严重的质量问题,应进行核实,避免有质量问题的资料进入汇总处理阶段。总之,对搜集到的资料,经过鉴别推敲、核实审定、使之准确无误,才能使统计数据的质量得到保证。

(四)、人为错误的质量控制

1、尽可能采用计算机处理统计资料,同时提高统计分析水平。

计算机作为当今社会不可缺少的高科技产物已渗透到我们生活、工作中的各个环节。运用计算机整理、汇总统计资料,速度快、效果好,其优越性是手工整理无可比拟的。现在国内大部分著名企业基本上实行网络化、全球化,利用网络资源了解世界先进行业信息,采用科学先进的统计分析方法和手段,进行横向、纵向对比,找差距挖潜力,努力赶超世界先进企业。要能够写出有一定深度的统计分析预测报告,系统、全面、科学地去挖掘利用网络资源和从市场取得的第一手资料,完善整个分析、预测手段方法和过程。但是,也应重视计算机处理数据的质量问题,提高计算机数据处理的关键在于提高录入数据的可靠性。

2、统计工作者本身应提高自身素质。

统计人员没有深厚的专业知识和丰富的实际工作经验,没有跟上时代及时进行知识更新,不善于统计调查获取第一手资料,写不出有一定深度关于本企业某一方面对决策层有参考价值的统计分析报告。因此,对统计人员应该加强培训工作,企业内部应建立配套的培训机制,对每一层次统计岗位实施针对性的培训,必要时到企业外请有关专家学者授课,或到相关先进单位进行考察学习,做到取长补短。统计工作者本身也应该努力学习统计知识,钻研业务,不断提高统计业务素质和水平,杜绝因业务不熟悉而造成的数据质量问题。

3、加强对统计人员的职业道德培训。

目前,上级部门下达计划和各类政绩考核对统计数据干扰不可低估。有些地方,以是否完成计划和各类数据的高低作为考核地方政绩的依据,导致很多下级部门所报的统计数据高于计划数或持平,这并不是计划部门的计划多么精确合理,而是说明某些统计对象或统计部门受某种利益的驱动而使统计数据的质量得不到保障。当然,数据不真实、不准确的原因是多方面的,其中统计人员的思想道德对统计数据的影响是很大的。这就要求我们加强对统计人员的思想品德和职业道德教育,要求每一个统计工作者必须坚持实事求是的工作作风,认真对待每一个统计数据,如实地反映情况。

4、加大统计执法力度,保证源头数据的准确性。

第7篇

关键词:dbms复制联邦数据库

1.引言

随着经济的发展,企业的规模越来越大,其积累的信息也越来越多。存在着各部门所处理的信息多数只对本部门有效,仅有少数信息需给其它某些部门共享的问题。这种信息的分布性和独立性要求对所处理的数据进行分类,使各部门既能独立地处理本部门大多数数据,也使部门间能协调处理跨部门的事务。在这种情况下,对整个企业建立一个完全的紧密耦合的分布式数据库是很困难的,也是没必要的,特别是大型企业,这样的数据库的效率往往是很低的。

为解决这个问题,我们采用以下策略:每个部门使用一套紧密耦合的数据库系统,而在存在跨部门事务处理的数据库系统间用一个协调器联起来。这样就组成了一个横跨整个企业,各部门高度自治的联邦数据库系统。

dm2是由华中理工大学数据库多媒体技术研究所研制的数据库管理系统。它采用客户/服务器模型,客户机与服务器,服务器与服务器均通过网络互连,通过消息相互通讯,组成一个紧密耦合的分布式数据库系统。它的工作流程如下:客户机登录到一台服务器上,这台服务器便成为它的服务器;它接收来自客户机的消息,然后根据全局数据字典决定是自己独立完成该操作,还是与其它服务器协作处理这条消息,处理完成之后,再由服务器将处理结果返回给客户机。

而数据字典,作为记录数据库所有元数据的系统表,它向以上过程中提供各类有用的信息,引导它们向正确的方向运行,起着“指南针”的作用。它分为局部数据字典和全局数据字典。其中,局部数据字典用于记录一个服务器站点中数据库的控制信息,如表的模式,视图的模式及各个数据区的的文件名等信息。全局数据字典用于记录分布式数据库系统中各个服务器站点上有关全局数据的控制信息,如服务器站点信息,各服务器站点的全局表名及表内码记录,各服务器站点上的全局数据视图名及视图内码记录,用户名及口令记录,用户权限记录等信息。各个局部数据字典可以各不相同,但为了保证在各个服务器上所看到的全局数据库是一致的,因此,全局数据字典必须一致。我们所关心的是全局数据字典中的基表控制块tv_ctrl_block,它的内容主要包括:全局基表总数,每个全局基表名和其对应的表内码,该基表所在的服务器站点的编号等信息。它的功能是将各个服务器站点号与存储在其上的表名及表内码联系起来。这样,服务器从客户消息中找到被处理的表名,然后通过查询基表控制块tv_ctrl_block,就能知道该表存在哪个服务器上,以便将相关消息发给该服务器。

由于dm2上各个服务器站点的全局字典完全相同,任何全局表的信息都会记入全局字典。若用它来构建一个企业的数据库系统,则大量只对企业某部门有用的信息将会充斥在各部门所有服务器的全局字典中,增加了冗余。而且,当对全局表进行ddl操作时,为了确保全局字典的一致性,须对所有服务器的全局字典进行加锁。dm2对全局字典的封锁方式是采用令牌环方式,即令牌绕虚环(非实环)传输,某个服务器想对全局字典进行操作,必须等令牌到达该服务器才可以执行。每个部门建立的全局表绝大多数只对本部门有用,当对这些表进行ddl操作时,却要对所有服务器的全局字典进行封锁,通过令牌来实现对全局字典的互斥访问。假如,两个部门都要分别对本部门的内部表进行ddl操作,这应该是可以并行处理的操作,现在却只能串行执行。而且,当服务器数目庞大时,每个服务器等待令牌的时间将会很长。这严重损害了数据库的效率。

为弥补以上不足,在dm2的改进版本dm3中增加了协调器,用以联接各个独立的dm3数据库子系统,并协调各子系统间的各种关系,使各子系统既能高度自治地工作,又能进行有效的信息共享。

2.体系结构

本系统可看作多个数据库子系统被协调器联起来的,高度自治的一个联邦数据库系统。其中,每个子系统独立处理本系统内部的事务,而子系统间的信息共享由复制技术提供,副本间的一致性由协调器协调处理,处理所需的信息在初始化时写入协调器的组间数据字典中。当对某子系统中的一份数据副本进行修改时,该子系统会将修改通知协调器,由协调器对该数据的其它副本进行修改,从而保证了所有副本的一致性。

由以上可知,子系统彼此并不直接接触,而是各自都与协调器直接相联,由协调器统一管理子系统间的通信。这样,当子系统对副本进行修改时,不必关心相应的子系统处于何种状态,也不必等待回应消息,以及异常处理,所有这些都由协调器进行管理。因此,既提高了系统运行的效率,也保证了子系统的独立性。其体系结构如下图所示。

协调器主要有三大功能,首先,它对协调器和服务器进行初始化,并将有关信息存入组间字典;其次,它管理不同子系统间的通信,维护副本的一致性;最后,它在子系统出现崩溃时,进行异常管理及恢复工作。

dm3多数据库系统体系结构

3.主要策略

多个dm3系统间的信息共享是通过副本实现的,副本的一致性是由协调器来维持的,是一种弱一致性。通常,多数据库系统间的一致性是通过协调器周期性地访问服务器的日志来完成的。由于副本的更新带有随机性,因此,若采用这种方法,可能数据被修改多次,但其相对应的副本仍未被修改,这样就损害了数据的一致性;也可能数据并未被修改,但协调器已多次访问了服务器的日志了,这样就降低了系统的效率。

所以,本系统采用的方法是当数据被修改时,由服务器通知协调器有关信息,再由协调器通知相关系统,修改相关数据。这样,数据的修改及时(仍然是弱一致性),而协调器也不会在数据未被修改的情况下访问服务器,提高了准确性。

为了使协调器正常工作,我们对底层数据库管理系统dm2进行了修改。在基表控制块tv_ctrl_block中增加一项isreplication。建表时,该项初始化为false;当为该表建立一个副本时,该项赋值为true。具体算法如下。

3.1初始化算法。

协调器:

从用户或应用程序接收待连接的两个系统中的服务器名,需复制的表名;

分别登录到两个系统的服务器上;

向存有待复制表的服务器发预复制消息;

等待服务器消息;

若失败,发一条失败的消息给服务器和用户或应用程序,转11);

若成功,从消息中取出待复制表的有关信息,根据这些信息,发一条建表消息给另一个系统的服务器;

等待服务器消息;

若失败,发一条失败的消息给服务器和用户或应用程序,转11);

若成功,调数据转移程序,进行数据复制;

将有关信息写入组间字典。

退出。

服务器:

当服务器收到预复制消息后,将基表控制块tv_ctrl_block中的isreplication赋为true。同时,取出待复制表的有关信息,组成应答消息发给协调器。

当服务器收到失败的消息后,将基表控制块tv_ctrl_block中的isreplication赋为false。

3.2维护算法。

协调器:

从组间字典读出相关信息,根据这些信息,登录到相应系统上;

等待消息;

从某系统的服务器上收到一条修改消息后,通过查找组间字典,确定该消息的目的地,然后将它转发过去;

若失败,定时重发;

转2);

服务器:

1)等待消息;

2)当收到某客户或应用程序的消息后,检查它是否是修改数据的操作(如delete,update或insert等);

若不是,转7);

若是,检查基表控制块tv_ctrl_block中的isreplication是否为true;

若不是,转7);

若是,向协调器发修改消息;

继续执行服务器程序的其它部分。

3.3恢复算法。

若协调器所联接的系统中有一个跨掉了,则对副本的修改无法及时地反映到跨掉的系统中来。这时,需要恢复算法来进行处理。

协调器:

当协调器发现有一个系统已经崩溃后,采取以下步骤。

将与该系统相关的变量open赋值为false;

打开记时器;

等待消息;

若收到的消息是其它系统发出的修改崩溃了的系统上的副本的命令,则依次将这些消息存储起来,转3);

若收到的消息是记时器发出的时间到的消息,则向崩溃的系统发登录命令;

若登录成功,将open的值改为true;

将存储的消息依次发送过去,转9);

若登录失败,转3);

退出。

4.结论

我们曾在三个dm3数据库系统上,用两个协调器进行联接。结果,运行情况良好,各副本最终都能保证一致,且各副本间存在差异的时间间隔很短。另外,在出现异常的情况下,协调器也能正常工作。

主要参考文献

1.周龙骧等,分布式数据库管理系统实现技术,科学出版社,1998。

第8篇

乡镇统计工作是整个统计工作的基石,是确保统计数据质量、提高农村统计服务水平的重要基础。乡镇统计工作的好坏直接关系到农村基层统计调查工作的正常开展,关系到统计调查资料的准确、全面,从而关系到宏观经济管理决策的正确与否。因此,切实加强新时期乡镇基层基础统计工作,将是我国统计事业未来发展的重中之重,既可以促进农村统计事业健康发展,又能牢牢把好统计源头数据质量关,为“建设社会主义新农村”提供信息服务,对指导国民经济和社会发展发挥巨大的作用,对整个统计事业的蓬勃发展有着十分重要的现实意义。

二、乡镇统计工作存在的问题

从统计事业发展历程来看,在上级统计部门和各级政府的关心支持下,目前统计工作现状与八、九十年代相比,有了较大的改善,对农村经济统计发挥了很大的作用。但是随着市场经济的发展,乡镇统计工作难度加大,统计数据失真较严重,主要源于以下几个问题未得到解决:

1、人员少,任务重,统计队伍不稳定,工作难尽力。乡镇统计员执行乡镇综合统计功能,履行各种统计调查职责,其任务繁重,工作难度大。然而,乡镇统计机构只配备1名人员,而且大部分乡镇统计员均由办公室秘书兼任,与其担负的工作相比,差距很大,极不对等。一是随着改革开放的不断深化,乡镇企业、个体和私营经济迅速发展,统计对象数量急速增加,统计人员的工作任务量愈来愈大;二是由于乡镇特殊的工作环境和条件,统计员一人兼数职的现象比较普遍,专心做本职工作的精力与时间受到严重影响。三是乡镇统计工作责任大、要求高、待遇低,其他工作岗位要么省心省力,要么有利可图,而统计一无所有,没有摊上的绕道走,摊上的设法逃,大部分乡镇统计员一年一换,有的甚至一年几换,乡镇统计人员变动频繁。而县级统计部门对乡镇统计人员既管不了编,也管不了钱,所以乡镇在调换统计人员时根本不与统计局协商,每年都是一张张新面孔和业务生疏的新手,这就势必影响到统计工作的严肃性和连贯性,影响到统计工作的统一性和一致性,迟报、漏报现象也就难以避免了,进而影响到县级统计部门数据的准确性、时效性和全面性,造成统计数据质量的下降。

2、工作环境不好,统计条件差,业务素质低,质量难保障。笔者看到多数乡镇的统计机构没有具备必要的办公设备,基本是一间房子一套桌椅一组柜子,办公条件比较简陋。绝大部分没有专用的电脑,极少乡镇虽然有一台微机,但由于统计人员事务性工作较多,很少学习统计业务和微机知识,专业素质相对于任务则捉襟见肘,统计台帐、报表汇总仍是手工操作。统计手段落后,致使工作效率低,报表差错率高。加之少数乡镇统计人员的工作责任心不强,工作作风不实,根本没有深入实际进行调查研究,有时官出数字,有时闭门造车,基层统计源头数据的质量是否真实可信,就得打上一个问号了,也值得我们统计人深思了。

3、统计调查对象多,配合差,数据难收集。随着社会主义市场经济不断发展,二、三产业急速增长,结构日趋复杂,农村统计调查对象发生了极大的变化,农村统计基层基础工作受到了很大挑战和冲击,这本身给统计工作带来了难度。加之受利益方面因素的影响,集体企业按需上报,个体和私营企业瞒报、迟报、不报的现象比较普遍,乡镇统计资料的收集非常难。

4、统计力量、统计经费与统计工作任务之间不协调,工作难开展。乡镇统计人员少、地位低、待遇差。由于统计部门自身没有收入,各项业务活动的开展完全要靠财政拨款,普查、抽样调查、临时调查以及各种正常的业务活动,都要有一定的经费作保障。乡镇统计人员业务经费不能及时保障,而统计工作时效性又强,他们只好疲于应付,这在一定程度上影响了统计人员的工作积极性。

5、求业绩,领导干预数据的现象多,数据难实报。统计数据一定程度上是考核评比的主要量化指标,直接影响到地区和个人的利益。统计部门在业务上受上级指导,在人员经费上归地方领导,造成其工作很大程度上受制于地方领导,导致统计数据抗干扰的能力差。因此,有些领导为实现经济的“高速”发展,为取得优良的“政绩”,不择手段,弄虚作假,欺上瞒下。有的凭空编造统计数据,有的授意、指使下级虚报统计数据,有的甚至对“不听招呼”的统计人员打击报复。由于统计执法工作因多种因素的影响,无法执行到位,“官出数字”也就不难理解了。因而《统计法》对于那些想着政治前途,捞点政治资本的基层领导来说,已没有什么威慑力,长官意识始终贯穿着乡镇统计工作。基于这些方方面面的原因,造成了人为因素的干扰大。

6、机构多,监管难,数出多门,标准难统一。在乡镇,一、二、三产业统计数据的采集、加工,分别由统计、企业管理、经济管理站负责。三个机构对应各自的主管部门,形成多头统计、交叉重复,统计调查管理混乱,不同的主管部门对所统计的数据要求不同、口径不同、需要不同,这也是造成统计数据有出入的原因之一。

三、夯实乡镇统计基础工作的思考及对策

乡镇统计工作中存在这些问题,影响了农村统计数据质量,不利于农村统计工作的健康发展。要解决这些问题,进一步做好农村统计工作,为各级领导决策农村社会经济问题作好参谋,本人认为应从以下几个方面努力加强乡镇统计基础工作,从而提高农村统计数据质量。

1、提高认识,加强乡镇统计工作领导。各级政府和统计部门,要提高对加强乡镇统计基础工作重要性和必要性的认识。要充分认识到加强乡镇基层统计基础建设,是提高农村统计工作水平的客观要求,是保证农村统计改革顺利进行的客观要求,是确保农村统计工作能够为农村社会经济发展、建设社会主义新农村、全面实现小康社会提供优质服务的客观要求。在提高认识的基础上,要加强对基层统计基础建设工作的领导,摸清情况,抓住重点,制定详细的工作计划,采取积极可行的措施,积极稳妥地开展乡镇统计基础建设工作。在工作中,县级政府统计部门要真正负起领导和指导责任,乡镇各有关部门要密切配合,共同做好各方面工作。

2、加强业务培训,提高基层统计人员的综合素质能力。乡镇统计人员身处统计工作最前沿,既是统计工作的组织领导者,又是统计业务的具体操作者;既要履行统计执法职责,又要完成统计普法任务,要求具备全面的素质。要把统计知识培训列入统计工作的重要体系,首先,县(市)统计局要通过办班、讲座、函授等多种形式,组织乡镇统计人员进行学习,学习相关的法律知识,提高执法普法能力;学习统计相关专业知识,提高调查能力与综合评估核算能力。其次上级业务部门要加强指导,提高实际操作能力,不断提高统计人员的专业素质和操作技能水平,以此保证基层统计工作的全面、圆满完成。

3、加强普法宣传,提高全社会的统计法制意识,保证统计工作的健康开展。普法是基础。一是统计部门的领导干部要带头学法、用法、守法,要勇于运用法律武器排除对统计数据的行政干预,要敢于依法保护统计机构的完整性和统计队伍的稳定性。二是行政统计部门要把统计法律贯穿于统计工作的全过程。不论在报表上报时,还是在统计数据的与开发中,都要坚持以统计法律法规为标准,以统计方法制度为准绳,捍卫统计工作的严肃性。三是坚持执法。把统计工作长期得不到重视、统计基础长期得不到改善、统计数据质量长期得不到提高的乡镇作为统计执法的重点,严查深究,持之以恒,常抓不懈,实现统计工作的根本改善。加强普法宣传,提高全社会的统计法制意识,充分利用“12、4”全国普法宣传日、“五五”普法、各种会议及活动进行广泛宣传《统计法》。通过卓有成效的宣传活动,使广大干部群众学法、知法、守法,实现依法行政和依法办事,保证统计工作的正常开展。

第9篇

传统的海洋数据服务一般是专项专建、专人专用,针对人群比较单一、数据类型比较简单,而且在项目结束后通常建设的数据库和应用系统由于没有后期的经费支撑而停用。本研究提出的海洋环境数据在线服务系统(以下简称系统),涵盖了多专项、多学科的数据,在原有数据库、应用系统、专网基础上进行系统集成、数据库扩建,为海洋局属各单位提供共享服务。系统是运用面向服务架构的设计思想搭建应用系统。采用并行数据库技术实现大数据量的存储、加载、更新、查询等操作,利用ETL调度工具实现源数据库到并行数据库的数据抽取、转换和转载,减少重新建库的工作量。采用虚拟化技术整合存储、服务器、网络资源,建设数据中心集群,提高资源利用率,采用域控管理机制实现数据安全管理,权限管理。采用VPN认证管理机制,保障系统安全正常运转。

2系统设计

系统通过面向服务的总体架构,以数据的汇集、处理、应用为基础主线,采用高速并行技术,结合虚拟化技术等先进IT技术,设计系统的逻辑架构、功能架构、物理架构与技术架构。

2.1逻辑架构

系统总体架框架由数据层、管理层和应用层3部分构成,数据层是指通过对历史收集、专项调查、在线传输等方式收集,采用数据集、数据库方式进行数据存储与管理;管理层是指对使用系统的用户进行统一认证、用户管理、数据授权等实现用户有效可控的管理;应用层是指为用户提供数据的在线查询检索、数据时空分布检索、产品加工处理等应用服务,满足用户多样化的需求。应用层与管理层通过内网和专网访问数据层,实现数据的管理、查询、处理等服务。

(1)数据层。数据层主要由原始数据、基础数据和成果数据3部分组成。原始数据是指海洋仪器现场采集的原始资料、现场汇交的纸质或者电子资料等。原始数据采用文件方式存储,基于原始资料清单和数据库文件目录等方式进行管理。类型包括海洋观测原始资料、海洋监测原始资料、专项调查汇交资料等。基础数据是指对原始数据进行整理、排重、质量控制等处理之后形成的标准化数据。内容主要包括专项调查数据、观测实时资料数据与国际业务化数据等,专项调查数据包括水文、气象等9个学科,观测实时资料数据包括海洋站、雷达、浮标等。基础数据采用数据库存储方式,根据基础数据的资料类型、资料格式、数据观测频率、数据传输频率、数据量等设计数据库结构。成果数据是指经过信息提取、多源数据融合、数值模型分析、统计分析等手段处理后形成的数据。成果数据由要素数据、成果专题数据、资料目录数据组成,采用数据库存储方式。要素数据是以基础数据为基础,根据数据的专题应用保障和服务需求,按照时间、空间、专题要素等进行组织的数据。成果专题数据主要包括数值型产品和图形产品,涵盖海洋再分析产品、实况分析产品、潮汐预报产品和海洋专题产品等。资料目录数据主要包括原始数据集目录索引、标准数据集目录索引、产品数据目录索引等。

(2)管理层。管理层主要负责系统的用户管理、资源管理、业务流程管理和运行监控管理等内容。用户管理包括用户的创建、更改和删除、角色管理、功能授权与数据授权;资源管理包括目录索引管理、数据导航管理、信息管理与信息资源管理;业务流程管理包括数据申请、虚拟机管理、数据审批管理等;运行监控管理包括运行环境监控、数据资源监控与用户行为监控。

(3)应用层。应用层依托于中心内网和海洋专网,基于并行数据库技术和虚拟化技术,实现海洋局属单位间的数据在线服务。应用层主要包括:数据时空分布展示、数据查询检索服务、数据共享虚拟环境、产品制作与产品导出功能。数据时空分布展示是利用数据的经纬度、时间范围、站次数等关键信息,通过统计计算数据量,依据色彩图例,进行时空分布展示。数据查询检索服务包括数据库查询检索和数据集查询检索。该服务可提供基于矢量地图及影像地图的地图显示控件的数据查询服务,以及使用关键字对数据进行查询。产品制作是指对资料进行整理、标准化处理,开展数据识别、解码等预处理操作,利用数据统计分析工具进行产品的加工制作。产品导出是指对用户加工制作产生的产品成果提供数据的导出功能,实现数据从虚拟机到本机的导出服务。

2.2物理架构

按照系统设计,对系统运行硬件环境进行搭建,硬件环境涵盖原始数据文件存储区、数据库存储区、数据处理区、数据服务区。按照网络布局可化为中心内网和海洋专网,内网为中心内部用户提供在线服务的入口,专网主要包括海洋观测网、海洋监测网、数字海洋网;数字海洋网为海洋局属单位提供在线服务的入口,用户经由内网/数字海洋网通过VPN身份认证后方可进入用户主页,通过登录进入个人虚拟工作环境(即用户虚拟机),用户可在虚拟机中对数据进行查询、处理和产品制作。系统经由海洋观测网和海洋监测网接收实时、延时观测和监测的海洋数据,并发送到系统的文件存储区和处理资料临时存储区,由存储管理系统进行数据的接收、存储和管理。利用用户授权管理将数据分发到数据处理用户的虚拟机中。数据处理用户通过中心内网登录到虚拟机后,开展数据整理、标准化处理工作后,将处理结果按照指定的路径存放。由数据传输系统同步传输到产品制作用户的虚拟机中,用户可开展产品加工制作并将成果按照指定的路径存放。最终由数据交换系统存储到统一的资料存储管理区。ETL处理系统经过数据抽取、清洗、转换等处理,将数据处理结果和产品加载入库,最终经由中心内网和海洋专网为海洋局属单位提供数据共享服务。

3系统功能实现

系统通过用户唯一入口登录,保证数据安全;开发数据处理系统,完成数据格式化转换;利用ETL处理系统,完成并行数据库的数据处理与调度,包括数据抽取、数据转换与清洗及数据加载;开发数据库检索、数据集检索、文件输出审批和文件导出等应用程序;开发系统运行监控管理系统,对系统的运行环境、数据状况和用户行为进行监控和管理。

3.1数据处理分系统

3.1.1实时数据处理子系统

根据海洋环境数据观测的采集规范和编码规定,对接收、收集和整合的大量海洋调查、业务化观测/监测等资料,按照资料类型、观测仪器、观测手段、要素内容等特点,开展数据识别、解码、数字化、数据项检查、代码检查等预处理,按照时间、空间和观测资料类型进行排重、排序和初步质量控制,剔除异常数据,依据数据来源、时间、地点等信息对数据文件进行挑选、过滤、分类存放,同时完善和新建相应的海洋环境数据存储标准,对资料进行标准化格式转换。

3.1.2历史数据处理子系统

系统根据海洋环境数据观测设备性能、仪器订正参数、资料种类、观测要素类型、观测方式、资料时空分布、要素数据经验范围等特点,配置质量控制参数,采用相应的质量控制方法,对各类海洋环境数据进行精细化的计算机自动质量控制和人工审核。质量控制方法包括范围检验、非法码检验、相关检验、季节性检验、一致性检验、着陆点检验、梯度检验、尖峰检验、气候学检验和极值检验等。

3.2数据库加载分系统

数据库加载系统包括通用数据库加载系统与并行数据库加载系统。通用数据库加载系统是通过加载文件清单的方式进行数据管理,清单文件是对每类数据的特征描述,包括文件类型、文件名、调查机构、绝对路径、备注等信息,通过一条记录就可以确认数据类型并找到数据存储位置。清单文件的组织结构与数据库表结构一致,且加载系统可实现清单列名与数据库列名对应关系的动态调整,清单配置文件设置完成后,单击上传,将清单的记录入库,加载过程中可通过状态条查看加载进度。并行数据库加载系统先按照数据库结构利用ETL处理系统通过抽取数据文件的相关信息形成库文件,将库文件存放在规定的目录下,并查看库文件的文件表结构,创建相应的数据库表,创建shell脚本并制定源文件和目标文件,最后写入数据库。

3.3数据查询检索分系统

系统主要分为两大模块:关键字查询和图形化检索。系统界面左侧显示海洋资料体系结构,右侧用于经纬度区域选择地图和查询结果浏览。用户首先在左侧选择相应的航次,然后在右侧地图圈定需求的区域,再输入关键字,查询该区域的特定信息,或查询特定区域的所有信息,或查询所有区域的特定信息,并能够对查询结果进行统计、排序、固定格式表格的导出。

3.4运行监控管理分系统

通过建立运行环境监控信息数据库,确定数据库中各类监控信息表、监控要素字段、监控状态字段、表关系和数据字典等,实现运行环境监控、数据监控与用户行为监控的实体建设。

3.4.1运行环境监控与管理子系统

运行环境监控与管理子系统包括硬件环境监控和软件环境监控两部分。硬件环境监控是通过对系统局域网硬件设备运行的日志信息进行提取、分析,实现对服务器、存储阵列、交换机、路由器、防火墙等设备故障诊断、告警等功能。软件环境监控是通过研制各商业软件(操作系统、数据库软件等)与各业务系统(数据处理软件等)运行日志读取接口,实时读取日志信息并加载运行环境监控信息数据库。

3.4.2数据资源监控与管理子系统

数据资源监控与管理子系统通过对数据汇集状态实时监控,实现信息反馈、到期告警、汇集情况季报与年报输出等功能,实现对海洋数据处理和质量情况的实时监控和预警、数据处理任务。调度管理;通过提取用户登录日志、数据库与数据集访问日志、数据申请信息进行分析,实现数据的服务内容、服务对象、应用领域情况的实时监控。

3.4.3用户行为监控与管理子系统

用户行为监控与管理子分系统实时对用户的登录、数据资源访问、外部设备使用、软件安装预警和设备接入等行为进行监控,具有终止用户操作、告警提示、季度分析报告输出等功能,在提供用户方便使用的前提下保障系统的稳定运行。

4关键技术

根据系统总体功能定位,在已有的工作基础之上,以数据的汇集、处理、存储、管理、服务过程为主线,采用操作系统、数据库、数据管理与共享3层软件体系,集成各类自主研发功能,构建灵活、稳定的架构模式。架构主要基于虚拟化技术、并行处理技术、数据检索并行处理技术与J2EE技术等关键技术。

4.1虚拟化技术

由于用户对处理器、内存等硬件和操作系统需求不同,用户工作使用的数据处理软件、资料质量控制软件和产品制作软件不尽相同,为满足用户需求,同时提高服务器、存储阵列等资源的利用率,采用服务器虚拟化技术实现满足不同用户需求的虚拟机,同时消除服务器与存储阵列对应用系统的物理局限性。服务器虚拟化技术是将一个物理服务器虚拟成若干个服务器使用,使得单个物理服务器上可以运行多个虚拟服务器。

4.2并行处理技术

利用高速并行处理引擎,完成多层次海洋数据体系动态更新的ETL(抽取、转换、加载)并行处理,实现整个系统的数据处理与调度,包括数据抽取、数据传输、数据转换与清洗、数据加载以及调度监控。

4.2.1数据抽取

数据抽取的方式包括:全表刷新、时间戳增量、日志增量和时间戳比较。系统采用时间戳增量方式完成数据的抽取,时间戳增量方式是通过记录时间将增量数据从源数据抽取出来,以附加的方式加载到高速数据存储中,完成源数据中的记录定期更新。时间戳增量方式是在源系统需要抽取的数据表中增加时间戳字段,用以表示数据的修改或新增时间,在数据抽取时通过它来识别和抽取增量数据。

4.2.2数据转换

由于海洋数据通过调查、汇交、网载等多种手段获取,每种手段来源的数据存在定义不规范、格式不统一等情况,导致系统的源数据存在重复、错误、格式不一等情况。数据转换是将多来源、多调查手段、多要素和多格式的数据进行转换,形成格式统一、实用性强的数据存储层。

4.2.3数据加载

将业务系统和源数据库层抽取、转换后的数据加载、更新到目标数据库中。根据业务数据的实际情况,对不同业务系统的数据采用不同的加载周期;根据数据的抽取策略以及业务规则确定,采用直接追加、全部覆盖、更新追加等多种方式进行处理。

4.2.4高速并行调度

利用高速并行ETL调度,按照既定步骤完成数据抽取、转换、加载的全部时间和流程的调度任务。调度的内容包括:从各业务系统到数据层的调度,实现多来源数据的提取、转换和加载;从数据层到数据存储的调度,实现了原始数据、基础数据、产品数据的高速并行存储;从数据存储到应用层的调度,实现数据的并行查询检索。

5结束语

相关期刊