时间:2023-03-22 17:34:16
导语:在数据统计论文的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
【关键词】网络数据 系统
1 医院学术论文管理情况现状
随着计算机的广泛应用,绝大多数医院管理论文的方法已经从手工登记转变为使用计算机软件管理,其中最为普及的是使用Excel软件制作电子表格登记论文资料。这种方法可以较好地帮助工作人员解决查找和数据统计的问题。但是,数据的收集需要做大量的前期工作,由论文作者上报至科教科,再由科教科工作人员进行手工录入制成Excel表格,需要生成报表和统计数据的时候也必须手动操作。
大量繁琐枯燥的手工录入工作制成的Excel的本地文件,却并不能较好的实现数据共享。因此,随着网络的普及,部分医院建立了基于Web的论文管理系统。依靠B/S架构的Web论文管理系统,可以很好的解决数据共享的问题。相比于使用Excel文件记录论文数据,网络论文管理系统的优点在于只要有可用的网络,无论何时何地都可以通过手机或个人计算机进入系统,进行论文上报、登记、查询操作,使论文管理工作不仅限于办公室。并且依靠计算机技术也可以一定程度的简化手工工作,以鼠标点选、自动生成等方式优化录入、统计分析的过程。
2 基于网络数据抓取的医院论文管理系统
基于网络数据抓取的医院论文管理系统保留了普通网络论文管理系统的优点,着力优化和完善最为繁琐的数据录入过程,从国内权威的论文数据库中直接抓取需要的数据存入自己的数据库。
据了解,国内绝大部分正规期刊上发表的文献在见刊1-2个月后就会被知网、万方、维普等专业的文献数据库收录。普通用户通过检索,可以获取到论文的题目、发表刊物、见刊时间、作者姓名、单位、关键词、摘要等数据,足以满足医院论文管理系统的需求。只要实现并使用抓取功能获得需要的数据,就能大大简化手工录入的工作,同时能有效的避免论文漏报、错报。
2.1 系统的体系结构
目前基于网络的系统体系结构主要是C/S(客户端/服务器)架构与B/S(浏览器/服务器)架构。C/S架构将大部分的运算放在客户端处理,要求进入系统的计算机安装相应的客户端程序,对计算机操作系统等条件有特定的要求,限制了用户群,具有较高的安全性,但是灵活性不强,不便于后期维护和系统升级。B/S架构基于HTTP和TCP/IP协议,运用服务器完成大量的运算,将运算结果传输给浏览器显示,用户只需要使用浏览器就可以在个人计算机或智能手机上进行操作,不受局域网、软件和运行平台的限制,可以实现跨平台的使用,并且后期维护成本低,更新方便。
为了系统后期的维护及功能完善,本系统采用B/S架构,也更能适应目前信息系统的发展趋势。
2.2 系统的功能模块
如图1所示,本系统分为五个功能模块,分别为:部门管理模块、职工管理模块、论文抓取模块、论文录入模块、查询统计模块。
2.2.1 部门管理模块
部门管理模块的主要功能是通过添加、修改、删除操作设置医院部门信息,构建一个完整的部门树形结构,以便在查询统计时可以实现按照部门查询统计,有助于分析和比较各科室部门的情况。
2.2.2 职工管理模块
职工管理模块同样通过数据库的操作建立职工的花名册,并且将每个职工按照实际情况分配到科室和部门,如此便建立了论文、作者、部门的关系。
2.2.3 论文数据抓取模块
论文数据抓取模块使用网络数据抓取的方法,通过请求URL、对返回数据进行分析、提取论文相关数据,将其存入论文信息表,并与医院职工进行关联。
2.2.4 论文数据录入模块
本模块的主要功能是手工维护论文数据,以对论文数据的添加、修改、删除操作,提供是一个查缺补漏渠道,对数据抓取过程中出现的不完善数据进行人工修改。
2.2.5 统计查询模块
模块提供作者姓名查询、关键词查询、期刊查询、发表时间查询、科室查询等丰富的查询方法。统计各科室数量、各种期刊上的数量、关键词相关论文数量、任意时间段数量等以供比较分析。
2.3 网络数据抓取模块设计
数据抓取功能是本系统的特色和亮点,其设计原理类似于简化的网络爬虫,抓取数据更具针对性,抓取范围仅限于较权威的论文期刊数据库。以下介绍设计思路。
2.3.1 抓取模块涉及的数据库设计
为了能在网络上抓取数据,需要一个表存放URL信息,其中包括的主要字段有URL、URL的MD5编码、访问状态、请求的页面类型等。
另外需要一个存放论文信息的表存放抓取到的数据,包含题目、刊名、发表时间、作者、关键词、摘要等字段。
2.3.2 抓取数据的主要步骤
首先程序从URL表中取出一条访问状态为未访问的数据,请求此URL并接收返回数据,根据URL请求的页面类型做提取论数据或者提取URL数据的操作。
对于返回的是论文页面,需要提取论文详细信息,然后到论文信息表中查找,判断是否为已经抓取过的论文数据,若已抓取,则标记请求的URL为已访问,然后进行下一个URL的请求。否则将论文数据整理并入库,将作者与职工关联,之后请求下一个URL。
若非论文详情页面,则需分离提取页面中的URL,将提取到的URL逐个进行MD5编码后到URL表中,将非重数据标记为未访问然后入库。
3 实现本系统的意义
基于网络数据抓取的医院论文管理系统可以有效地减少论文管理过程中的繁琐工作,简化管理流程,为管理人员减负。同时,得益于系统采用B/S架构,可以实现跨平台、跨区域的管理。抓取来自论文数据库的数据相对全面,以此数据做出的分析统计能够更加有效的指导医院科研的发展方向和重心。设计并实现本系统,有效地提高了科教管理工作效率。
1.1 色散
在光纤信号的传输过程中,不同成分的光源群在传输速度上存在一定的差异,这种差异会产生一定的时间延迟,从而形成色散。色散主要包括模式色散、色度色散以及偏振色散三种类型,其中色度色散又可以分为材料色散和波导色散两种,色散问题在超长距离光纤通信中表现得尤为明显。目前,传统的方法是通过利用具有负色散系数性质的DCF进行色散补偿,但是该方法存在十分显著的非线性效应,会产生较大的损耗,而且这种损耗随补偿距离的增加而增大,在超长距离通信系统中采用该方案会产生极高的成本。针对传统色散补偿方法成本过高的问题,已经有厂家开发出了FBG色散补偿模块,该模块能够利用光栅对不同波长的发射特性实现对色散的补偿,其损耗值与补偿距离无关,有效弥补了传统补偿方法的缺点。
1.2 信噪比
在长距离通信系统中,光放大器在放大光信号的同时,会产生一定程度的自发辐射放大噪声,由于线路的长度较长,因此会产生较大的损耗,信号衰减十分严重,在经过放大器放大之后,这种放大噪声很可能与信号能量非常接近,导致接收端无法正常的分辨信号,影响系统的正常运行。针对这类问题,一般在前置放大器中加装滤波器,这样能够过滤掉信号光周边的部分噪声信号,从而提高信噪比。
1.3 功率
在超长距离通信系统中,光纤信号在传输时,由于光波与传播媒介之间的相互作用会导致光能发生一定程度的衰减,当能量衰减到一定程度之后,接收端无法从噪声中正确的辨识出光信号,限制正常的光通信。针对这些问题,一般通过功率补偿的方式来降低信号衰减所产生的损耗。目前在超长距离通信系统中采用的最主要手段是EDFA。EDFA分为功率放大器和前置放大器,其中功率放大器通常配置在传输系统的发射端后,以最大限度提升发射功率,前置放大器通常配置在接收端前,主要作用是提高接收灵敏度。当通信线路的长度达到一定距离后,仅仅采用功率放大器和前置放大器很难保证接收端正常的接收信号,此时需要在该方法的基础上对光源进行附加调制或采用外接调制器进行附加调相,从而增大入射光的谱宽。目前,该方法在国家电网以及南方电网的超高压输电公司中得到了较好的应用。
二、超长距离通信技术在电力系统中的应用方案
我国的超长距离通信从2007年开始试验,最初是由光迅科技与南方电网超高压输电公司进行合作所进行的长度为345km的2.5Gbit/s的超长距离无中继通信工程,该段线路中配置了FEC、EDFA、RFA及光栅型DCM,系统保持了3个月的试运行,其整个运行过程的测试结果均十分良好。南方电网在“十一五”黔电送粤施秉——贤令山500kV输电工程中,对上述技术进行了广泛的使用,在该输电工程中,采用超长距离通信技术的线路跨度长达318km。系统从2008年7月开始运行以来,一直保持十分稳定的工作状态,此系统也是我国到目前为止唯一没有设置中继站而传输距离超过300km的实际工程。根据设计中的预算,相对于实际已建成的系统而言,采用中继站将会增加约200万元的成本。由此也可以看出,通过超长距无中继通信技术在电力系统中的运用,能够使电力通信系统的经济性及运行可靠性大大提升,同时也使得通信系统的维护难度大幅度降低。此后,该技术在多项电力通信工程中得到广泛应用。
三、结论
1.1异步转换技术
这种技术是一种面向连接宽带的交换技术,是传统分组交换技术和电路交换技术的延伸和发展。该技术是使用定长分组把语音和图像等信息分解成固定长度53b的信息,定长分组就是信元。作用机制是将信元作为单位进行复接、传输、交换,获得了空信元就可以插入信息,且插入的位置可以是随意的,然后进行信息传输。这种技术的优点是能进行无连接传输,有助于宽带高速交换,简化了网络协议和功能等。主要业务有互联局域网、虚拟局域网组建、支持无连接数据通信业务、支持帧中继业务等。
1.2光交换技术
这是建立在光纤介质上的交换技术,可以分为波分光交换技术、时分光交换技术和空分光交换技术。波分光交换技术的基础是波分复用技术,能开展超大容量的数据传输,采用的方法是波长变换和波长选择。该技术分别有N条输入和输出管线,且每条光纤都是借助波分复用技术有n个波长的载波信号,并在每个复用器之间实现N路光纤的n个波长信号交换的。时分光交换技术的基础上时分复用技术,原理是时隙互换。时分复用技术是将时间化成好多帧,将每个帧划分成N个长度一样的时隙,并将时隙分别分给N个信号,最后将N个信号复接到一条光纤上的传输技术。空分光交换技术的基础是光开关技术,通过光开关技术把光信号的传送通路进行变化,达到传输的目的。此外,光交换技术还有一种是对上述三个技术的组合,形成组合光交换技术。组合光交换技术主要是由光开关阵列和波分复用器组成的。
2强化交换技术在现代数据通信中作用的建议
在现代数据通信中,选择并使用合适的交换技术是至关重要的,尤其是对提高数据通信质量有直接影响。要想充分发挥交换技术在现代数据通信中的作用,很重要的一个衡量指标是要确保数据通信的可靠性和有效性,即保障数据通信质量。为了强化换技术在现代数据通信中的作用,提高数据通信质量,必须做到以下几点。
(1)制定科学合理的通信协议。即要尽量减少数据包的长度,可以使用长度字节来对数据包长度进行标志;已经制定好的通信协议要经过多次验证,提高有效性;可以采用合理的帧进行同步标志。
(2)最大程度的降低波特率相对误差。
(3)合理使用软件抗干扰技术。软件抗干扰技术是一种单片机系统的自身防御,系统中控制程序代码必须要不被损坏是该技术的使用前提。
3结语
网络通信有一定的风险性,对数据加密技术的需求比较大,结合网络通信的实践应用,通过例举网络通信中的风险表现,分析其对数据加密技术的需求。网络通信的安全风险有:①网络通信的过程中,面临着攻击者的监听、窃取破坏,很容易丢失传输中的数据信息;②攻击者随意更改网络通信中的信息,冒充管理者截取传输信息,导致网络通信的数据丢失;③网络通信中的数据信息被恶意复制,引起了系统瘫痪、信息不准确的问题。由此可见:网络通信中,必须强化数据加密技术的应用,采取数据加密技术,保护网络通信的整个过程,预防攻击行为,提高网络通信的安全水平,避免出现恶意攻击的现象,保障网络通信的安全性和积极性,表明数据加密技术的重要性,进而完善网络通信的环境。
2数据加密技术在网络通信中的应用
数据加密技术提升了网络通信的安全性,规范了网络通信的运营环境,规避了潜在的风险因素。网络通信中的数据加密,主要分为方法和技术两部分,对其做如下分析:
2.1网络通信中的数据加密方法
2.1.1对称加密
对称加密方法在网络通信中比较常用,利用相同的密钥,完成通信数据加密到解密的过程,降低了数据加密的难度。对称加密中,比较有代表性的方法是DES加密,属于标准对称加密的方法。例如:DES在网络通信中的应用,使用了固定的加密框架,DES通过密钥,迭代子密钥,将56bit密钥分解成16组48bit,迭代的过程中进行加密,而解密的过程与加密流程相似,使用的密钥也完全相同,加密与解密密钥的使用正好相反,根据网络通信的数据类型,完成对称加密。
2.1.2非对称加密
非对称加密方法的难度稍高,加密与解密的过程,采用了不同的密钥,以公钥、私钥的方式,对网络通信实行非对称加密。公钥和私钥配对后,才能打开非对称加密的网络通信数据,其私钥由网络通信的管理者保管,不能公开使用。非对称加密方法在网络通信中的应用,解密时仅需要管理者主动输入密钥的数据即可,操作方法非常简单,而且具有较高的安全水平,提高了加密解密的时间效率。
2.2网络通信中的数据加密技术
2.2.1链路加密
网络通信中的链路加密,实际是一种在线加密技术,按照网络通信的链路分配,提供可行的加密方法。网络通信的数据信息在传输前,已经进入了加密的状态,链路节点先进行解密,在下一链路环境中,重新进入加密状态,整个网络通信链路传输的过程中,都是按照先解密在加密的方式进行,链路上的数据信息,均处于密文保护状态,隐藏了数据信息的各项属性,避免数据信息被攻击窃取。
2.2.2节点加密
节点加密技术确保了网络通信节点位置数据信息的安全性,通过节点处的数据信息,都不会是明文形式,均表现为密文,促使节点加密成为具有安全保护功能的模块,安全的连接了网络通信中的信息。加点加密技术在网络通信中的应用,依赖于密码装置,用于完成节点信息的加密、解密,但是此类应用也存在一个明显的缺陷,即:报头、路由信息为明文方式,由此增加了节点加密的难度,很容易为攻击者提供窃取条件,是节点加密技术应用中需要重点考虑的问题。
2.2.3端到端加密
网络通信的端到端加密,是指出发点到接收点,整个过程不能出现明文状态的数据信息。端到端加密的过程中,不会出现解密行为,数据信息进入到接收点后,接收人借助密钥加密信息,提高网络通信的安全性,即使网络通信的节点发生安全破坏,也不会造成数据信息的攻击丢失,起到优质的加密作用。端到端加密时,应该做好出发点、接收点位置的网络通信加密,以便确保整个网络通信过程的安全性。
3结束语
为避免MPU和HCU同时对双口RAM的同一个内存单元进行访问,本设计没有采用双口RAM的中断或者信号量等机制,而是采用一种基于角色的环形缓冲收发机制,将双口RAM划分为两个独立环形缓冲区:发送环形缓冲区和接收环形缓冲区。发送环形缓冲区负责将MPU数据传递给HCU,最终发送给外部设备;HCU从外部设备接收到数据,放到接收环形缓冲区,并传递给MPU。
1.1数据处理
三取二安全计算机逻辑运算模块的运行周期为600ms,该模块按照周期进行数据接收、数据处理、数据输出。在第n个周期,MPU上的控制逻辑运算模块从双口RAM接收到数据后,放到逻辑接收缓冲区;从逻辑接收缓冲区取出n-1个周期的数据并进行逻辑处理;将n-2个周期的逻辑处理结果,从逻辑发送缓冲区中取出,放到双口RAM中。MPU上的控制逻辑运算模块对安全数据进行逻辑处理的时间不超过300ms,如果超过,就会影响MPU接收或者发送数据。同样,MPU上的控制逻辑运算模块接收、发送数据超过300ms,也会影响逻辑处理功能。在接收发送处理阶段,300ms中的280ms被分为20个发送接收子周期,每一个子周期的时间为14ms。在HCU中,也是按照同样的运行节拍从双口RAM中写入或读出数据。MPU与HCU之间交互的数据,按照预先定义的双口RAM交换数据帧进行。数据帧定义略———编者注。
1.2数据接收
HCU通过网络接口接收到数据后,对数据进行预处理,按照交换数据帧进行数据组包。根据当前周期号设置“cycle”,同时确定该数据包需要被放到D、E、F三个区块中写入区块角色标志“role”,将“flag”设置为1(即为输入),并交换数据帧的其他字段,按照源网络数据包中的信息进行设置。HCU根据当前周期号确定在接收环形缓冲区中的写入区块后,将组包之后的交换数据帧放到写入区块中。MPU根据当前周期号确定在接收环形缓冲区中的读出区块后,从读出区块中获取交换数据帧,然后对数据帧进行解包,并通过“cycle”、“role”、“flag”、“safety”、“crc”等信息来验证数据帧的唯一性和正确性,正常的数据帧被放到逻辑接收缓冲区,异常的数据帧被丢弃。同时MPU根据当前周期号,确定在接收环形缓冲区中的测试区块,利用内存检测算法对测试区块进行双口RAM内存区块检测。
1.3数据发送
在当前周期的600ms内,MPU进行逻辑运算处理在300ms内完成后,MPU从逻辑发送缓冲区中读取上个周期的逻辑处理结果数据,并对结果数据进行预处理,按照交换数据帧进行数据组包。根据当前周期号设置“cycle”,同时确定该数据包需要被放到A、B、C三个区块中写入区块角色标志“role”,将“flag”设置为1(即为输入),并交换数据帧的其他字段,按照源网络数据包中的信息进行设置。MPU根据当前周期号,确定在发送环形缓冲区中的写入区块后,将组包之后的交换数据帧放到写入区块中。HCU根据当前周期号,确定在接收环形缓冲区中的读出区块后,从读出区块中获取交换数据帧,然后对数据帧进行解包,并通过“cycle”、“role”、“flag”、“safety”、“crc”等信息来验证数据帧的唯一性和正确性,验证数据帧的正确性。异常的数据帧被丢弃,正常的数据帧按照网络数据帧进行组包,并通过网络发送给轨旁设备或者车载控制器。同时HCU根据当前周期号,确定在发送环形缓冲区中的测试区块,利用内存检测算法对测试区块进行双口RAM内存区块检测。
1.4区块角色轮换
双口RAM的发送与接收环形缓冲区的3个区块,在任意一个周期都只能处于读出、写入、测试3种中的某一种角色,而且这3个角色进行周期轮换,区块角色轮换表略———编者注。MPU与HCU通过双口RAM区块角色进行数据交互的步骤略———编者注。MPU与HCU通过相同的外部时钟中断来驱动数据处理软件模块的运行,MPU与HCU在对双口RAM进行访问时可以做到同步、流水线作业。在同一个处理周期内,发送环形缓冲区或者接收环形缓冲区中任何一个区块都有明确固定的角色,MPU板和HCU板不会同时访问操作相同区块,只有一个板卡对特定区块进行访问,从而解决了双口RAM的访问冲突问题,不需要另外采取硬件仲裁、软件仲裁或者信号量交互等手段。
1.5双口RAM检测
应用在三取二安全计算机中双口RAM可能存在一些功能性缺陷。无论门级电子元件的制造缺陷,还是板卡电路级的设计错误,都可能导致双口RAM的存储功能性故障,从而降低其功能完整性和可靠性。双口RAM存储单元具有多种类型的故障略———编者注。实际项目应用中,开发人员需要关注双口RAM存储功能的完整性和可靠性,可以通过存储器检测算法来对其进行检测和诊断,能够及时地发现和定位双口RAM的存储功能故障,并及时采取相应的措施,避免因双口RAM存储单元的数据错误导致的严重后果。本文采用硬件BIST架构(HBIST),在硬件电路中设计专门的硬件逻辑部件来对内存进行测试,其图形测试向量有专门的硬件电路模块生成,自动对内存的各种功能故障进行测试,硬件架构内建测试的内存故障测试覆盖率高,而且测试速度快,设计选取的图形测试向量主要用于覆盖高层次的内存故障,如NPSF、CF、DRF。HBIST利用March-TB内存测试算法对系统的内存进行测试,使用硬件HBIST电路来生成图形测试向量,并由硬件HBIST电路来进行测试,HBIST测试电路模型略———编者注。在硬件BIST处于非工作状态时,会拉低BIST的时钟信号,BIST电路进入休眠状态。当系统在夜间进入非繁忙状态,会产生BIST_MODE信号,来激活BIST电路的BIST模式控制器,并拉高时钟信号,BIST模式控制器发出控制信号,会接管对整个RAM的访问控制,并对RAM开始进行测试。BIST模式控制器控制测试向量产生器、地址与数据生成逻辑工作,产生相应的测试向量对RAM进行测试。同时,并将测试结果在BIST结果比较器中进行比较,如果发现异常,退出BIST_MODE模式,通知MPU测试异常,MPU产生相应的告警和错误处理。HBIST在进行内存检测时一共具有4种状态:idle、test、error、wait。idle表示处于等待测试数据进行测试的空闲状态;test表示获得测试向量对相应内存单元进行测试;error表示检测到内存单元出错;wait表示处于休眠状态,等待CPU模块激活HBIST。HBIST状态机的状态转移图略———编者注。HBIST状态机的VHDL程序略———编者注。在测试的过程中,通过植入内存故障,并用逻辑分析仪获取出错信号,硬件BIST模块检测内存出错图如图3所示。圆圈里面的测试结果与期望结果不一致,内存检测出错。
1.6数据交互软硬件设计
双口RAM是双端口SRAM芯片,本设计采用CY7C028V-15AXI,读写速度最高为15ns,数据容量为64K×16位。双口RAM连接HCU板的一端为MPC8247的LO-CALBUS总线,连接MPU板的一端为CPCI总线桥接芯片的LOCALBUS总线,HCU可以直接通过LOCALBUS总线访问双口RAM,而MPU板通过PCI总线访问,其中还有控制信号,如片选、读写、中断、BUSY信号等。双口RAM交互电路图略———编者注。在MPU和HCU中,通过设计的软件模块,来完成双口RAM的访问操作。双口RAM的MPU上软件交互关键代码略———编者注。
2结语
正文
现代经济正步入以世界统一市场为标志的世界经济一体化轨道,企业的成败,取决于信息获取、识别、处理、转换、传递的准确性、效率与速度。因此,信息在企业经营管理中的重要作用也将愈来愈显著。随着我国改革开放,确立市场经济体制,和加入WTO,企业要能在国际国内激烈的市场竞争中求得生存与此同时发展,一个重要的条件就是——必须要有一个健全的高效的信息系统,以满足企业经营管理决策所需的各种内外信息。因此,作为提供信息的企业统计必将在其中扮演重要角色,发挥重要作用。特别是对我们***系统来说,随着“大企业、大市场、大品牌”的形成,以行政区划为单一的卷烟市场割据将很快被打破,搬掉门槛推倒墙是大势所趋。再下一步就有可能是***专卖法的取消,所有这些都告诉我们,***行业也将马上面临着国际国内激烈的市场竞争。想在这种激烈的竞争中生存发展,必须要有一支能够为企业的决策和管理者提供准确数据的素质过硬的统计队伍。
近年来,我国统计工作取得了比较显著的成绩。从总体上来看,我国现有的统计数据,基本上还是能够反映客观实际的。但是,随着社会主义市场经济的不断发展,经济结构复杂化,利益主体多元化,再加上体制转化过程中经济秩序混乱,人为干扰增多,因而搞准统计数据的难度也就日益增大,统计失实的潜在危险性也就日渐严重,并将逐步暴露。对此,我们必须要有清醒的认识,要始终不渝地把提高统计数据质量问题,摆到统计工作的首要位置,并采取综合治理措施,切实抓紧抓好。下面就统计数据质量问题谈谈自己一些粗浅的看法。
一、统计数据质量控制的意义
企业统计的目的是为企业经营决策管理提供统计信息。在市场经济条件下,企业经营决策极具风险性,风险产生于不确定性并由不确定性程度决定风险的大小,而不确定性又与信息的准确和及时程度直接相关,信息愈准确及时,不确定性愈低,反之,亦然。所以,准确性和及时性是对统计资料的两项基本要求。其中,准确性的要求是第一位的,是统计工作的生命。它确定着统计资料是否有效和价值的高低,是衡量统计数据质量的根本标志。准确可靠的统计数据,便于决策和管理者正确地把握形势,客观地剖析问题,从而作出科学的决策。反之,有水分的、失实的统计数据,相互矛盾的统计数据,给决策者以错误的信号,将会误导决策和调控,对企业的发展将会造成重大损失。因此,统计工作者必须以对本职工作高度负责的精神,以统计数据为对象,以消除统计数据的差错为目标,千方百计搞准统计数据,达到强化统计数据质量控制的目的。
二、常见的统计数据质量问题及分析
(一)、数据虚假
这是最常见的统计数据质量问题,也是危害最为严重的数据质量问题。这类统计数据完全是虚构的杜撰的,毫无事实根据。造成统计数据虚假的因素多种多样,比如,有意虚报,瞒报统计数据资料,指标制定不严密,统计制度不完善,不配套等。
(二)、拼凑的数据
这种数据是把不同地点,不同条件,不同性质的数据在收集、加工、传递过程中,人为地拼凑成同一时间、地点、条件和性质下的同一数据。这种东拼西凑的数据,虽然分别有事实根据,但是从整体上看数据是不符合事实的,其性质与数据虚构相同。
(三)、指标数值背离指标原意
这是由于对指标的理解不准确,或者是因为指标含义模糊,指标计算的随意性大等原因造成的数据质量问题,表现为收集整理的统计数据不是所要求的统计内容,数据与指标原意出现走样,面目全非。
(四)、数据的逻辑性错误
这是指统计资料的排列不合逻辑,各个数据、项目之间相互矛盾。例如,企业卷烟库存商品中主要的组成部分是省产烟、省外烟、国外烟,如果企业报送的统计资料中,卷烟库存商品总金额显著下降,而省产烟库存金额大幅度上升,省外烟和国外烟库存金额只是持平或只有小幅度的下降,这就存在矛盾,表明数据有逻辑性错误。
(五)、数据的非同一性
它是指同一个指标在不同时期的统计范围、口径、内容、方法、单位和价格上有差别而造成的数据的不可比性。例如,2003年的统计资料中不含税价在30元以上的卷烟为一类卷烟,而在2004年的统计资料中,不含税价50元以上的卷烟为一类卷烟,如果在此基础上来比较两年的一类卷烟的销售量,而得出一类卷烟销售量大幅度下降的结论显然是不合理的。
(六)、数据不完整
这里指调查单位出现遗漏,所列项目的资料没有搜集齐全,不符合统计资料完整性的要求。数据不完整,就不可能反映研究对象的全貌和正确认识现象总体特征,最终也就难以对现象变化的规律性做出明确的判断,甚至会得出错误的结论。
(七)、统计手段和统计分析落后
目前许多企业统计工作仍处于手工状态,很原始!即使采用计算机也仅仅是减少工作量去做一些汇总、指标计算,并没真正引用先进的计算机技术和网络技术。所做的统计分析也局限于事后分析,即对统计数据进行单纯的讲解说明;不能利用网络技术实行信息共享等方式进行事前分析和预测。换句话说,“统计预测”这一职能根本没有发挥作用,缺乏对信息的收集、综合和系统化。
此外,常见的统计数据问题还有计算错误、笔误等。
可见,统计数据质量问题既可能是来自于设计阶段,也可能是来自于统计资料的整理阶段。
三、统计数据质量控制方法
(一)、统计数据质量控制的原则应当是全过程的、全员参加的、以预防为主的数据质量控制。
首先,统计数据质量控制要贯穿于统计工作的全过程。每进行一步,都要对已完成的工作进行检查、对已发生的差错及时进行纠正,做到层层把关,防止差错流入下一个工作环节,以保证统计数据的质量。其次,参加统计数据质量管理和控制的人员应当是全面的。全体统计工作者都要树立数据质量意识,各个主要的工作环节都要落实专人负责。统计数据质量的好坏,是许多工作和许多统计工作环节质量的综合反映,牵涉到统计工作的所有部门和人员,因此,提高数据质量需要依靠所有统计工作者的共同努力,决不是单纯靠某一个部门或少数人所能搞得好、抓得了的。只有人人关心数据质量,大家都对数据质量高度负责,产生优质的统计数据才有坚实的群众基础。因而,统计数据质量控制要求把差错消灭在它的形成过程中,做到防检结合,以防为主。这就要求有关人员在质量控制中具有超前意识,抛弃那种出现了统计数据问题才想办法解决问题的被动的局面。
实行全员性的质量控制,就要把统计数据质量目标及其关键交给广大统计工作者,落实到每个工作岗位,使每个岗位都有明确的工作质量标准,做到合理分工、职责明确,职责越明确,数据质量控制就越有保证。
(二)、统计设计阶段的质量控制
统计设计是统计工作的首要环节,统计数据质量的好坏,首先决定于这个过程,它是提高统计数据质量的前提。如果设计过程的工作质量不好,就会给统计数据质量留下许多后遗症。设计过程的质量控制需要抓好以下几项工作:
1、正确规定统计数据质量标准。数据质量标准是指根据不同的统计目的对统计数据精度所提出的要求。满足统计目的精度的统计数据就是准确的,高质量的统计数据。首先要作充分的调查,系统地收集市场和用户对统计数据的反映和实际使用效果的情况;其次要分析研究过去统计数据的主要质量问题,找准统计数据质量控制的主攻方向;最后要进行反复论证,考虑到统计工作中实际能够达到的水平。
2、合理设计统计指标体系及其计算方法。
统计指标设计得是否合理,也是影响统计数据质量的因素之一。采用统计报表搜集资料,首先要实行标准化管理,制定的指标要符合统计制度的规定,范围要全,分组要准,指标涵义的解释和计算方法要精确;其次要对统计报表的设计、颁发、填制、汇总的全过程实行全面质量管理。
(三)、资料整理鉴别阶段的质量控制
统计资料整理鉴别阶段出现的差错是统计数据质量问题的重要方面。如果资料不准确,就会影响结论的正确。因此,要特别注意审查资料的可靠性和适用性,要弄清楚统计指标的口径范围、计算方法和时期时点。对于口径不一致或不完整的资料,需要进行调整、补充;对于相互比较的资料,必须要注意有无可比性;一旦发现数据有严重的质量问题,应进行核实,避免有质量问题的资料进入汇总处理阶段。总之,对搜集到的资料,经过鉴别推敲、核实审定、使之准确无误,才能使统计数据的质量得到保证。
(四)、人为错误的质量控制
1、尽可能采用计算机处理统计资料,同时提高统计分析水平。
计算机作为当今社会不可缺少的高科技产物已渗透到我们生活、工作中的各个环节。运用计算机整理、汇总统计资料,速度快、效果好,其优越性是手工整理无可比拟的。现在国内大部分著名企业基本上实行网络化、全球化,利用网络资源了解世界先进行业信息,采用科学先进的统计分析方法和手段,进行横向、纵向对比,找差距挖潜力,努力赶超世界先进企业。要能够写出有一定深度的统计分析预测报告,系统、全面、科学地去挖掘利用网络资源和从市场取得的第一手资料,完善整个分析、预测手段方法和过程。但是,也应重视计算机处理数据的质量问题,提高计算机数据处理的关键在于提高录入数据的可靠性。
2、统计工作者本身应提高自身素质。
统计人员没有深厚的专业知识和丰富的实际工作经验,没有跟上时代及时进行知识更新,不善于统计调查获取第一手资料,写不出有一定深度关于本企业某一方面对决策层有参考价值的统计分析报告。因此,对统计人员应该加强培训工作,企业内部应建立配套的培训机制,对每一层次统计岗位实施针对性的培训,必要时到企业外请有关专家学者授课,或到相关先进单位进行考察学习,做到取长补短。统计工作者本身也应该努力学习统计知识,钻研业务,不断提高统计业务素质和水平,杜绝因业务不熟悉而造成的数据质量问题。
3、加强对统计人员的职业道德培训。
目前,上级部门下达计划和各类政绩考核对统计数据干扰不可低估。有些地方,以是否完成计划和各类数据的高低作为考核地方政绩的依据,导致很多下级部门所报的统计数据高于计划数或持平,这并不是计划部门的计划多么精确合理,而是说明某些统计对象或统计部门受某种利益的驱动而使统计数据的质量得不到保障。当然,数据不真实、不准确的原因是多方面的,其中统计人员的思想道德对统计数据的影响是很大的。这就要求我们加强对统计人员的思想品德和职业道德教育,要求每一个统计工作者必须坚持实事求是的工作作风,认真对待每一个统计数据,如实地反映情况。
4、加大统计执法力度,保证源头数据的准确性。
(一)统计调查对象虚报、瞒报、少报,当前以少报、瞒报为主。今年4月份,我局对24家工业企业上报数据进行了质量检查,发现少报产值的企业就有7家,少报产值2221万元,户均少报产值317万元;而同期多报产值的企业只有3家,多报产值295万元,户均多报产值98万元。剔除企业多报产值,加上企业少报产值,企业共少报产值1926万元,占24家企业原上报产值28.1%,户均少报产值80万元。
(二)政府统计调查尤其是县、镇两级政府统计力量不足,存在漏统现象
(三)统计部门地位不高,抗干扰整体能力不强
(四)统计过程中缺乏统一质量监控标准和依据,反映在基层填报人员更换频繁,台帐、原始记录不全,历史资料混乱,原生性和再生性差错层出不穷
(五)数出多门情况时有发生,也是造成数据质量不实的原因之一。如在2002年我市抽查的19个镇中,发现有9个镇的2002年政府工作报告(或党委工作报告)使用的统计数据与统计年报数据不一致,镇政府工作报告(或党委工作报告)所使用的统计数据普遍高于统计年报数据,占被检镇的47.4%。
二、原因
统计数据质量存在问题的原因是复杂和多方面的。既有内在原因,又有外在原因:
(一)内在原因
1、现行统计管理体制滞后。现行我国统计管理体制实行的是“统一领导、分级负责”的办法,统计部门作为地方政府的一个职能部门、人员、编制、经费以及任免都由地方政府决定,而地方领导干部的升降,在一定程度上系于体现在政绩的统计数字上;地方统计部门领导的升降完全由地方决定,这样的统计体制,客观上强化了行政对统计数字的干预,统计部门和统计人员难以独立地行使统计监督的职权。
2、统计调查方法制度改革滞后。改革开放以来,统计为适应形势的发展,统计方法制度进行了一系列的改革。如恢复和建立农产量抽样调查和农村住户收支调查;推行了城市居民住户收支调查;先后开展了社会商品零售价格指数、居民消费价格指数、生产价格指数;用SNA体系取代了MPS体系等等。但遗憾的是:改革统计生产关系,解决统计生产力的过程中,统计无论是体制还是方法制度基本没有实质性进展,仅限于修修补补。
3、报表指标种类繁多,调查项目之间重复。现在的统计报表和指标不说多如牛毛恐怕也离不远了。从长期统计工作实践特别是近年来的实际统计工作中,不知是因为适应形势所累,还是在这经济转轨时期本身就是不可逾越的障碍,确实使人感到统计改革有违原来的初衷。原来国家统计改革一直讲的都是要精简报表、精简指标,理顺工作关系,尽量减少或避免数出多门,最终目的是要减轻基层负担、提高统计数字质量。然而现在同一指标在统计局内部重复布置,你抄我的、我抄你的、互相核对打架的现象始终没有能够得到有效的解决,从而造成许多重复劳动和资源浪费。与时同时,政府综合统计制度与部门统计制度调查项目内容之间重复。如:农业耕地面积、农业机械化情况、畜牧业生产情况、种植业产品产量、企业集团统计、建筑统计、批发零售贸易统计、房地产统计、固定资产投资统计、乡镇企业统计等。就部门统计之间而言,同一指标多个部门调查的现象时有发生。如粮食产量指标,农业局、粮食局、统计局都调查;投资指标,改革与发展局、经贸局、统计局、建设局都调查;出生人口指标,公安部门、计生局、统计局都搞。就政府综合统计部门内部各专业制度而言,重复统计内容有:农村乡卡调查,综合乡卡调查数字抄农村乡卡数等。另外,由于各项制度组织主体不同,造成不同统计制度需要时对一调复布置,也形成了部分统计内容重复调查现象。
(二)外在原因
1、《统计法》作用有限。《统计法》的颁布实施,对统计违法现象的认定和处罚都有明确的规定,对净化统计环境起到了积极作用。但是,由于基层统计力量的薄弱和统计数字与政绩的关系,统计法的作用受到极大限制,近些年县级政府综合统计部门进行的统计执法大检查“雷声大、雨点小”,不足以震慑统计违法者。
2、统计部门人力、经费、物资投入不足制约统计数字质量的提高。虽然统计部门与过去比现在统计力量、经费投入得到了一些加强,但是与当前统计任务比还不适应。特别是在县镇两级的统计工作中这个问题特别严重。比如,镇级只有一名兼职统计人员,一方面要完成镇中心工作,另一面又要应付统计的调查任务,“顶上千条线,底下一根针”,不管上边有多好的想法和做法都得基层去完成,基层是统计数字的源头。目前,我市各县统计局工作人员一般只有15—20人,在统计工作量不断增加情况下,县级统计部门完成现行18个专业报表任务己穷于应付。人力、物力、经费不足,是严重影响统计数字质量的一个很重要的因素。
3、客观环境的变化,对统计数字质量产生了很大影响。从客观外界条件看,一方面统计调查环境迅速的变化确实给统计工作带来许多困难。统计数“正规”来源渠道越来越窄,在企业改制中许多国有、集体企业,通过股份制、拍卖、兼并重组,原有的统计机构和人员变化或撤消,获取资料的正常渠道不存在了。由于市场经济的运行,调查量剧增,与当前统计管理体制和统计方法制度不适应。另一方面,全社会对统计信息需要的数量、质量都提出更新更高的要求,社会需要的“缺口”很大,有一些数字根本没有。不需要的,要上一大堆,都在躺着睡大觉。所以统计方法制度要进行重大调整改革。
4、被调查者合作程度降低,影响了统计数字质量。经济改革的深入,使得统计调查对象越来越复杂。原来主要调查对象都是组织、有管理的单位,现在是面对千家万户全社会。在市场经济条件下,形成利益多元集团,由于利益的驱使,使得各种各样的被调查对象总是千方百计地保守自己的“秘密”,出现瞒报、少报统计数字的现象十分严重。
5、基层统计人员积极性无法调动性。
三、建议
要有效提高统计数据质量,必须从影响质量的根本着手,提高质量才能持久。
(一)改革现行的统计管理体制。最好能实行垂直领导,使政府统计部门地位更加超脱。若近期未能实行垂直管理,则要从5个方面加强统计活动的独立性:
一是抓住国家启动修改统计法的有利时机,通过立法进一步确定和加强现行的国家、省、地、县四级统计调查体系进行统计活动的超脱性、独立性地位。
二是进一步加强镇级统计工作,将镇级统计真正纳入政府统计工作序列,使镇级统计工作实体化。
三是现行“下管一级”的思路要向整个统计调查体系的深度和广度拓展。在可能的情况下,编制、人员、经费等都可以下管一级。
四是镇一级统计业务全部由镇一级独立完成,县级统计部门只对其进行业务指导和监督,通过各种手段,把好镇级统计数据关。
五是加强对全社会的统计管理职能,各级政府统计部门应加速业务职能为主向管理执法职能为主的转变过程,将自己从繁重的业务中解脱出来。政府统计部门只干综合的统计业务。如国民经济核算、基本单位名录库,全国性的普查等,能让部门搞的就让部门去搞,能让民间统计调查机构搞的就让他们去搞,对这些统计工作,政府统计部门主要抓管理,抓数据的评估与监督。
(二)明确政府统计职能。当前,统计职能有不断被扩大的趋势,其结果是报表增多、指标增设、调查频率增快,造成基层穷于应付,也难以应付,最终是马虎应付,质量下降,走入恶性循环。对此,应重新界定政府统计职能,我们认为政府统计职能就是为国家宏观调控经济、社会服务,其它能减少职能都应减少,非此职能工作能不参与的最好不参与。
(三)建议组织部门改革干部考核制度,完善干部管理体制。统计实践告诉我们,现行干部考核制度和干部管理体制也是导致和助长统计数字造假的重要源头。因此,应建议组织部门进一步改革干部考核制度,完善干部管理体制,按科学发展观要求对各级干部的进行全面考核、评价。
(四)改革现行统计方法制度。统计制度方法与统计数据质量密不可分,当前制度方法应着重从三个方面进行改革:首先必须明确政府统计应收集那些资料,这是统计方法制度改革重点;其次建立一套符合我国国情的国民经济核算体系及适应科学发展观要求的统计指标体系,并且保证经确定的统计指标体系的全国统一和相对稳定,对指标的含义、统计口径、计算方法都必须做出说明和界定范围,同一指标不能有两种口径和随意变更。第三是研究建立从我国实际出发的科学适用的统计调查方法体系,适当减少全面统计报表,推广抽样调查。
(五)加强统计执法力度。要通过不断统计执法,让全社会都能认识、了解统计工作,正确认识统计工作,支持和配合统计工作,正确认识和使用统计统计数据。一是要建立专门的统计执法队伍,国家成立执法总队,各省设立执法支队,地、县建立执法分队。并开展全国或全省一盘棋的统计执法。
二是要建立人民法院对统计行政处罚予以强制执行的制度,把统计执法活动与人民法院的强制执行制度相衔接,与其他执法部门联合办案,形成合力,发挥行政执法的整体效能。
三是要加强统计执法检查的力度与频度,使统计执法检查工作日常化、规范化,要建立违法统计案件的举报制度。
(六)对统计工作全过程实行全面质量管理。第一对每项统计调查要制定数据质量评价标准,应把现有数据质量的评估标准从准确性扩大到准确性、及时性、适用性三维的质量标准。第二健全和完善数据质量管理体系。建立必要的组织机构或相对独立的统计数字质量监督评价机构。美国、英国、加拿大等国家的统计机构十分重视统计数字质量评价管理,都建立了专门的统计数字质量监督管理机构,来评价政府的统计数字。这一方面值得我们借鉴学习。第三采用多种形式开展质量管理,如定期开展数据质量情况调查和分析、邀请统计机构外部专家来评价等。
(七)加大对县及县以下统计部门的经费、人力投入。现在基层统计力量、经费不足的问题、矛盾十分突出,县及县以下统计部门是统计数字质量的源头,数字源头不能保证,又怎能保证全过程的统计数字质量呢?因此,加大对基层经费、人力和计算机投入也是保证统计数字质量很重要措施。
管理会计信息系统与会计核算系统有着很大不同。会计核算系统按照实际操作中对企业会计核算流程的要求安排设计,操作固定、内容全面。只需要按照经济业务内容和会计相关法律要求操作即可。而管理会计信息系统更为复杂。他没有一成不变的决策处理程序,相反在决策过程中需要运用大量的技术分析方法,对比多项数据信息才能得到所需的结果。系统庞大、操作复杂,一但结果失误有可能对企业的发展带来毁灭性打击。因而该系统的建立对数据处理能力有着极高的要求。大数据时代的到来,它所提供的数据量、数据结构和数据处理方式正好贴合了管理会计信息系统的需要。它将企业决策中需要的财务因素与非财务因素结合起来,为企业管理提供可靠的数据支撑。
二、管理会计信息系统在企业中的作用
管理会计信息系统是会计信息系统的一个组成部分。长久以来企业在会计信息化的道路上一味的重视会计核算的信息化,忽视了管理会计的信息化,使得管理会计的各项职能没有在企业发挥出来。随着企业规模发展壮大,经济环境纷繁复杂,管理会计越来越受到高层管理人员的重视。在企业中使用管理会计相关分析方法,建立管理会计的信息化系统可以为企业价值提升起到事半功倍的效果。1.为企业发展提供全面数据信息当前经济形势风云变幻,纷繁复杂,稍有不慎就可能对企业发展带来巨大打击。及时、准确的信息对企业决策至关重要,而建立管理会计信息系统可以对企业提供有效帮助。管理会计信息系统是以海量数据为基础,运用分析技术优势,结合管理需要,经营业务和会计要求,灵活运用管理会计的工具方法,为企业经营的各个方面提供服务。通过该系统的建立,搜集经营过程中的结构性数据和非结构性数据,利用专业分析技术,深度挖掘数据内含的信息,向决策者提供使用。2.对生产各环节进行精细化管理该系统的建立,可以通过存货系统、成本计算系统、质量管理系统、价值链分析系统连接企业供应、生产、销售的各环节。其核心流程涉及成本收入要素处理、成本中心分析与处理、作业类型计划与处理、内部订单处理、销售与利润计划、成本核算与结算、成本与作业分配、一般管理费用核算、获利性分析、全面预算与绩效考核等方面。主要的业务对象包括成本要素、作业类型、收入要素、内部定单、控制文档、成本对象、成本核算估计、获利性分析维度、业务计划与预算表以及绩效考核等。通过对各环节的严格把控,降低库存、减少成本,提高利润。3.促进企业完成战略实施目标管理会计信息系统中绩效评价的部分针对企业员工的完成水平进行评价,是该系统的重要组成部分。平衡积分卡绩效评价体系是最近几年流行在国内外的企业绩效评价体系。它分四个方面进行:企业财务业绩、客户关系、内部业务流程以及学习和成长,对企业进行评价。在系统中将企业的战略实施目标按照这四个部分细化成不同的财务或者非财务指标,对照不同的部门逐级细化,进行考核。该绩效评价系统将企业战略与员工考核挂钩,既可以推动战略目标的完成又可以激励员工成长。
三、在企业中建立管理信息系统的途径
传统的海洋数据服务一般是专项专建、专人专用,针对人群比较单一、数据类型比较简单,而且在项目结束后通常建设的数据库和应用系统由于没有后期的经费支撑而停用。本研究提出的海洋环境数据在线服务系统(以下简称系统),涵盖了多专项、多学科的数据,在原有数据库、应用系统、专网基础上进行系统集成、数据库扩建,为海洋局属各单位提供共享服务。系统是运用面向服务架构的设计思想搭建应用系统。采用并行数据库技术实现大数据量的存储、加载、更新、查询等操作,利用ETL调度工具实现源数据库到并行数据库的数据抽取、转换和转载,减少重新建库的工作量。采用虚拟化技术整合存储、服务器、网络资源,建设数据中心集群,提高资源利用率,采用域控管理机制实现数据安全管理,权限管理。采用VPN认证管理机制,保障系统安全正常运转。
2系统设计
系统通过面向服务的总体架构,以数据的汇集、处理、应用为基础主线,采用高速并行技术,结合虚拟化技术等先进IT技术,设计系统的逻辑架构、功能架构、物理架构与技术架构。
2.1逻辑架构
系统总体架框架由数据层、管理层和应用层3部分构成,数据层是指通过对历史收集、专项调查、在线传输等方式收集,采用数据集、数据库方式进行数据存储与管理;管理层是指对使用系统的用户进行统一认证、用户管理、数据授权等实现用户有效可控的管理;应用层是指为用户提供数据的在线查询检索、数据时空分布检索、产品加工处理等应用服务,满足用户多样化的需求。应用层与管理层通过内网和专网访问数据层,实现数据的管理、查询、处理等服务。
(1)数据层。数据层主要由原始数据、基础数据和成果数据3部分组成。原始数据是指海洋仪器现场采集的原始资料、现场汇交的纸质或者电子资料等。原始数据采用文件方式存储,基于原始资料清单和数据库文件目录等方式进行管理。类型包括海洋观测原始资料、海洋监测原始资料、专项调查汇交资料等。基础数据是指对原始数据进行整理、排重、质量控制等处理之后形成的标准化数据。内容主要包括专项调查数据、观测实时资料数据与国际业务化数据等,专项调查数据包括水文、气象等9个学科,观测实时资料数据包括海洋站、雷达、浮标等。基础数据采用数据库存储方式,根据基础数据的资料类型、资料格式、数据观测频率、数据传输频率、数据量等设计数据库结构。成果数据是指经过信息提取、多源数据融合、数值模型分析、统计分析等手段处理后形成的数据。成果数据由要素数据、成果专题数据、资料目录数据组成,采用数据库存储方式。要素数据是以基础数据为基础,根据数据的专题应用保障和服务需求,按照时间、空间、专题要素等进行组织的数据。成果专题数据主要包括数值型产品和图形产品,涵盖海洋再分析产品、实况分析产品、潮汐预报产品和海洋专题产品等。资料目录数据主要包括原始数据集目录索引、标准数据集目录索引、产品数据目录索引等。
(2)管理层。管理层主要负责系统的用户管理、资源管理、业务流程管理和运行监控管理等内容。用户管理包括用户的创建、更改和删除、角色管理、功能授权与数据授权;资源管理包括目录索引管理、数据导航管理、信息管理与信息资源管理;业务流程管理包括数据申请、虚拟机管理、数据审批管理等;运行监控管理包括运行环境监控、数据资源监控与用户行为监控。
(3)应用层。应用层依托于中心内网和海洋专网,基于并行数据库技术和虚拟化技术,实现海洋局属单位间的数据在线服务。应用层主要包括:数据时空分布展示、数据查询检索服务、数据共享虚拟环境、产品制作与产品导出功能。数据时空分布展示是利用数据的经纬度、时间范围、站次数等关键信息,通过统计计算数据量,依据色彩图例,进行时空分布展示。数据查询检索服务包括数据库查询检索和数据集查询检索。该服务可提供基于矢量地图及影像地图的地图显示控件的数据查询服务,以及使用关键字对数据进行查询。产品制作是指对资料进行整理、标准化处理,开展数据识别、解码等预处理操作,利用数据统计分析工具进行产品的加工制作。产品导出是指对用户加工制作产生的产品成果提供数据的导出功能,实现数据从虚拟机到本机的导出服务。
2.2物理架构
按照系统设计,对系统运行硬件环境进行搭建,硬件环境涵盖原始数据文件存储区、数据库存储区、数据处理区、数据服务区。按照网络布局可化为中心内网和海洋专网,内网为中心内部用户提供在线服务的入口,专网主要包括海洋观测网、海洋监测网、数字海洋网;数字海洋网为海洋局属单位提供在线服务的入口,用户经由内网/数字海洋网通过VPN身份认证后方可进入用户主页,通过登录进入个人虚拟工作环境(即用户虚拟机),用户可在虚拟机中对数据进行查询、处理和产品制作。系统经由海洋观测网和海洋监测网接收实时、延时观测和监测的海洋数据,并发送到系统的文件存储区和处理资料临时存储区,由存储管理系统进行数据的接收、存储和管理。利用用户授权管理将数据分发到数据处理用户的虚拟机中。数据处理用户通过中心内网登录到虚拟机后,开展数据整理、标准化处理工作后,将处理结果按照指定的路径存放。由数据传输系统同步传输到产品制作用户的虚拟机中,用户可开展产品加工制作并将成果按照指定的路径存放。最终由数据交换系统存储到统一的资料存储管理区。ETL处理系统经过数据抽取、清洗、转换等处理,将数据处理结果和产品加载入库,最终经由中心内网和海洋专网为海洋局属单位提供数据共享服务。
3系统功能实现
系统通过用户唯一入口登录,保证数据安全;开发数据处理系统,完成数据格式化转换;利用ETL处理系统,完成并行数据库的数据处理与调度,包括数据抽取、数据转换与清洗及数据加载;开发数据库检索、数据集检索、文件输出审批和文件导出等应用程序;开发系统运行监控管理系统,对系统的运行环境、数据状况和用户行为进行监控和管理。
3.1数据处理分系统
3.1.1实时数据处理子系统
根据海洋环境数据观测的采集规范和编码规定,对接收、收集和整合的大量海洋调查、业务化观测/监测等资料,按照资料类型、观测仪器、观测手段、要素内容等特点,开展数据识别、解码、数字化、数据项检查、代码检查等预处理,按照时间、空间和观测资料类型进行排重、排序和初步质量控制,剔除异常数据,依据数据来源、时间、地点等信息对数据文件进行挑选、过滤、分类存放,同时完善和新建相应的海洋环境数据存储标准,对资料进行标准化格式转换。
3.1.2历史数据处理子系统
系统根据海洋环境数据观测设备性能、仪器订正参数、资料种类、观测要素类型、观测方式、资料时空分布、要素数据经验范围等特点,配置质量控制参数,采用相应的质量控制方法,对各类海洋环境数据进行精细化的计算机自动质量控制和人工审核。质量控制方法包括范围检验、非法码检验、相关检验、季节性检验、一致性检验、着陆点检验、梯度检验、尖峰检验、气候学检验和极值检验等。
3.2数据库加载分系统
数据库加载系统包括通用数据库加载系统与并行数据库加载系统。通用数据库加载系统是通过加载文件清单的方式进行数据管理,清单文件是对每类数据的特征描述,包括文件类型、文件名、调查机构、绝对路径、备注等信息,通过一条记录就可以确认数据类型并找到数据存储位置。清单文件的组织结构与数据库表结构一致,且加载系统可实现清单列名与数据库列名对应关系的动态调整,清单配置文件设置完成后,单击上传,将清单的记录入库,加载过程中可通过状态条查看加载进度。并行数据库加载系统先按照数据库结构利用ETL处理系统通过抽取数据文件的相关信息形成库文件,将库文件存放在规定的目录下,并查看库文件的文件表结构,创建相应的数据库表,创建shell脚本并制定源文件和目标文件,最后写入数据库。
3.3数据查询检索分系统
系统主要分为两大模块:关键字查询和图形化检索。系统界面左侧显示海洋资料体系结构,右侧用于经纬度区域选择地图和查询结果浏览。用户首先在左侧选择相应的航次,然后在右侧地图圈定需求的区域,再输入关键字,查询该区域的特定信息,或查询特定区域的所有信息,或查询所有区域的特定信息,并能够对查询结果进行统计、排序、固定格式表格的导出。
3.4运行监控管理分系统
通过建立运行环境监控信息数据库,确定数据库中各类监控信息表、监控要素字段、监控状态字段、表关系和数据字典等,实现运行环境监控、数据监控与用户行为监控的实体建设。
3.4.1运行环境监控与管理子系统
运行环境监控与管理子系统包括硬件环境监控和软件环境监控两部分。硬件环境监控是通过对系统局域网硬件设备运行的日志信息进行提取、分析,实现对服务器、存储阵列、交换机、路由器、防火墙等设备故障诊断、告警等功能。软件环境监控是通过研制各商业软件(操作系统、数据库软件等)与各业务系统(数据处理软件等)运行日志读取接口,实时读取日志信息并加载运行环境监控信息数据库。
3.4.2数据资源监控与管理子系统
数据资源监控与管理子系统通过对数据汇集状态实时监控,实现信息反馈、到期告警、汇集情况季报与年报输出等功能,实现对海洋数据处理和质量情况的实时监控和预警、数据处理任务。调度管理;通过提取用户登录日志、数据库与数据集访问日志、数据申请信息进行分析,实现数据的服务内容、服务对象、应用领域情况的实时监控。
3.4.3用户行为监控与管理子系统
用户行为监控与管理子分系统实时对用户的登录、数据资源访问、外部设备使用、软件安装预警和设备接入等行为进行监控,具有终止用户操作、告警提示、季度分析报告输出等功能,在提供用户方便使用的前提下保障系统的稳定运行。
4关键技术
根据系统总体功能定位,在已有的工作基础之上,以数据的汇集、处理、存储、管理、服务过程为主线,采用操作系统、数据库、数据管理与共享3层软件体系,集成各类自主研发功能,构建灵活、稳定的架构模式。架构主要基于虚拟化技术、并行处理技术、数据检索并行处理技术与J2EE技术等关键技术。
4.1虚拟化技术
由于用户对处理器、内存等硬件和操作系统需求不同,用户工作使用的数据处理软件、资料质量控制软件和产品制作软件不尽相同,为满足用户需求,同时提高服务器、存储阵列等资源的利用率,采用服务器虚拟化技术实现满足不同用户需求的虚拟机,同时消除服务器与存储阵列对应用系统的物理局限性。服务器虚拟化技术是将一个物理服务器虚拟成若干个服务器使用,使得单个物理服务器上可以运行多个虚拟服务器。
4.2并行处理技术
利用高速并行处理引擎,完成多层次海洋数据体系动态更新的ETL(抽取、转换、加载)并行处理,实现整个系统的数据处理与调度,包括数据抽取、数据传输、数据转换与清洗、数据加载以及调度监控。
4.2.1数据抽取
数据抽取的方式包括:全表刷新、时间戳增量、日志增量和时间戳比较。系统采用时间戳增量方式完成数据的抽取,时间戳增量方式是通过记录时间将增量数据从源数据抽取出来,以附加的方式加载到高速数据存储中,完成源数据中的记录定期更新。时间戳增量方式是在源系统需要抽取的数据表中增加时间戳字段,用以表示数据的修改或新增时间,在数据抽取时通过它来识别和抽取增量数据。
4.2.2数据转换
由于海洋数据通过调查、汇交、网载等多种手段获取,每种手段来源的数据存在定义不规范、格式不统一等情况,导致系统的源数据存在重复、错误、格式不一等情况。数据转换是将多来源、多调查手段、多要素和多格式的数据进行转换,形成格式统一、实用性强的数据存储层。
4.2.3数据加载
将业务系统和源数据库层抽取、转换后的数据加载、更新到目标数据库中。根据业务数据的实际情况,对不同业务系统的数据采用不同的加载周期;根据数据的抽取策略以及业务规则确定,采用直接追加、全部覆盖、更新追加等多种方式进行处理。
4.2.4高速并行调度
利用高速并行ETL调度,按照既定步骤完成数据抽取、转换、加载的全部时间和流程的调度任务。调度的内容包括:从各业务系统到数据层的调度,实现多来源数据的提取、转换和加载;从数据层到数据存储的调度,实现了原始数据、基础数据、产品数据的高速并行存储;从数据存储到应用层的调度,实现数据的并行查询检索。
5结束语