时间:2023-06-18 10:31:04
导语:在数据分析方法的撰写旅程中,学习并吸收他人佳作的精髓是一条宝贵的路径,好期刊汇集了九篇优秀范文,愿这些内容能够启发您的创作灵感,引领您探索更多的创作可能。
关键词:大坝 安全监测 数据 分析
中图分类号:P2 文献标识码:A 文章编号:1672-3791(2012)12(b)-0053-02
1 大坝安全监测的意义
大坝所具有的潜在安全问题既是一个复杂的技术问题,也是一个日益突出的公共安全问题,因此,我国对大坝安全越来越重视。随着坝工理论和技术的不断发展与完善,为了更好地实现水资源的进一步开发利用,我国的大坝建设正向着更高更大方向发展,如三峡重力坝、小湾拱坝(最大坝高294.5 m)、拉西瓦拱坝(最大坝高250 m)、溪洛渡拱坝(最大坝高285.5 m)等,这些工程的建设将为我国的经济发展做出巨大贡献,也将推动我国的坝工理论和技术水平上升到一个新的高度。但是,这些工程一旦失事,将是不可想象的毁灭性灾难,因此,大坝安全问题就显得日益突出和重要。保证大坝安全的措施可分为工程措施和非工程措施两种,两者相互依存,缺一不可。
回顾大坝安全监测的发展历史,最早可追溯到19世纪90年代,1891年德国的挨施巴赫重力坝开展了大坝位移观测,随后于1903年美国新泽西州Boont。n重力坝开展了温度观测,1908年澳大利亚新南威尔士州巴伦杰克溪薄拱坝开展了变形观测,1925年美国爱达荷州亚美尼加一佛尔兹坝开展了扬压力观测,1826年美国垦务局在Stevenson一creek试验拱坝上开展了应力及应变观测,这是最早开展安全监测的几个实例。我国从20世纪50年代开始进行安全监测工作,大坝安全监测的作用是逐渐被人们认识的,赵志仁将大坝安全监测的发展历程划分为以下3个阶段。
(1)1891年至1964年,原型观测阶段,原型观测的主要目的是研究大坝设计计算方法,检验设计,改进坝工理论。(2)1964年至1985年,由原型观测向安全监测的过度阶段,接连发生的大坝失事,让人们逐渐认识到大坝安全的重要性,逐步把保证大坝安全运行作为主要目的。(3)1985年至今,安全监测阶段,此阶段,大坝安全监测已经成为人们的共识,随着监测仪器、监测技术和资料分析方法的不断进步、发展与完善,将逐步实现大坝的安全监控。
2 大坝安全监测数据分析概述
大坝安全监测取得的大量数据为评价大坝运行状态提供了基础,但是,原始观测数据往往不能直观清晰地展示大坝性态,需要对观测数据进行分辨、解析、提炼和概括,从繁多的观测资料中找出关键问题,深刻地揭示规律并作出判断,这就需要进行监测数据分析。
2.1 监测数据分析的意义
大坝监测数据分析可以从原始数据中提取包含的信息,为大坝的建设和运行管理提供有价值的科学依据。大量工程实践表明:大坝监测数据中蕴藏了丰富的反映坝体结构性态的信息,做好观测资料分析工作既有工程应用价值又有科学研究意义。大坝安全监测数据分析的意义表现在如下几方面:(1)原始观测数据本身既包含着大坝实际运行状态的信息,又带有观测误差及外界随机因素所造成的干扰。必须经过误差分析及干扰辨析,才能揭示出真实的信息。(2)观测值是影响坝体状态的多种内外因素交织在一起的综合效应,也必须对测值作分解和剖析,将影响因素加以分解,找出主要因素及各个因素的影响程度。(3)只有将多测点的多测次的多种观测量放在一起综合考察,相互补充和验证,才能全面了解测值在空间分布上和时间发展上的相互联系,了解大坝的变化过程和发展趋势,发现变动特殊的部位和薄弱环节。(4)为了对大坝监测数据作出合理的物理解释,为了预测大坝未来的变化趋势,也都离不开监测数据分析工作。因此,大坝监测资料分析是实现大坝安全监测最终目的的一个重要环节。
2.2 监测数据分析的内容
监测资料分析的内容通常包括:认识规律、查找问题、预测变化、判断安全。
(1)认识规律:分析测值的发展过程以了解其随时间而变化的情况,如周期性、趋势、变化类型、发展速度、变动幅度等;分析测值的空间分布以了解它在不同部位的特点和差异,掌握它的分布特点及代表性测点的位置;分析测值的影响因素以了解各种外界条件及内部因素对所测物理量的作用程度、主次关系。通过这些分析,掌握坝的运行状况,认识坝的各个部位上各种测值的变化规律。(2)查找问题:对监测变量在发展过程和分布关系上发现的特殊或突出测值,联系荷载条件及结构因素进行考查,了解其是否符合正常变化规律或是否在正常变化范围之内,分析原因,找出问题。(3)预测变化:根据所掌握的规律,预测未来一定条件下测值的变化范围或取值;对于发现的问题,估计其发展趋势、变化速度和可能后果。(4)判断安全:基于对测值的分析,判断过去一段时期内坝的运行状态是否安全并对今后可能出现的最不利条件组合下坝的安全作出预先判断。
一般来讲,大坝监测资料分析可分为正分析和反演分析两个方面。正分析是指由实测资料建立原型物理观测量的数学模型,并应用这些模型监控大坝的运行。反演分析是仿效系统识别的思想,以正分析成果为依据,通过相应的理论分析,反求大坝材料的物理力学参数和项源(如坝体混凝土温度、拱坝实际梁荷载等)。吴中如院士提到通过大坝监测资料分析可以实现反馈设计,即“综合原型观测资料正分析和反演分析的成果,通过理论分析计算或归纳总结,从中寻找某些规律和信息,及时反馈到设计、施工和运行中去,从而达到优化设计、施工和运行的目的,并补充和完善现行水工设计和施工规范”。综上所述,大坝监测资料正分析中数学模型的研究与应用是实现大坝安全监测及资料分析的目的和意义的基础与根本。
3 监测数据分析方法
大坝安全监测数据分析涉及到多学科交叉的许多方法和理论,目前,常用的大坝监测数据分析方法主要有如下几种:多元回归分析、时间序列分析、灰色理论分析、频谱分析、Kalman滤波法、有限元法、人工神经网络法、小波分析法、系统论方法等等。(图1)
3.1 多元回归分析
多元回归分析方法是大坝监测数据分析中应用最为广泛的方法之一,最常用的方法就是逐步回归分析方法,基于该方法的回归统计模型广泛应用于各类监测变量的分析建模工作。以大坝变形监测的分析为例,取变形(如各种位移值)为因变量(又称效应量),取环境量(如水压、温度等)为自变量(又称影响因子),根据数理统计理论建立多元线性回归模型,用逐步回归分析方法就可以得到效应量与环境量之间的函数模型,然后就可以进行变形的物理解释和预报。由于它是一种统计分析方法,需要因变量和自变量具有较长且一致性较好的观测值序列。如果回归模型的环境变量之间存在多重共线性,可能会引起回归模型参数估计的不正确;如果观测数据序列长度不足且数据中所含随机噪声偏大,则可能会引起回归模型的过拟合现象,而破坏模型的稳健性。
在回归分析法中,当环境量之间相关性较大时,可采用主成分分析或岭回归分析,为了解决和改善回归模型中因子多重相关性和欠拟合问题,则可采用偏回归模型,该模型具有多元线性回归、相关分析和主成分分析的性能,在某些情况下甚至优于常用的逐步线性回归模型,例如王小军、杨杰、邓念武等在应用偏回归模型进行大坝监测数据分析时,还采用遗传算法进行模型的参数估计,取得了较好的效果。
3.2 时间序列分析
大坝安全监测过程中,各监测变量的实测数据自然组成了一个离散随机时间序列,因此,可以用时间序列分析理论与方法建立模型。一般认为时间序列分析方法是一种动态数据的参数化时域分析方法,它通过对动态数据进行模型阶次和参数估计建立相应的数学模型,以了解这些数据的内在结构和特性,从而对数据变化趋势做出判断和预测,具有良好的短期预测效果。进行时间序列分析时一般要求数据为平稳随机过程,否则,需要进行协整分析,对数据进行差分处理,或者采用误差修正模型。例如,徐培亮利用时间序列分析方法,对大坝变形观测资料进行分析建模得到一个AR(2)模型,并对大坝变形进行了预报,结果表明具有良好的预测精度。涂克楠、张利、郑箫等也利用时间序列对大坝监测数据进行分析,有效地提高了模型对实测数据的拟合能力和预测能力。
3.3 灰色理论分析
当观测数据的样本数不多时,不能满足时间序列分析或者回归分析模型对于数据长度的要求,此时,可采用灰色系统理论建模。该理论于20世纪80年代由邓聚龙首次提出,该方法通过将原始数列利用累加生成法变换为生成数列,从而减弱数据序列的随机性,增强规律性。例如,在大坝变形监测数据分析时,也可以大坝变形的灰微分方程来提取趋势项后建立组合模型。一般时间序列分析都是针对单测点的数据序列,如果考虑各测点之间的相关性而进行多测点的关联分析,有可能会取得更好的效果。1991年,熊支荣等人详述了灰色系统理论在水工观测资料分析中的应用情况,并对其应用时的检验标准等问题进行了探讨。同年,刘观标利用灰色系统模型对某重力坝的实测应力分析证明了灰色模型具有理论合理、严谨、成果精度较高的特点。
3.4 频谱分析
大坝监测数据的处理和分析主要在时域内进行,利用Fourier变换将监测数据序列由时域信号转换为频域信号进行分析,通过计算各谐波频率的振幅,最大振幅所对应的主频可以揭示监测量的变化周期,这样,有时在时域内看不清的数据信息在频域内可以很容易看清楚。例如,将测点的变形量作为输出,相关的环境因子作为输入,通过估计相干函数、频率响应函数和响应谱函数,就可以通过分析输入输出之间的相关性进行变形的物理解释,确定输入的贡献和影响变形的主要因子。将大坝监测数据由时域信号转换到频域信号进行分析的研究应用并不多,主要是由于该方法在应用时要求样本数量要足够多,而且要求数据是平稳的,系统是线性的,频谱分析从整个频域上对信号进行考虑,局部化性能差。
参考文献
关键词:大数据;数据分析;数据挖掘
中图分类号:TP311 文献标识码:A 文章编号:1007-9416(2017)03-0104-02
1 综述
1.1 简介
在数字化时代,需要新一代系统架构提升业务创新能力。在新一代系统架构中,大数据是核心要素。业务应用能否自主发现与自助获得高质量的大数据,就成为业务创新成败的关键。这就要在搭建大数据平台时,就着手大数据治理相关建设。
1.2 需求和意义
从某种意义上说大数据治理架构需要以元数据为核心、提高大数据质量、透明化大数据资产、自助化数据开发、自动化数据、智能化数据安全,提升大数据平台服务能力,让大数据平台变得易使用、易获得、高质量。
但是,目前很多技术解决方案存在诸多安全和效率隐患:业务系统多,监管力度大;数据量庞大且呈碎片化分布,急需提升大数据质量;数据格式不规范、难以在短时间内找到所需数据;数据在各阶段的应用角度不同,需要降低系统间的集成复杂度。
2 功能设计
2.1 总体架构
本文讲述的数据分析方法及实现技术是建立在Hadoop/Spark技术生态圈的基础之上,以实现用户集成处理、、清理、分析的一个统一的数据处理平台;按数据类别分为线数据、归档数据;按数据格式分为非结构化数据、结构化数据;按数据模型分类为范式化模型数据、维度模型数据;按数据采集频度分为非实时数据、准实时数据处理架构;并提供数据中心平台与安全管理方案,为企业级用户建立一个通用数据处理和分析中心。如图1所示。
2.2 在线数据
在线数据在线通过接口去获得的数据,一般要求为秒级或速度更快。首先应当将数据进行区分:在线数据、或归档数据。本平台中采用:Storm或Spark Streaming框架进行实现。Spark Streaming将数据切分成片段,变成小批量时间间隔处理,Spark抽象一个持续的数据流称为DStream(离散流),一个DStream是RDD弹性分布式数据集的micro-batch微批次,RDD是分布式集合能够并行地被任何函数操作,也可以通过一个滑动窗口的数据进行变换。
2.3 归档数据
归档数据是在线存储周期超过数据生命周期规划的数据,处理的要求一般在分钟级或速度更慢。通常归档数据的计算量、数据量、数据复杂度均超过试试数据处理。本平台中采用:Hadoop、Spark技术生态体系内的框架进行计算,这里不详细阐述。
2.4 非结构化数据
通常非结构化的数据不一定具备字段,即使具备字段其长度也不固定,并且字段的又可是由可不可重复和重复的子字段组成,不仅可以包含结构化数据,更适合处理非结构化数据。常见的非结构化数据包括XML、文本、图象、声音、影音、各类应用软件产生的文件。
针对包含文字、数据的为结构化数据应当先利用数据清洗、数据治理工具进行提取,这项工作目前仍依赖技术员进行操作,由于格式的复杂性所以难以使用自动化方式进行较为高效的批处理。在治理数据的过程中,需要根据情况对数据本身额外建立描述数据结构的元数据、以及检索数据的索引服务,以便后续更佳深度利用数据。
2.5 结构化数据
结构化数据具备特定的数据结构,通常可以转换后最终用二维的结构的数据,并且其字段的含义明确,是挖掘数据价值的主要对象。
本平台中主要使用Hadoop Impala和Spark SQL来进行结构化数据的处理。Impale底层采用C++实现,而非Hadoop的基于Java的Map-Reduce机制,将性能提高了1-2个数量级。而Spark SQL提供很好的性能并且与Shark、Hive兼容。提供了对结构化数据的简便的narrow-waist操作,为高级的数据分析统一了SQL结构化查询语言与命令式语言的混合使用。
结构化数据根据采集频度可以继续分类为:非实时数据、准实时数据。
2.6 准实时数据
通常准实时数据是指数据存储在平台本身,但更新频率接近于接口调用数据源的数据。适合用于支持数据和信息的查询,但数据的再处理度不高,具有计算并发度高、数据规模大、结果可靠性较高的特点。通常使用分布式数据处理提高数据规模、使用内存数据进行计算过程缓冲和优化。本平台主要采用Spark SQL结合高速缓存Redis的技术来实现。Spark SQL作为大数据的基本查询框架,Redis作为高速缓存去缓存数据热区,减小高并发下的系统负载。
2.7 非实时数据
非实时数据主要应用于支持分析型应用,时效性较低。通常用于数据的深度利用和挖掘,例如:因素分析、信息分类、语义网络、图计算、数值拟合等。
非实时数据根据数据模型可继续分类为:范式化模型数据、维度模型数据。
2.8 范式化模型
范式化模型主要是针对关系型数据库设计范式,通常稻菔遣捎玫谌范式3NF或更高范式。面向近源数据查询、数据主题的整合。范式化模型数据的数据存储区,建议使用并行MPP数据库集群,既具备关系型数据库的优点,又兼顾了大数据下的处理。
2.9 基于维度模型
维度模型数据主要应用于业务系统的数据挖掘和分析。过去多维度数据处理主要依赖OLAP、BI等中间件技术,而在大数据和开源框架的时代下,本技术平台采用Hadoop Impala来进行实现。Impala并没有使用MapReduce这种不太适合做SQL查询的范式,而是参考了MPP并行数据库的思想另起炉灶,省掉不必要的shuffle、sort等开销,使运算得到优化。
3 应用效果
本系统在不同的业务领域上都可以应用,以2016年在某银行的应用案例为例:该银行已完成数据仓库建设,但众多数据质量问题严重影响了数据应用的效果,以不同的数据存储方式,以更高的要求去进行数据的统一管理。通过组织、制度、流程三个方面的实施,以元数据、数据标准、数据质量平台为支撑,实现了数据管控在50多个分支,60个局,1000余处的全面推广,实现了全行的覆盖;管理了120个系统和数据仓库,显著提升了新系统的快速接入能力;通过14个数据规范和流程明确了数据管控的分工;数据考核机制的实施,使其在数据质量评比中名列前茅。
4 结语
本文介绍了大数据下数据分析方法及实现技术的大体设计和思路,从需求分析、总体架构和数据处理以及数据分析这几个方面来介绍。文章在最后介绍出了这种平台的应用效果。笔者相信这些思路和技术能够在业务中能得到很好的应用。
参考文献
[关键词]财政收入;GDP;面板数据
中图分类号:F01 文献标识码:A 文章编号:1006-0278(2013)02-024-01
在计量经济学中,我们一般应用的最多的数据分析是截面数据回归分析和时间序列分析,但截面数据分析和时间序列分析都有着一定的局限性。在实际经济研究当中,截面数据回归分析会遗漏掉数据的时间序列特征,例如在分析某年中国各省的GDP增长数据时,单纯的截面数据回归分析无法找出各省GDP随时间变化的特征,使得分析结果没有深度。而如果只用时间序列分析,则会遗漏掉不同截面间的联系与区别,例如在分析中国单个省市的GDP随时间增长的数据时,无法找出各个省市之间经济增长的联系与区别,因而同样无法满足我们的需要。而面板数据,是一种既包括了时间序列数据,也包括了相关截面数据的复合数据,是近年来用得较多的一种数据类型。
下面我们将基于2000-2009年中国各省GDP和财政收入的面板数据的实例来详细阐述面板数据的分析方法。
一、GDP与财政收入关系的经济学模型
财政收入是保证国家有效运转的经济基础,在一国经济建设中发挥着重要作用。随着中国经济发展速度的日益加快,财政收入不断扩大,而扩大的财政收入又以政府支出来调节和推动国民经济发展。正确认识财政收入与经济增长之间的长期关系,把握财政收入与经济增长之间的相互影响,发挥财政收入对经济发展的调节和促进功能,对于完善财税政策,深化财税体制改革,实现财政与经济之间的良性互动,具有重要的现实意义。文章就将从中国各省的面板数据出发研究,中国不同地域间财政收入和GDP之间的关系。
二、实证分析
(一)单位根检验
Eviews有两种单位根检验方法,一种在相同根的假设下的检验,包括LLC、Breintung、Hadri。另一种则是在不同根下的假设前提下,包括IPS,ADF-Fisher和PP-Fisher5。检验结果表明所有检验都拒绝原假设,因此序列GDP和CZSR均为一个2阶单整序列。
(二)协整检验
如果基于单位根检验的结果发现变量之间是同阶单整的,那么我们可以进行协整检验。协整检验是考察变量间长期均衡关系的方法。所谓的协整是指若两个或多个非平稳的变量序列,其某个线性组合后的序列呈平稳性。此时我们称这些变量序列间有协整关系存在。
在最终的结果中,Pedroni方法中除了rho-Statistic、PP-Statistic项目外都拒绝GDP和CZSR不存在协整关系的原假设,同样Kao和Johansen检验方法也都拒绝原假设,因此,上述检验结果表明,我国各省2000-20009年的GDP和财政收入面板数据间存在着协整关系。既然通过了协整检验,说明变量之间存在着长期稳定的均衡关系,其方程回归残差是平稳的,因此可以在此基础上直接对进行回归分析,此时假设方程的回归结果是较精确的。
三、建立模型
混合模型:如果从时间上看,不同个体之间不存在显著性差异;从截面上看,不同截面之间也不存在显著性差异,那么就可以直接把面板数据混合在一起用普通最小二乘法(OLS)估计参数。
我们根据混合模型的回归结果,得到财政收入和GDP之间的回归方程为:
CZSR=227.3123+0.103224*GDP
(26.47637)(0.002839)
R2=0.810995 F=1321.587
显然从模型的回归结构来看,R2的值达到了0.81,有了比较好的回归解释力,同时,GDP的回归系数为0.103224,表明各省的财政收入平均占到了国民收入的10.3%左右。
变系数模型:显然,在中国各省之间由于处在不同的地区,因而拥有不同的区位优势,那么各省的发展水平显然就不一样。正是由于这种不同的地方政策、管理水平、文化差异等会导致经济变量间出现一些关联性的变化,此时在进行模型回归的时候,我们就有必要考虑变系数模型。
在回归结果中,R2的值达到了0.97,比混合模型拥有更好的回归解释力,而在变系数模型回归结果中,GDP的回归系数大于0.5的只有、青海、宁夏三个省份,也就是说这三个省份的财政收入占到了GDP的50%以上,他们同处于经济并不是很发达的西部地区,由此可以看出,处在经济发达地区的财政收入占GDP的比重要低,而不发达地区则要高。
四、结论
通过以上的分析检验,我们发现针对于中国财政收入和GDP的面板数据,我们应建立起变系数模型,并通过模型分析,我们可以得出这样的结论,中国各省间由于存在着地域经济发展水平不同、管理水平不同以及国家的相关政策等诸多不同,造成了各省之间在财政收入以及国民收入上面存在着一定的差异。而回归结果也告诉我们,我国西部地区的财政收入占GDP的比例要明显高于东部地区,地区发展落后地区的财政收入占GDP的比例也要明显高于东部地区。因此,这为我们改善我国落后地区的经济发展提供了一定的新思路,就是对一地区的税收征收可以适当放缓,而将GDP中以前政府占用的部分归还于民众和企业,因为,按照发达地区的经验表明,财政收入所占比重过高,经济发展的活力或者就不会很高,对于进一步刺激财政收入的增加也没有任何帮助。因此,我们应该适度降低财政收入占GDP的比重,从而增加经济活力,使西部地区以及落后地区及早的跟上东部发达地区的发展步伐,从而消除我国经济发展的地域不平衡。
参考文献:
[1]谢识予,朱洪鑫.高级计量经济学[M].复旦大学出版社,2005.
[2]张晓峒.Eviews使用指南(第二版)[M].南开大学出版社,2004.
一、以认知冲突,引发学生产生数据收集与整理的强烈愿望
学生每一个学习行为的背后,都是有目的、有价值、有意义的。简言之,学生自己要真正认识到这种学习是有用的,哪怕仅仅是因为有趣、好玩,才能激发学生进行相关学习的愿望和兴趣。对于数据分析观念的培养,教师有必要替学生问一个“为什么”,问题不必明确提出,但一定要把相关信息告诉学生,引发学生强烈的认知冲突,才会产生进行数据收集、整理与分析的欲望,才会使他们认识到学习数据分析的必要性,产生兴趣,从而建立与培养其初步的数据分析观念。
以二年级上册“统计”一课的学习为例,学生首次接触“统计”的相关内容。在学生尚不真正知道与理解该词的确切含义的情况下,教材提供的课例是“统计最喜欢的动物”,以统计图形式呈现出喜欢四种动物(小猫、小狗、小兔、乌龟)的学生的人数,并提供了3道题目,但教材始终没有告诉学生,“为什么我要学习这个知识”、“为什么我要进行数据分析”。此时,对这一问题的提出与引导学生思考,只能由教师在不动声色中完成。所以,教学时,利用学生爱吃零食的特点,我调整了教学思路,首先,我征得学生同意,打算用班上卖废品的钱给学生买糖吃。此举得到学生们的一致欢迎;其次,我要求5个小组长提前去学校门口的超市,了解糖块的种类与价格,并告知其他同学;再次,我要求班委成员负责了解班上每一名同学的需求并进行分类、计算总量。每人限一块,以便于合理安排买糖的数量与花费;再次,将买来的糖带入教室,上课,进行相关的数据整理与分析;最后,完成全部教学任务后,吃糖。
当我将此想法与实际的授课过程讲给其他老师听时,有老师笑谈“孩子们学习的动力就是吃糖”。我不否认这是学生们积极参与教学活动的动力之一,因为事先我有告诉学生全部的活动过程与“完不成就不会有糖吃”的话。但不可否认的是,对于二年级的学生来说,为了达成“每个同学都能吃到自己想吃的糖”这一目标,要在活动的每一个步骤都进行相关数据的收集、整理与分析,才能正确且顺利地完成任务。简言之,等于我们告诉学生,“为什么要进行数据分析”、“只因为我们需要达成一定的目的”,并且,活动的每一步骤的数据分析都有学生亲自进行,并明确知晓这样做的原因——当然不是教师的程式化的要求,这就使得学生的数据分析工作是主动的,各成员之间是相互合作的,既使学生愉快地接受了数据分析的内容与过程,也在增强学生数据分析观念的同时,培养了学生主动学习与合作的精神。
二、挖掘数据中蕴藏的深层信息,体验数据分析的应用价值
统计教学的一个重要目标,是鼓励学生通过分析从统计图表中获取尽可能多的信息,为后续的某项工作或学习做出合理的决策。表现在教材中,数据分析观念的首次引入即是一个简单的“最喜欢的动物”的统计图,接下来的每一个问题的答案无不需要从该统计图进行寻找。这样的例子,在学生生活中也是有接触的。但是,教学过程中,也存在一个常见现象,学生通过统计图表获取的信息,多是一些最基本的、一眼即可看出的直接信息,而很少能够对图表上的数据信息进行更为深入的整理与分析,挖掘出更多有价值和有意义的信息来做出合理的决策。
[关键词]探索性数据分析;职工平均工资;匹配变换
[中图分类号]G819[文献标识码]A[文章编号]1005-6432(2013)46-0099-02
1引言
探索性数据分析方法是一种新型的统计分析手段,近年来在许多行业得到了广泛的应用,并取得了明显成效。其强调了数据本身的价值,可以更加客观地发现数据的规律,找到数据的稳健耐抗模式,从而发掘出数据的隐藏信息。本文从职工平均工资的实际数据出发,利用探索性数据分析中的工具,直观地探索华东六省职工平均工资的规律,挖掘数据特征和有价值的信息。
2华东六省职工平均工资的描述性分析
职工平均工资指企业、事业、机关单位的职工在一定时期内平均每人所得的货币工资额。它表明一定时期职工工资收入的高低程度,是反映职工工资水平的主要指标。由于中国城市众多,各地经济发展水平有较大的差异,生活水平和生活质量也各有不同,为了缩小地理差异对研究数据的影响,得到较为准确和有意义的结果,这里只选用了2010年华东地区六个省的职工平均工资运用探索性数据分析方法做初步的描述性分析和研究,每个省选取了9个大城市。
为了更加简单直观地对比各个省市的数据,我们绘制了箱线图,如图1所示。对华东六省进行对比中,可以看到只有江西省和福建省是有离群值的,说明了这两省中存在着个别城市职工平均工资与同省其他城市相比特别大,其他几省的数据就不存在离群值。对于四分展布,可以得到大小关系,安徽>江苏>浙江>山东>福建>江西,可知安徽和江苏中城市的职工平均工资差异较大,福建和江西相比起来,则分布得更加集中。
图1华东六省2010年职工平均工资水平箱线图
综合对比各个省的中位数,可以发现江苏省平均职工工资水平最大,江西省最小,从经济上反映了地区经济发展差异,江苏紧靠上海,处在华东的中心,交通系统发达,同时,长三角江苏占了大部分,其靠海的地理优势给它带来了更多的经济发展机会,导致了职工工资水平中位数相差如此大。
同时可以直观地看出安徽省数据对称性最好,除了福建省数据呈现左偏趋势外,其他省都呈现右偏的趋势,其中江西省的数据最为严重,主要是受到了两个离群值的影响,为了使其更对称,我们运用探索性数据分析方法中的对称变换方法,在经过R软件的计算后,得到职工平均工资的对称性变换图,如图2所示。
图2江西省2010年职工平均工资水平对称性变换图
进行对称性变换后,运用R软件拟合曲线,得到:
由图3可以看出,在进行对称匹配变换之后,江西省的两个离群值消失了,数据变得更加集中,趋势也更加易于分析和研究。这样的数据会给分析带来便利,更加清晰和直观地表现出数据的本质特征。
图3江西省2010年职工平均工资水平匹配
3结论
使用探索性数据分析技术具有耐抗性和稳健性的特点,通过箱线图可以简单直观地看出数据间的差异,华东六省中浙江、江苏省职工平均工资较高,安徽、山东、福建省处于中间,江西省最低。安徽省的数据较为分散,同时数据比较对称,而江西省的数据有着极大的右偏性,在经过了对称、匹配变换后,仍然与华东地区其他省的数据有较大的差异,可能是由离群值太大造成的。
参考文献:
[1]李世勇,胡建军,熊燕,等2004年我国卷烟焦油量的探索性数据分析[J].烟草科技,2005(7):8-11
[关键词] 网间结算;结算支出;业务短信;短信结算
doi : 10 . 3969 / j . issn . 1673 - 0194 . 2012 . 11. 016
[中图分类号]F239.1[文献标识码]A[文章编号]1673 - 0194(2012)11- 0026- 02
1背景
网间结算是各运营商之间永恒的话题。自各运营商开展全业务经营以来,网间结算的协议和收入支出结构都发生了很大的变化,C网的双向结算和规模的发展、增值短信业务的发展、固网的逐渐萎缩以及国家对TD业务结算上的扶持,网间结算支出的变化,均值得分析研究。
网间结算的收入与本网的规模间接相关,网间结算的支出与本网的用户数量、话务量以及商品、营销政策直接相关,是公司经营成本的一部分,也是关注的重点。
网间结算的支出与很多环节相关,如在设计各类套餐、营销政策、增值业务包资费政策等环节时是否考虑网间结算的成本、规避风险保证公司经营目标的实现;在公司经营分析中是否持续关注网间结算的支出,防范各种异常、突发的网间结算损失等。
2分析思路和目标
网间结算支出按业务可分为语音、短信两大类,按通信区域可分为本地网和长途业务两大类。语音又可分为固网和移动两类,两者之下还可继续分为本地业务和长途业务(省内、省际、国际)。本地业务包括普通语音、短号、智能网、卡类业务等,本地普通语音业务还要细分为固话、GSM/WGSM/CDMA、TD三个小类。短信可大致分为点对点短信、彩信、业务短信等。每一类还要分为收入和支出,划分如此多的小类是结算规则的要求和系统结算出账的需要。
我们可以从一个分公司结算支出的时间和业务两个维度进行分析调查。在分析分公司结算支出的月度变化趋势时,也分析结算支出的业务构成。计算出单个分公司每个用户的平均语音、短信结算支出,可与其他分公司进行比较,还可进一步细化到对某一类套餐进行分析。对支出占比较大的结算业务要分析其支出的明细清单,查清是哪些号码造成的结算支出,查清这些号码的来源、商品属性、受理渠道并检查结算系统的结算规则是否正确配置。
流程如下:
(1)检查结算报表。
(2)分析结算支出的月度变化。
(3)计算每个用户的平均语音、短信结算支出。
(4)查找高额结算用户。
(5)检查用户套餐资费、受理渠道信息。
(6)检查营销或业务短信资费政策的合理性。
根据以上思路进行调查分析,我们可以确立重点和发现疑点,做到有的放矢,进行深入分析。重点查找是哪些业务的结算支出较高,计算该业务或套餐在结算收支相抵后带来的价值,找出评价的标准,提出管理建议。
3分析方法
结算系统每个月都会出网间结算报表,包括结算的收入和指标。我们可以先从这些数据的分析开始。
3.1 分析网间结算的变化趋势
首先分析网间结算总的变化趋势,再查看指标明细项的变化趋势,找出结算支出变化较大的分公司。
3.2 查找平均结算金额高出平均水平的营销套餐
我们可以从指标中计算出每个用户的平均结算支出,公式如下:
(1)固话语音平均结算支出=固网语音(本地、省内、省际)网间结算支出/当月过网固网用户数。
(2)固话短信平均结算支出=短信结算支出/当月过网固网用户数。移动用户的平均结算支出计算与固话类似。
(3)再调查一些营销方案,计算其扣除补贴、结算支出以及佣金后的收入,检查是否可能有结算风险。
3.3 检查业务短信的结算支出
我们分析短信结算支出的构成要分析构成是否包含了业务短信的结算支出。
先分析总体情况,再进一步统计检查结算清单,找出结算支出金额、条数较多的号码,可到系统进一步查看这些号码。
3.4 预估以后一段时间内的网间结算支出
经过统计分析发现,单个过网用户的平均结算支出是比较稳定的。而业务短信基本是采取预付费的形式,因此可以通过业务受理情况、分析其他网占比(单个分公司基本稳定)来估算它一段时间内的网间结算支出。分公司一段时间的网间结算支出的模型如下:
分公司一段时间的网间结算支出≈固话语音平均结算支出×平均过网用户数×账期数+移动语音短信平均结算支出×平均过网用户数×账期数+短信(不含业务短信)平均结算支出×平均过网用户数×账期数+预期消费的业务短信业务受理量/资费×他网占比×结算资费。该公式的数值都可以从报表和平台统计得到,有一定指导意义。通过这个公式我们可以预估一个分公司一段时间的网间结算支出。
4分析结论和建议
分析发现,要加强对结算支出数据的分析、监控,应对结算的支出开展预估,要加强对业务短信的管理,维护市场秩序,结算支出的监控要实现自动化、智能化。
主要参考文献
目前,我国有很多下岗和失业者,大量的下岗和失业者事实上就是我们这个社会的被淘汰者,他们已经成为被甩到社会结构之外的一个群体,且这样一个群体的规模是惊人的。而不断扩大的城乡差距等等一系列问题也并非只是暂时现象,一个断裂的社会给我们提出了许多难题。与此同时,在与国际经济秩序处于同一平台的国际学术研究领域,这种断裂的现象似乎依旧存在。打个不恰当的比喻,这就好像是在种地,如果说掌握了先进的研究方法(工具),也就是掌握了先进的生产工具的话,那么,生产工具决定生产力,用铁锹和镰刀,必然不如直接用播种机高效,每一种平台的出现都伴随着一种工具的诞生,换句话说,以目前的国际学术研究发展速度而论,我们目前迫切需要的是“生产工具的升级”。如果还一味停留在用过去那种表面的、书桌式的研究方法,那么,就目前我们掌握的“生产工具”而言,无疑也会被甩到国际学术研究新秩序的,不能够继续长跑下去。最终,一种“上行”的学术研究发展体制只能是海市蜃楼。
2旧居住区更新研究过程中几种新的分析方法的介绍
旧居住区更新在社会、经济、环境以及文化等方面所具有的多样性与特殊性,使其研究过程的复杂性与矛盾性非同寻常。各个利益集团(政府、开发商、当地居民、规划师与建筑师等专业工作者)在强调其自身利益重要性的同时,也在改造过程中寻找自身“利益最大化”,而专业研究人员由于自身的专攻方向、兴趣所至以及专业训练等因素导致的差异性,使得对于旧居住区更新这一领域的研究往往是多学科(城市规划、城市社会学、建筑学、经济学、心理学、统计学等)结合的产物,这也要求我们运用多学科的研究分析方法来帮助我们更好地展开研究。正如我们所熟知的,在建筑与城市规划研究领域常用的分析方法有资料法、记述法、比较法、分类法,此处不再赘言。下文将介绍的研究分析方法多是在心理学、经济学、社会学、医学、生物科技等领域开发并广泛应用的一些方法,同时,由于其自身的合理性与实用性,逐渐也被建筑与规划领域吸收借鉴并加以很好的利用与拓展。以下介绍的几种方法是目前国外建筑研究领域中常用的几种分析研究方法,均具有一定的影响力并经过大量研究证实。这些方法之所以能够被广泛应用,往往是由于对研究对象的因果关系不太明显,或是研究对象内部机制的作用关系复杂,而又不得不解明其中的相关关系。相对于上文提到过的旧居住区更新研究过程的复杂性与矛盾性,这些方法或许会为其调查研究提供更好的发展途径。最重要的是,计算机的介入为这些方法的普及铺平了道路。1)SD法———语义学解析法(SemanticDifferential,即语义分化)。SD法是C•E•奥斯顾德1957年作为一种心理测定的方法而提出的,从字面上讲,SD法是指语义学的解析方法,即运用语义学中“言语”为尺度进行心理实验,通过对各既定尺度的分析,定量地描述研究对象的构造和概念。这本书一经出版,SD法便在短短时间内得到了普及。只是,目前SD法在心理学等相关领域却慢慢被忽视了,而在建筑领域、室内工程、商品开发、市场调查等领域备受青睐。在日本,运用SD法研究建筑空间与色彩等课题已经发展到炉火纯青的地步。SD法已经成为建筑空间环境相关量心理评定的基本方法。由于SD法的介入,使得研究人员对于建筑空间的评价由感性上升到理性,并使得定量分析成为可能。而目前运用SD法进行实态调查的研究项目在国内建筑研究领域尚处于起步阶段。SD法操作要点:a.基本程序;b.评定的尺度;c.被验者;d.评定实验;e.因子分析;f.因子轴的抽出。庄惟敏先生发表于《清华大学学报自然科学版》的“SD法与建筑空间环境评价”一文中对于SD法做过详细介绍,并归纳出操作要点,提出了评价尺度的设定原则、评价操作的程序、实态调查的多因子变量分析方法以及评价结论的意义。空间环境评价是建筑学研究领域的主要内容之一,其研究结果在旧居住区更新研究中有着重要的学术参考价值。SD法也是现代设计方法论中的重要手段和技术准备,对建筑学传统的理论体系的变革和发展有着重要意义。2)模拟法及数值解析法:以与现实目标相仿的模拟空间作为研究对象,模拟生态环境、进行实验和数据分析。3)多元回归分析。在实际的研究中,我们常常要研究两个或两个以上变量之间的联系,而不只是讨论一个变量的某些孤立的特征。我们常常需要知道一个变量是如何与其他变量相联系的,这就是统计学家所说的“回归”。多元回归模型在观察性研究中(非实验性数据)有着特别的价值。举例来说,例如影响人们对于旧居住区更新满意度的因素可能有年龄、性别、教育程度、居住条件、更新方式、政府管理等等,那么,我们就可以通过回归分析来判断这些变量(自变量与应变量)之间的相互联系。4)KJ法:是从收集到的以及储存的数据库中,抽出当前对解决问题有用的东西,将它们之间又相互联系的内容结合在一起,进行整理、组合的方法。主要用于追踪人们的思考过程。
关键词:移动通信;WAP网关;用户数据
1概述
目前移动通信网络飞速发展,GSM、TD-SCDMA、CDMA2000以及WCDMA各制式无线网络基础设施升级换代频繁、核心网3G无线网络与核心网络与2G网络互相兼容兼容性,各地运营商根据实际需求考虑使用4G、3G与2G三大独立的无线、接入、核心网络并存的局面。在全网同步引入HSDPA和HSUPA技术的同时,对2G核心网中对原有GPRS/EDGE网络升级改造。利用2G网络频率范围在890-960MHz的穿透性强的优势,不仅减轻3G、4G基站的运维负担,还可以弥补4G网络的覆盖盲区。所以在移动通信用户数据采集时不能不考虑现存2G网络的丰富数据参考价值。随着ISO和安卓系统的智能手机的大众化,曾经的GPRS技术里数据经过WAP网关的处理逐渐弱化,用户终端可接入移动网络经过GGSN网关连接互联网并访问其内容,2G网络GPRS数据业务和EDGE技术与WAP网关相连。2G时代,WAP无线协议互联网无直接访问功能,所以添加WAP网关是用户上网。智能手机之前的Symbian系统处理能力不及PC主机,无论是网速还是现实视频、音频、互动性媒体、主题等等都与宽带互联网甚至光纤入户的PC家用主机电脑无法匹敌,在2.5G时代,GSM通信系统中的配套设备模块中的WAP网关只能根据MS手机终端的应别能力进行通信网与互联网的交[1]。
2移动通信网络数据
移动互联网在2G/3G时代,核心网是两个独立的域,控制语音相关的叫电路域(CS域:CircuitSwitch),控制数据业务相关的叫分组域(PS域:PacketSwitch)。相应的,与语音相关的控制都放在了电路域,比如上面的语音呼叫建立、返回振铃、判断并执行呼叫转移,业务短信等等。与数据相关的控制则放在了分组域,比如上面的与因特网服务器(通信网与因特网是两张网)建立数据连接、区分当前流量是微信还是微博等等。自2G时代以来WAP网关是承载移动数据业务的网元。
2.1用户数据
移动通信的空间自由度与互联网的内容形式丰富结合处移动互联网的新品种。目前移动通信运营商3G、4G技术的发展以及Wifi覆盖范围的扩大也使得网速越来越快,用户体服务需求验越来越迫切;用户数据分为两种:一种是用户注册信息将自己的身份识别与手机号码相关联,在信息层面上存入数据库,咋数据层面上存入HLR中为通信系统的呼叫、寻址、和计费分配信道等工作提供服务;另一种是指通过无线基站近乎于log日志的形式,使用户主观意愿被动或不知情的前提下在系统存储设备上记录用户位置更新,小区切换,小区重选等为用户提供的移动通信服务功能。这类数据的产生不由用户的主观意愿为选择,是为了完成一次通信系统用户漫游的一个必要手段和环节,但是在数据分析挖掘研究者看来,是有着非常意义的数据内容,通过数据的数据清洗:去重、去噪声、去错误、插值等异常处理;数据集成:统一单位、去掉冗余、选择感兴趣属性列;数据变换:数值归一化、离散化处理;数据脱敏:去隐私化,截断与加密;数据演绎:特征构造,根据原有的一个或多个特征创建出新的特征并填充。获得群体用户的地理位置特征,在不同时段的移动基站下的人流密度,绘制出人口出行交通时段的密度可视化图等等,通过对用户数据不断发掘分析,才能满足移动互联网用户日益增长的智能化需求。
2.2数据分析
在3.5G的LTE网络体系架构中,WAP/Web网关处在PGW后与外网互通,功能等同于PDSN,其余接口并没有什么功能变化。经过BTS(基站)、传输设备、BSC\RNC等至PDSN(分组数据支持节点),在2G网络中发至WAP网关的数据分流发至智能设备;由设备开启用户TCP连接,解析主机的URL用户请求、判断、处理,经过鉴权处理合法用户,允许通过防火墙转达请求接至互联网提供链路连接分配IP地址提供服务,如果是欠费或非法用户拒绝原服务请求。从移动互联网的智能手机应用端的使用业务流量角度来分析,用户通过终端经过移动互联网接入Internet网络不同的APP有不同的流量特征,例如连接应用程序:电子邮件、即时通讯、GPS导航、远程访问;商业应用程序:移动银行服务、股市跟踪与交易、文件处理及日程规划;日常生活类应用程序:电子商务、账单支付、健康监测、数字阅读与社交;娱乐应用程序:新闻、游戏、多媒体播放器、照片及视频编辑器。
3研究方法
3.1数据流收集器
部署于SGSN和GGSN之间,并且不仅仅移动电话产生的流量会被记录,上网卡所产生的流量也会被记录。流量记录中包含了时间、手机号、服务器IP、数据传输大小、数据类型等信息。本课题根据这些信息建立了流量权值图(简称流量图)。其中,手机号和服务器IP分别对应流量图中的不同节点,手机号向服务器IP的数据传输代表了流量图的边,从服务器-IP到手机号是流量图中对应边的方向,数据传输大小代表了流量图中边的权值。通过上述对应方法,为不同类型的流量数据建立了各自的流量图。并在流量图的基础上,对网络流量传输数据进行了分析。
3.2技术路线
SGSN与无线分组控制器之间同过Gb口连接,实现移动数据的管理;与归属位置寄存器通过Gr口连接,实现对用户数据库的访问控制;与GGSN通过Gn口连接,进行IP数据包的传输以及协议变换。本文通过部署Gb接口(SGSN与BSS之间)的PC端截取数据流之后,用网络爬虫软件对数据进行初步的收集。Gb接口是传递转达SGSN和BSC之问的信令和用户数据的功能。用户通过移动终端将请求发给BTS,再通过基站子系统连接传输网络,Gb接口是终端入网的必经接口。本文是从Gb接口拦截移动互联网产生的数据,并对数据尽情分类,聚类等数据挖掘方面的研究[2]。原始数据由Gb接口得到,进行深层次的分析,不仅能够实时地了解当前的网络质量,还能发现移动用户的网络行为。以SGSN作为研究对象,GPRS是GPRS服务节点(ServiceGPRSSupportNode)是移动通信核心网的重要组成部分,也是分组交换的核心部分。研宄流经具体SGSN的网络业务流量、接入用户数以及访问记录数的情况,以此来表征网络中具体节点的业务情况[3]。
4结语
当前的三代移动通信系统(2G\3G\4G)并存的移动互联网环境中,移动互联网流量中虽然WAP流量不能构成主流的移动用户流量的主要组成部分,原有的WAP内容正逐渐被WEB内容所代替。本文所研究在移动互联网环境下,关于个人用户数据隐私保护的数据挖掘相关问题。采取从基础的移动互联网机制下的显示存在的“混搭”网络为数据研究出发点,深入分析地研究不同代移动通信系统所组成的网络中产生的互联网用户数据。针对每个个人为基本单位内容,采用“理论建模方法论证实验认证”的研究方法。随着移动数据接入的蓬勃发展,WAP网关面临着各种问题。但是作为数据分析方,需要的是广而全的数据,数据挖掘用户行为不是仅仅需要少数服从多数的统计,无论是Symbian系统的MS移动终端使用GPRS技术通过WAP网关访问WML语言编写的网站,还是早已去电路域依靠软交换全网IP化实现核心网部分的网关转接传递,每一个bit流量都代表这一个用户一个群体的价值与意义。所以现网并存的三代移动通信系统的数据全面采集的多样性,才能展现其内在隐藏的特征,才是正确的得到数据揭示真理的第一步。
参考文献
[1]王璐.移动互联网用户行为分析[D].重庆:重庆邮电大学,2013:86.
[2]赵其朋.WAP网关应对移动互联网大流量的改造及演进[J].广州:移动通信,2014:16.
[关键词] 单核苷酸多态性;聚类分析;基因;数据挖掘
[中图分类号] R181.2+3 [文献标识码] A [文章编号] 1673-7210(2015)09(a)-0036-06
[Abstract] Statistical methods currently used for single nucleotide polymorphisms (SNPs) data cluster analysis are explained, and select five kinds of representative statistical methods, make specific analysis to each method separately. In the discussion process for each method, all divided into 5 parts: principle of the method, calculation methods, formulas, advantages and defects. In the discussion section of the article, all the methods are summarized, and propose future development direction of the cluster method for SNPs data.
[Key words] Single nucleotide polymorphisms; Cluster analysis; Gene; Data mining
在人类的基因组中存在各种形式的变异,其中,单核苷酸多态性(single-nucleotide polymorphisms,SNPs),即单个的核苷酸变异所引发的DNA链序列的多态性,是这些变异中最普遍的形式。根据数据统计,在人类含有不低于30亿个含氮碱基对数量的基因组中,SNP出现的概率在1/1000左右[1]。如何利用这些信息,建立数字模型,探索这些基因与位点和疾病的关联,成为了摆在科学家面前的一个富有挑战意义的课题[2]。
科学家们在长期的研究中,根据“物以类聚”的原始思想,衍生出了对复杂数据或者试验对象等进行归类的一种多元统计学分析方法,即现在归属于统计学分支的聚类分析(cluster analysis),又称其群分析。这种统计方法的核心思想从诞生之日起就未更改,即在没有任何可用来参考的或者依从的规范下(即先验知识准备程度为零),按照被研究对象或者样品本身的特点或者性状,进行最大程度合理的分类。通过聚类分析的计算过程,不仅可以保证在最终所分的类别情况下,同一类别中的对象或者样品,能够具有最大程度的相似性,而且使不同类别中的对象或者样品,拥有最大程度的相异性。以大量相似为基础,对收集数据来分类,成为了聚类分析计算本身的最终目标[3]。从统计学的观点看,聚类分析计算是通过数据建模简化原有数据复杂程度的一种方法,而从实际应用的角度看,聚类分析计算亦是数据挖掘的主要任务之一。高维度高通量SNPs数据聚类分析,是近现代聚类分析中一个非常活跃的领域,同时也是一个非常具有挑战性的工作。
目前用于高维度SNPs数据聚类分析的方法有很多种,常用的几大类有Logistic回归、潜在类别分析(latent class analysis,LCA)模型、结构方程模型分析(structural equation modeling,SEM)、以决策树为基础的分类回归树(classification and regression trees,CART)和随机森林(random forest,RF)算法的分析[4]、基于贝叶斯网络(Bayesian networks,BNs)模型的分析、基于神经网络(neural networks,NNs)模型的分析和支持向量机(support vector machine,SVM)的方法等,上述种类的方法各有其适用性,在聚类计算的效能方面也广泛存在争议。本文从以上几类方法中,遴选出应用较广泛、理论相对成熟的潜在类别分析、分类回归树模型、贝叶斯网络潜变量模型、BP神经网络模型和支持向量机5种具体方法进行比较,阐述其在SNPs数据聚类分析中的意义。
1 潜在类别分析
诞生于20世纪50年代的LCA方法,其基本原理是通过引入潜变量概念,建立潜在类别模型(latent class model,LCM),在保证维持各个显变量的数据局部独立性的基础上,力图用少数的潜变量与各个显变量建立关系,然后以数量相对较小的潜变量进行对象关系解释。而争取利用最少数量的且关系上互相排斥的潜变量对各个显变量的概率分布进行最大程度的解释,就是潜在类别分析的基本假设,这种假设的思想倾向于各种显变量对其类别进行解释的潜变量都有反应的选择性[5]。潜在类别分析的统计原理建立在概率分析的基础之上。一个潜在类别模型是由一个(或多个)潜在变量和多个外显变量组成的Bayes网[6]。
完整的LCM分析过程包括数据概率变换参数化、模型参数估计与识别、模型评价指标选择、分类结果解释等[7-10]。
1.1 概率参数化
潜在类别概率和条件概率构成了潜在类别模型概率参数化过程中的两种参数。假设某数据集含有三个彼此之间不相互独立的外显变量,以A、B、C表示,而且每一个显变量分别具有的水平数为I、J、K。按照假设,若寻找到合适的潜变量X,则X需满足一下条件:首先,要求合理解释A、B、C的关系;第二,在潜变量的各个类别之中所有显变量维持最大的局部独立性,则为潜在类别分析,如果潜变量X中含有T个潜在类别的话,用数学模型表达就为:
在上式中,LCM的组合概率,用πijkABC表示,相应的,潜在类别概率,以πtX表示,其意义可以解释为:在观察变量处于局部独立的条件下,潜变量X在第t个水平的概率,即从样本中随机选取的观察对象属于潜在类别t的概率。容易证明,各个潜在类别的概率总和永远为100%即1,用公式表达为:
条件概率,用πitAX表示,其意义可以解释成:外显变量A的第i个水平更倾向于划归到第t个潜在类别的个体的概率。由于各个潜变量的各个水平处于相互独立的状态,所以各外显变量的条件概率总和为1,即:
1.2 参数估计与模型拟合
在潜在类别模型的参数估计过程中,最大似然法(maximum likelihood,ML)是被最广泛使用且计算软件中默认的方法。EM(expectation-maximization)、NR(Newton Rapson)算法在计算迭代过程中为最常用的方法,而其中前者更为常用。在潜在类别模型评价方面,AIC评分(akaike informationcriterion)和BIC评分(bayesian information criterion)成为使用最为广泛的拟合评价指标。两者共同点为:其计算理论基础都为似然比χ2检验,对于模型对应的参数限制不一致的情况下,也可以用来横向比较,且结果简单直观,都是数值越小表示模型拟合越好。Lin与Dayton曾经指出,当研究的样本数量级达到或者超过千位级时,BIC指标更可靠,否则AIC更佳[11]。
1.3 潜在分类
完成最优化模型的确定之后,就可以利用模型进行计算,将每个外显变量的数据值分配到判定的潜在类别之中,通过这个过程,完成数据的后验类别分析,即潜在聚类分析。上述分类的理论依据是著名的贝叶斯理论,分类的计算公式为:
潜在类别分析虽然理论建立时间较早,但是一直依靠着自身的优势在聚类分析领域有一席之地,其计算思想中融合了结构方程模型与对数线性模型的构思。该算法的目的明确,即数量众多的显变量之间的关系,可以用最优化的组合模式,使用最少的潜变量来解释。结构方程模型只能够对连续型潜变量处理的缺陷,在潜在类别模型问世后得到了相当程度的弥补,特别在设计思想范围中,使得研究者以概率论为基础,能够通过数据对分类结果之后所隐藏的因素做更为深刻的了解,这些都要归功于分类潜变量的引入这一有效提高分类效果的方法[12]。
但是,由于该方法的分析原理比较简单,只是脱胎于贝叶斯概率理论的概率参数化,所以使得该方法在聚类分析过程中,如果SNPS数量较少,则表现出不错的聚类效果,但如果SNPS数据维度过高,则有失水准。具体表现在高维度高通量的SNPS数据聚类分析过程异常复杂,时间消耗过长,而最终得到的聚类结果也容易在解释时发生阻碍。
2 分类回归树模型
CART[13]不仅可以在已经获得的数据库中通过一定的规则提炼出关联,而且是对隐藏在各种指标中的分类属性进行量化计算成为可能,其作为数据挖掘技术中的经典聚类分析方法,为高通量SNPs数据的聚类分析制造了一个科学而准确的平台。分类回归树的基本原理为:如果对于已经给定的待分类对象X,已知其可以进行Y个不同属性的分类,那么该模型将模拟把X逐级递归的分解为多个数据子集,并且认为Y在子集上的分布状态,是均匀并且连续的,而分解的方法为二叉树分类法。该方法如同自然界中的树木一样,数据集X由根部向叶部逐步分解移动,每一个划分点即树木分叉点的原因,由分支规则(splitting rules)确定,最终端的叶子表示划分出的最终区域,而且每一个预测样本,只能被分类到唯一的一个叶子,同时Y在该点的分布概率也被确定下来。CART的学习样本集结构如下:
L={X1,X2,…,Xm,Y}
其中,X1~Xm可以称之为属性变量,Y可以称之为标签变量。但在样本集中无论是X或是Y,其变量属性可以容许多种形式,有序变量和离散型变量都可以存在。若Y处于有序变量的数值情况时,模型被称为回归树;若情况相反,称之为分类树。
2.1 分类回归树的构建
将给定的数据集L转化成与其对应的最大二叉树,这个过程称之为构建树Tmax[14]。为了寻找到对应数据集的最优分支方法,最大杂度削减算法被运用到构建过程之中。在进行分支时,数据中每个值都要纳入计算范围,只有这样才能计算出最佳的分支点进行分叉。CART的构建离不开Gini系数的使用。若数据集L中,含有记录的类别数量为N,Gini系数的表达式就为:
其中,Pj表示T中第N个分类数据的划分频率。对于任意的划分点T,如果该点中所包含的样本量非常集中,那么该点的Gini(T)值越小,从分类图上显示为该节点分叉角度越钝。欲构建最终的Tmax,就要重复操作,将根节点分支为子节点,而这种递归分类的计算,最好利用统筹学中的贪心算法。
2.2 树的修剪
当Tmax建造好之后,下一步需要对其进行所谓的修剪操作,就是去掉那些可能对未知的样本分类计算精度上,没有任何帮助的部分,其目标是处理掉对给定数据集中的噪音干扰的问题,以便形成最简单最容易理解的树。通常对树进行修剪的方法是以下两种,先剪枝方法(prepruning)与后剪枝(postpruning)方法,两者都有助于提高已经建成的树,脱离开训练数据集后,能够正确地对未知数据进行分类的能力,而修剪方法都是通过统计计算,将理论上最不可信的分枝去掉。
2.3 决策树评估
测试样本评估法(test sample estimates)与交叉验证评估法(cross-validation estimates)[15]是通常被用来对CART模型进行评估的方法,而前者的使用率更高。该评估方法的原理与多因子降维法有些类似,而且即时效率比较高,在学习数据集囊括的样本量比较大的情况下,该方法的优越性就更加突出,其原理可以解释为:将原始的数据集L随机分成两部分,分别为测试集L2与样本集L1,利用L1生成一系列的Tmax,而且按照序列T1>T2>T3>…>Tn,将测试集L2放到序列中的树模型之中,TK为L2中的每个样本逐个分配类别,因为L2中每个样本的原始分类是事先已经知道的,则树TK在L2上的误分情况可以利用公式(6)计算:
式中,Nij(2)代表L2中j类样本划归至i类的数量,c(i|j)为把j类误分到i类的代价,Rts(TK)表示TK针对L2的误分代价,则最优化树的条件为:Rts(TK0)=minK(Rts (TK)。
作为一种经典的通过数据集进行训练并有监督学习的多元分类统计模型,CART以二元分叉树的形式给出所构建出的分类的形式,这种方式非常容易解释,也非常容易被研究者理解和运用,并且这种方法与传统意义上的统计学聚类分析的方法构建完全不一样[16]。
但是CART方法对主效应的依赖程度很高,无论是每个分支的根节点还是后续内部的子节点,其预测因子都是在主效应的驱动下进行,并且每个节点都依赖于上一级的母节点分支的情况。而且CART方法对结果预测的稳定性上也有缺陷,具体表现在,如果所给数据集中的样本有小范围的更改,那么所产生的蝴蝶效应就会导致最终所构建的模型与原始模型的差别很大,当然分类结果也就难以一致。
3 贝叶斯网络潜变量模型
BNs是一种概率网络,它用图形的形式来对各种变量间的依赖概率联系做描述,经典的图形中,每一个随机变量利用节点的方式表达,而变量之间的概率依存关系则利用直线表达,直线的粗细表示依赖的强度。在BNs中,任何数据,当然也可以是高通量SNPs数据,都能够成为被分析的变量。BNs这种分析工具的提出,其原始动力是为了分析不完整性和概率性的事件,它可以从表达不是很精准的数据或信息中推理出概率结果。
网络的拓扑结构和条件概率分布作为构成BNs的两大核心组件,如果再将潜变量概念引入BNs,则成为了BNs潜变量模型。被包含在BNs中的潜变量数量,决定着这个模型的复杂程度,因为一般来讲,在实际工作中,研究者常常利用潜变量来进行聚类计算,所以BNs潜变量模型也成为了一个经典的潜结构模型(latent structure model)或潜类模型(latent class model)。
3.1 模型参数
在满足一定的假定条件下,才能对BNs模型进行参数学习的过程。根据文献记载,这些条件分别为:所有的样本处于独立状态;无论全局和局部,均处于独立状态;变量不能为连续变量,只能是分类变量。在上述条件得到满足的情况下,该模型可以利用数据,计算出网络拓扑结构中各个节点的条件概率θ,且服务于制订的BNs模型结构η和数据集D。计算的方法有最大似然估计法等[17]。
3.2 模型选择
与LCA方法类似,BNs模型也利用函数来对模型的拟合优劣程度进行评价,衡量标准也是BIC、AIC、BICe等的评分,一般来说,分数低的模型更加优化。
3.3 模型优化
在通过评分的方法来确定BNs潜变量模型后(需综合考量BIC、AIC、BICe三者的得分),该模型下一步就转化成了如何去搜索符合所给数据集的最优模型的过程。由于该网络的拓扑结构,使得该模型结构的数目的增长速度非常快,与纳入模型的变量数的增长呈指数级别比例,能够适应这种数量级的搜索算法是启发式的,其过程是比较不同的模型的评分,其中最常被使用的是爬山算法(hill climbing)[18]。
利用BNs模型进行高通量SNPs数据聚类,其优点之一就是在该模型中,所有遗传的模式都可以被忽略,无论是对SNPs的二分类变异赋值,还是三分类变异赋值,只要纳入模型中,就转变成纯粹的数学问题。正是由于这种优势的存在,使得该方法对原始数据的类型容许程度很高,由此扩展了此种模型的使用范围。BNs模型计算的过程虽然复杂,但是结果解读起来却是十分的简单直观。只要将各个类别的概率直方图呈现出来,那所有重要的且有意义的高维度SNPs的整体效应,就能直观的展现出来。BNs模型一旦被建立起来,就可以被用来对新纳入的患者进行分类,其过程如下:输入新加入样本的SNPs的状况,并且将这些状况进行数学化处理即赋予其数据值,并带入模型开始运行。模型会通过新加入样本的SNPs的状况,根据概率理论,将其归入相应类别。
但是BNs模型的理论比较抽象,公式比较复杂,如果让医学工作者去理解其中的数学机制,可能不太现实,若再要求对模型进行深刻解释,则更困难。该模型在优化过程中的搜索算法也有硬伤,爬山算法从出现开始,就一直受到一定程度的诟病,因为其有使模型偏离到局部最优的倾向。
4 BP神经网络模型
BP(back propagation)神经网络在所有的神经网络模型系列中,是被使用最多的模型之一,其核心原理为按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,而这些层则包括输入层(input layer)、隐层(hide layer) 和输出层(output layer)。
BP神经网络模型对于已经给定的数据集的训练过程可以解释为:各种数据由输入层负责接收,并且向内层进行传递,传递过程中需经过一定的中间层级,信息在隐层部分进行计算处理,处理完毕后向输出层传递,输出层的神经元接收到后,即完成了一次完整的训练信息的传播,其结果由输出层向外面释放。如果输出的结果与期望值差距没有达到要求,则进入信息的反方向运动过程,将误差信息通过输出层、隐层、输入层的顺序反向传递。在上述正向和反向的两种信息传递过程中,为了使整个BP神经网络模型的误差的平方和达到最小,就需要对各个层级的权重和反应阈进行相应调整,在一定次数的迭代过程中达到符合设定的要求范围内[19]。
BP神经网络模型建立流程:①建立高通量SNPs足够而可靠的数据信息样本数据库。②把SNPs样本数据进行处理,变成BP神经网络模型可以纳入的形式。③建造BP神经网络初级雏形,进行数据训练。首先确定神经网络所需层的数量,还有隐藏节点的数量,接下来完成各连接权值的初始化过程,将样本数据代入。④开始BP神经网络的迭代过程,按照误差逆传播算法,对所给数据集进行多层的正向的反馈拟合,最终确定各个层的权重。⑤利用训练好的BP神经网络测试样本。将样本输入训练好的BP神经网络,并输出结果[20]。
非线性问题的解决能力是BP神经网络模型区别于其他的能够自我学习、自我训练的模型的特点之一,该模型以简单的结构模仿神经组织的构成和信号传导通路,根据提供的数据进行学习和自适应,最后可以对复杂的问题求解[21]。该模型的运行模式也很简单,一旦模型建立,则直接将数据带入,BP神经网络就可以对诸多影响因素和结果之间的复杂关系进行统计,超越传统聚类模型,也有能力提供更多的信息量[22]。
但是BP神经网络模型的缺陷也十分明显,首先该种聚类方法迭代次数比较多,计算收敛的速度比较慢;标准的BP神经网络算法各个层的权重值的确定是完全随机性的,容易形成局部最优化;在模型建立的初始阶段,各个节点的确定也没有确凿的理论支持[23]。
5 支持向量机
1995年Comes等[24]提出了一种新型机器学习方法,该方法的数学理论基础雄厚,被称之为SVM。这种方法问世之后,就以其在小样本、高维度数据方面处理的独特优势,被迅速推广到数据聚类分析领域的各个方面[25]。SVM的基本原理如下:利用非线性映射的方法φ(x):RnH,将待聚类数据集首先映射到高维空间H中,试图在高维空间中寻找最优化的一个超平面,此超平面的作用为对数据进行分类。达到最优超平面的要求为:对于数据来说,要求分类的间隔最大而且置信区间最窄;达到最少的数据样本错分数量,以上两条的原则为分类风险最低。
SVM的计算流程为:
在高维空间中,如果被映射数据具有二维线性且可分时,则一定存在一个分类超平面:
其中αi≥0称为拉格朗日系数,该函数对?X和b最小化,对αi最大化。将该问题转化为其对偶形式,求得最优分类函数为:
其中,K(x,xi) =φ(xi)・φ(xj)被称之为核函数,其作用是将原始数据集映射到高维H空间。而核函数有很多种形式,多项式形式、径向基形式等等。但是如果原始数据集经过转换后,确实为线性不可分时,方法会不可避免的产生错分点,此时非负松弛变量ξi≤1,i=1,…,l被引入,而式(8)、(9)合并为:
在上述条件下,求下式目标函数的最小值:
在式(13)中,用C来作为惩罚因子,对错分点来进行一定程度的惩罚,当然是人工定义的,其主要作用是在限制数据集偏差和该方法的推广范围两者间,维持一个平衡。
SVM模型作为一种经典的处理小样本的自我学习、自我组织的分类方法,虽然其基础理论依然与神经网络模型类似,均为通过对给定样本的统计学习,建造模型,而且对非线性数据的处理能力很强,但是很大程度上避免了陷入局部最优化,维度过高限制,拟合过度等缺陷,拥有更广阔的发展空间[26]。虽然该方法出现时间比较晚,但是研究者已经在包括预测人口状况[27]、婴儿死亡率前瞻[28]、金融产业[29]和工业产业[30]前景推断等方面进行了有效使用,当然也包括在高通量SNPs数据聚类,均取得了不错的效果。
但是SVM一样存在短处,由于其分类过程是基于对原始数据集的再次规划来寻找超平面,而再次规划的计算就有n阶矩阵(n为样本个数),如果n的数量很大,则电脑的内存将难以承受巨大的矩阵信息。而且原始的SVM模型只能对数据集进行二分类计算,有一定的局限性,由于在实际工作中,很多情况下分类数量要大于二,为了解决这个问题,只能去在其他方面想相应的解决方法。
6 讨论
不仅上述5种具体方法,而且在前文中所提出的几大种类中的具体聚类分析方法都各有其优缺点,研究者们已经针对上述几类聚类方法的缺陷进行了深入的研究,并提出了许多改进方法,提高了在高通量SNPs数据聚类分析时的计算效能。董国君等[31]提出了将仿生学算法中的退火算法引入到神经网络模型中,能够有效地避免该模型收敛到局部最优的状态。胡洁等[32]更是经过改进,建造了一种能够快速收敛而且全局最优的神经网络模型算法,将BP神经网络的计算效率大为提高。而Leo Breiman在2001年提出的随机森林(random forest)算法,本质上就是对分类回归树算法的一种组合改进,其计算原理为:利用多个树的模型对数据进行判别与分类,其在对数据进行处理的同时,还可以给出各个变量的重要性得分,评估变量在分类中所起的作用[33]。2012年提出了混合潜变量模型(structural equation mixture modeling,SEMM),本质上是一种结构方程模型衍生出的改进版,其设计思想中汇合了潜在类别分析、潜在剖面分析以及因子分析的因素,将潜变量分析与结构方程进行协调组合,创造出的一种新型SNPs分析方法。这种新的方法,将结构方程的缺点――只能分析连续潜变量和潜在类别分析的缺点――只能分析分类潜变量,进行有效的补充,而且把一种全新的探索式的思路引入了高维数据分析的领域。在实际进行聚类分析时,也可以将几种方法结合使用,分别在计算的不同阶段利用效能最高的方法,做到优势互补。现已经出现基于神经网络算法和蚁群算法进行结合使用的报道。
尽管用于高通量SNPs数据聚类分析的方法有多种,但目前没有任何一种方法可以适用于所有的情况。因此,研究者们依旧没有停下寻找更为合适的方法的脚步。不可否认,在基因组相关研究中,SNPs数据的分析对于研究复杂性疾病和遗传因素的联系是一项挑战,但也是机遇。如果能正确合理地运用各种复杂的统计学方法,就可以提高聚类分析的效能,提示研究者们未来应在寻找更适用的高通量SNPs数据聚类分析方法方面付出更多努力。
[参考文献]
[1] Jakobsson M,Scholz SW,Scheet P,et al. Genotype,haplotype and copy-number variation in worldwide human population [J]. Nature,2012,451: 998-1003.
[2] 马靖,张韶凯,张岩波.基于贝叶斯网潜类模型的高维SNPs分析[J].生物信息学,2012,10(2):120-124.
[3] 张家宝.聚类分析在医院设备管理中应用研究[J].中国农村卫生事业管理,2014,34(5):510-513.
[4] 袁芳,刘盼盼,徐进,等.基因-基因(环境)交互作用分析方法的比较[J].宁波大学学报:理工版,2012,25(4):115-119.
[5] 张洁婷,焦璨,张敏强.潜在类别分析技术在心理学研究中的应用[J].心理科学进展,2011,18(12):1991-1998.
[6] 曾宪华,肖琳,张岩波.潜在类别分析原理及实例分析[J].中国卫生统计,2013,30(6):815-817.
[7] Kaufman L,Rousseeuw PJ. Finding groups in data: an introduction to cluster analysis [M]. New York:Wiley,2015.
[8] Hagenaars JA. McCutcheon AL. Applied latent class analysis [M]. New York:Cambridge University Press,2012.
[9] 邱皓政.潜在类别模型的原理与技术[M].北京:教育科学出版社,2011.
[10] 张岩波.潜变量分析[M].北京:高等教育出版社,2011.
[11] Lin TH,Dayton CM. Model selection information criteria for non-nested latent class models [J]. J Educ Behav Stat,2012,22(3):249-264.
[12] 裴磊磊,郭小玲,张岩波,等.抑郁症患者单核苷酸多态性(SNPs)分布特征的潜在类别分析[J].中国卫生统计,2010,27(1):7-10.
[13] 邵峰晶,于忠清.数据挖掘原理与算法[M].北京:中国水利水电出版社,2013.
[14] 王立柱,赵大宇.用分类与回归树算法进行人才识别[J].沈阳师范大学学报:自然科学版,2014,23(1):44-47.
[15] 温小霓, 蔡汝骏.分类与回归树及其应用研究[J].统计与决策,2010,(23):14-16
[16] 符保龙,陈如云.分类回归树在高校计算机联考数据分析中的应用[J].计算机时代,2011,(1):33-34.
[17] Dempster AP,Laird NM,Rubin DB. Maximum likelihood from incomplete data via the Em algorithm(with discussion)[J]. J Royal Stat,2012,39(1):1-38.
[18] José A,Gámez,Juan L,et al. Learning Bayesian networks by hill climbing: efficient methods based on progressive restriction of the neighborhood [J]. Data Min Knowl Disc,2012,22:106-148.
[19] 张凡,齐平,倪春梅.基于POS的BP神经网络在腮腺炎发病率预测中的应用[J].现代预防医学,2014,41(11):1924-1927.
[20] 张晶.BP神经网络在图书馆信息处理中的应用研究[J].图书情报,2014,(9):132-133.
[21] 徐学琴,孙宁,徐玉芳.基于BP神经网络的河南省甲乙类法定报告传染病预测研究[J].中华疾病控制杂志,2014,18(6) :561-563.
[22] 马晓梅,隋美丽,段广才,等.手足口病重症化危险因素BP神经网络模型预测分析[J].中国公共卫生,2014,30(6):758-761.
[23] 任方,马尚才.基于条件对数似然的BP神经网络多类分类器[J].计算机系统应用,2014,23(6):183-186.
[24] Comes C,Vapnik V. Support vector networks [J]. Mach Learn,1995,20:273-297.
[25] 张学工.关于统计学习理论与支持向量机[J].自动化学报,2011,26(1):32-42.
[26] 解合川,任钦,曾海燕,等.支持向量机在传染病发病率预测中的应用[J].现代预防医学,2012,40(22):4105-4112.
[27] 刘崇林.人口时间序列的支持向量机预测模型[J].宁夏大学学报:自然科学版,2013,27(4):308-310.
[28] 张俊辉,潘晓平,潘惊萍,等.基于支持向量回归的5岁以下儿童死亡率预测模型[J].现代预防医学,2014,36(24):4601-4603,4605.
[29] 陈诗一.非参数支持向量回归和分类理论及其在金融市场预测中的应用[M].北京:北京大学出版社,2014:104-106.
[30] Li P,Tan ZX,Yan LL,et al. Time series prediction of mining subsidence based on a SVM [J]. Min Science Technol,2014,21(4):557-562.
[31] 董国君,哈力木拉提.基于随机退火的神经网络算法及其应用[J].计算机工程与应用,2013,46(19):39-42.
[32] 胡洁,曾祥金.一种快速且全局收敛的BP神经网络学习算法[J].系统科学与数学,2014,30(5):604-610.