从传统统计数据与大数据之间的演变历史、数据特征等方面展开讨论,厘清两者之间存在的千丝万缕但又千差万别的联系,提出传统统计数据是大数据的简单形式和初期阶段,大数据是传统统计数据的复杂演化形态的论断,指出两者在数据分析思维方式上存在巨大差异,并对数据质量管理内涵、全周期数据质量保证等问题提出不同的解决思路和方案。
传统统计数据的内涵在于揭示数字背后信息与现实世界的关系。大数据是指巨量数据,是无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合。从传统统计数据到大数据的持续演变导致在理论层面大数据内涵复杂,并与传统统计数据在信息界限上概念模糊。从传统统计数据到大数据不仅是量的积累,更是质的飞跃。厘清传统统计数据与大数据之间的内涵辩证关系,是有效利用数据的基础和关键。
信息技术的进步为传统统计数据向大数据演变提供了物质和技术基础。随着互联网的日益发展,每一次网络存储技术的进步都使信息的生产、存储、传输成本大幅度降低,而流通的范围、深度、速度则显著提升。JimGray的新摩尔定理认为,每18个月全球新增信息量是计算机有史以来全部信息量的总和,新摩尔定律以信息量的维度确定了数据化演变信息的节奏。这种趋势导致的基本形态就是数据信息空前丰富,大数据成为了研究和利用热点。信息需求多样化与个性化是传统统计数据向大数据演变的基本动力。数据最终是为信息需求服务的,用户信息价值最大化才是数据应用的关键所在。在数据化趋势下,随着人们认知实践与需求状态的变化,数据一方面从满足基本特定信息需求到利用复杂的数据属性解析出多样化信息需求转变,另一方面从被动满足简单需求到主动发掘复杂有效需求,并探知用户个性化信息需求转变。这两方面成为传统统计数据项大数据内涵演变的基本动力。相应地,数据内涵也从朴素的信息真实业务逻辑向满足复杂需求的数据化逻辑迁移。随着信息技术的发展和用户需求的变化,信息效率价值的实时化及数据泛滥造成数据噪声增强和有效信息稀缺现象,大数据应运而生。传统统计数据是大数据的简单形式和初期阶段,大数据是传统统计数据的复杂演化形态。
数据量增多是人们区别传统统计数据与大数据的第一个认识。传统统计数据数据量小,以MB、GB、TB等为存储单位。大数据数据量大,一般以PB、EB、ZB等为存储单位。但这两者之间特征区别并不仅仅是体量,还包括数据类型、研究对象的范围、信息视角等方面。
传统统计数据是一种结构化的标准数据。其数据类型单一,主要以结构化、体量小、标准化、价值密度高及周期化数值为特征,数据产生和变化的速度慢。其数据特点是朴素真实、简单有限、准确性高及被动有用性。大数据统计范畴扩大、数据类型复杂,其中包括:a)非结构化非标准数据,如动态实时时序数据。b)半结构化数据和非结构化数据,如文本、图像、视频等。c)现有的结构化数据,如传统统计数据。其数据模型具有复杂多维的特征,统计结果多是非精确多种相关性趋势数据。大数据具有4个V基本特征,即Volume(体量浩大)、Variety(模态繁多)、Velocity(生成快速)和Value(价值巨大但密度很低),且具有来源多样、实时、多元的信息化特点。这些特点导致数据在产生、获取、存储、传输和计算过程中,因体量大、快速多变易产生冲突和不一致,人工很难检测和修复。
传统统计数据的研究对象是宏观视角下有限的随机样本数据。随着信息化的发展,实践中产生大量冗余沉淀数据,这一时期经过清洗的全样本数据是数据挖掘的研究对象。而大数据面对的则是原生态全样本数据,也就是所谓的总体数据。从随机样本数据到经过清洗的全样本数据再到原生态总体数据,数据内涵总体信息视角从宏观向中观和微观扩散。研究对象范围向宽度和深度两个方向不断扩展,不断深入系统微观的多维度个体感知,信息能力和价值也不断提升。这种转变来自技术和需求的驱动,新型数据处理技术及需求获取能力成为演变的关键因素。
数据中蕴含的宝贵价值成为人们存储和处理数据的驱动力,数据分析是实现数据价值的必要途径。由于传统统计数据与大数据在体量、结构、内涵等方面有着本质的区别,所遵循的数据分析理论基础、分析思路、相关技术也不同。
对传统统计数据进行数据分析的理论基础是分布理论,以概率为保证,即根据样本去推断总体特征,其逻辑关系是“分布理论—概率保证—总体推断”,分析过程是“假设—验证”基础上的“定性—定量—再定性”。对大数据进行数据分析是以全体数据为基础,以数据信息相关为保证,其逻辑关系是“实际分布—总体特征—概率判断”,可以不受任何假设的限制去寻找关系、发现规律,分析过程是“定量—定性”及“发现—总结”重要数量特征和关系基础上的定量回应。
传统统计数据价值的实现路径为“数据到信息再到知识和智慧”。传统统计数据分析着力于经典严密封闭系统的精确性和因果关系的探索,找到事物属性之间的因果关系,比较容易实现。对于开放复杂的巨系统,传统的因果分析难以奏效,因为系统中各个组成部分之间相互有影响,可能互为因果,因果关系隐藏在整个系统中。因果关系本质上是一种相互纠缠的相关性。大数据数据分析无法检验逻辑上的因果关系,不能致力于寻找真正的原因。Mayer-Sch觟nberger在《大数据时代》一书中指出了大数据时代处理数据理念的三大转变:要全体不要抽样,要效率不要绝对精确,要相关不要因果。因此,大数据分析逻辑体现为走“数据直接到价值”的捷径。大数据数据分析关注事物相关性认知分析,所谓相关性是指两个或两个以上变量的取值之间存在某种规律性,即对数量巨大的数据进行统计性的搜索、比较、聚类、分类等分析归纳。相关分析的目的是找出数据集里隐藏的相互关系网(关联网),一般用支持度、可信度、兴趣度等参数反映相关性。
进行数据分析需要相应的数据分析处理技术以及技术人员的全力参与。数据分析领域面临的主要矛盾是快速增长的数据信息需求与有限统计资源和滞后数据处理能力的矛盾。信息技术应用成本的低廉化和性能效率的聚变成为数据需求和质量要求快速增长的基本动力。传统统计数据的分析和处理遵循一般的关系数据库的数据分析和处理技术,技术人员经过一定的训练即可胜任。对大数据进行分析和处理需考虑以下技术因素:a)数据清洗。大数据价值密度低、冗余数据增多、垃圾数据泛滥,大数据清洗需要专业和细致。数据不能清洗过细,否则会增加数据清洗复杂度,甚至有可能过滤掉有用信息。数据也不能清洗过粗,要保证数据筛选的效果。b)以MapReduce(一种编程模型)和Hadoop(Apache基金会所开发的分布式系统基础架构)为代表的非关系型数据库的非关系型数据分析技术,因其具有良好的横向扩展性,在大数据分析处理中得到广泛应用。c)要深入分析数据,数据分析人员既要熟悉数据分析技术和工具,又要具备相关领域的专业知识。
高质量数据是进行数据分析的前提和基础,是数据发挥效能的保证。传统统计数据数据质量以有限信息逻辑的因果性、确定性、清晰且高度的结构化为主要特征,主要关注数据自身本源的质量问题,例如准确性、完整性和客观性。质量标准至少应该包括指标解释(含义、范围、口径)、数据特征、调查方法、统计误差、获取时间、频率及渠道等方面的内容。大数据以既定边界内总体数据系统相关性的随机、自身的不确定性以及总体的非结构化为特征。由于数据质量问题在大数据环境下会被不断放大,因此,大数据主要关注数据可信与溯源等非数据本源性质量问题,即数据资源产生后在传输、存储和应用过程中产生的突显问题。下面重点从流程和管理两方面分析传统统计数据和大数据所面临的数据质量的挑战及应对措施。
从流程的角度(即从数据生命周期角度)来看,可以将数据生产过程分为数据采集、数据存储和数据使用三个阶段,三个阶段对传统统计数据和大数据的质量保证提出了不同的要求。
数据采集阶段是整个数据生命周期的开始,这个阶段的数据质量对后续阶段的数据质量有着直接的、决定性的影响。传统统计数据数据量小,通过编写简单的匹配程序,甚至是人工查找即可实现多数据源中不一致数据的检测和定位。大数据由于数据来源复杂,数据之间存在着冲突、不一致或相互矛盾的现象。因此,需要在数据获取阶段保证数据定义的一致性及元数据定义的统一性,以保证数据质量。
数据存储是实现高水平数据质量的基本保障,如果数据不能被一致、完整、有效的存储,数据质量将无从谈起。传统统计数据以结构化数据为主,主要采用传统的结构化数据存储架构(如关系型数据库)进行数据的存储。大数据数据结构多样、数量庞大、数据结构复杂、变化速度快,需要使用专门的数据库技术和专用的数据存储设备进行大数据存储,以保证数据存储的有效性,方便对数据进行快速读取。数据库一般采用分布式文件系统和分布式并行数据库(如HDFS〔分布式文件系统〕、BigTable〔Google设计的分布式数据存储系统〕等),在数据存储过程中,数据格式的转换非常关键和复杂,要根据大数据结构的要求和特点合理设计数据存储和使用规则。
数据价值的发挥在于对数据的有效分析和应用。传统统计数据的使用需要遵从关系型数据的完整性约束和数据一致性保证技术要求。由于大数据使用人员众多,数据规模庞大、变化速度快,对数据的处理速度要求较高,很多时候需要同步、不断地对数据进行提取、分析、更新和使用,因此需要保证数据使用的一致性。
传统统计数据一般由业务部门负责掌管数据,IT部门负责信息技术的应用,这种分离式的运营管理方式容易造成业务人员不了解分析不同数据所需的不同IT工具,而IT人员在运用IT技术分析数据时不了解数据本身的内涵,甚至会做出错误的数据解释,影响了企业决策的准确性和有效性。为了更好地利用大数据,保证大数据的质量,企业高层管理者应给与重视和支持,需在高层配备专业数据管理人员。在大数据生产过程的任何一个环节,企业都应该配备相应的专业数据管理人员,如由专门人员负责记录定义并记录元数据,收集原始数据,建模、提取并利用隐藏在大数据中的信息。
传统统计数据和大数据是数据科学发展过程中由于技术的发展和客户需求的多样化、个性化而必然出现的数据阶段。由于两者之间关系不清,界限模糊,采集、分析、处理等技术多样,难度大,因此,从业者难免存在模糊认识和畏难情绪。本文从两者的演变历史、数据特征、数据分析和质量管理等方面对两者的异同进行辨析,指出传统统计数据是大数据的简单形式和初期阶段,大数据是传统统计数据的复杂演化形态,大数据从广义上来讲包含了传统统计数据。试图通过对两者的辨析为从业者提供一个辩证和清晰的思路。数据的分析应用无止境,任重而道远。
1刘军华.大数据视野下统计数据质量演变的信息回归、分布与趋势[J].统计与信息论坛,2015(9):7-11.
2祝君仪.大数据时代背景下统计数据质量的评估方法及适用性分析[J].中国市场,2015(29):41-42.
4程学旗,靳小龙,等.大数据系统和分析技术综述[J].软件学报,2014(9):1889-1908.
生2:我想了解男生、女生喜欢哪种乐器的人数最多?男、女生对这些乐器的喜好有没有区别?
思考:统计教学应从问题出发,引发学生学习和探索的需要,驱动学生的数学思考,让统计确实成为需要。上述设计首先紧扣“要想了解‘男、女生对这些乐器的喜好有什么区别?该怎么办?”’这个具体的问题,引发学生收集和整理数据的内在需求,使学生真切体会到现实生活中有许多问题需要先做调查研究,收集数据,通过分析做出判断,凭借数据来“说话”,开展调查能够帮助我们更好地解决问题,感受研究问题的科学方法。
展开调查。任务要求:每人只能选一种乐器,组长统计小组情况,班长汇报全班情况。所有学生将人数填入单式统计表。
(表格略)古筝:男2,女11,合计13人;葫芦丝:男10,女0,合计10人;笛子:男7,女1,合计8人;小提琴:男8,女9,合计17人。
女生:(1)喜欢葫芦丝的男生多还是女生多?(2)喜欢笛子的学生一共有多少人?
生:女生的问题只涉及一种乐器的人数情况,只需观察一张统计表。而男生的问题涉及四种乐器的人数情况,要看四张统计表,还需要进行计算。
师:这样看来,单式统计表的信息比较分散,不集中,不便于分析和比较。有什么好的想法吗?
合并要求:(1)拿出四张单式统计表,小组内交流合并想法。(2)尝试合并,对合并后的统计表进行修改和调整,想一想,怎样才能更简洁、明了?(合并过程略)
思考:上述教学在问题解决的任务驱动下,开展一系列的学习活动:先通过分组调查、全班汇总的方法收集并整理数据:再根据问题的背景选择合适的方法――复式统计表来描述数据,此环节将统计知识和方法的学习融于解决实际问题的活动中,有利于学生体会复式统计表的意义和作用:接着引导学生分析数据,解决之前提出的问题,并做出判断和决策“开设什么乐器兴趣小组”。帮助学生经历数据的收集、整理、描述和分析的统计全过程,让学生了解统计对调查实际问题、反映结果、研究和判断相关问题的作用,充分彰显统计活动的价值,积累统计经验,发展统计观念。
生2:五(1)班和五(3)班都是喜欢打乒乓球的人数最多,踢毽子的人数最少。
师:相同的数据,从不同角度去分析,可以得到不一样的结论,数据中蕴含着丰富的信息。
思考:统计研究的基础是数据,核心是通过数据分析来实现对相关问题的了解和把握,数据分析是统计的核心。上述教学设计不仅仅满足于学生能从统计表中获取“数据的多少”“数量的大小”等信息,而是处于一个更高点来处理教学,通过开放性的综合数据分析,让学生了解对于同样的数据可以有不同的分析方法,需要根据问题的背景来选择合适的方法,从不同的角度分析数据,得到的结论也会存在差异。感受数据中蕴含着的丰富信息,增强学生利用数据的意识,发展学生的数据分析观念。
师:观察上表中的数据,我校准备面向全校开设体育兴趣小组,如果你是校长,你的决定是…
生2:先调查一下其他年级参加体育活动的情况,因为这里只是五年级学生参加体育活动的情况,不能代表全校。
师:学校开设体育兴趣小组,仅仅根据五年级的体育活动情况做出决定,合适吗?
生2:还是开设乒乓球兴趣小组,虽然喜欢跳绳的总人数多,但高年级喜欢的人数较少,而喜欢乒乓球的人数处于跳绳和踢毽子之间。
生3:可以根据低、中、高年级学生参加体育活动的情况,开设不同的体育兴趣小组。
师:不同的年级,对体育活动的兴趣也不一样,仅根据一个年级推断全校是不科学的。数据范围越广,得到的结论就更加准确、合理。更能够说明问题。
统计数据质量问题是衡量统计工作的核心指标。尤其是我国加入WTO,与世界经济接轨的今天,社会各界对统计信息的需求量越来越大,对统计信息质量的要求也越来越高。统计信息质量的高低直接影响和决定着统计信息的可利用性。统计数据质量低下将会直接导致错误的决策。因此,努力提高统计数据的质量,实现统计信息的准确、有效、全面、有着重要的意义。
传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但如今“质量”的概念被拓宽了,“统计数据质量”的概念也有必要拓宽。目前各国统计机构和有关国际组织对统计数据质量含义的解释和理解仍存在一定的分歧,对统计数据质量应涵盖哪几个方面,还没有统一的标准。各国从本国的实际情况以及对数据质量含义的理解出发,确定了不同的数据质量标准。如英国政府统计数据质量标准是准确性、时效性、有效性、客观性;韩国的质量标准则是适用性、准确性、时效性、可索取性、可比性、有效性。在我国,统计数据质量主要包括统计数据的核心质量、形式质量及延伸质量三大方面。
改革开放以来,我国统计人员大胆探索,辛勤实践,在指标体系、调查方法、统计标准、技术手段、数据报送与处理方式等方面进行改革,较好地满足了社会各界对统计信息的需求,推动了统计事业的发展。但是,浮夸风以及片面追求假、大、空现象仍然存在,这些都违背了统计工作的基本要求,阻碍了统计工作的发展。目前我国统计数据质量管理上存在的问题主要有:
1.统计数据失真。统计制度不够完善是造成统计数据失真的内在因素,表现在:统计部门内部各专业在统计方法、指标涵义、口径上还存在一定程度上的不统一;专业间统计方法改革不同步;统计范围、口径的理论值与实际值出入有时还比较大;统计与财会在核算周期上还存在一些差异,并且在统计数据质量管理上各级统计管理部门在统计执法过程中力度不够,对统计过程缺少制约与监督,对统计数据缺乏校验与复查的有力措施。
2.设计时需求不明确,缺乏远见。数据库与文件管理系统的重要区别之一在于不仅存放数据,而且存放数据之间的相关性。相关性不仅表现在数据依存的时间、地点、类型和名称等原始属性上,还会在数据的转移过程中产生再生的相关性。搜集数据阶段使用的方法不正确,应用需求不明确等都会影响数据完整性和准确性。
3.数据处理手段发展不平衡。数据处理手段出现从基层的手工操作到省、国家一级政府统计数据处理的高度信息化。就地域而言,占全国70%以上的地方统计数据处理是手工操作或半手工操作,速度慢、效率底,可靠性差,这与统计的及时性要求不相符合。统计所反映的当前经济现象的线.质量管理监督措施不够健全。由于多数检索系统没有进入实际应用阶段,数据质量的控制和监督往往被人们忽视。绝大多数单位在数据准备、录入阶段缺乏审核等质量控制、监督措施,著录标引的检查,一般采取自己审核或互相审核的方法。缺少科学的统计数据质量评估和监控造成统计数据不同层次脱离实际的偏差,给决策带来极大的不便。
5.统计人员队伍素质不高。基层统计工作薄弱,统计手段落后,统计人员素质比较低,基层统计队伍不稳定都影响了统计数据质量。
在目前我国统计数据质量管理中,以单项数据质量管理为主,缺乏综合的、全面的质量管理体系;对数据质量内涵的理解相对来说仍较为狭隘,在实践中主要围绕着数据准确性进行评估,对数据质量的其他方面重视不够;在评估过程中,没有让社会公众和用户充分参与进来,评估机制缺乏必要的透明和有效性,未能取得社会各界对数据资料的充分理解和认可;对于多种经济成分的数据质量评估方法不够明澈;缺乏明确的数据质量管理要求和目标。
1.统计数据质量理论及其控制技术与政府统计实践脱节。各种统计数据质量控制技术在我国的实际统计工作中的研究和应用不多,对于经常性统计数据质量控制,实际上还主要是采用事后的分析评估和挤水分的方法,而事前的分类预防控制不多,建立误差模型进行分析的也不多,所应用的仅有的一些事后质量控制技术和统计数据质量管理的组织活动没有实现很好的结合,虽然指定了主要统计数据质量的评估方法,但具体方法的应用、由哪些部门负责以及这些部门的质量责任、职权和义务并不明确。
2.统计数据质量管理中的全面质量管理并不全面。全程性上,只重视调查环节,不重视统计设计环节对数据需求的研究,从而影响数据相关性、及时性的提高;全域性上,所实行并取得很大成功的统计数据全面质量管理的措施及经验,主要集中于几个专项的普查,应用范围较窄;全员性上,只重视统计系统内部的人员控制,而对统计系统外部的,占统计工作人员2/3的基层统计人员却无从控制。
3.缺乏明确的质量管理目标和统一的质量管理规范。对统计数据质量管理缺乏明确的质量方针和质量目标,缺乏相对统一的统计数据质量管理标准和规范,导致了统计数据质量的混乱。
4.控制措施与事后评估结果及发现的问题没有很好结合。统计是一项循环往复的过程,因此每一次新的修订统计设计都应反映出上一次数据质量评估的结论以及质量改进的要求。但是从公布实施的统计调查制度上看,事先的控制措施,如填表要求中的平衡关系,逻辑审核关系用于质量控制的设计内容较少。
多年来,国家统计局一直把统计数据放在首要地位,通过不断努力与实践的,摸索出一套方法,即一靠科技,二靠法制,对统计数据实行全面质量管理。在此,结合专家学者对统计数据质量管理的研究,笔者提出一些自己的看法。
1.搞好统计调查方法的改革是提高统计数据质量的前提。国家统计局在《国家统计制度的总体方案》中提出了我国统计调查方法改革的长远目标,即“建立以必要的周期性普查为基础,以经常性的抽样调查为主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方案体系”指明了抽样调查作为新统计调查体系的主题,精简全面统计报表。要提高统计数据质量,必须推广抽样调查方法的应用,它避免了对总体单位的逐一调查和较多的中间环节,在较大程度上减少了各方面对统计数据在调查过程中的干扰数据统计,因而使得调查的数据较符合客观实际。它具有事先计算及控制抽样平均误差和便于对样本指标进行检查,避免调查工作中间环节的弄虚作假的特点。大大提高了统计数据的准确性和及时性。
2.强化统计基础工作是提高统计数据质量的保证。首先要搞好统计调查表的设计。企业综合统计部门应根据上级部门和本企业生产经营管理的需要,会同会计等部门统一设计企业内部套表,在设计中应体现新的国民经济核算体系,各指标之间应相互联系,相互配套,统计指标的涵义、范围、计算口径应一致。统计表的设计,统计分类标准和各种编码应当统一,以适应计算机整理、汇总、分析的需要。新的统计报表的采用,可以克服企业统计工作中存在的杂乱、重复、矛盾等弊端,也有利于报表的规范化、系统化,更有利于统计数据的准确性。其次,实现原始记录、统计台账的标准化。我们知道,原始记录是业务核算、会计核算、统计核算的共同基础,只有这样才能使三种核算结果相互衔接,口径一致,而要保证核算数字的准确性,要求核算的数字来源,都有真实的原始记录为依据。从原始记录开始一直到整理、场内报表及三种核算,数字来源通过逐级加工,都是有据可查的。只有这样核算,数字的准确性才有确切的保证。
3.加强统计法制法规建设是提高统计数据质量的法律保障。在企业统计工作中,主观随意性是影响统计数据质量的重要因素。领导者的法制观念和对统计数据质量的重视程度以及统计人员的综合素质,对统计数据质量有着直接的影响。只有具有强烈的事业心和责任感,具有高度的统计法制观念,具有基本的工艺技术知识和统计技能的统计人员,才具有做好统计工作的前提和基础。因此,要加强统计法制建设,健全统计法规,防止某些企业领导和统计人员对统计数据弄虚作假,要确定统计犯罪的界限,作出良性的具体规定,以强化统计法规的法律效力和约束力。应通过典型案件的查处和暴光宣传《统计法》,引起全社会的关注,提高社会公众的法制观念和执法自觉性,使《统计法》真正成为提高统计数据质量的法律保障。
4.提高统计人员的业务素质是提高统计数据质量的关键所在。统计数据质量与统计人员的业务素质和队伍稳定有直接的关系,企业统计人员是提高统计信息最基础、最原始数据的源泉,因此,为了提高统计人员的业务素质,必须搞好他们的上岗和在岗培训,要实行“统计员资格”考试制度,达到合格标准并取得上岗合格证方可上岗。要提高统计人员的统计分析能力,掌握多种使用统计分析方法,例如聚类分析法、判别分析法、回归分析法、相关分析法、主成分分析法等。其次还要提高统计人员对现代统计分析软件的应用能力做到“一专多能”。依靠科技手段快速提供高质量的统计数据。企业还应按规模大小、统计业务的难易程度,配备有一定统计职称的综合统计人员,以提高统计工作质量,保证统计数据的准确性。
5.用科学的统计分析方法对数据质量评估是提高统计数据质量的方法保证。首先,可运用抽样调查法推断总量指标的准确性,它是对全面报表、普查、重点调查的基层统计数据或汇总统计数据进行可靠性检验或误差判断的科学方法。其次,运用回归分析法检测统计数据的可信度。例如,在对汇总数据的评价中,可利用回归分析,发现矛盾,提高数据的可靠性,并可用计算机建立模型,对各类数据纵横比较,以确定其质量。另外,还可用主次因素排列分析图、因果分析图来分析各种统计数据质量。在多种经济成分的统计数据中,要寻求一种能够多因素同时考虑的方法,不能只局限与一些单一因素的评估方法。例如运用模糊评价法等。要加快成立相对独立的专门从事统计数据质量评估的社会终结组织结构,确保统计数据评估的独立性和公正性。
6.加大新的统计技术的应用是提高统计数据质量的必要途径。计算机技术不仅可以实现数据处理高速化、数据传输网络化、数据贮存资源化,从而降低统计数据在人工处理、传输、贮存等环节上的技术性误差和逻辑性差错,而且有利于从机制上形成强有力的统计质量管理体系,维护统计数据管理相对独立性并有效地遏止随意虚报、瞒报以及统计数据质量的其他腐败行为。
总之,提高统计数据质量是统计工作的永恒主题,要在明确什么是统计数据质量的基础上,抓住影响统计数据质量的关键,采取切实有效措施,最大限度地保证提高数据的质量,确保统计三大职能的发挥。
统计数据质量问题是衡量统计工作的核心指标。尤其是我国加入WTO,与世界经济接轨的今天,社会各界对统计信息的需求量越来越大,对统计信息质量的要求也越来越高。统计信息质量的高低直接影响和决定着统计信息的可利用性。统计数据质量低下将会直接导致错误的决策。因此,努力提高统计数据的质量,实现统计信息的准确、有效、全面、有着重要的意义。
传统的统计数据质量仅仅指其准确性,通常用统计估计中的误差来衡量。但如今“质量”的概念被拓宽了,“统计数据质量”的概念也有必要拓宽。目前各国统计机构和有关国际组织对统计数据质量含义的解释和理解仍存在一定的分歧,对统计数据质量应涵盖哪几个方面,还没有统一的标准。各国从本国的实际情况以及对数据质量含义的理解出发,确定了不同的数据质量标准。如英国政府统计数据质量标准是准确性、时效性、有效性、客观性;韩国的质量标准则是适用性、准确性、时效性、可索取性、可比性、有效性。在我国,统计数据质量主要包括统计数据的核心质量、形式质量及延伸质量三大方面。
改革开放以来,我国统计人员大胆探索,辛勤实践,在指标体系、调查方法、统计标准、技术手段、数据报送与处理方式等方面进行改革,较好地满足了社会各界对统计信息的需求,推动了统计事业的发展。但是,浮夸风以及片面追求假、大、空现象仍然存在,这些都违背了统计工作的基本要求,阻碍了统计工作的发展。目前我国统计数据质量管理上存在的问题主要有:
1.统计数据失真。统计制度不够完善是造成统计数据失真的内在因素,表现在:统计部门内部各专业在统计方法、指标涵义、口径上还存在一定程度上的不统一;专业间统计方法改革不同步;统计范围、口径的理论值与实际值出入有时还比较大;统计与财会在核算周期上还存在一些差异,并且在统计数据质量管理上各级统计管理部门在统计执法过程中力度不够,对统计过程缺少制约与监督,对统计数据缺乏校验与复查的有力措施。
2.设计时需求不明确,缺乏远见。数据库与文件管理系统的重要区别之一在于不仅存放数据,而且存放数据之间的相关性。相关性不仅表现在数据依存的时间、地点、类型和名称等原始属性上,还会在数据的转移过程中产生再生的相关性。搜集数据阶段使用的方法不正确,应用需求不明确等都会影响数据完整性和准确性。
3.数据处理手段发展不平衡。数据处理手段出现从基层的手工操作到省、国家一级政府统计数据处理的高度信息化。就地域而言,占全国70%以上的地方统计数据处理是手工操作或半手工操作,速度慢、效率底,可靠性差,这与统计的及时性要求不相符合。统计所反映的当前经济现象的线.质量管理监督措施不够健全。由于多数检索系统没有进入实际应用阶段,数据质量的控制和监督往往被人们忽视。绝大多数单位在数据准备、录入阶段缺乏审核等质量控制、监督措施,著录标引的检查,一般采取自己审核或互相审核的方法。缺少科学的统计数据质量评估和监控造成统计数据不同层次脱离实际的偏差,给决策带来极大的不便。
5.统计人员队伍素质不高。基层统计工作薄弱,统计手段落后,统计人员素质比较低,基层统计队伍不稳定都影响了统计数据质量。
在目前我国统计数据质量管理中,以单项数据质量管理为主,缺乏综合的、全面的质量管理体系;对数据质量内涵的理解相对来说仍较为狭隘,在实践中主要围绕着数据准确性进行评估,对数据质量的其他方面重视不够;在评估过程中,没有让社会公众和用户充分参与进来,评估机制缺乏必要的透明和有效性,未能取得社会各界对数据资料的充分理解和认可;对于多种经济成分的数据质量评估方法不够明澈;缺乏明确的数据质量管理要求和目标。
1.统计数据质量理论及其控制技术与政府统计实践脱节。各种统计数据质量控制技术在我国的实际统计工作中的研究和应用不多,对于经常性统计数据质量控制,实际上还主要是采用事后的分析评估和挤水分的方法,而事前的分类预防控制不多,建立误差模型进行分析的也不多,所应用的仅有的一些事后质量控制技术和统计数据质量管理的组织活动没有实现很好的结合,虽然指定了主要统计数据质量的评估方法,但具体方法的应用、由哪些部门负责以及这些部门的质量责任、职权和义务并不明确。
2.统计数据质量管理中的全面质量管理并不全面。全程性上,只重视调查环节,不重视统计设计环节对数据需求的研究,从而影响数据相关性、及时性的提高;全域性上,所实行并取得很大成功的统计数据全面质量管理的措施及经验,主要集中于几个专项的普查,应用范围较窄;全员性上,只重视统计系统内部的人员控制,而对统计系统外部的,占统计工作人员2/3的基层统计人员却无从控制。
3.缺乏明确的质量管理目标和统一的质量管理规范。对统计数据质量管理缺乏明确的质量方针和质量目标,缺乏相对统一的统计数据质量管理标准和规范,导致了统计数据质量的混乱。
4.控制措施与事后评估结果及发现的问题没有很好结合。统计是一项循环往复的过程,因此每一次新的修订统计设计都应反映出上一次数据质量评估的结论以及质量改进的要求。但是从公布实施的统计调查制度上看,事先的控制措施,如填表要求中的平衡关系,逻辑审核关系用于质量控制的设计内容较少。
多年来,国家统计局一直把统计数据放在首要地位,通过不断努力与实践的,摸索出一套方法,即一靠科技,二靠法制,对统计数据实行全面质量管理。在此,结合专家学者对统计数据质量管理的研究,笔者提出一些自己的看法。
1.搞好统计调查方法的改革是提高统计数据质量的前提。国家统计局在《国家统计制度的总体方案》中提出了我国统计调查方法改革的长远目标,即“建立以必要的周期性普查为基础,以经常性的抽样调查为主体,同时辅之以重点调查、科学推算和少量的全面报表综合运用的统计调查方案体系”指明了抽样调查作为新统计调查体系的主题,精简全面统计报表。要提高统计数据质量,必须推广抽样调查方法的应用,它避免了对总体单位的逐一调查和较多的中间环节,在较大程度上减少了各方面对统计数据在调查过程中的干扰,因而使得调查的数据较符合客观实际。它具有事先计算及控制抽样平均误差和便于对样本指标进行检查,避免调查工作中间环节的弄虚作假的特点。大大提高了统计数据的准确性和及时性。
2.强化统计基础工作是提高统计数据质量的保证。首先要搞好统计调查表的设计。企业综合统计部门应根据上级部门和本企业生产经营管理的需要,会同会计等部门统一设计企业内部套表,在设计中应体现新的国民经济核算体系,各指标之间应相互联系,相互配套,统计指标的涵义、范围、计算口径应一致。统计表的设计,统计分类标准和各种编码应当统一,以适应计算机整理、汇总、分析的需要。新的统计报表的采用,可以克服企业统计工作中存在的杂乱、重复、矛盾等弊端,也有利于报表的规范化、系统化,更有利于统计数据的准确性。其次,实现原始记录、统计台账的标准化。我们知道,原始记录是业务核算、会计核算、统计核算的共同基础,只有这样才能使三种核算结果相互衔接,口径一致,而要保证核算数字的准确性,要求核算的数字来源,都有真实的原始记录为依据。从原始记录开始一直到整理、场内报表及三种核算,数字来源通过逐级加工,都是有据可查的。只有这样核算,数字的准确性才有确切的保证。
3.加强统计法制法规建设是提高统计数据质量的法律保障。在企业统计工作中,主观随意性是影响统计数据质量的重要因素。领导者的法制观念和对统计数据质量的重视程度以及统计人员的综合素质,对统计数据质量有着直接的影响。只有具有强烈的事业心和责任感,具有高度的统计法制观念,具有基本的工艺技术知识和统计技能的统计人员,才具有做好统计工作的前提和基础。因此,要加强统计法制建设,健全统计法规,防止某些企业领导和统计人员对统计数据弄虚作假,要确定统计犯罪的界限,作出良性的具体规定,以强化统计法规的法律效力和约束力。应通过典型案件的查处和暴光宣传《统计法》,引起全社会的关注,提高社会公众的法制观念和执法自觉性,使《统计法》真正成为提高统计数据质量的法律保障。
4.提高统计人员的业务素质是提高统计数据质量的关键所在。统计数据质量与统计人员的业务素质和队伍稳定有直接的关系,企业统计人员是提高统计信息最基础、最原始数据的源泉,因此,为了提高统计人员的业务素质,必须搞好他们的上岗和在岗培训,要实行“统计员资格”考试制度,达到合格标准并取得上岗合格证方可上岗。要提高统计人员的统计分析能力,掌握多种使用统计分析方法,例如聚类分析法、判别分析法、回归分析法、相关分析法、主成分分析法等。其次还要提高统计人员对现代统计分析软件的应用能力做到“一专多能”。依靠科技手段快速提供高质量的统计数据。企业还应按规模大小、统计业务的难易程度,配备有一定统计职称的综合统计人员,以提高统计工作质量,保证统计数据的准确性。
5.用科学的统计分析方法对数据质量评估是提高统计数据质量的方法保证。首先,可运用抽样调查法推断总量指标的准确性,它是对全面报表、普查、重点调查的基层统计数据或汇总统计数据进行可靠性检验或误差判断的科学方法。其次,运用回归分析法检测统计数据的可信度。例如,在对汇总数据的评价中,可利用回归分析,发现矛盾,提高数据的可靠性,并可用计算机建立模型,对各类数据纵横比较,以确定其质量。另外,还可用主次因素排列分析图、因果分析图来分析各种统计数据质量。在多种经济成分的统计数据中,要寻求一种能够多因素同时考虑的方法,不能只局限与一些单一因素的评估方法。例如运用模糊评价法等。要加快成立相对独立的专门从事统计数据质量评估的社会终结组织结构,确保统计数据评估的独立性和公正性。
6.加大新的统计技术的应用是提高统计数据质量的必要途径。计算机技术不仅可以实现数据处理高速化、数据传输网络化、数据贮存资源化,从而降低统计数据在人工处理、传输、贮存等环节上的技术性误差和逻辑性差错,而且有利于从机制上形成强有力的统计质量管理体系,维护统计数据管理相对独立性并有效地遏止随意虚报、瞒报以及统计数据质量的其他腐败行为。
总之,提高统计数据质量是统计工作的永恒主题,要在明确什么是统计数据质量的基础上,抓住影响统计数据质量的关键,采取切实有效措施,最大限度地保证提高数据的质量,确保统计三大职能的发挥。
统计信息是社会经济信息的主要组成部分,在社会经济生活中发挥着越来越重要的作用。作为其表现形式的统计数据的质量也受到越来越多人的关注。而目前我国的统计数据质量管理,不论是与社会各界的需求相比,还是与相关国际准则的运作要求相比,均存在一定差距。完善我国统计制度是一项长远的任务,这需要统计人员与社会各界的共同努力。
[1]李金昌.论什么是统计数据质量[J].统计与决策,1998,(9).(下转第22页)
[2]唐修亭,韩鹏.试论新时期统计数据质量问题[J].统计与咨询,2000,(6).
[3]贾维洁.统计数据质量之我见[J].统计科学与实践,2002,(1).
[4]田静.关于统计数据质量问题的思考[J].统计与决策,2005,(11).
[5]陈郁.弄虚作假统计数字现象透视[J].中国统计,2002,(2).
[6]史象奎.陈鹏程.当前统计制度报表存在的问题与改革探讨[J].北京统计,2002,(7).
[7]刘建平.我国工业抽样调查研究[J].山西财大报,2002,(2).
[8]陆蓉.运用抽样调查方法提高统计数据质量[J].上海财经大学学报,2004,(4).
[9]余芳东.国外统计数据质量评价和管理办法及经验[J].北京统计,2003,(7).
[10]李群.统计数据质量评估方法之我见[J].上海统计,2004,(8).
[11]钱迎阳.如何加强统计数据质量管理[J].统计与决策,2004,(10).
众所周知,统计数据质量是统计工作的生命。完善的基层基础工作是提高数据质量的基础,而强化责任意识、狠抓责任落实则是提高数据质量的有力保障。为此,必须不断创新思路,增强责任意识,加强制度建设,狠抓责任落实,确保统计数据的高质量,使统计工作更好的服务于经济建设。
随着经济社会发展和统计工作环境的变化,传统的统计方式与日益增长的统计信息需求已成为统计工作的主要矛盾,统计对象多元化、市场经济条件下的利益驱动和基层基础工作薄弱都影响着统计数据质量。这就要求我们广大统计人员必须有所作为,以高度负责的态度,强化责任意识,彰显统计应有的“功能”,强化“三种意识”:
1、强化危机意识。数据质量是统计工作的生命,数据质量的好坏,不仅关系到领导决策的正确性和科学性,而且也直接影响着统计部门的形象和声誉。因此,我们必须以对党和人民高度负责的态度来对待统计工作,以捍卫统计系统尊严的决心来开展统计工作,以体现自身价值的干劲来完成统计工作。
2、强化质量意识。真实性是统计工作的生命和永恒的主题。总理曾指示要“不出假数”,既是对我们的希望,也是我们为之奋斗的目标。树立质量意识,关键要把握提高统计质量的“核心质量”,即数据的真实性和时效性。树立质量意识,要体现在严格执行统计法律法规和科学的统计制度方法上,体现在不断完善质量控制体系上,体现在健全管理机制上,并要狠抓落实。
3、强化监督意识。统计监督是统计法赋予统计部门的职责,现在部分单位领导干预、干扰、制约统计工作的现象时有发生,在各种目标责任制越多、考核越严格的情况下越为突出,这与统计监督缺位或乏力有关。为此,要采取多种行之有效的措施,加大统计监督力度,真正维护统计秩序,不断提高数据质量。
健全的责任体系是提高数据质量的必要手段,也在一定程度上影响着数据质量。鉴于此,要狠抓制度体系和保障措施的建立与健全,做到按制度办事,用制度管人,以规范的工作制度规范工作行为,以规范的工作行为提升工作效率。具体地说,要健全“四项制度”:
1、实行岗位责任制度。按照工作量化、责任细化、目标优化的要求,建立起一把手负总责、分管领导负责、各科室具体实施的工作制度,做到一级抓一级,一级对一级负责。对每一项工作做到责任主题明确,工作标准明确,完成时限明确,形成事事有人抓、人人有责任、件件有落实的良好局面,为数据质量提供了保障。
2、实行督导检查制度。对已经明确的工作和部署。从布置、承办、结办的各个环节,各个阶段实行全程跟踪督导,切实做到重点工作重点督导、紧急工作特殊督导,一般工作定期督导,做到有布置、有检查、有落实,进一步提高抓落实的效率,做到及时发现问题,有效解决问题,提高了工作效率。
3、实行考核奖惩制度。要以提高数据质量为主要内容,建立切实可行的考核机制,制定科学、量化、操作性强的考核体系,旗帜鲜明地激励先进,鞭策后进,提高整体的工作水平。要实行干部责任目标考核管理办法,对机关干部在遵守机关制度、完成中心工作任务、撰写统计分析等方面进行严格考核,调动工作积极性和主动性,增强争先创优意识。
4、实行责任追究制度。要根据《统计法》和《统计违法违纪行为处分条例》的要求,建立统计工作失职、渎职责任追究制度,以增强统计工作人员责任感,严肃统计数据质量,确保工作有序开展。
规范的统计内部数据自我评估和管理,是提高数据质量的重要一环,严谨的业务操作规程,是确保数据质量的关键。广大统计人员,特别是基层统计人员要强化责任落实,把实事求是的工作准则和严格的数据质量控制贯穿于统计工作始终,从数据的采集整理、审核录入、汇总上报等环节进行全方位控制,实现统计数据的线、控制源头数据质量。基层统计数据质量是整个统计数据质量的基础,把住统计数据源头质量,要切实解决好四方面问题:一是要配备具有一定文化素质和职业道德,而且工作责任心强的统计人员;二是要不断加强统计人员业务培训,熟练掌握统计业务;三是基层单位要按照报表制度规定的统计范围、统计口径和统计方法采集数据,严格执行统计报表方法制度;四是要建立健全统计原始记录和台帐,提高数据的连续性,从源头上杜绝了虚假数字的产生,减少盲目性和随意性。
2、规范业务操作规程。一是严把数据审核关。对于基层单位报送的报表,县级统计部门要认真分析、研究、审核、评估。充分利用平衡关系、逻辑关系、表间关系进行全面审核,并搞好与相关部门的协调联系,实行有效的质量控制,把误差消灭在基层;二是严把数据上报关。数据上报要严格按照报表制度规定及时报出,报山前要经专业人员、科(队)长、分管领导和局长层层把关,认真评估,把差错降低到最低限度;三是严把数据对外提供关。现在各种考核及地方政府向上级申报项目、汇报情况所涉及的统计数据都要统计部门审核、评估和提供,统计部门要本着高度负责的态度提供统计数据,以维护统计部门的良好信誉。
统计执法检查是保证统计工作顺利开展、确保统计数据及时准确的重要手段。目前,部分单位统计法制意识淡薄,不能很好的支持、配合统计工作,影响统计工作的正常开展,统计数据质量也难以保证。因此,要严格执行《统计法》和《统计违法违纪行为处分条例》,坚决打击在统计上虚假作假行为,不断完善统计执法监督机制,发现虚报、瞒报、漏报、篡改统计数据要严肃查处,提高统计法制威慑力,不断净化统计环境,保证统计数据真实准确。统计执法检查工作应努力实现“三个转变”:
1、从任务型执法向经常性执法转变,使执法成为统计工作者的自觉行为,成为保障数据质量的有力武器;
“中国人口13亿,约占世界总人口的21%”“2013年贵州高考生总人数247895人”“国家发改委宏观经济研究院副院长马晓河6日在此间公开表示,今年中国经济的最大亮点是国内生产总值增幅达11.5%,总量在去年21万亿元人民币(下同)基础上突破23万亿元大关,首次超过德国,仅次于美国和日本,跻身世界第三”。这些数字就是统计数据。随着社会的发展,统计学在我国的地位越来越高,也越来越受重视。统计学就是一门横向的学科,统计方法与数据挖掘和知识发现技术应运而生,并与实质性学科相结合,才产生了相应的统出强大的生命力。数据挖掘就是从大量的、计学分支,如统计学与经济学相结合产生了从不完全的、模糊的数据中,提取有用的信息和经济统计。
首都钢铁公司的董事长对统计数据工作这样概括:“一个企业的领导人,离开统计数据就无法工作”。中国三十年的改革开放使中国经济有了巨大的变化,在世界也有了一定的地位,但根据国家统计局调查显示,从人均收入的数据来看美国的人均收入是:36300美元,中国人均收入是:2010美元。说明我们与发达国家之间还存在着很大的差距。这些统计数据能让我们清楚地知道差距,根据差距制订出更好更多的发展计划和策略。
例如:我国的计划生育20世纪70年代以来全面推行,1982年定为基本国策,2001年成为国家法律,《中华人民共和国人中与计划生育法》,就不是政策了。计划生育的方针、政策、措施制度等,主要意义是有效地控制人口数量的增长过快的情况,以防人口数量增长过快直接影响国家经济增长的环境、资源的不足的矛盾,以致破坏社会的和谐和稳定。为什么会提出计划生育国策?依据是什么?这应该归功于统计数据。因为我国从1962年到1972年,中国年平均出生人口是2669万,累计出生了3亿,1969年人口突破了8亿,从20世纪60年代开始人口与经济、社会、资源、环境之间的矛盾逐渐显露出来。我国计划生育的国策实施,社会得到了更为轻松的发展空间,人民得到了更多的实惠,近30年来我国经济快速发展,成为世界的焦点,成效显著。
今天的社会,统计已相当发达,无论是资料搜集方法研究,还是统计规律研究,其目的都是为了认识我们所研究的对象,或者说认识统计总体。统计工作者从调查开始到整理出对外服务的系统资料,这一过程使人们对统计总体的外貌有比较清楚的认识,如果我们能再从数字后面找出内部特征,就能总结出现象发展的规律性,结合社会经济运行的法则,就可以提出管理社会经济的有效建议,信息往往是被大量复杂的数据项隐藏,有些数据是冗余的,有些数据是完全无关的,它们的存在有可能影响到有价值规则的发现,这必然要求我们在数据处理过程中把好数据关,即选择什么样的数据,如何进行数据清理,对选择好的数据如何处理、要进行哪些处理,只有过好数据关才能保证整个基于统计分析的数据挖掘工作的顺利完成。
随着我国经济的发展,统计思想及统计工作在我国经济发展中的地位越来越重要,在当前我国统计工作中,认清统计的真谛、领会统计思想,对统计本身来讲,有利于提高统计水平和统计工作者的整体素质。在国家政治经济生活中,统计已经成为重要的管理手段和决策依据。然而,“注水数字”“政绩数字”屡禁不止。国土资源部的最新研究报告显示,自2001年以来的9年中除了
2008年房价都在上涨。而去年我国住宅均价上涨了25.1%,为2001年以来最高水平,即便25.1%的上涨幅度统计,有民众也不满意。比如说,就北京城区的居民而言,2010年房价增长的比例远超过25%,这种状况让人感觉看不清哪个是真、哪个是假,不知道该信哪一个、不信哪一个,于是乎,有人拒绝相信任何官方的统计数据,有人专门挑对自己有利的数据来功利性地相信一下。
1959—1961年,在20世纪的中国及至世界的灾害史上,是极不寻常的三年,中国科学院的一份国情报告中曾经提到:三年困难时期,因粮食大幅度减产,按保守的估计,因营养不足而死亡约1500万人,成为本世纪中国最悲惨的事件之一,这是一段被尘封的灾难历史。这是一幕不应该忘记的历史悲剧。是什么原因造成这一悲剧,就是统计数据的失真报道。这三年明明是“严重干旱”,可是这种说法却得不到科学统计数据的支持,报道却是1959—1961
统计数据收集程序是层层上报,统计数据要经过乡、县、地(市)、省四级加工处理才能最终上报到国家,过程中可能受到各种干扰的情况在层层上报的过程中,有些地方出于政府业绩等原因,可能会人为“润色”数据,影响了统计结果的真实性和准确性。国家统计局数据管理中心主任许剑毅对此就曾表示:“有人将之形象地比喻为,一个瘦子上了公共汽车,下车时就变成了胖子。由于过程不透明,在车上发生了什么谁也不知道。”
依据统计法律法规和统计报表制度建立一套完整的统计管理规章制度,加强对统计数据、原始记录、原始凭证、台账报表的管理,规范统计数据采集、整理、计算、汇总、审核的方法和程序,使统计数据经得起检查,把好数据质量关,充分发挥统计参谋和助手的作用,及时发现问题,有效控制解决问题,使基层统计真正成为反映基层经济运行状况的一面明镜。首先,要确保原始记录的准确性。要把提高统计数据质量的着眼点放在基层里,如实填写各种原始记录,严格审查各种原始记录,防止弄虚作假,并建立台账;统一指标统计口径,避免有重报漏报之处。其次,要实行分级检查,层层把关,保证统计数字的质量。最后,要坚持以提高数据质量为中心,如果数据失真,必然会对经济的发展规划产生误导,领导也无法作出科学的正确的决策,因此我们要围绕提高数据质量这个中心,认真做好统计数据工作。
下到每个具体的统计数据填报人员,上到最后审核领导人员都要有一颗强烈的社会责任心,事实就是事实,是瞒不住、藏不住的,就像癌症病人一样,早发现、早治疗、早解决,这才是明智之举,才会有利于国家、有利于集体、有利于个人。
[1]李友俊.统计学原理与现代企业统计.哈尔滨工业大学出版社,1999-03.