张启良、曾轶雄:大数据时代政府统计的挑战与变革

14.05.2014  12:57

  

      当前,全球的数据总量正呈指数增长,过去3年间产生的数据量超过以往总和。移动互联网、物联网等的迅速发展,使新数据源不断出现,GPS、传感器等数据持续、大量产生。而数据获取成本、存储成本和处理成本的下降,也推动了数据量的膨胀,世界上每分钟产生的数据达1700TB之巨。今天的社会已进入了一个全新的时代:大数据时代。面对汹涌而至的大数据时代,作为数据生产和管理的政府统计部门,如何充分认识大数据即将对统计产生的深远影响及其机遇,并不失时机地用好机遇,胸有成竹地应对挑战,从而加快推进统计生产与管理方式的逐步转变。

 

  一、大数据时代政府统计面临的挑战

 

  一个大规模生产、分享和应用数据的时代正在开启。“大数据”所带来的价值将超过并会逐渐取代目前的一些统计数据,对政府统计工作的理念和方法制度带来了挑战。

 

  第一、政府统计部门不再是唯一的海量数据拥有者。传统的经济统计一般只细分到产品、行业层面,通常以月为频率;条形码出现后,记录可以具体到每一次交易行为;而对于淘宝、亚马逊等网上购物平台,能被记录的则不仅仅是交易行为,还包括消费者从搜索、对比、选择、购买、一直到售后评价等一系列操作都会被记录。事实上,电信、医疗、物流等其他行业,都在实现更详尽的记录。公共部门和私人企业逐渐积累了海量数据。

 

  在某些数据方面,这些公共部门和私人企业收集的数据比政府统计部门还要庞大。例如,政府价格统计(比如通常所说的“CPI指数”)中仅包含千种商品、涉及几万个调查销售网点;而对于淘宝、亚马逊等网上购物平台的销售记录,包含几万种商品、所有的在线销售商和大部分线下销售网点。

 

  有些数据已不需要政府统计部门采集、汇总,就已经存在了。从现已发生的变革上来看,包括进出口、货币供给、财政等数据已经不需要专门进行统计了,在各项相应的行政记录里均可查询。而物联网等网络经济的发展,使得工业生产、运输物流、最终消费、服务等各种交易生成直接可用的数据,而不需要再经过专门的统计采集。

 

  大数据的应用已经渗透到日常生活和经济管理中,这也意味着,随着大数据时代的到来,政府统计部门不再是唯一的海量数据拥有者。

 

  第二、大数据将对政府统计的权威性提出挑战。国内许多企业和民间调查机构已经在开发、挖掘和利用这些源源不断地产生海量的、即时的电子化数据资源,为用户提供咨询服务。随着大数据资源的急剧增加和数据挖掘技术的日益成熟,为用户提供的服务正在从商务领域向公共领域渗透,政府统计作为公共统计数据信息主渠道的地位面临一定的挑战。

 

  麻省理工大学斯隆管理学院的两位教授正在主持一项名为“百万价格工程”的研究计划。他们通过搜集互联网上不同国家各种零售商品的价格数据,编制了各国的“在线价格指数”。通过对比在线价格指数和官方CPI可以发现:美国的在线价格指数与官方发布的CPI契合地很好;而对于阿根廷,在线价格指数系统性地大幅高出官方发布的通货膨胀率。

 

  谷歌和百度先后推出了基于互联网搜索频率的“谷歌指数”、“百度指数”,将互联网用户对特定关键词的搜索量通过统计学方法编织成指数,用来反映大众对于该关键词关注度的变化趋势。

 

  阿里巴巴推出了基于淘宝电商平台的淘宝指数,这些指数以网络交易的实时数据为基础,能够反映食品、烟酒及其用品、衣着等十个商品和服务类别的网络零售价格和交易量的变化趋势;可以辅助洞悉通货膨胀、经济增长、居民消费等宏观经济指标。

 

  由于有实时产生的大量信息做基础,会吸引越来越多的人关注,将对政府统计的唯一性乃至权威性产生极大挑战。

 

  第三、大数据对政府统计数据存在的滞后性和低频率提出挑战。政府统计数据有两个缺陷:一是存在滞后性,二是低频率。而大数据可以在这些方面作出改进。例如:各国消费者物价指数(CPI)的发布一般都存在滞后期,以我国为例,通常要等到下个月的9号左右才发布上月CPI数据;而“在线价格指数”是对市场价格的实时跟踪和汇总,不存在滞后性,从而能为货币政策提供更为及时的信息。同时,在线价格指数可以做到以天为频率、甚至更高频率,从而能用来更细致地分析通货膨胀规律和定价行为。还有研究发现,该指数与资本市场走势具有相关关系。

 

  第四、大数据对政府统计的信息化建设水平提出挑战。从数据搜集到数据处理,结构化与非结构化、标准统一与标准各异、只面对样本与面对庞大的总体,差异无疑是巨大的,对后者的搜集和处理难度也明显大于前者。大数据既包括结构化数据,但更多的是非结构化数据,如图片、视频、文字。如何将这些非结构化数据进行结构化处理,是政府统计信息化建设中要面对的一个重大课题。

 

  二、政府统计以变革顺应大数据时代

 

  相对于传统政府统计来说,“大数据”引发的变革主要在四个方面:时效性提高,记录更加准确,覆盖的经济行为面更广,对单次经济行为的记录更加精细。简单地讲就是:更快、更准、更广、更细。政府统计工作只有适应“大数据”时代的变化和要求,通过有效利用客观存在的海量数据,降低统计调查成本,减轻被调查者的负担,缓解被调查者配合程度降低的矛盾,提高统计数据的即时性,缩短统计数据生产周期,改善统计数据的质量。政府统计要加强顶层设计,分专业分步骤实施,以推动统计生产方式的变革和统计生产力水平的提升。从政府统计部门自身来说,统计要利用好大数据,必须在以下几个方面做好基础工作:

 

  要制定和统一统计标准。针对大数据标准各异的特点,认真考察不同来源大数据所执行和依照的不同标准,与现行各项统计标准进行比较,对政府统计部门应用大数据的统计标准进行统一规范,要特别重视和研究如何对非结构化数据进行标准化处理。

 

  要实施大数据技术攻关。政府统计的技术部门都应该根据统计数据本身的特点和统计部门的业务需求开发适合自己的技术软件,既要满足统计发展的需要,又能保证数据的安全性。要开发大数据搜集工具、大数据汇总整理的软件,以便在最快的时间内得到最想要的数据处理和分析结果。运用云计算等方式建立开放的客户端,通过端口开放权限设置的方式来完善对数据的开放和管理。

 

  要规范统计指标。针对大数据的指标数据已经先于政府统计的设计而存在的特点,广泛搜集已经存在并继续增加的各类数据,分析其与政府统计指标在口径、范围、内涵、定义等方面的差异,以对政府统计应用大数据的统计指标进行设计、调整、规范和完善。

 

  要改革调查方法。针对大数据中很多信息数据即时产生、“样本=总体”的特点,改进和完善大型周期性普查、抽样调查等传统调查方法,研究在“全样本”基础上进行抽样或计算的方法,研究利用行政记录、商业交易记录和网上搜索信息进行测算的方法。

 

  要完善采集方式。针对大数据中非结构化数据比重很大的特点,研究对非结构化数据进行采集的方式,开辟新的采集渠道,应用新的采集技术。还要探索如何通过搜索、购买、合作等其他方式,采集重要的基础数据。

 

  要加强横向合作。针对大数据生产主体日趋多元的特点,既要加强与其他政府职能部门的合作,以推进对各种行政记录的开发和利用;也要加强与各种类型的大数据生产企业的合作,以研究和推动商业交易记录、网上搜索信息的搜集、处理和转换。

 

  要改进数据处理。针对大数据量大且内容庞杂的特点,认真研究将非结构化数据转化为结构化数据的方法和技术,积极推动数据处理方式从简单汇总向数据挖掘方向转变,加强对数据的预处理,提高数据处理的智能化程度。

 

  要丰富分析手段。针对大数据速度快、存在形式多样且关联性强的特点,通过加强实时分析、关联分析和可视化分析,提高统计分析的时效性、趋势性和直观性,提升统计工作的分析水平和预警预测能力。

 

  要完善数据发布。针对大数据即时产生、内容丰富、形式多样、主体多元等诸多特点,增加统计数据发布的内容,丰富数据发布的形式,提高数据发布的频率和时效性,加强对数据的解读,更好地满足社会各界对统计数据的多样化需求。

 

  要大力培养人才。舍恩伯格在《大数据时代》一书中预言,大数据时代“专家将会消亡,数据科学家将会崛起”。因此,未来的统计人员更多的要从统计专家向统计数据专家、数据分析师的方向转换。因此,要化大力气向联合国、发达国家以及代表性互联网企业在大数据处理和应用方面的经验学习,加强政府统计系统的人才队伍建设,学习和掌握新的知识和技术,提高综合素质。同时引进、努力培养既具备良好统计思维、又娴熟信息技术的复合型人才,并加强技术人才的储备。

 

  面对错综复杂的外部环境,政府统计利用大数据也需要外部环境的改善与优化。

 

  一是信息的公开透明问题。只有打破信息孤岛,才能真正实现“样本=总体”的全数据模式;二是大数据时代注定是一个法治时代,商业机密与隐私权的保护问题将提高到一个新的高度,网络安全的监管将变得十分重要;三是制度变革的紧迫性。徐子沛在《大数据》一书开门见山地指出:“一个真正的信息社会,首先是一个公民社会”。这就引发了统计究竟要为谁服务的问题,在当前以数论政绩的干部考核制度下,“分数据、跑数据”的现象在少数地方仍有发生。这也引发了第二个问题----大数据的需求问题,在这种体制下谁会需要大数据?因此,加快推进现行干部政绩考核体制的变革是政府统计利用大数据的重要前提。

 

  同时,还需要指出的是,大数据之于传统政府统计,是补充,而非替代。基于抽样、调查、汇总等程序获得的数据仍将在经济分析和政策制定中发挥重要的作用。横向来看,传统统计方法在经济增长、税收、贸易、收入分配等领域的统计上具有主导优势,而大数据在物价、通货膨胀、失业率、消费等方面的统计上更具有优势。大数据是实时的、多源的,未来的政府统计将是传统统计和大数据利用相得益彰的时代。

 

 

  (作者单位:江西省统计局科研所)