陈全才:大数据感悟

15.10.2014  18:21
 

  数据对于我们统计工作者而言,是最熟悉不过的,因为我们天天与数据打交道。我们每天所从事的工作就是收集数据、整理数据、汇编数据,然后就是分析数据,得出结论,通过文字、表格、图形的形式对外公布发表,或者上报给有关机构。

 

   我的数据印象

 

  在我童年时代,就开始接触数字。那时乡村人家都会饲养猪、牛、鸡、鸭之类家畜,小孩子就免不了要去做一些放牛养鸭的事情。我父母也经常要我们小孩赶一群鸭到池塘田间去放养,到了晚上把鸭子赶回家,然后就得数一数,是不是少了或者多了,要不然的话,回家就会受到责骂。夏天天气热,晚上总是把竹床搬到房子外面去乘凉,睡在竹床上,仰望天空,总是看见天空上有密密麻麻的星星,一闪一闪,数呀数呀,总是数不完……。

 

  到了上学读书期间,我们开始了数学的学习,小学学习数字的加、减、乘、除运算;初中学习利用方程组求解,学习函数进行数的简单变换;高中学习轨迹函数,三角函数,数的排列组合;到了大学学习微积分、矩阵变换、线性代数,进行长度、面积、体积等各种复杂的计算,心里直感慨,数的计算方法真的是很多。读了统计,开始了单位标志、统计指标、指标体系的学习,学习数值的分布特征,数据总体、样本,进行数据抽样来进行数据取舍,通过相关、回归、聚类等方法去研究数据,进行数据推断与统计预测。开始了现实中寻找数据,利用数据计算分析工具去分析数,开始从《统计年鉴》,金融数据网,各种数据库中寻找数据,突然间,觉得现实中数据多了很多,数据空间真的是大。

 

   大数据这样来了

 

  对于数据的运用,对我们这些统计专业的人来说是不陌生,我的一些同学也在一些企业从事数据挖掘分析工作,本人也经常通过数据去分析一些问题,也学习过数据挖掘的一些知识,但仍旧不是大数据这个概念。2013年,大数据是这样扑面而来。首先是国家统计科学研究所开展大数据课题研究,随后我们单位也紧接着对大数据课题研究进行招标,12月份国家统计局科学研究所在广东韶关召开《监测与评价系统》培训会,会上潘璠所长进一步强调了国家科研所在当年的“一大一小”的工作重点,指出“”就是大数据研究,“”即为全面建成小康社会统计监测。2014年,在央视媒体中,开始看到用大数据分析报道交通出行,老百姓对社会不同方面关注度的问题等一些信息。一时间,大家也都纷纷在讨论大数据,分析大数据对我们将来工作生活的影响,对未来社会将带来哪些变化。单位领导也开始在各种场合屡屡提及,大数据的到来,将对我们的统计工作带来巨大的压力与挑战,认为我们统计部门应直面大数据,积极应对大数据挑战,要把大数据变为服务我们统计工作。于是,我们也开始在书店、网络去寻找、购买大数据书籍,开始了对大数据的学习认识。

 

   大数据区别于传统数据

 

  什么是大数据呢?《大数据》一书作者徐子沛对大数据的定义是指,那些大小已经超出了传统意义上的尺度,一般的软件工具难以捕捉、存储、管理和分析的数据。而个人观点认为是,在社会经济生活中,当我们需要对经济运行趋势特点或某一事件进行分析判断时,所涉及的,可以查找获取的数据信息,是非常巨大的,只有通过专业数据处理团队,配备比较先进计算通讯设备,运用专业的数据处理计算技能,才可能获得这方面的比较全面的数据,分析得出比较准确的信息资料。例如,当前,我国居民消费价格指数(CPI)的产生,是由国家统计局负责编制,在全国31省(市、区)、500多个市县的5万多个调查点,对262个基本分类,600种商品和服务项目规格采价进行汇总加权计算而产生的。但是,在价格统计方面,阿里巴巴基于淘宝网、天猫网、支付宝等网络平台的数据,获取的数据远远超过国家统计局编制CPI采集的数据,编制了网络零售价格指数(ISPI)。一些数据分析学家通过截取人们在互联网上的浏览记录、键入浏览器的字、或者说在网络上留下的一些痕迹,就可以把他们变化为数据,经过加工、变换、整理、分析出有用的信息。我国的一些大型企业,如一些商业银行、保险公司就开始构建他们的大数据,开始运用大数据技术,展开一些精准营销服务,如对一些特定客户推出特定的理财或保险模式等。从中,我们大致可以看出传统数据与大数据的一些区别。

 

   大数据产生的根源

 

  大数据的产生,归根到底是由于计算机、网络、信息技术的产生、兴起、发展而出现。数据的记录、传递和存储方式发生了质的改变,原先通过纸记录的数据、变为可以通过光电、磁盘来读写存储,由通过人工去传递的数据,变为可以通过光纤、电信迅速在全球传播。这样人们获取数据的能力极大地增强,把原先不能为大家共享的数据,变为可为全球共享,于是大量不同类型,不同地区,不同时刻的数据汇集,必定导致数据量的不断增大,也就成为我们所说的大数据。象互联网、云计算、移动互联网、物联网、车联网以及遍布全球各个角落的各种各样的传感器都是大数据来源或者承载的方式。大数据作为一种具有价值的资料,主要是由于以下一些原因:一是计算能力的增强,可用更低成本获取,如今各类计算机系统已能够执行多任务处理。二是计算机内存的成本也在直线下降,人们可以在内存中处理比以往更多的数据。三是把计算机聚合成服务器集群越来越简单。因此,一些在大数据方面占有先机的一些机构、企业和个人已经开始了大数据的运用,正在充分挖掘和获取大数据的价值。而且,随着计算机应用技术的进一步发展,大数据所需软硬件条件的更加优化,运用大数据将变得更为普遍。

 

   如何运用好大数据

 

  大数据解决方案分为两类:一类是数据获取保留方案;另一类是数据分析解决方案。在以往时代里,搜索成本受到技术条件的限制,人为垄断信息的事情也十分普遍,新的技术突破为改变这种状况提供了可能,人们可以通过网络媒体源源不断地获取大量的数据信息。为此,拥有巨量数据存储能力的计算机,构建数据库,获取存储所需要的大数据,能够快速运行处理大数据,是运用大数据的前提。当今,“数据海量、信息缺乏”是相当多企业在数据大集中之后面临的尴尬问题,这就是数据的应用没有解决好的原因,大数据技术没有跟上。大数据技术可以理解为从各种类型的海量数据中,快速获得有价值信息的能力。目前,大多数事物型数据库仅实现了数据录入、查询和统计等较低层次功能,无法发现数据中存在的有用信息,更无法进一步通过数据分析发现更高的价值。如果能够对这些数据进行分析,探寻其数据模式及特征,进而发现客户、群体或组织的兴趣和行为规律,预测到未来可能发生的变化趋势,这样将极大拓展企业核心竞争力。为此,培养掌握大数据技术,融合计算机、统计学、数据处理挖掘技术为一体的复合型人才,是大数据时代的当务之急,

 

   大数据时代的挑战

 

  由于大数据具有识别发现通常被人们隐蔽的信息,所以,通过大数据,很多的秘密就变得不存在了。大数据的运用,给国家、政府、企业、机构带来了很大的压力,就如我们统计部门提供的一些数据来说,一些民间机构、组织或者个人,也可能通过大数据获取部分我们提供的数据,这样我们的数据就要遭受大数据的检验,给我们统计部门的信息权威造成极大的挑战。对于国家层面来说,国外机构完全可以通过大数据掌握我国的经济发展情况,甚至做到比我们更先知先觉,从而通过一些途径唱多或者做空中国,给我们的经济平稳运行带来极大的压力。

 

  当然,通过大数据也会给我们带来很多实惠,如,通过大数据国家可以更快、更清楚了解老百姓的愿望、需求、期盼,更能分辨出一些事情的虚实真假。对于企业或者个人而言,能运用好大数据可以让他们规避风险,抢占商机,拥有明显的竞争优势,否则的话,可能处处显得被动。

 

  对于大数据的运用,不仅仅是中国,世界各国都在积极探索运用大数据,而且把这置于国家战略高度,而鉴于大数据的运用在软硬件方面都具有很高要求的特点,我们国家如何构建具有自己技术优势的大数据运用体系,正是大数据工作者在为之而努力的事情。

 

 

  (作者单位:江西省统计局科研所)