刘凡:数据如水

11.10.2013  18:15

 

 

——漫谈统计推断、数据挖掘和大数据

 

  水,清净柔和,滋养着天地万物,故曰上善若水。其德至善至纯,常为君子所悦,又曰智者乐水。数据,则是通过统计调查、实验检验等获得的,用于决策、科研、设计、查证等的数值。研究数据则是对数据进行采集、分类、录入、储存、统计分析,统计检验等一系列活动的统称。大数据时代的到来,无疑使数据变得炙手可热,甚至被称为“新时代的石油”,而从数据收集和发掘的几种特殊形式来看,说“数据如水”更为有趣。

 

春江水暖:统计推断

 

  “竹外桃花三两枝,春江水暖鸭先知”出自北宋诗人苏轼著名的题画诗《惠崇春江晚景》,作者寥寥几句,勾勒出早春江景的优美画境。特别是“春江水暖鸭先知”,把画家、作者以及读者都没有亲身体验的水温冷暖,描绘得富有情趣、美妙传神。由画中“桃花初放、江暖鸭嬉、芦芽短嫩”,推知画外的“河豚欲上”的初春气息,我们除了从中欣赏画中有诗、诗中有画之外,还可以找到统计推断的影子。

 

  统计推断是根据随机性的观测样本以及问题的条件和假定,对未知事物作出以概率形式表述的推断。概率论是统计推断的理论基础。统计推断问题常表述为:所研究的问题有一个确定的总体,其总体分布未知或部分未知,通过从该总体中抽取的随机观测样本作出与未知分布有关的某种结论。统计推断的基本问题可以分为两大类:一类是参数估计问题;另一类是假设检验问题。如上述题画诗通过随机抽取一个“鸭嬉”画面,测得“江暖”,进而推断早春真的来了。如果研究的问题是“早春是否还没来”,就需要通过样本“鸭子是否入水嬉戏”检验这个命题是否成立,这也是一种推断形式,即假设检验。由于统计推断是由样本推断总体,因此根据样本对总体所作的推断,并不能做到完全精确和可靠,其结论要以概率的形式表达。也许作为样本的江水受光照的影响有冷暖之别,并非春来;或者嬉水的鸭子并不惧寒冷,也未可知。统计推断的目的,本来就是是利用问题的基本假定及包含在观测数据中的信息,作出尽量精确和可靠的结论。

 

  常用的抽样方法有:简单随机抽样、周期系统抽样、分层抽样和整群抽样。采取适当的抽样方法确保抽样的代表性,可有效地控制和提高统计推断的可靠性和正确性。比如此诗中除了“江暖鸭嬉”,还有“桃花初放”、“芦芽短嫩”等抽样结果共同来支持早春来临的结论。

 

在水一方:数据挖掘

 

  “所谓伊人,在水一方”出自诗经秦风《蒹葭》,抒发主人公河畔倘佯,凝望对岸日夜思念的意中人之情,虽望穿秋水、可望难即,但其孜孜以求、执着追寻之意,颇有数据挖掘的意思。

 

  数据挖掘(Datamining)又称资料探勘、数据采矿,是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的一种决策支持过程。主要基于人工智能、在线分析和处理、情报检索、机器学习、模式识别、专家系统、统计学、数据库、可视化技术等诸多理论和方法,高度自动化地分析相关数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整策略,减少风险,做出正确的决策。针对市场企业而言,数据挖掘是一种透过数理模式来分析企业内储存的大量资料,以找出不同的客户或市场划分,分析出消费者喜好和行为的方法。数据挖掘是知识发现过程的三个阶段(数据准备、数据挖掘、结果表达和解释)之一,主要是通过与用户或知识库交互分析每个数据,从中寻找规律,其任务有关联分析、聚类分析、分类分析、异常分析、特异群组分析和演变分析等等。

 

  生活中有很多数据挖掘的例子。比如在传统市场营销中,街上派送的广告传单、手机上的垃圾短信、推销电话等等,都只是基于人群或者简单的用户、住户信息推送的,盲目且浪费。数据挖掘则以市场细分原理为基础,假定“消费者过去的行为是其今后消费倾向的最好说明”。通过收集、加工和处理消费者消费行为的大量信息,确定特定消费群体或个体的兴趣、消费习惯、消费倾向和消费需求,进而推断出相应消费群体或个体下一步的消费行为,并以此为基础,对所识别出来的消费群体进行特定内容的定向营销,这与传统的不区分消费者对象特征的大规模营销手段相比,大大节省了营销成本,提高了营销效果,从而为企业带来更多的利润。又比如,当银行账户申请双人联合账户时,可通过联合账户的数据挖掘,可以分析推断该用户是抱得“伊人”归,还是仍然隔岸相望,来决定向用户定向推销用于房贷、教育投资等业务,还是转而推送婚庆商品和服务业务,或者推送特快专递鲜花、礼品等业务。

 

上善若水:大数据

 

  “上善若水,水善利万物而不争。”语出《老子》,意为最高境界的善行就像水的品性一样,泽被万物而不争名利。水有滋养万物的德行,它使万物得其利,而不发生矛盾、冲突。海量的大数据,最终能不能成为这样一种水,值得期待。

 

  1980年,未来学家阿尔文·托夫勒在《第三次浪潮》中,将大数据赞为“第三次浪潮的华彩乐章”。受技术所限,大数据时代并未随之到来。直到2009年前后,“大数据”才开始逐步受到信息技术行业的关注。在历经批判、质疑、讨论、炒作等种种之后,大数据终于迎来了2013年——媒体所称的大数据元年。大数据到底有多大?有资料预计,2013年世界上存储的数据能达到约1.2泽(12亿TB)字节,印刷成书可以覆盖整个美国52次,存于标准光盘则可以堆成五堆,每一堆都可以高达月球。专家预测到2020年,全球每年新创的数据容量将会达到40泽(400亿TB)字节,如果要用标准光盘储存互联网在一天里传送的数据,大约需要2.5亿张光盘。

 

  大数据的原理在统计学人的眼里并不复杂,从抽样调查的角度看,样本选取得越多,得到的统计结果就越接近真实的结果。从海量的、多样的、迅速更新的数据中实时“提纯”出有用信息,就是大数据的意义所在。越来越多的政府和企业,迅速涉足这隐藏在数据汪洋中的大金矿。许多世界级的互联网企业、社交平台、电商,就连商场营销和影视制作都有大数据身影。比如一举成名的美剧《纸牌屋》,就是源自美国视频网站Netflix对喜欢BBC剧、导演大卫·芬奇和演员凯文·史派西的用户数据中的交集数据分析,打造出的一部“大数据”剧集。

 

  大数据对数据存储的方式和格式没有特定的限制,这也增加了人们对数据安全性、应用性以及隐私保护的担忧。人们微博、微信、地图、导航、逛街、购物、淘宝、浏览等等一切行为轨迹都可以被记录下来,注入大数据的海洋。从良好愿望的角度来讲,大数据将在掌握各类用户行为的海量数据基础上,为人们提供各种最佳决策咨询和方案。而由谁来掌握和引导这些海量的“”,促其成为“上善”,是在大数据热潮中亟需的冷思考。

 

  (作者单位:国家统计局江西调查总队综合处)