大数据审计——国家审计的未来之路(三):从“3V”到“6V”——浅谈大数据理念的变迁

09.10.2016  02:39

   

  来源:审计署网站提供信息 

  2001年麦塔集团分析师莱尼Doug Laney第一次提出了大数据发展的三个要素,数据即时处理的速度(Velocity)、数据格式的多样化(Variety)与数据量的规模(Volume)。之后,随着资讯科技不断地往前推进,数据处理的复杂程度愈来愈高,“3V”已经不足以代表新时代的大数据,陆续出现了“4V”,即加入了准确性(Veracity)要求;乃至“5V”、“6V”,增加了可视化(Visualization)和正当性(Validity)。

  这种概念上的扩容不是偶然的,最初的3个V,一个是Volume,意指数据容量越来越大,第二个是Velocity,数据量增长越来越快,需要处理的速度和响应的时间越来越快,对系统的延时要求相当高。第三个是Variety,为了利用各行业数据信息不对称特点挖掘新的知识点,多领域异构数据的使用愈发频繁。前“3V”代表了大数据兴起时对大数据主要功能特征的描述,简单地说就是“更大、更快、更多”,这三个词即表现了大数据的蓬勃,但又同时意味着新事物出现前期粗放式发展的特性。

  而后“3V”的出现就是对大数据前期出现问题的修正,首先增加的就是准确性,大数据中在应用之初,强调“只问关联,不问因果”,如著名的啤酒和尿不湿销售关联性的案例。但是一个成功案例的背后,也存在很多啼笑皆非的相关性,如Tyler Vigen在他的“伪相关”网站上展示的案例,每年影星尼古拉斯凯奇拍电影的多少和美国在游泳池溺水的人数存在正相关性,如果不问因果的话,还是让凯奇尽快退休吧;另一个案例则是每年美国非商业飞船发射数和社科博士学位的授予数高度一致,但完美的曲线并不能代表任何有意义的事。这些大数据的反面教材,意味着准确性在大数据应用中的迫切性。

  可视化是大数据的发展的又一大跨越,目前尽管大数据是一个热门话题,但是对许多企业和数据专业人员来说,它仍然很难理解。运用图表及其他可视化元素的数据,可以更便捷的在不同技术背景的人员间流动,能够更快捷的寻找问题答案、获取关键数据、挖掘隐藏信息、体现知识价值。可视化不仅仅是另一种数据的表达方式,而是对数据的理解和阅读方式的改变。

  最后一项是正当性,大数据发展的几年间在人类历史上只是短短一瞬间,但是所爆发出的力量却实前所未有的,所有人的工作、生活、学习都被不经意的记录下来,以数据的形式永远存在,这些数据的应用小到电商网站按照个人购物习惯投放广告,大到“棱镜”计划肆意收集个人信息,大数据似乎变成“饕餮”,吞噬着一切数字信息。因此理智的人们,为大数据这辆狂飙的快车加上了方向盘和刹车器,使大数据的力量用于建设而不是破坏。

  大数据发展至今仍然是处于一个大浪淘沙、去芜存菁,不断自我革命的初级阶段,现在谈大数据是什么仍然为时尚早,现在的“6V”也只是阶段性的描述,大数据到底何去何从,还是让我们拭目以待吧。