大数据审计——国家审计的未来之路(二):大数据——数据采集

09.10.2016  02:39

   

  来源:审计署网站提供信息 

   

  你采,或者不采,数据就在那里,闪闪发光。

  数据资源被誉为21世纪最大的资源。就像当年的淘金者一样,无数探路者涌入大数据分析的滚滚浪潮。俗话说巧妇难为无米之炊,数据采集是开始数据分析的第一步。

  数据按其来源可分为公开数据(如互联网数据)、半公开数据(如各类监控数据)、内部数据(如企业业务数据),相应数据采集方式有网络爬虫、传感器采集、从相关数据库中摘取等。

  众所周知,互联网上有大量的信息,如何高效的获取这些信息当然地成为了技术研究的热点。爬虫大概是智能搜索的形象化表述,开发者希望自己的程序能够像昆虫一样聪明地嗅到需要的信息。网络爬虫技术在舆情分析等社会学研究中得到不错的应用。

  网络爬虫基本原理

  传感器网络技术通常用于采集较分散数据,如大城市的交通流量数据。城市公交的刷卡机可以看作是一台独立的传感器,公交公司从上万台终端机中采集乘客出行数据,用于市政部门分析城市交通流量,或帮助商家分析热门商区。

  传感器网络基本原理

  数据库摘取指从企业的信息系统的生产数据库中直接提取数据,如阿里巴巴分析网购客户的购物倾向,又如银行的征信系统,通过用户的信用卡消费数据定义用户的信用等级,作为判定贷款发放金额的依据。审计人员经常遇到的数据库有微软SQL Server,ORACLE和DB2等,可以根据实际需要选择不同的数据备份方式取得数据,如备份规模较大的ORACLE数据时,可以选择数据泵方式,提高数据采集效率。此外,在采集过程中应注意保留备份脚本等辅助信息,采集之后要及时恢复数据并校验数据质量。