浅析大数据应用模型栈 探索审计大数据新模式
发布时间:2012-02-13来源:江苏省无锡市审计局作者:朱琢点击:47920一、引言
21世纪是一个信息化的纪元,它已经不能仅仅用信息应用高度发展和信息处理水平飞速来准确概括。物联网、云计算、大数据、互联网+、人工智能等等新型应用应运而生,其领域性和专业化凸显,经济和服务价值不断累积,且被广泛应用,为各界所认可。当前,大数据分析已在电子商务、统计预测、科学研究、商业决策等方面取得了深入融合应用,被Gartner Group评为“十大大战略技术趋势”和“未来五年十大重要技术趋势”。
大数据给国家审计领域也带来了一场深刻的变革。国家审计署就大数据与审计工作的融合进行了不少尝试,从金审工程1.0到3.0的发展步伐中,都能够看到大数据的身影,体现出大数据与审计工作内生共融的理念,更好地助力审计监督全覆盖。2014年,刘家义审计长在全国审计工作会议上提出“五个关联”要求,形象地指出了大数据对于审计工作的指导性作用,提出大数据建设是应对未来审计挑战的重要法宝。
二、现状
在外部环境层面,信息化基础性建设为大数据分析奠定了实施基础。国务院印发的《促进大数据发展行动纲要》提出未来5至10年我国大数据发展和应用应实现的目标。审计署牵头的全国信息化标准化技术委员会起草的GB/T24589《财经信息技术会计核算软件数据接口系列标准》经国家标准委批准发布实施。
在操作应用层面,基层审计工作更多得使用大数据分析手段。随着金审工程应用成果的推广,对于医保、扶贫、保障房、自然资源等重点审计项目,无锡市审计局大数据应用的介入率达到90%以上,融入到审前、审中、审后各个阶段,开创了数据同步建起来、上下内外联起来、及时有效用起来的新局面。
然而,经过了多年的发展,审计大数据的发展也遇到了瓶颈,凸显出一系列问题。一是大数据应用内容分散,技术使用层次较低,模型应用局限性较大,整合能力欠缺。项目独立性过大,项目与项目之间的技术耦合性低,无法实现大数据的复用,效率不高。二是大数据技术与时俱进能力不足。基层审计人员和技术人员基本使用老的SQL技术和数据分析软件进行大数据分析,能够使用或接触最新技术成果的机会很少。三是一线大数据应用复合型人才储备不够。审计人员要么偏向于更多懂得业务,要么更偏向于更多懂得技术。培养复合型人才、保持复合型人才队伍的稳定性是亟待解决的问题。四是基础性研发缺失。审计大数据应用主要还是聚集在审计报告中体现的几个疑点数字,对于相关的基础性研究和开发关注的较少。获取的数据质量不高,审计大数据应用在审计机关内部还停留在查询表面,技术应用板凳深度不够。五是信息安全管理缺失。大数据的使用和存储都存在信息安全风险,缺少专业的管控技术和机制,面对病毒、黑客的袭扰往往成为惊弓之鸟。信息安全成为悬在大数据头上的达摩克里斯之剑。
三、模型
学术(技术)的发展规律都有着一定的客观相似性。从上世纪八十年代以来,计算机相关技术的发展和应用都存在这样一个生命周期:尝试探索,重大突破,成熟稳定,整合增效,淘汰跃迁(图1)。大数据应用最终也将走上系统整合之路。
图1
国际上有7条大数据分析应用系统组建的原则,首当其冲的就是需要一个优秀的结构和框架。传统的信息处理结构建立在基于DBMS数据仓库或操作性数据存储的单项整合、分析和展现。但是大数据的发展需要的是一种高层级的分布式并行组合机制,并结合NoSQL为代表的实时高效回收机制和Map/Reduce为代表的数据嗅探批处理机制。因此,审计大数据应用功能模型栈可以分为五层架构,由下而上分别为数据结构层,数据采集层,数据转换层,数据分析层和数据决策层。
(图2)
1.数据结构层
数据结构层的本质是各类数据结构及附属结构的集合。大数据应用2.0功能模型栈中的数据结构是计算机技术中涉及的数据结构的简单引用,而是一系列数据标准的定义集。由于技术手段发展的动态特征,需要不断定义、补充维护好一个标准库。其中按照数据结构类型可细分为标准型数据、非标准型数据和校验类数据。
标准型数据其实就是当前审计过程中数据分析所使用的常用数据信息。它包括MS SQL、ACCESS、Oracle、MySQL、DB2、SQLite、达梦等国内外主流数据库文件或备份文件,Excel、ETable等办公表格文件,CSV、TXT、DAT等平面文本文件,XML、JASON等标记语言文件,ERP、SAP、用友软件等业务系统输出文件。标准型数据结构化程度较高,数据应用面广泛,使用手续比较简便。国家在《促进大数据发展行动纲要》中向各单位提出“建立标准规范体系,推进大数据产业标准体系建设”的要求,为此类数据的互联互通和广泛使用奠定了坚实基础。
非标准型数据是大数据分析的重点攻坚对象。它包括网页数据、纸质表格、多媒体文件等。这些数据类型灵活、分布不均很难被直接获取和使用,但是难以被篡改和消除,具有很强的印证功能。这些数据需要通过第三方技术进行初步汇总和解析。当前比较成熟的技术就是Crawler技术、(TH)OCR技术和GIS技术,分别实现了对网络媒体、图像视频媒体、地理定位的数据搜索和整合。当前,不少地方审计局已经开始尝试非标准数据的实际应用,在异地审计和项目工程审计中探索整合Crawler技术和GIS技术,大大提升了非标准型数据利用率。
校验类数据是数据结构层的重要组成部分,是标准型和非标准型数据的重要补充,体现出明显的审计大数据特色。当前在审计工作中获取有直接难度,集中化使用更是寥寥无几。校验类数据主要由痕迹型数据和印证型数据组成。前者作用于数据访问和操作的留痕,包括日志记录和访问记录等。它完成了对大数据质量和准确性的校验,显示了数据操作的疑点行为,也是打造“审计免疫系统”的基础。后者主要完成了数据信息的保全,确立了电子信息取证的合法性,降低了与被审计对象的法律纠纷风险。
2.数据采集层
数据采集层位于数据结构层之上,反映的是最为基础的数据采集工作流程,在整个框架中是反映的所有数据采集接口及实现这些接口的方法应用。本层更多得涉及系统内外、软硬件之间的交互,并涵盖各类存储介质及存储阵列的信息读取。在当前的大数据分析过程中,地位比不上数据分析、模型建立、案例制订等后期处理工作,以至于在审计一线研究和实践的较少。其中可粗略分为系统采集接口、网络采集接口、个性化定制接口和信息安全接口。
系统采集接口
系统采集接口主要是针对管理和存储标准型数据,也是最为常见的接口,负责大规模的结构化数据输入。一是当前用得比较多的是标准型数据管理系统配套的数据交换工具,如SQL Server Management Studio,PL/SQL Developer,ERP数据导出模块等。能够比较简单的实现数据的批量采集,使用面广,在Vbox、Docker等虚拟机和虚拟容器解决方案的支持下大大降低了运行环境门槛。二是第三方开发使用的数据导入系统,如AO、各类会计事务所导账软件等。这些使用起来比较灵活,针对性很强,也更加贴近审计项目的实际需求,成为审计机关内部必备的大数据采集利器。
网络采集接口
网络采集接口实现了远程的网络数据调度。它主要是完成对分布式存储、云计算和社交平台信息的采集、归一化和结构化。一方面是实现对各类“网页”信息的采集。可以是文本批量搜索、JS动态页面、Ajax页面、Post请求、音乐视频等多媒体,也可以是当前发展最为迅速的各类社交软件或是在一定衰减阀值范围内的码分复用波段。另一方面是分布式大数据流的数据处理接口。诸如Sqoop、Flume等HDFS API提供基础性输入,以完成实时或者接近实时地处理大数据流,并且具有一定的容错能力。当前应用比较广泛的Apache三大框架Storm、Spark、Samza,都是开源的分布式系统,具有延迟低、可扩展和低容错等诸多优点,并且提供了简单的API来简化复杂度。
个性化定制接口
个性化定制是多种接口的综合,更是审计大数据发展的实际需要。当前审计除了传统监督单位,更要从政策落实和资金、资产、资源的流向扩展到相应的单位和对象,数据采集维度多,技术要求高,手续复杂。个性化定制就是通过加强数据采集方式方法的研发来打造更加便捷易用的数据采集接口,能够大大提升各种底层数据结构的识别性和采集的自动化程度,解放人力成本及技术依赖性,实现从Language、Shell到Script、UI的转变。
信息安全接口
信息安全接口是一套与大数据采集相配套的安全管控体制。大数据也意味着大责任,数据采集后的保存和销毁将是大数据应用无法回避的一个风险点。一方面要建立完备的信息安全体系,落实严格的内外数据物理隔离制度,夯实入侵检测和防范功能。例如在“江苏省审计数据报送信息安全制度”中对于数据采集报送流程进行了严格的要求。另一方面,对于原始数据的储存和销毁进行全方位管控。在加密条件下实现专人专机保管,底层碎片化销毁,确保各类保密、隐私信息无风险、无泄漏。
3.数据转换层
数据转换层的作用相对简单,是一个典型的管理型中间件。在兼顾效率和资源的基础上实现采集数据的整理和调度。相对于当前使用的审计大数据分析,数据转换层更多得面对机器学习、智能决策和风控管理。无论是维度转换、过渡持久化、学习容器还是权限控制,都是为应用级别的大数据分析提供面向使用者的数据透明。
多维度转换与持久化
多维度转换与持久化其实是OLAP、OLTP的前期数据预处理。通过在数据转换层的预处理实现原始采集数据的过滤、筛选和维度扩展,方便审计业务数据对象的精准特性并理顺业务逻辑。常见的解决方案有全自动的HIBERNATE,半自动的IBATIS和手动代码连接池等。当数据量膨胀到一定程度,需要一定的程序持久化来保证上层的分析效能和数据吞吐量,为分区、并行、RAC多点技术提供多级缓存支撑。对于离线的现场审计,维度扩展和持久化的意义就是为便携式设备使用上层应用提供效率保证。
权限控制
权限控制落实了大数据使用的最小化原则。大数据不代表大用户,反而是数据隐私敏感程度要求在规定的要求下规画最小的一个圈。结合OA的人员权限管理机制,将数据权限同人员权限直接挂钩。数据转换层将原本应用层的权限控制职能下放到了中间层,达到了类似从逻辑隔离到物理隔离的防护功能,再结合维度重组和过渡持久化,大大提升的权限控制效果,尽可能降低大数据泄漏的相关风险。
机器学习容器
学习容器也就是常说的机器学习平台或者是机器学习引擎。在数据转换层中学习容器就是搭建了连接机器学习应用与多维数据的桥梁。但是其实际上是一个相对独立的运行环境,更像是一个大数据应用的容器。对于常用的机器学习工具scikit-learn,spark MLlib等相关的底层运行容器能够很好得将Anaconda、hadoop进行虚拟化包装,并且在最大程度上控制运维成本。
4.数据分析层
数据分析层实现的是最常规,最基础的大数据分析算法,它是数据挖掘的凝结和提炼。当前各个审计案例中所描述的查询语句、建模过程、数据统计都是大数据分析算法在专门项目上的体现,其归根结底就是算法模型的海量集合。由于这些算法更多得依赖于数学积累,从某种程度上反映出数据分析层更应该是数学模型层。因此,大数据应用的发展需要将更多的基础数学和应用数学的科研成果融入审计大据模型栈之中。
异常查询
数据分析最基础就是对结构化大数据的大批量比较查询,也就是通常我们按照一定的业务逻辑所筛选出的不同、极致和比值。审计机关可以根据审计需求,通过关联分析关联,在纵向深度上利用信息流、资金流、时间维度等实时跟踪审计,在横向主题数据范围拓展审计单位进行批量审计,从而充分利用审计中合规性、真实性数据分析结果,突出关键控制点审计。在大数据模型栈中,直接查询的最大攻坚目标是提升多表间的查询效率,简化时间和空间复杂程度,降低单机运算负载最大程度提升其单机执行能力。
标准化建模
标准化建模按照审计业务需求建立不同模型,将最新的统计学和应用数学与审计业务结合起来,涵盖关联规则、逻辑回归、神经网络、协同过滤推荐、决策树等多种方法。在大数据框架中的建模不是平时审计项目中的个例,需要建立一批标准化建模库,易插拔、易持久,能够被整个系统进行统一应用。标准化建模的另一个重要职能是进行算法的优化。诸如协同进化算法等大规模优化算法和WSNs、ITSs等实时优化算法在大数据应用中都能起到精简时间和内存消耗的成效。
统计计算
统计计算是大数据分析最为基础的功能,也是大数据最明显的优势。统计计算在大数据框架下更依赖于软件定制开发,需要一定的研发力量。如何增加统计复用性,提升计算效率,增进数据质量成为大数据统计计算的关键,也需要进一步依赖基础三层的ETL过滤提纯。
5.数据决策层
数据决策层就是大数据相关的各种决策辅助应用:各种软件、各种服务、各种系统,是大数据最前端的展示,也是大数据和审计人员交互的平台。“集中分析、发现疑点、分散核实、系统研究”的数字化审计方式就是大数据应用在审计中的直接体现,主要有视图报表、趋势分析、自动化系统、人工智能等几大类。
视图报表
视图报表是应用层最常见的大数据分析结果显示应用。数据在前四层完成的基础上的可视化数据体现,更多的带上了趋势分析、概率评估的成果。应用层基本上是各类编程前端,可以是B/S,也可以C/S,完全依赖开发需求。近几年,诸如审计数据分析中心的使用代表了各类审计大数据展示平台的打造已经愈发成熟,从传统的小数据集到复杂的三维,甚至是四维可视化模式。随着数据范围的扩展,在可视化大数据结果之前,特征压缩和几何建模算法能够很好的降低数据体积,帮助可视化视图的展现。
自动化软件
信息化与自动化密不可分。笔者认为,直至今日自动化在审计工作中仍大有可为之处。大数据应用向深入发展必须依靠自动化来降低现场操作难度。可以使用python类的解析语言,帮助各个功能模型完成自动化水平的提升,大大增强单兵作战能力。这是大数据应用的重要功能模块,也是审计信息化建设的发展方向。
人工智能
大数据审计应用当前在AI方面基本上还是一个空白,但绝对是未来大数据应用的一块处女地。马化腾在2017年中国“互联网+”数字经济峰会上表示:“未来就是在云端用人工智能处理数据”。在机器学习的基础之上建立智能分析判断机制应该成为审计大数据的发展方向。Map/Reduce、DryadLINQ都可以成为审计大数据的深度机器学习解决方案,SVM和ANN则实现智能化整合,确保大数据AI的高效与精准。
四、作用
在国内,不论BAT、浪潮华为还是移动电信都有自己的一套研究方案,也在探索自己的功能模型,并且一掷千金。对于审计机关而言,大数据应用功能模型栈的作用是指导性的,或者说是方向性的。
一是发展现有成果。大数据功能模型不是要求另起炉灶,而是在现有信息化建设和数据分析成果上的提升和发展。现有的审计模型案例、数据分析平台、海量数据存储都是未来大数据功能模型栈使用的前提和基础。构建一个完善的功能栈能够最大程度运用好现有的审计信息化成果,让大数据应用建立在近20年审计工作信息化的基础之上,大大节省各类成本投入。
二是融合最新趋势。当前大数据的发展已经体现出专业化、精细化、特殊化的新趋势,各种新算法、新应用、新功能层出不穷。大数据应用功能模型栈从各个层级兼容了各类大数据分析技术。无论是底层的采集分析和安全防控,还是上层的机器学习和智能化分析都能够填补当前审计大数据分析的狭义性缺陷,并且从多个方面垫补了现有大数据应用在宏观层面的不足。
三是实现立体统一。功能整合是大数据功能模型栈最本质的特点,这是一种立体化的有机整合而不是简单的杂糅。在技术层面,一方面要有足够的低耦合性,各个层级、各个模块都遵循自己的一套标准流程,能够独立发展与更替;另一方面又要实现整体透明性,对于审计主体而言,实现完全的透明,提供最纯粹的大数据审计支撑。在管理层面,持续推进业务和制度的统一。各类审计业务数据全局共享、全局管理、全局监管,全面打通业务条线的职能框架,实现大数据层面的一体化。
四是提升审计效率。提升效率是大数据功能模型栈的最终目的。大数据功能模型栈贯穿了从数据采集到数据应用的各个环节,通过立体化整合提高了复用程度和操作门槛,打通从数据采集、专业调度、深度学习、智能分析到AI的大数据基础,实现“和审计人员一样的方式,但是比审计人员快无数倍”的整体功效,让点对点的抽查到全覆盖审查成为新常态。让每一个审计人员高重复性的审计流程中解脱出来,只需要专注于最终的审计结果决策。
五、展望
审计大数据功能模型栈是审计大数据2.0模式的基本构架,也是下阶段审计信息化建设的起点。帮助审计系统内部,协调数据与机器、数据与审计人员、数据与数据的三大关系。
在不久的将来,大数据为审计全覆盖搭建起智慧的桥梁。到那时,审计所需要的不是面向单个业务需求的静态数据分析结果,而是一种广义的大数据集成应用:突破数据结构的限制、具有完备的安全管控、多种功能的完美集成、多类模型的高效复用、友好便捷的操作界面和动态演绎的智能推理。
以上内容来自网络,如有不妥请告知,我们将尽快删除相关内容