审计论坛当前位置:首页 >> 审计漫谈 >> 审计论坛

运用互联网大数据支撑内部审计工作的探索与思考

发布时间:2012-02-13来源:浙江省审计厅作者:点击:510

    以大数据为代表的信息技术迅速发展,互联网大数据应用正涉及我们生活的方方面面。做为独立的行业内审机构,如果审计信息系统尚不完备,就要充分利用好互联网这个大平台。依托互联网上海量的公开信息为支撑数据源,深入挖掘可以利用的信息,采用简单的数据分析库比对来控制内部风险、并形成可持续监督。通过互联网大数据获取的信息,来减少信息不对称导致的审计难度。

  一、数据挖掘技术及分析

      审计人员一般对被审计单位的系统数据进行访问和查询,最多通过数据库查询语言来查询检索。我们希望通过以前大量的审计工作经验中发现的审计模式作数据模型,利用互联网的大数据源,挖掘审计数据间潜在的信息关联,为审计人员做出可预见性的、基于认知的决策。

    (一)应用数据挖掘审计问题。一般的数据分析是通过审计人员已有的知识和经验,这存在许多不足之处:一是审计人员个人的知识和经验有限,当审计经验面对海量数据时往往只能采取抽样的办法;二是数据属性发展很快,审计经验常常滞后,造成与实际需要的审计业务不同步;三是不同审计人员的认定标准差异,无法保障审计质量的公平公正;四是传统的数据分析方法,面对大型数据库无法及时处理及全覆盖。

  (二)审计数据挖掘。被审计单位提供的数据越丰富,数据量越大越好,只有拿到高质量的数据,才能作出准确的判断。通过数据间的关联,做到从量变到质变,从而产生审计经验,产生认知模型,并进一步达到建立数学模型的可能,为更广泛的审计打下坚实的基础。

  (三)审计数据分析。利用互联网大数据中已知的关联数据信息来支撑审计人员原先没有意识到的问题,提高审计人员对被审计单位原有数据库数据的认知程度。数据挖掘与数据比对技术、方法千差万别,如何选取适合审计工作的算法对审计的效果起着决定性的作用。在数据使用过程中很多分析、挖掘的办法往往需要与其他分析方法配合使用,才能为审计工作所服务。工作中,普通的业务数据和财务数据具有一定的普遍规律性,一旦某些数据异常变动或者异常表现,往往成为审计工作的重点。同时观察其变动特征,又能发现新的关联关系。

  二、审计工作支撑数据来源

    (一)互联网数据选取。审计工作涉及到方方面面的数据,小到柴米油盐,大到工程机械,简单的如单位药品管理,复杂的如违章消分、企业股东的互相持股。以上面例举的物件为要素,从互联网上我们可以得到相应的数据,如蔬菜价格可以紧盯山东寿光的蔬菜交易价格,计算机设备可以查询京东、天猫的旗舰店价格,企业股东信息可以依据天眼查。

    (二)数据的标准化。互联网数据源,来自不同领域的业务数据,其采用的网站技术、数据库技术及数据格式不尽相同。对此,审计部门应从数据采集过程中,使格式化数据统一。实施过程可以采用两种方式:一是人工筛查,人工筛查优点是数据准确,数据利用率高,缺点是效率低;二是在前端数据采集时就限定字段、属性,机器采集或者搜索引擎采集效率高,但是准确率肯定降低,对以后的数据比对,数据预警将产生误报情况。

    (三)数据的搜索方式。一是通过搜索引擎搜索:它的基本原理是使用搜索爬虫技术来遍历因特网,将网页上分布的信息结构化数据后存放于其服务器中,对于用户提出的查询,搜索引擎提供链接,返回给用户。二是借助专业的搜索工具,对特定网站进行检索:该服务我们可以借助各网络舆情公司开发的系统进行,其特点是精确,缺点是数据覆盖面可能不全。

    (四)数据采集。高质量的数据需要:采集+挖掘+清洗+排重,我们一般采取精准采集,通过网站数据接口直接从相关网站上导入数据,数据精确,但是需要前期与网站协调,成本较高。如无法拿到接口程序,则直接采用爬虫技术遍历该网站所有数据,抓取数据直接写入数据库,入库前自行数据排重;结构化列表,抓取数据直接存入数据库相应表中;利用现有的清洗技术,过滤掉无效数据字段,筛选出和项目密切相关的数据,甄别高质量数据,获取可供审计分析的可用数据。在此数据基础上我们就可以通过构建数据模型进行分析,分析其关联性、差异性、趋势性,提高审计工作效率。

  三、审计工作面对大数据存在问题

     (一)审计手段相对落后。现在的被审计数据往往是各种数据表所形成的数据集合,具有体量大、类型多、价值密度低的特点,繁杂的数据和冗长的数据属性给内部审计工作的要素收集、分析带来了许多困扰。而传统的审计工作的单一性和片面性,会导致审计的广度、深度、高度严重受限,无法满足现今审计多维度、全覆盖的要求。

    (二)审计范围受限。在数据信息化时代下,所有的业务情况都以不同的数据形态存在于各大管理信息系统中,只有了解数据才能真正了解其业务。传统内审主要精力更集中于财务审计,所使用的只是行政管理数据中的某张或几张数据表,这直接导致内部审计覆盖面偏低、角度单一,无法满足内部审计“全覆盖”的要求。这样的审计结果误差较大,很可能导致问题没有发现,漏洞没有堵牢,存在较大的风险隐患。

    (三)审计质量不高。传统内部审计存在技术业务瓶颈,主要表现为分析数据信息能力不足,依托的外部数据不够,可参考的业务模型、数据模型不完整。其主要原因在于配套的可参考数据或者是标准数据不足,能使用的数据关联模形不够。传统的审计人员大部分有较为丰富的会计知识,但大数据分析、数据间的内在属性、行业知识等方面的经验不足,难以对数据信息进行及时准确的筛选、分析。

  四、数据挖掘技术审计思路

    (一)通过互联网数据建立模型。对审计项目中的各要件根据其属性、内在联系建立模型。例如公务车辆数据,公务用车一般采用一车一卡,根据车辆型号,我们可以抓取“汽车之家”网站获取车辆排量、油箱容量、轮胎规格、工信部油耗、保养间隔时间;抓取“百度地图”数据为车辆属性提供加油地点位置;根据工信部油耗、车辆加油量推导加油间隔时间函数。PC服务器等固定资产,或者食堂内的食品,可直接根据其属性、型号等直接建立相关数据。

    (二)审计思路。对已建立模型的数据,则可以直接导入数据对结果进行研判。对在实际审计过程中发现的新对象,未建立过数据模型但互联网上有公开数据可以支撑的,我们可以现场抓取互联网数据及历史数据,依托数据库的各种查询语言实现数据分析、比对。我们以公务车辆为例,审计单位一般会提供一车一卡的加油数据,包含加油地点及加油时间及实际每月行驶里程。依照车辆属性,我们与车辆数据模型进行碰撞,如油耗、加油地点、加油时间等是否出现异常,油耗异常我们可以参考工信部油耗参数设置一个阈值,超过阈值即为异常;加油地点参数则可以直接导入百度地图来直观显示加油地点,分析是否存在异常加油情况;加油时间可测算出加油时间间隔与前次加油量及工信部油耗来计算后次加油最小时间间隔做比较,排查是否异常。在计算机的帮助下,该些信息都可以通过简单的数据库语言进行碰撞。

    (三)数据分析和查询。对没有数据模型的数据进行分析,我们可以使用EXCEL自带的VLOOKUP、HLOOKUP函数,或者数据库语句进行查询检索。

  我们在审计过程中会碰到同时多张表单比对数据的情况,这时我们即可运用查询符合多个条件的记录,公式的模式化写法为:=LOOKUP(1,0/((条件区域1=条件1)*(条件区域2=条件2)),查询区域)。我们也可以利用数据库语句进行查询检索碰撞。利用SQL语句中的“select   from  where”可以构建简明的查询方法,语法使用可以网上自学,简明扼要而且逻辑性强。

  五、运用挖掘技术审计案例

     2018年7月,我处对某分局一单位进行审计,该单位拥有7辆公务用车,其中桑塔纳3000车型3辆、帕萨特1辆、途安1辆、东风锐骐1辆、考斯特1辆(汽油版)。我处根据一车一卡情况,通过中石化系统,导出该7辆车2017年度的加油情况,主要保留加油时间、加油量、加油地点三个参数,制作成一张看单位车辆使用情况数据表。我处在前期已经根据“汽车之家”网站提供的车辆基本信息,将我局公务用车车型的参数做成一个简单的sql数据库,每个车型一张数据表。然后根据车型进行逐一碰撞,条件设置为:1.加油量超过油箱容量,输出报警;2.前次加油量超过油箱85%,下次加油量超过两次加油时间(单位小时)*百公里油耗的200%,输出报警。经过数据碰撞,产生出两条数据,一条为桑塔纳3000车油卡单次加油80升;一条为帕萨特车油卡,间隔2小时,前次加油55升,后次加油100元。经与被审计单位沟通,并查询加油当日出车单及加油地点,确认两次均与油卡管理有关,前次为桑塔纳3000与考斯特一起出行时,考斯特油卡未随车携带;后次事件为帕萨特与一桑塔纳车型一起出行,一辆未携带油卡。

       凭借互联网大数据支撑和简单的操作软件,筛选出准确、有效的数据,从审计角度出发,迅速完成对数据的多维度加工。不仅节省了审计数据准备、筛选数据阶段花费的大量时间和人力成本,更大大提高了审计人员统计、分析审计数据的能力。使得审计人员能够快速打通数据壁垒,获取到标准化、数据化的参考数据,准确掌握、知悉数据之间的关联关系,进而更精确查找到审计的着眼点、突破点,大大提高审计的时效性、针对性。

   六、几点思考

       开展大数据审计应实现两个转变:一是从“流程”核心转变为“数据”核心的转变。以往审计工作都是按照程序,查找问题,规避风险。有了大数据支撑,我们可以直接将数据导入,对异常情况直接分析,反向查找程序中存在的问题。二是从抽样转变为需全要素样本审计。如果依托的数据足够多,关联模型足够完整,就能够摸清业务规律,对异常数据可以做出准确、合理的判断。

     (一)从数据中来到数据中去。现有的行政管理和财务管理基本实现信息化,能否将产生的数据直接进入审计信息系统进行分析研究,使审计工作做到实时性。

    (二)多种业务数据合并分析。财务数据与行政管理数据多有交集,能否发现两种或者多种数据的内在联系,建立审计数据模型,为我所用,为大家所用。

     (三)建立审计互联网数据核心。具有内审部门的单位都是大单位,都存在食堂、公车、人员差旅、招投标等共性情况,能否由国家审计部门或者内审协会牵头建立互联网数据核心,直接从各互联网大平台获取共性参数作为审计支撑,个性参数作为审计参考。




以上内容来自网络,如有不妥请告知,我们将尽快删除相关内容
网站首页 审计速递 审计漫谈 八面来风 艺术鉴赏 趣谭生活
联系方式15956947313(微信同号)
版权所有 审计文化网
皖ICP备17027339号 | 皖公网安备34011102003269号