本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>
工业时代使商品从稀缺变为过剩,信息时代使数据从稀缺变为过剩。
对政府而言,由于无纸化办公、政府上网工程和电子政务建设,大量文档、网页和数据库被创造出来,信息资源出现爆炸式增长。在转入智慧城市建设之后,智能手机和传感器成为新的数据源,移动互联网流量已经超过有线网络,物联网也将成为大数据的重要来源。
政府大数据到底有多大?在某自治区经信委,听到的第一手说法是:在自治区本级数据大集中后,每年的数据增长量是几十TB,公安系统最多,大概有十多TB,视频监控占了大头。如果只算存在传统数据库中的哪些数据的话,远远没有达到大数据的量级。当然这是中西部的情况,在东部发达地区,则是早已跨过了从小数据到大数据的临界点。
电子政务是为公务员服务,这是玩笑话。智慧城市是为人民服务,这是真心话。数字政府则是电子政务和智慧城市在数字经济时代的融合发展。
单部门、单条线的信息化并不难,真正难的是打破既有条条框框的信息系统重构。部门应用系统的构建也不算难,更难的是对多部门应用系统海量积累数据无特定目标的开发利用。
信息化建设重心已经从行政管理转移到公共服务,近十年来持续深入推进的行政审批制度改革乃至放管服改革体现了这个大潮流。以公共服务为中心,整合各部门和各条线的管理和服务职能,从分散的数据源单位进行数据归集和整合,形成公用数据集,再进一步进行大范围共享乃至深层次分析,对政府而言是十分陌生的信息化新领域,只能摸石头过河,没有现成经验可借鉴。政府习惯于纸面和案头工作,没有经过商业智能应用阶段的历练,就一下子进入了大数据时代。
以社会信用体系建设为例,社会信用数据绝大部分从政府来,其权威性无可替代。但是,社会信用数据的原始记录分散在几十个部门,有近千条数据元,有些领域如行政执法甚至没有完全信息化,如何归集、管理和使用并无成规定例,所以很多地方政府也是一头雾水。
信息经济学的统计结果是:政府占据全社会80%以上的信息资源,都是高价值密度数据;其中有80%是非结构化信息资源,也就是各类电子文件。把数据藏着掖着,自己不用也不给别人用,这就是政治不正确了。
2007年以来,很多地方还欠着政务信息资源共享交换的旧账未还,就是想干也是知难而退。没想到2014年老少边穷的贵州放了一颗卫星,那就是贵阳大数据交易所。从信息化水平和数据存量来看,贵州并不是最适合搞大数据的省份,至少广东表示不服气。不服气也没有用,反正贵州现在成了大数据的朝圣之地。没有从北京调任贵阳的陈刚书记,这一切都不会发生。“用中关村经验发展贵州大数据产业”,这一招很给力,习总书记在视察时说:“我听懂了,贵州发展大数据确实有道理”。
于是乎,各地政府也都“听懂了”,对大数据趋之若鹜,蜂拥而上,大数据产业园区、发展规划、管理机构、重大工程如同雨后春笋,争相冒尖。
但是,越是头脑发热的时候,越需要冷静思考。尤其是领导,对大数据发展的认识很关键!
我参加了很多打着“大数据”旗号的项目交流,与分管领导和部门领导多次当面沟通。个人观察,领导对大数据的认识误区主要有三个,所以有三句真心话想说给领导。
希望领导能听得进去,不然的话,接着就是大冒险了。
• 最大危险就是脱离实际
大数据很高大上,当然要放眼全球,那些互联网牛X公司怎么搞,政府也要怎么搞。分析型应用过时了,怎么也得机器学习、数据挖掘、模式识别什么的。我想小声提醒一句,不知领导能不能听进去:不管自身需要和条件,搞出个镜中花、水中月,中看不中用,摊子铺大,不好收场。
某市经信委领导就难得清醒,大概是被大数据公司忽悠多了,清醒中带着几分愤怒。他说:都说要搞大数据,你数据从哪儿来?部门把着数据不放,攒鸡毛凑掸子,好容易弄点数据,又更新不了,那么点数据能分析出什么?乱七八糟的数据能分析出什么?没有那么多数据,用得上什么Hadoop、Spark吗?政府又不是银行、电信,流处理、批处理有什么用处?花那么多钱,费那么大劲,分析出来真的有那么大价值吗?政府做大数据,难道就是建个数据中心,先从部门把数据收到一起,怎么分析以后再说?要不就再上个Hadoop开源平台,弄点示范应用,凑个热闹就行了?
数据共享问题的本质是,数据高度分散性和无序性与数据开发利用高度集中性和选择性之间的矛盾。
对大数据而言,本源是数据本身,派生的才是对数据的分析。从这个角度来看,大数据应用范式有两种,称为A范式(Analytical Application)和D范式(Data as a Service)。
说句白话,A范式就是做决策,主要是面向领导的分析型应用建设,更关注对数据进行分析后的结果,比如现在很火的城市大脑;D范式就是办业务,主要是面向业务部门的公用数据集建设,更关注以数据内容为核心的服务,比如使用人口基础库进行一网通办的统一身份认证。
大数据的基本前提是要有数据,没有数据一切都是空谈。没有高质量的数据整合,大数据应用就是无源之水、空中楼阁。
从政府大数据所处的历史阶段看,在很长时间内,公用数据集都是主流,分析型应用仅适于少数高精尖领域,走到这一步也许需要五年到十年时间。东部发达地区已经从公用数据集建设向分析型应用建设转型,中西部地区刚开始公用数据集建设,甚至最基础的数据资源目录和交换体系都还有欠账。
• 行政手段打不过经济理性
政府在解决难题的时候,应该克制动用行政手段的本能冲动。
行政手段立竿见影一抓就灵,但是大多治标不治本,副作用和后遗症更多。
数据共享就是一个大难题,既然这是政府内部的事情,各部门就得听招呼,不想共享,那就发个文件,命令你们必须共享,把数据共享纳入督查,看哪个敢顶着不办。这就是有些领导的思路。
归根结底,数据共享的初衷就是避免地下交易,降低整体成本。一个部门找另一个部门要数据,还要给钱,花的都是财政的钱,简直是个天大笑话,这对市长来说是无法接受的。
所以,从各地出台的《政务信息资源共享管理办法》来看,理所当然地规定,部门对外共享数据必须免费,而且要保证及时更新、数据质量等长期责任。
但是,要数据的不给钱,给数据的却要花钱,问题就出来了:谁来买单?领导会惊讶的问:做数据整合还要花钱?没错,是要花钱,不但是一次性花费,而且是持续性投入。
情况是这样的:要数据的大都比较急,只想要他想要的,别的一概不要。给数据的先要理解人家要什么,还要弄清楚数据从哪里来,从多个数据源整合成目标数据集,交付前还要做质量审查。这对给数据一方而言,要付出劳动,有人工成本。如果是长期数据共享,还要建立定期更新机制,意味着持续运维成本。但是,谁来承担一次性投入和持续性成本?一次性投入可以打包成项目,持续性成本却没有这样的制度安排。
情况是这样的:要数据的大都比较急,只想要他想要的,别的一概不要。给数据的先要理解人家要什么,还要弄清楚数据从哪里来,从多个数据源整合成目标数据集,交付前还要做质量审查。这对给数据一方而言,要付出劳动,有人工成本。如果是长期数据共享,还要建立定期更新机制,意味着持续运维成本。但是,谁来承担一次性投入和持续性成本?一次性投入可以打包成项目,持续性成本却没有这样的制度安排。
由于大数据项目上线,数据管理和服务这样的日常职责也随之出现,这就需要有机构来承担这个新职责。一般思路是让信息中心来承担,或另设独立机构,比如大数据管理中心、公共信用信息中心什么的,但都需要增加编制和经费。对于财力不足的地方而言,PPP社会化融资也许是一条出路,比如成立大数据合营公司,但是也没有现成模式可以参考。
• 技术不能解决一切问题
有笑话说,如果有问题久拖未决,一定是管理问题而不是技术问题,是领导问题而不是人员问题。领导的境界和格局很重要,没办法,谁让你是领导。领导认识不到位,问题就没有解决的可能性。
有笑话说,如果有问题久拖未决,一定是管理问题而不是技术问题,是领导问题而不是人员问题。领导的境界和格局很重要,没办法,谁让你是领导。领导认识不到位,问题就没有解决的可能性。
很多领导不理解,不是建了一大堆大数据技术平台吗,为什么还是不能解决数据共享问题。如果IT可以解决一切问题,数据共享问题早就解决了。
这是信息时代出现在政府面前的新问题,是体制机制缺位和不配套所造成的。政府大规模信息化和数据海量积累,造成跨组织边界的大规模数据共享需求日益强烈,但政府却一直没有相应机构设置和制度安排,为数据资源开发、技术平台运转和数据服务交付进行配套,造成数据进不来、整不了、弄不好、出不去。
政府大数据既有一次性的技术问题,也有持续化的管理问题。一次性问题都是工程项目,比如数据共享交换平台,验收了就完事大吉。持续化问题则是体制机制的软环境配套,比如机构职责、管理流程和制度、技术标准和规范,核心是元数据管理、数据质量和数据服务的全生命周期管理,这就不是一日之功了。
这需要引入新的管理手段,往大了说是数据治理,往小了说是数据管理和服务。
数据治理在金融和电信已经开展多年,是基于数据价值对数据资产进行PDCA(计划-执行-检查-调整)的活动集合,是一整套的机构、制度、流程所组成的体系,首席数据官CDO也呼之欲出。
对政府而言,数据治理还很陌生,还很遥远。现实可行的是,最近五年为了与越来越多的公用数据集项目配套,例如社会信用库、电子证照库等,引入数据管理和服务概念,优先解决数据资源化和服务化问题,然后才是资产化和开放化问题。长远目标是,未来五年进一步引入数据治理概念,对存量资源和增量资源进行统筹,建立长期的数据资源开发规划,带动大数据产业发展。
免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。