【政府大数据白话系列评论⑤】政府大数据4V诊断报告

2019年11月27日

任东民

德克萨斯大学阿灵顿分校EMBA，目前从事城市数字平台和大数据方向的解决方案开发和项目咨询。

这次从大数据玩家的视角，来看一看政府大数据概念的内涵和外延。

政府其实不是大数据的行家里手，大玩家早些年是电信和金融，这些年是互联网公司。

2015年，政府大数据这锅冷水被《关于运用大数据加强对市场主体服务和监管的若干意见》小火加热，又被《促进大数据发展行动纲要》大火猛烧，终于沸腾。在贵阳大数据交易所的放卫星效应带动下，各种大数据产业园区、大数据发展规划、大数据管理机构、大数据工程项目如雨后春笋，争先恐后抢着冒尖。

很多地方政府对政务信息资源共享交换的欠账还没还清，就大跃进到大数据时代。

政府大数据概念来自互联网大数据，既然都是大数据，直接Copy就是简单捷径。但是，和XXX政府大数据管理局交流时，他们提出了一个问题：总觉得政府大数据和互联网大数据不是一回事，但说不出来有什么不一样，这个问题你们怎么看？我早有同感，但并未深究，突然发现这个问题值得认真回答。

舍恩伯格的《大数据时代》提出：大数据是所有数据而不是随机样本，是混杂性而不是精确性，是相关关系而不是因果关系。

非常精辟，但是对政府大数据不见得适用。

其一，所有数据是有前提的。划一个大圈，把某地方政府所有委办局的数据都圈进去，是不是所有数据？概念上说是所有数据，但是如果不可访问，这样的“大数据”有什么用？——网络之间不通，系统之间异构，数据无法解析，画饼不能充饥。用技术语言讲，政府数据只有经过大集中和有序化，才是可用的大数据。

其二，政府数据由于权威和公共属性，更倾向于精确而不是混杂，政府部门作为数据源单位，要对数据质量负责任，更倾向于使用自己产生的内部数据，而不是使用互联网等外部数据。

其三，因果关系还是相关关系，对政府而言不存在非此即彼的问题，领导和部门的视角不同，哪个能解决问题就用哪个。

IDC提出4V（Volume-大容量、Variety-多样性、Velocity-高速度，Value-高价值），算是大数据的标准定义。IBM又狗尾续貂了一个V（Veracity-真实性），这其实是必要非充分条件。既然4V近似标准定义，用4V对政府大数据做个诊断，应该很有意义。

于是乎，大数据专家门诊开张，免费接了第一单业务。

政府大数据4V诊断意见是：

（1）政府大数据临床表现不是分析型应用这样的典型大数据，传统意义上的大数据应用场景非常少，而是表现为公用数据集这样的非典型大数据，诸如社会信用、电子证照等数据资源开放共享场景；

（2）大数据应用范式不是只有做决策场景，还有办业务场景，对应的技术范式是A范式（分析型应用）和D范式（数据即服务）。

1、4V比较

前3V（Volume-大容量、Variety-多样性、Velocity-高速度）与技术架构密切相关，后1V（Value-高价值）则与业务价值密切相关。

比较结论：

（1）互联网架构正在“渗透”到长期使用企业级架构的政府领域。

政府热情拥抱大数据，让阿里、腾讯等互联网厂商看到了机会，尝试着跨界。但是政府大数据相对互联网大数据而言还是太小，大部分应用场景用不上高大上的互联网架构。Java EE企业级架构老当益壮，容器云方兴未艾，完全能够胜任从地市级、省级到中央级的大部分数据大集中系统。

（2）政府大数据的最大身份是社会公共数据资产，决定了分析型应用不是主流，数据共享（政府部门间）和开放（政府对社会）才是主流。

为满足各种跨部门/跨地域的综合管理和服务的大规模数据整合需求，建立各种公用数据集并提供专业数据服务，是相当长时间内各级政府的主要任务。社会信用体系建设是第一个规模以上的公用数据集项目，《关于加快推进“互联网+政务服务”工作的指导意见》中提出的电子证照库可以算是第二个吧，代表着数据整合应用将取代业务应用成为十三五信息化的新热点。

2、技术角度：企业级架构 vs.互联网架构

从技术角度看，政府的IT架构正在慢慢从企业级架构向互联网架构变迁，这是公共服务转型和信息技术进步的双重推动所致。

（1）互联网大数据

大数据的标准定义来自于互联网大数据，是指使用传统IT架构无法在可承受的时间范围内进行处理的数据集合；

处理非结构化数据为主，PB量级或百万级以上用户；

企业级架构无法胜任，必须采用互联网架构。

（2）政府大数据

政府大数据不符合典型的大数据定义，只在少数特殊和高端领域（如公共安全）有需求；

处理结构化数据为主，TB量级或最大十万级用户；

Java EE企业级架构仍可胜任；

只有少数领域符合大数据的应用场景，需升级到互联网架构；

3、应用角度：公共数据资产 vs.私有数据资产

从应用角度看，2004年国信办力推信息资源开发和利用，抓住了政府信息资源的公有数据资产属性，现在来看很有远见。

政府大数据要两手抓，一是作为普遍性需求的跨组织边界的数据共享和开放，要偿还历史欠账；二是作为探索性需求的分析型应用，在特殊领域要先行先试。

（1）互联网大数据：组织私有数据资产

私有属性，内部价值大于外部价值；

价值密度低，但价值效用高；

效率和利己优先；

以内部利用为主（历史分析和趋势预测），弱溢出效应；

重点是数据可视化和分析型应用。

（2）政府大数据：社会公共数据资产

公有属性，外部价值大于内部价值；

价值密度高，价值效用高；

公平和利他优先；

以外部利用为主（跨部门共享和对社会开放），强溢出效应；

重点是公用数据集和资源化服务。

4、大数据范式

一提到大数据范式，言必称分析型应用，似乎有了大数据就无所不能，这不是一个科学态度。对大数据而言，本源是数据本身，派生的才是对数据的分析。

从这个角度来看，大数据的技术范式有两种，一是A范式（Analytical Application）和D范式（Data as a Service）。

A范式与D范式之争，开始浮出水面。

这其实是政府大数据发展的基本路线选择问题，也是优先级策略问题。照搬互联网大数据的方法去发展政府大数据，忽略政府数据管理和服务的自身特性，本质上是脱离实际。很多地方一窝蜂地想放出高大上的数据智能的卫星，却没有做好数据资源管理和服务的基础工作，这样的大数据只能是无水之源，无本之木。

（1）A范式

A范式以互联网大数据为代表，更关注对数据进行分析后的结果。简而言之，A范式就是对一大堆数据进行分析，有没有预设目标和预设模型都可以，然后把结果给你。

（2）D范式

D范式以政府大数据为代表，更关注以数据内容为核心的服务。简而言之，D范式就是把零散的数据源归集成一大堆数据，按照共性数据服务需求进行重新组织，在你需要的时候所需要的数据集提取出来给你。

5、适用场景

政府只有很少的领域适合大数据应用场景，比如：

（1）不惜代价处理大量数据的特殊领域

反恐、维稳、刑侦、经侦等情报领域

（2）以大数据支撑核心业务的专业部门

国土、测绘、环保、地震、气象等

（3）跨区域流动人口的公共服务问题

跨省社保转移、医保结算等

（4）政府财政收支的跑冒滴漏问题

税收：税源流失，偷逃税等问题

社保：骗保、欠缴问题

医保：降低常见病、慢性病、多发病持续增长的医保支出

（5）数据量级超过PB的条线系统

中央大集中系统：金税、金盾、金关等

（6）用户量级超过百万的移动端应用

城市级移动端应用：整合政府对市民的一切信息沟通和政务服务。

6、诊断结论

政府大数据发展必须先解决共享交换历史欠账。

（1）政府虽然进入大数据时代，依然要优先解决小数据问题

（2）跨部门共享和对社会开放成为当前主流需求，也就是按更大的行政管理和公共服务主题建立各种公用数据集，如社会信用、电子证照等

（3）建立公用数据集首先是更大规模的数据整合问题，然后才是持续化的数据治理问题，再后来才是数据价值挖掘的数据资产管理问题

（4）建立公用数据集的基本途径是是从多个数据源单位向大数据中心的数据大集中和数据目录编制，核心技术是多源异构海量数据存储和元数据自动化标注

（5）少数领域可以探索运用大数据解决一些人类大脑和传统数据库技术不能解决的“高精尖”问题，如城市动态风险的扫描、识别和预警

^{免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。}

任东民

德克萨斯大学阿灵顿分校EMBA，目前从事城市数字平台和大数据方向的解决方案开发和项目咨询。

其他文章

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站

【政府大数据白话系列评论⑤】政府大数据4V诊断报告