【政府大数据白话系列②】大数据项目的正确打开姿势

2019年11月13日

任东民

德克萨斯大学阿灵顿分校EMBA，目前从事城市数字平台和大数据方向的解决方案开发和项目咨询。

在中国政府的行政体系中，发改委是神一样的存在。无论宏伟规划，还是棘手难题，都是发改委亲自出马。既是大军师又是总管家，比诸葛亮有过之无不及。足球中长期发展规划都是发改委来抓，你能想得到么？

牵头国家级重大信息化工程，既要有顶层设计的战略眼光，也要有摸石头过河的务实方法，还要有跨部门协调的强力手腕。作为一个号称小国务院的强势部门，与几乎所有部委办局都有对口关系，如此重任非发改委莫属。

大数据是国家战略，政府当然要带头先行。不用说你也猜到了，大数据这样的事情，前无古人后无来者，发改委不干谁能还能干？一个羊也是放，两个羊也是赶，社会信用体系也是发改委负责，能者多劳嘛。

推进大数据发展这出大戏，在2016年初在部级联席会议上拉开序幕，发改委唱主角，工信部和中央网信办唱配角。

《大数据发展行动纲要》发布后一年多，几乎所有省级政府和计划单列市都出台了实施方案，有些地方还成立了大数据管理局和大数据运营公司。贵阳大数据交易所的星星之火，变成了全国各地大干快上大数据项目的燎原之火。

发改委有领导力，地方政府有执行力，咱们先点赞再吐槽。

我很佩服有些地方政府，没有条件创造条件，不会做就现学现用，就是要有一股子争先创优、敢想敢做的勇气和魄力！且慢鼓掌，要不要做领导说了算，能不能做专家说了算，没有实事求是的科学精神，注定失败。

记得有个中部省份的地级市，名字不说了，搞了个《政府大数据中心建设方案》。和大数据局领导交流时，被他的雄心壮志吓了一跳。按照他的思路，管它有没有数据，反正大数据项目立马就得开干，不能落在别人后面，这是脸面问题！

我虽然担心让领导扫兴，却还是忍不住问了一句：没有钱还可以PPP向社会借钱，没有数据怎么玩得转？

领导很有水平，马上反问：部门上了N多系统，跑了五年多了，怎能说没有数据？那么多数据还不算大，那还有什么能算大数据？大数据不就是很大的数据吗？

我的回答是：按字面理解是这个意思，但是大数据是有技术语境的，有个关键问题大家都忽略了——即便有很多数据，也不代表数据就是可用的，数据存量和可用性是两码事。

举个例子，一个省的政府系统的数据量级和互联网公司差不多，但是分散在多层级、多部门，分散在不同网络、不同系统中，数据结构、语义和语法表示千差万别，数据质量也参差不齐。务实地看，这样“大”的数据能用么？相比之下，互联网公司的大数据是完全集中和同构的，因此可用度很高，想要做个分析型应用，老板发话就一切好说，应该非常简单。但是政府就没有这么轻而易举，如果想要的数据不存在、拿不到、整不了，就不要再提什么大数据了，洗洗睡吧。

领导又说：先把各部门数据收上来，总可以吧，以后怎么办以后再说。和部门要数据，你不知道有多难，不借着大数据的由头，数据根本要不来，那就什么都干不了。

我的回答是：不能只管罗锅直、不管罗锅死，话糙理不糙。这样的大数据中心其实就是数据垃圾站，数据根本没法用，而且也不能更新，用不了几天就成烂尾工程。一看就能猜到，这样的建设方案是技术部门闭门造车，没有与业务部门和市领导沟通形成共识。我认为，大数据项目是战略拉动的，不是技术驱动的；越是能满足更大范围的共性需求，越是能解决紧迫的综合性问题，推进阻力就越小，就越有可能成功。

再举个例子，财政开源节流怎么强调也不过分，难度再大也值得做，说到根上和钱有关。综合治税和社保审计，本质上是涉税数据和涉保数据的多部门联合采集和比对，也算是大数据项目，很多地方政府非常上心。综合治税核心是避免税源流失和打击偷逃税，社保审计核心是保证扩面征缴和打击骗保，能开源节流，何乐而不为。

领导和出席人员都沉默了，半晌无人说话。真话没人爱听，太伤人了。

那么，什么是大数据项目的正确打开姿势？答案是数据资源调查。

数据资源调查是大数据项目可行性研究的核心工作，有条件再启动，没有条件就再等等。

大数据项目仓促上马，开干了才发现没有数据，是注定要失败的。

对大数据项目进行数据资源调查的核心对象有三个：

• 数据源（Source）

决定数据从哪里来，能给什么数据。

• 数据目的地（Destination）

决定想要什么数据，数据往哪里去。

• 数据整合流程（Integration）

决定从数据源到数据目的地进行数据整合的操作步骤，使用什么技术工具，一般分为数据源接入、数据采集和数据整合三个步骤。

以社会信用体系为例，数据资源调查的慢动作分解分为三步：

一、调查信源单位接入

• 信源单位调查

可以进行摸清家底的全面普查，也可以进行与项目配套的专项调查。

比如社会信用体系建设就要进行专项调查，新制定或参照《公共信用信息目录》，先弄清楚需要采集的数据项到底有那些，信源单位到底有多少，再分解和明确各单位的数据采集责任。以某省会城市为例，法人和自然人信用信息分为一般信息、失信信息和荣誉信息，有近2000个数据项，要分解到50个来源部门，要逐一确认能不能按要求提供，并签署数据采集协议。

当然，反过来也可以，也就是指派部门主动报送数据资源情况，再按照社会信用体系对原始信用记录的要求，从各部门报送的存量数据资源中圈定需要采集的数据项范围，形成《公共信用信息目录》和分解数据采集责任。

• 信源单位接入可行性评估

评估信源单位与大数据中心建立数据链路的各方面可行性，这需要信源单位和原始开发商的配合。

如果信源单位与大数据中心不在同一网络，一般采用前置机方式接入，以避免对网络安全和系统运行产生影响。

但也有特殊情况，如信息系统托管在电信IDC机房，运营商很难同意在其地盘上部署前置机；再如信息系统部署在纵向专网或横向专网，专网管理部门由于网络物理隔离原因也不会同意在其地盘上署前置机。这些特殊情况需要专门协商。

当然，如果信源单位的信息系统全部迁移到本地统一专有云，那就好办多了，也就不用什么前置机了。

与信源单位确认可以接入后，接下来就是与信息系统原始开发商商定数据接口协议。简单地说，原始开发商按照约定，把指定数据按照规定时间，采用规定格式放在指定位置，就算完成任务。

二、调查数据资源质量

• 数据源接入评估

调查数据源的数据质量，对数据源结构、内容和质量进行评估，进一步确定有没有必要接入。

如果现有系统未上线没有数据、中途停用最近几年没有新数据、数据积累数量太少、数据质量（真实性、准确性、完整性、一致性）存在较大问题，这样的数据源根本没有必要接入。

• 数据资源梳理编目

可以进行一次性的手工梳理，也可以采用数据资源目录平台，进行常态化的计算机辅助编目。

国信办在2007年进行的电子政务调查中，就专门进行信息资源共享和开发利用情况调查，此后一些地方政府也是采用填报调查表的方式进行数据资源简单编目。

手工填报的局限性很大，工作压力大且结果难重用。而2007年推行的《政务信息资源目录体系》迎来了又一春，数据资源目录平台的总收总发特性，除了在跨部门数据交换时用于发现和定位数据源之外，还成为公用数据集项目中用于数据采集和数据服务的数据字典，大大降低了手工编目的工作压力。

三、调查数据资源需求

• 数据资源供需关系分析

分析数据资源需求和数据资源供给之间的差距到底有多大，能给多少数据，以什么方式给，以什么周期给，等等。

数据资源需求优先考虑基础共性和综合性领域的高频痛点刚需（周鸿祎语），比如四大基础库，社会信用体系中的公共信用库，互联网+政务服务中的电子证照库，等等。

如果有求无供，就是无水之源；如果有供无求，就是无人问津。

有供有求，才是大数据项目可行性的关键所在。

• 数据资源供需协议签署

经过上述的数据资源调查流程，数据供需双方达成意向，由大数据中心备案、双方签署一份数据资源供需协议，将口头承诺形成书面材料，在将来的系统实施阶段固化为数字化流程。

数据资源供需有两类场景。第一类是无条件执行的，来源于本级和上级政府的工作要求，如建设人口库等基础库、推进一网通办是国家的统筹安排，再如推进城市大脑是本级政府的特色创新。第二类是先协商后执行，来源于其他部门的协作请求，如劳动监察部门进行农民工专项执法，需要住建委提供建筑项目开工和建筑工地信息。

数据资源供需协议要明确三个内容：需方想要什么数据，供方能给什么数据，双方约定一个可信的交换域—供方把数据放到这里，需方到这里来取数据，并敲定数据内容、数据类型、更新频次等技术细节。

数据源部门如果不能遵守供需协议，不能保质、保量、按时提供数据，要承担违约责任，必须要有考核手段作为后盾。

^{免责声明：文章内容和观点仅代表作者本人观点，供读者思想碰撞与技术交流参考，不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情，请访问产品与技术介绍页面或咨询华为公司人员。}

任东民

德克萨斯大学阿灵顿分校EMBA，目前从事城市数字平台和大数据方向的解决方案开发和项目咨询。

其他文章

企业业务网站

华为云网站

运营商网络业务网站

消费者业务网站

集团网站

【政府大数据白话系列②】大数据项目的正确打开姿势

一、调查信源单位接入

二、调查数据资源质量

三、调查数据资源需求