本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

【政府大数据白话系列评论④】从部门角度看数据资源编目

2019-11-27
3023
2

继续政务信息资源编目的话题。

有人会问,都大数据时代了,应该翻篇了。不是我揪住不放,是这篇旧账真的没那么容易就翻过去。

政务信息资源编目对很多地方来说,是一道过不去的坎儿,而且绊住了迈向大数据时代的后腿。自己有多少数据资源家底都弄不清,还想搞什么大数据分析,和梦话差不多。北京说,跨部门交换不难。深圳说,建基础信息资源库有点难,但也搞的定。唯有编目,大家一提起来就无可奈何。北上广深还敢吃螃蟹,别的地方大都知难而退。

这事太难搞了,给领导讲不明白有啥用,给部门讲不明白怎么干。干过的也一肚子苦水:好容易编了一次,编完了却用不起来,和没编一个样。

但是,2016年政务信息系统整合共享的号令一下,国务院带头示范,地方政府没有道理不跟上来。编目成了急先锋,硬着头皮也得干了。

以前的编目,是按照2007年《政务信息资源目录体系》国家标准干的。这次的编目,是参照国家政务信息共享网站干的,不能再看老黄历了。

十年过去了,编目虽然更难,却更加重要,天将降大任于斯。

第一,以前的目录只管库表,捎带着管管文件,现在连服务接口(API等)也要管了。

第二,以前的目录查到了也拿不到,现在要把检索-申请-授权-获取的数据资源服务全流程打通。

第三,以前的目录是目录,交换是交换,建库是建库,接口是接口,各玩各的互不来往,现在的目录管的是数据资源的全部家底,是交换、建库、接口的统一基准。

编目不好干还非干不可,某大数据中心领导最近心情不好,都是编目给闹的。部门上报的目录乱七八糟,连“政务数据资源核心元数据”和“关于加快互联网+政务服务工作的实施意见”都给编目了,让人哭笑不得。和领导去还算积极的部门调研,问题越来越尖锐,领导脸色也越来越难看。

归结起来,想不想做和会不会做是两码事。眉毛胡子一把抓说不清,这次只说想不想做的问题。有个潜规则一直被忽略:部门也是经济理性的,对划不划算也是有掂量的。

部门的质疑是颠覆性的:编目代价那么大,真的值得吗?

(1)要编大家一起编,别人不编,光我编有什么用?

编目其实就是学雷锋,共享就是利他主义,目录主要是给别人用的。大家都编目,共享才能有更大作用。

尤其是掌握核心数据的部门,更应该带头编目。如果只能看到无关痛痒的几个部门的目录,你说能有什么用?

(2)别人瞎编一气,也不见有人管,光我认真编有什么用?

编目是个很严肃的事情,相当于图书馆的书目,餐馆的菜单。编得乱七八糟的目录,还不如不编。

编目流程有点像预算编制的“X上X下”流程,部门要对自己的编目质量负责,大数据中心也要对部门的编目质量进行审核。部门主要做业务内容审查,大数据中心主要做做形式审查(比如必填项、分级分类、编码规则什么的)。

编目的颗粒度是个难题,和部门业务密切相关,也就是要回答数据资源体系是怎样组成的问题,属于哲学上的本体论层面。

比如目录应该是树状结构还是列表结构,好像没有人仔细想过。再如“企业注册”是编1个目录项,还是编3个目录项—内资企业注册、合资企业注册和外资企业注册,大都也稀里糊涂说不清。

(3)目录里查得到,资源却拿不到,光有目录没资源有什么用?

这是实质问题,此处敲黑板!

你可能想不到,纯粹意义的目录(2007年目录体系国家标准)是只管查不管拿的。你查到的只是目录本身,而目录所指向的资源也许在部门,也许在大数据中心,不是点一下鼠标就能拿到的,大部分情况根本拿不到。这最关键的最后一公里,竟然是条断头路。

这与期望之间的反差太大。查目录类似于谷歌搜索,你搜索到的是符合条件的索引列表,索引是指向网页的,下一步自然而然的期待是点击一下索引就看到网页。但是查目录就是查到了而已,告诉你有这个资源,拿不拿得到概不负责,这种失落你能体会得到吗?

(4)资源虽然拿的到,可是费时费力我等不起,让我怎么想用?

这是操作问题,再次敲黑板!

假设从善如流,在目录上查到了,下一步资源也拿的到,就顺其自然了。这意味着,目录成为资源发现、申请和获取流程的总入口,地位一下子提高了,责任也更大了。

事情没有那么简单。

先说授权审批问题。无论是部门还是大数据中心资源,都有依申请公开和完全公开的区别。你想要某个资源,需要资源提供者的授权才行。授权有效期有一次性和固定期限,到期就会失效。授权凭据类似给你一把钥匙(Token),在获取资源时要用这把钥匙去做授权验证,完全公开可以不需要授权凭据,依申请公开就必须要有。

再说授权执行问题。目录指向的资源有数据库表、文件(文件夹)和服务接口三类,如何把资源拿过来、放在什么地方存储、是人工还是自动操作,都是需要考虑的。服务接口比较特殊,比如做婚姻登记核验的服务接口,传入身份证号返回的是此人否已有婚姻登记,只是单次调用返回请求的信息,并不是给你整个婚姻登记数据库。

以数据库表为例。比如你申请“企业注册”数据资源,授权通过了,相当于拿到了指令,但是指令的执行由谁来做呢?不太可能用目录做,一般是用交换来做。但是指令如何下达给交换?一种方式是目录传递指令给交换,交换自动执行指令;另一种方式是目录把指令给到系统管理员,再到交换中去做人工配置。从目录到交换的自动指令下发和执行,技术上有不小难度。

(5)资源虽然拿到了,乱七八糟又不更新,让我怎么敢用?

历经九九八十一难,终于要取到真经了。

且慢高兴,资源虽然拿到了,但是数据是错误的、不真实的、不完全的、不一致的,这样的资源你敢用吗?而且,资源只是拿到这一次而已,没有持续的更新机制,就更不敢用。

比如你拿到“企业注册”数据资源,但是里面的企业名称、注册时间、年检时间、法人代表、注册地址什么的,信息不完整、不准确,哪个部门敢以此作为凭据,进行行政许可和执法呢?不该批的批了,不该罚的罚了,那是要出大问题的。

记得在某次大数据研讨会上,有位发改委信息中心的领导说:有机构有业务的信息化是最容易的,没机构没业务的信息化是最难的。比如公安,三定职责和业务流程都有成规定式,信息化不难搞。互联网+政务服务就不好搞,政务服务中心十多年前就成立了,但是该怎么优化民生服务和营商环境,怎么管理入驻部门、办理事项和权力监督,不是一时半会能搞明白的,推倒重来的信息化建设至少五轮了,到现在才像那么回事。大数据更不好搞,2015年之后大数据局才成立,有的地方还没有设立主管部门,到底该什么机构管,到底该管什么,到底该怎么管,都不是短时间内能定下来和弄明白的。

编目看起来是技术问题,其实是数据资源的注册/审核、检索/申请、授权/执行的一整套的业务场景和流程。在大数据中心出现之前,在目录出现之前,这些业务场景和流程是根本不存在的。

大数据中心是新事物,万事开头难。打破“老国标”的局限性,瞄准大数据时代政府数据资源统一发现、申请、授权和获取的新场景,固化为技术平台中的数字化流程,这才是最难的。

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

TOP