本站点使用Cookies,继续浏览表示您同意我们使用Cookies。Cookies和隐私政策>

搜索

【政府大数据白话系列评论⑥】乱弹大数据思维

2019-11-27
2190
0

先说一个关于大数据的段子,来自美国杜克大学的Dan Ariely教授,请不要有任何黄色联想。

作为畅销书《怪诞经济学》的作者,他是这样调侃大数据的:大数据就像少年性行为,每个人都在谈论,但是没有人真的知道该怎么做,每个人都认为别人正在做,所以每个人都说自己也正在做......

Big data is like teenage sex: everyone talks about it, nobody really knows how to do it, and everyone thinks everyone else is doing it, so everyone claims they are doing it...

放眼世界,就算外国和尚会念经,把大数据应用这件事搞成了的政府也是凤毛麟角。

所谓搞成了的标准是:数据量级规模大到非用大数据技术不能解决的地步,而且数据价值变现大大超出一般意义上的传统商业智能应用。数据量级规模太小,犯不着用大数据技术来搞;或者用大数据技术来搞花了很多钱,却没太大收效,算算ROI根本划不来。

Gang-Hoon Kim在《大数据在政府部门的应用》一文中说,大数据应用领先国家的大数据项目有三个特点:

第一,现有大数据项目充其量只是数据量较大的应用。大部分还是基于结构化数据,并没有使用动态、实时的非结构化或半结构化数据。

第二,政府部门致力于建设大型而复杂的公共数据集,期望用大数据应用来提升服务民众的能力,以及解决面临的重大挑战的能力,如提振经济、扩大就业、防灾减灾和反恐怖袭击。然而,当前大部分成功的大数据应用都在个人和商业领域,而不是政府部门。

第三,大部分大数据项目刚刚启动或计划实施。这意味着,大数据在政府部门的应用仍然处于初级阶段,只有极少数项目在成功运营,比如新加坡的RAHS(风险评估和水平扫描)和英国的 HSC(水平扫描中心)。

大数据这件事该怎么干?这是大数据主管机构的头号问题。于是乎到处参观考察,希望能复制成功经验,想要把问号变成句号。其实,对于大数据这样一半已知、一半未知的内生创新领域,是没有现成答案的。

我倾向于认为大数据应用模式是Case by Case(具体问题具体分析),眼下做到规模化复制是不现实的。每个地方期望用大数据解决的问题也不一样,有什么数据资源不一样,解决问题的技术路线也不一样,怎么可能有放之四海皆准的解决方案?但是这并不意味着无所作为,场景和模式是可以抽象的,算法和模型是可以类聚的。

大数据技术和应用发源于互联网公司,与业界领先公司开放合作,共同探索政府领域的大数据思维,是政府大数据发展的新思路。

拿美国神秘的大数据独角兽Palantir来说,这家公司估值一度达到200亿美元,仅次于Uber和Airbnb。据说与破解911恐袭和击毙本拉登有幕后关系。2003年创业后的最初几年只有中情局一个客户,两大主营业务是反恐和反欺诈,员工不是技术大咖就是数据科学家,但是竟然没有一个Sales。

我听说很多国内初创大数据公司要做中国的中国Palantir,可是到现在也没看到。我们习惯于与美国前沿创新公司对标,而且已经有大批的成功故事,但是为什么无法复制Palantir?他们是怎么样做到的?这背后的秘密,也许就是中国大数据公司的未来之路。

某一线城市市长说的很直白:政府要明白到自己不会玩大数据,那就找会玩大数据的带着一起玩,至少要有三个基本条件,那就是平台、数据和应用。我很钦佩这样的学者型官员,一听就知道是个练家子。

政府大数据有天生的局限性,那就是偏向基准数据和静态数据,这对大数据应用价值最大化有很大阻碍。

第一,数据完整度和聚合度不高,比如人口基础库只有身份数据,缺乏对人的全生命周期的分散在各部门数据的充分整合,难以产生关联分析效应;

第二,数据动态性和实时性不高,大都反映历史情况,滞后于当前情况,对影响宏观决策的更大不确定性的问题无法应对,难以产生战略层级价值。

从政府大数据应用策划角度看,按照数据资源条件和数据应用场景的匹配关系,有递进发展的三种应用模式,那就是从有啥吃啥、缺啥补啥到想啥搞啥。

(1)内生式扩展分析

就是有啥吃啥,尽可能汇聚内部数据,基于基准数据整合内部的各部门数据,进行扩展分析。

要充分认识到:没有汇聚,就没有大数据,没有大数据就没有高价值。

例如:基于人口基础库关联自然人全生命周期数据,聚合分散在政府各部门的数据越多,就越可能激发出按特定人群优化公共服务的关联分析场景。

再如:基于纳税人身份信息关联与税源和征缴等综合治税数据,聚合分散在与税收有关部门的数据越多,就越能解决税源流失和偷逃税等突出问题。

(2)外延式关联分析

就是缺啥补啥,尽可能弥补内部数据的不足,基于基准数据引入外部的动态和实时数据,进行关联分析。

这方面要与企业寻求开放合作,重点是与公共服务和城市管理密切相关的企业。

例如:人口流动态势分析,采集运营商基站数据、城市一卡通数据等,基于电子地图自动标注人口密度,分析城市功能区人口分布和人口流向,辅助城市路网优化、公交运力优化、重大活动保障等。

再如:新加坡的RAHS(风险评估和水平扫描)和英国的 HSC(水平扫描中心),就是引入模式识别、机器学习等人工智能技术的城市风险综合防控新模式,通过静态和动态风险点的扫描、识别和预警,建立评估整改和应急处置的数字化流程。

(3)先谋场景再谋数据

就是想啥搞啥,跳出纠结于有没有数据的思维定式,先谋划要解决什么问题,再去想怎么获取数据,没有数据就自己采集数据。

这方面要向使用大数据创新商业模式的成功案例学习。

例如:GE(通用动力)基于Predix工业互联网平台提供FES飞行效率服务,在飞机发动机上安装传感器,实时采集和回传发动机状态数据进行大数据分析,实现预测式维修和故障预警,乃至从卖发动机到卖飞行小时。廉价航空公司对石油价格高度敏感,春秋航空和亚洲航空都部署了FES,大大降低油耗和碳排放,并提高飞行品质。无独有偶,RR(罗尔斯·罗伊斯)的EHM引擎健康管理系统实时监控全球10万台航空发动机的运行状况,著名的MH370就安装了Trent 800发动机,从卫星回传数据中推测出MH370失联后又飞行了5个小时,终结于南印度洋。

再如:Prada在奢侈服饰上安装RFID标签,通过安装在试衣间的读取器(不涉及隐私问题),采集什么服饰试穿最多、试穿多长时间、试穿之后是否购买等数据,汇集全世界大都市Prada专卖店数据到总部,分析出高端消费者的服饰流行趋势。

免责声明:文章内容和观点仅代表作者本人观点,供读者思想碰撞与技术交流参考,不作为华为公司产品与技术的官方依据。如需了解华为公司产品与技术详情,请访问产品与技术介绍页面或咨询华为公司人员。

TOP