云网站服务器_国内数据云存储_移动云数据库服务器主机-搜集站云

网站空间_我的世界工业2服务器_企业0元试用

小七 141 0

到目前为止,我们的系列探讨了预测分析和机器学习在公共部门的应用,以实现数据驱动的政策和实践。有人可能会说,将这些技术定性为新兴技术,这与政府自20世纪50年代以来一直在使用非线性计算模型的事实相违背[1]。此外,预测分析和机器学习所基于的统计建模技术自19世纪初就已经被理解。那么,为什么我们现在才看到这些技术被印第安纳州和昆士兰州税务局(OSR)等领先的公共部门机构应用呢?答案不在于计算模型的成熟,而在于大数据平台的准备和实时查询海量数据集的能力。

数据丰富但信息贫乏

在2017年9月提交给美国总统的报告[2]中,循证决策委员会指出:"……美国人民想要一个解决问题的政府。这就要求决策者掌握良好的信息,以指导他们选择当前的方案和政策是如何运作的,以及如何加以改进"。这正是数据驱动型政府的动机。但委员会继续观察到:"……在收税、确定享受政府福利的资格、从事经济发展和运行项目的同时,政府必然会收集大量的信息。2017年,学习大数据,美国公众将花费近120亿小时回应超过1000亿个来自联邦政府的个人信息请求。尽管收集这些数据的直接费用是由纳税人提供的,但这些数据通常不能用于提供证据"。这正是需要克服的挑战……

美国当然不是唯一一个渴望循证决策的国家,大数据精准,也不是唯一一个在实现这一愿景方面面临挑战的国家。所有现代政府都拥有丰富的客户和案例数据,但大多数政府机构难以将这些数据转化为有意义的信息和可操作的见解。其原因包括:

政府数据存储通常分散在机构内部和机构之间,很难访问,更不用说共享了;数据质量往往在各个筒仓之间不一致,妨碍了系统集成和数据资产整合的努力;庞大的数据量(有时被称为大数据的迷雾)可能使我们难以确定关键事件和新兴趋势;分析处理会影响操作系统的性能,而替代数据仓库方法通常会引入报告滞后;以及监管限制和文化阻力进一步阻碍了机构试图解锁政府数据存储中的信息。

这些问题已经酝酿了几十年,因此不容易或很快解决。但随着实时计算的出现,公共部门机构现在有了一个可行的平台,可以在服务点处理大数据。这种能力是克服上述挑战的关键,从而实现数据驱动的政策和实践。

克服数据访问挑战

随着管理和性能中心(MPH)的建立和在实时计算平台上运行,印第安纳州今天是开放数据的典范。但情况并非总是如此——许多机构对提供客户数据和运营系统的访问感到紧张,这是可以理解的。他们希望确保他们的数据能够得到安全的维护和适当的使用。MPH团队通过建立谅解备忘录(MOU)解决了这些问题,将各机构纳入了这一过程。这是通过州长迈克·彭斯(Mike Pence)[3]发布的行政命令创建的框架实现的。该行政命令的作用与欧盟的数据保护指令类似,因为它概述了安全访问和共享机构数据的要求[4]。

而MPH团队选择了集中数据治理模式,另一个可行的方法是跨分布式数据平台利用近实时分析技术。在这两种情况下,这一问题只能通过技术部分解决,在某些情况下,政府法规会阻止机构之间(甚至内部)共享数据。但MPH的经验表明,通过实时计算、跨机构协作和执行层赞助的结合,可以克服数据访问挑战。

解决数据质量问题

不可靠、不完整、重复和过时等术语通常用于描述政府数据资产,数据质量问题被认为是业务分析和系统现代化计划的一个重要障碍,这种情况并不少见。在澳大利亚,由于缺乏一个完整的政府识别码,这一挑战被放大了,这妨碍了跨数据集匹配公民记录。因此,有人可能会假设昆士兰OSR肯定花了数月时间清理数据,为他们的机器学习原型做准备。然而,他们的经验是,预测算法可以应用到不完美的数据与体面的结果。OSR的专员Elizabeth Goli解释道:"……尽管只使用了三个内部数据源,而且我们目前面临数据质量方面的挑战,但机器学习解决方案仍然能够以71%的准确率预测最终拖欠税款的纳税人。这告诉我们,应用机器学习不需要等待数据100%完美"

尽管数据清理无疑会提高预测的准确性,但Goli女士观察到:"……工具本身实际上将成为提高数据质量的关键因素"。这是由于机器能够查询大量数据集以建立可能的联系,并且能够随着时间的推移自主地提高预测的准确性。因此,虽然71%是一个良好的开端,但OSR希望通过提高数据质量和改进预测模型,将预测准确率提高到90%以上。

透过大数据的迷雾