云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

云数据库_我的个神啊百度云_年度促销

小七 141 0

数据是关键资源。它的洞察力不仅推动了谷歌、Facebook和亚马逊等大数据巨头的运营和战略决策,还推动了从喷气发动机制造商到美国职业棒球大联盟(major league basketball)到利用数据提高作物产量的农学家等一系列行业的运营和战略决策。作为一种资源,原始数据常常被比作推动经济变化的原油。与原油一样,数据在其自然状态下也无法使用。只有在将基础产品提炼成可用形式后,才能获得该值。和石油一样,产出的质量也会有所不同。但与石油产品不同的是,数据没有明确的标签系统,这意味着企业往往对自己是否在使用相当于100辛烷值喷气燃料或高含硫量越野柴油的数据视而不见。统计数据显示,84%的全球首席执行官关注数据标准,有缺陷的数据每年使美国企业蒙受1500万美元的损失,这导致监控数据质量的软件工具激增;在刚刚发布的"数据质量测量和监控工具调查"中,已经记录了"如何在最先进的数据质量工具中实施数据质量测量和监控""这项研究的主要动机实际上是非常实际的,"约翰内斯·开普勒大学的高级研究员、该研究的合著者丽莎·埃林格(如图)说我们把大部分时间花在大数据项目上,用于数据质量度量和改进任务。因此,我们(询问)市场上有哪些工具可以自动化这些数据质量任务。"在麻省理工学院CDOIQ研讨会期间,Ehrlinger与Dave Vellante和paulgillin进行了交谈,他们是SiliconANGLE媒体移动直播工作室theCUBE的共同主持人。他们讨论了研究方法和研究结果(见访谈全文)。本周,cube在其女性科技专题报道中重点报道了Lisa Ehrlinger。自动化数据质量测量埃林格从本科开始就在奥地利林茨的约翰内斯开普勒大学(Johannes Kepler University),并拥有该校计算机科学的学士和硕士学位。目前,她正在Johannes-Kepler面向应用知识处理研究所的Wolfram Wö223;教授的指导下,撰写关于自动连续数据质量测量的博士论文。在学习期间,埃林格通过为不同雇主从事信息技术项目来扩大自己的经验。其中包括甲骨文、软件情报公司Dynatrace LLC、奥地利林茨市的罗马天主教教区,以及最近成立的软件能力中心哈根堡。在过去的四年里,埃林格发表了她的硕士论文"集成信息系统模式级的数据质量评估",共同撰写了10篇研究论文,并共同编辑了第十届数据库、知识和数据应用进展国际会议论文集。埃林格是麻省理工学院CDOIQ研讨会的特邀演讲人,演讲灵感来自她的博士研究"用工具自动化数据质量测量"并非所有数据质量工具都是相同的埃林格和她的团队在市场上发现了667种数据质量工具,然后他们将这个数字缩小到13种,以便根据它们的领域独立性、非特异性和可用性免费或在试验的基础上进行详细的测试和分析;这意味着它们专门用于特定的数据类型或专有工具。埃林格说:"我们只是想找到一些工具,这些工具通常适用于不同类型的数据,如结构化数据、非结构化数据等等。"。另有40%的人被排除在外,因为他们致力于特定的管理任务,如数据可视化、集成或清理。所选工具必须提供三个研究小组认为最重要的功能领域:数据分析、质量指标和质量监测:"数据分析以初步了解数据质量……在维度、指标和规则方面的数据质量管理……[和]随着时间的推移,数据质量监测,埃林格解释道。虽然Gartner数据质量工具幻方图是该领域最著名的研究,但据埃林格称,它并没有考虑具体的测量功能。她的研究团队花了整整一年的时间来实践这些工具,获得了使用它们的第一手经验。埃林格团队和高德纳研究的另一个不同之处是评估工具的范围。埃林格最终选定的13个工具包括9个商业和封闭源代码工具,其中4个——Informatica Data Quality、Oracle Enterprise Data Quality、SAS Data Quality和Talend Open Studio for Data Quality被列为Gartner幻方图中的领军者。研究中评估的其他五种工具都是免费和开源的,其中只有一种工具——Talend——被Gartner提到。另外四个是OpenRefine、Aggregate Profiler、mobydq和apachegriffin,"它有非常好的监控功能,但缺少这些综合工具的一些其他功能,"Ehrlinger说。个人的接触会带来不同除了功能性之外,客户服务也被纳入了总体评估的范围。"我们的重点是功能,但当然我们必须联系客户支持,"埃林格说。商业工具尤其如此。"我们不得不要求他们给我们提供一些试用许可证,在那里我们看到了来自这些公司的不同反馈。她还向参加数据质量活动的与会者询问了他们的客户体验:"获得关于单个工具的反馈并验证我们的结果非常有趣,而且非常匹配。"。客户服务的赢家是Informatica Data Quality和益百利Pandora。"埃林格说:"我们认为,在支持、试用许可证和具体功能方面,我们与Informatica有着非常密切的互动。其他公司,如IBM,得分没有这么高。"他们专注于大供应商,"她补充道。令埃林格和她的团队感到惊讶的一个结果是,许多工具缺乏自动化。"她说:"我们认为,自动化肯定有更大的潜力。"。工具需要改进的另一个方面是详细信息。"埃林格说:"我们观察到一些工具,上面说‘我们应用机器学习’,然后你查阅他们的文档,却没有发现关于哪个算法、哪些参数、哪些阈值的信息。"如果您想评估数据质量,您确实需要知道什么算法,以及它是如何协调的。"这一点尤其重要,因为这些工具的用户通常具有较高的专业技术水平。"他或她真的需要调整这些算法,以获得可靠的结果,并知道发生了什么,为什么,选择了哪些记录,"她补充道。对高质量数据的追求还在继续埃林格和她的研究团队已经开始了他们的下一项研究,题为"数据质量评估的知识图"。据埃林格说,该项目与当前企业级自动化的趋势相结合,解决"两个问题同时进行"。她说:"第一个是为公司的数据环境提供一个语义表示。"但不仅是在收集元数据方面的数据环境本身,而且还可以使用数据配置文件自动改进或注释此数据模式。"以下是完整的视频访谈,是SiliconANGLE和Cube对麻省理工学院CDOIQ研讨会的报道的一部分:照片:硅角既然你来了…点击订阅我们的YouTube频道(见下文),显示您对我们使命的支持。我们的订户越多,YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢!支持我们的使命:>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命,以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值,而不是广告。与许多在线出版物不同的是,我们没有付费墙或横幅广告,因为我们想让我们的新闻保持开放,不受影响,也不需要追逐交通。那个新闻、报道和评论SiliconANGLE——以及现场报道,我们的硅谷工作室和cube环球巡演的视频团队提供的未经剪辑的视频需要大量的辛勤工作、时间和金钱。保持高质量需要赞助商的支持,他们与我们的无广告新闻内容的愿景一致。如果你喜欢这里的报道,视频采访和其他无广告内容,请花点时间看看我们的赞助商支持的视频内容样本,在推特上表达你的支持,然后继续回到SiliconANGLE。