云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

MySQL数据库_百度云资源分享论坛_免费申请

小七 141 0

真正的大数据问题以及为什么只有机器学习才能解决它

为什么这么多公司仍在努力构建一条从数据到见解的平稳运行管道?他们投资于大肆宣传的机器学习算法来分析数据和做出商业预测。但是,不可避免地,他们意识到算法并不是神奇的:如果他们输入了垃圾数据,他们的洞察力就不会是一流的。因此,他们雇佣了数据科学家,他们90%的时间都花在数据清洗洗衣店里洗衣服和折叠衣服,只剩下10%的时间去做他们受雇的工作。这个过程还有一个缺陷,那就是公司只对机器学习在线算法感到兴奋。Tamr公司(tamrinc.)的联合创始人兼首席执行官安迪•帕尔默(Andy Palmer)表示,他们应该像在清理早期那样自由地应用机器学习,而不是依靠人来处理庞大的数据集。Tamr公司帮助组织使用机器学习统一数据仓库。许多公司在大数据采集系统上花费了大量的资金。他们强调数据数量而不是质量是显而易见的。"任何在这些大公司工作过的人都可以告诉你,他们从大多数内部系统获得的数据都很糟糕,简单明了,"帕尔默说。Palmer和Tamr的联合创始人兼首席技术官Michael Stonebraker(如图)与SiliconANGLE媒体移动直播工作室cube的联合主持Dave Vellante和paulgillin进行了交谈,他们报道了最近在马萨诸塞州剑桥举行的麻省理工学院CDOIQ研讨会。他们讨论了大数据清理中的机器学习,以及为什么Tamr毫不奇怪地认为,初创公司比传统公司提供更好、更具可扩展性的大数据解决方案(参见本文和本文的完整采访记录)本周,cube在tamrinc.的《每周创业》专题报道中重点报道了tamrinc。大数据?大吼帕默和斯通布拉克多年来一直在试图消除大数据炒作泡沫。早在2007年,他们就预测ApacheHadoop大数据框架不会带来很多人期待的结果。帕默说:"实际上,迈克说这将是一场灾难,这真是咄咄逼人。并不是说大数据集是坏的。它们显然是训练分析模型和人工智能所必需的。这是一种只要数据很大,其余的分析或人工智能部分就会到位的想法,这让许多公司大失所望。组织现在意识到数据质量是不容忽视的,他们也知道一个数据科学家不应该花费80%到90%甚至更多的时间来清理和争论数据。必须有一个更好、更快的方法来让数据准备好用于分析和人工智能。帕尔默说,答案是开始把机器学习作为一种非常实用的工具来完成这些庞大而乏味的任务。因此,许多供应商使用机器学习来使预测、推荐引擎等软件的营销更具吸引力。Tamr将其用于最不吸引人的事情:在任何人分析、预测、营销或销售任何与之相关的东西之前清理和组织大数据。以下是对帕默的完整视频采访:机器学习提示量表他们提出的解决方案要么是提供给市场的原始数据太少了。然而,Stonebraker指出,这些系统通常使用的主要技术有一个关键的缺陷。这些传统技术包括提取、转换、加载系统和主数据管理系统。Stonebraker说:"一个肮脏的小秘密是,技术无法扩大规模。"。ETL的前提是,真正聪明的人会为用户想要的所有数据源提供一个全局数据模型。然后,一个人会访问每个业务部门,看看他们有什么数据,如何在全局数据模型中获取这些数据,将其加载到数据仓库中等等。Stonebraker认为,人力密集型的流程往往无法扩展。他补充说,他们通常会在数据仓库中集成10到20个数据源。这个数字足够吗?让我们看看一家真实的公司。Tamr客户丰田汽车欧洲公司在不同的国家(有时是州)有分销商。如果有人在西班牙买了一辆丰田,然后搬到法国,这家法国公司对车主一无所知。TME总共有250个独立的客户数据库,总共有4000万条记录,使用50种语言。该公司正在将它们集成到一个客户数据库中,以解决这个客户服务问题。机器学习提供了一种可行的方法。"我从未见过一个ETL系统能够处理这种规模,"Stonebraker说Stonebraker解释说,MDM不能扩展的原因基本上是因为它是基于规则的。另一个Tamr客户,通用电气公司,想做消费分析。与前年相比,该公司有2000万笔支出交易,并试图将所有这些交易归类为一个基于规则的层次结构。他说:"所以通用电气写了500条规则,这是任何一个人都能得到的最多的规则。"在2000万笔交易中,有200万笔被分类。现在你还有18笔交易要处理,而另外500条规则不会再给你200万笔。他指出,这就是收益递减规律,"你将不得不编写大量没有人能理解的规则,"Stonebraker说如果你不使用机器学习,你就完蛋了。"以下是对Stonebraker的完整视频采访:文化商Stonebraker承认,机器学习不是灵丹妙药。真正实现数据驱动需要技术和文化的调整。事实上,根据NewVantage Partners LLC的一项研究,77%的受访高管表示,企业采用大数据/人工智能举措对他们的组织来说很困难。尽管大量新软件涌入市场,但这一数字仍高于去年。这些高管列举了一些阻碍采用的障碍,其中95%是文化或组织上的,而不是技术上的。"组织…需要一个计划来投入生产。高德纳公司(Gartner Inc.)分析师尼克·赫德克尔(Nick Heudecker)曾表示,多数公司并不打算将大数据视为技术零售疗法。不过,技术很重要,在某种程度上可能塑造了文化,反之亦然。以上的例子说明了一个数据科学家如何将90%以上的时间花在筛选和分类上,而不是帮助实际的混合动力车得到维修或开发燃气轮机。Stonebraker认为,如果大数据要对现实世界的企业实用化,机器学习是前进的方向。他说:"你必须用机器学习来取代人类……人们正在理解,在规模上,传统的数据集成技术根本不起作用。"年轻的公司正在解决这个问题,并将机器学习作为其产品的核心。"总的来说,传统的供应商已经落后时代10年了,如果你想要尖端的东西,你必须去创业公司,"Stonebraker说。这种"尖端"的东西是否为数据货币化提供了一条简单的途径?它是否能弥补多年来在数据沼泽中艰难跋涉的挫败感?帕尔默指出:"我们正进入一个数据将更快地成为"可消费品"的阶段。"这个阶段是否会最终达到20、30年前企业数据仓库所设定的高期望?"他说,"我不知道。但我们肯定离它越来越近了。"照片:硅角既然你来了…点击订阅我们的YouTube频道(见下文),显示您对我们使命的支持。我们的订户越多,YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢!支持我们的使命:>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命,以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值,而不是广告。与许多在线出版物不同的是,我们没有付费墙或横幅广告,因为我们想让我们的新闻保持开放,不受影响,也不需要追逐交通。那个新闻、报道和评论SiliconANGLE——以及现场报道,我们的硅谷工作室和cube环球巡演的视频团队提供的未经剪辑的视频需要大量的辛勤工作、时间和金钱。保持高质量需要赞助商的支持,他们与我们的无广告新闻内容的愿景一致。如果你喜欢这里的报道,视频采访和其他无广告内容,请花点时间看看我们的赞助商支持的视频内容样本,在推特上表达你的支持,然后继续回到SiliconANGLE。