免备案CDN_中国云服务器_价格

小七 2019年10月25日 21:23 141 0

当杰夫·贝佐斯在他的车库里完成订单并亲自把包裹送到邮局时，计算成本、跟踪库存和预测未来需求相对简单。25年来，亚马逊的零售业务在全球拥有超过175个配送中心，拥有超过25万名全职员工，每天运送数百万件商品。亚马逊的全球金融运营团队有一项令人难以置信的任务来跟踪所有这些数据（想想PB），在亚马逊的规模下，一个计算错误的指标，比如单位成本，或者延迟的数据，都会产生巨大的影响（想想几百万美元）。该团队一直在寻找更快获得更准确数据的方法。这就是为什么在2019年，他们有了一个想法：建立一个能够支持地球上最大的物流网络之一的数据湖。它后来在内部被称为星系数据湖。银河数据湖建于2019年，现在所有的团队都在努力将他们的数据移入其中数据湖是一个集中的安全存储库，允许您以任何规模存储、管理、发现和共享所有结构化和非结构化数据。datalakes不需要预定义的模式，因此您可以处理原始数据，而不必知道将来可能需要探索哪些见解。下图显示了数据湖的关键组件：大数据的挑战亚马逊在大数据面前所面临的挑战与许多其他公司面临的挑战相似：数据孤岛、分析不同数据集的困难、数据控制、数据安全和整合机器学习。让我们仔细看看这些挑战，看看数据湖如何帮助解决它们。打破筒仓公司选择创建数据湖的一个主要原因是打破数据孤岛。在不同的地方拥有大量的数据，由不同的群体控制，这必然会使数据变得模糊。这通常发生在公司快速发展和/或收购新业务时。就亚马逊而言，两者兼而有之。为了在国际上扩张并快速创建新的配送计划（例如，免费同日送货或亚马逊新鲜），大多数运营计划团队都控制着自己的数据和技术。因此，数据存储在不同的地方，以不同的方式存储。这种方法允许每个团队解决问题、响应客户需求和更快地创新。然而，在组织和公司层面上理解这些数据是比较困难的。它需要从许多不同的来源手动收集数据。由于如此多的团队独立运作，我们失去了通过共同解决问题所能达到的效率。从数据中获取细节也很困难，因为不是每个人都可以访问各种数据存储库。对于较小的查询，您可以在电子表格中共享数据片段。但当数据超过电子表格的容量时，就会出现挑战，这种情况通常发生在大公司。在某些情况下，你可以分享一个更高层次的数据摘要，但你真的没有得到完整的信息。数据湖通过将所有数据合并到一个中心位置来解决这个问题。团队可以继续作为灵活的单位发挥作用，但所有道路都通向数据湖进行分析。不再有筒仓分析不同的数据集使用不同系统和方法进行数据管理的另一个挑战是数据结构和信息各不相同。例如，Amazon Prime有关于实现中心和包装商品的数据，而Amazon Fresh则有杂货店和食品的数据。甚至航运计划在国际上也不尽相同。例如，不同的国家有时有不同的盒子大小和形状。此外，越来越多的非结构化数据来自"物联网"设备，如履行中心机器上的传感器。此外，不同的系统可能也有相同类型的信息，但它们的标签不同。例如，在欧洲，使用的术语是"单位成本"，但在北美，使用的术语是"每包成本"。这两个术语的日期格式不同。在这种情况下，需要在两个标签之间建立一个链接，以便分析数据的人知道它引用的是同一个东西。如果您想在没有数据湖的传统数据仓库中组合所有这些数据，则需要大量的数据准备和导出、转换和加载或ETL操作。你必须在保留什么和失去什么之间做出权衡，并不断地改变一个僵化系统的结构。数据湖允许您以任何格式导入任意数量的数据，因为没有预定义的模式。您甚至可以实时接收数据。您可以从多个源收集数据，并将其以原始格式移动到数据湖中。您还可以在标记不同但表示相同内容的信息之间建立链接。将所有数据移动到数据湖还可以改进传统数据仓库的功能。您可以灵活地将高度结构化、频繁访问的数据存储在数据仓库中，同时还可以将结构化、半结构化和非结构化数据保留在data lake存储中。管理数据访问由于数据存储在如此多的位置，很难访问所有数据，也很难链接到外部工具进行分析。亚马逊的运营财务数据分布在超过25个数据库中，由地区团队创建自己的本地版本的数据集。这意味着有些人有超过25个访问管理凭据。许多数据库需要访问管理支持来执行更改配置文件或重置密码等操作。此外，必须对每个数据库进行审计和控制，以确保没有人有不当的访问权限。有了数据湖，就更容易在正确的时间将正确的数据传递给正确的人。与管理存储数据的所有不同位置的访问不同，您只需担心一组凭据。数据湖具有允许授权用户查看、访问、处理或修改特定资产的控件。数据湖有助于确保阻止未经授权的用户采取可能损害数据机密性和安全性的操作。数据也以开放格式存储，这使得使用不同的分析服务更容易。开放格式还使得数据更容易与甚至还不存在的工具兼容。组织中的各种角色（如数据科学家、数据工程师、应用程序开发人员和业务分析师）可以通过他们选择的分析工具和框架访问数据。简言之，您不必局限于一小部分工具，而更多的人可以理解这些数据。加速机器学习数据湖是机器学习和人工智能的强大基础，因为它们在大型、多样的数据集上茁壮成长。机器学习使用从现有数据中学习的统计算法，一个称为训练的过程，对新数据做出决策，这个过程称为推理。在培训期间，数据中的模式和关系被识别出来以构建模型。该模型允许您对以前从未遇到过的数据做出智能决策。你拥有的数据越多，你就可以更好地训练你的机器学习模型，从而提高准确性。亚马逊全球运营财务团队的最大职责之一是规划和预测亚马逊供应链的运营成本和资本支出，该供应链包括整个运输网络、数百个配送中心、分拣中心、配送站、全食配送点、新鲜取件点等。它们有助于回答重要的高层问题，例如"我们明年将运送多少个包裹？"以及"我们将在薪水上花多少钱？"他们还提出了一些非常具体的问题，比如"下个月我们在佛罗里达州的坦帕需要多少盒每种尺寸的盒子？" 你的预测越准确越好。如果你估计得太低或太高，可能会产生负面影响，影响到你的客户和你的底线。例如，在亚马逊，如果我们预测需求太低，那么履行中心的仓库工作人员可能没有足够的货源，或者没有足够的司机，这可能导致包裹延迟，更多的客户服务电话，订单被取消，以及失去客户的信任。如果我们的预测太高，你可能会有库存和箱子在仓库里占据宝贵的空间。这种情况意味着需求更高的产品的空间变小了。像亚马逊这样的大多数组织都会花费大量时间来预测未来。幸运的是，机器学习可以改善预测。去年，亚马逊运营财务团队做了一个测试。他们提取了一部分预测数据，并将传统的手工流程与亚马逊预测（Amazon Forecast）进行了对比，后者是一种完全管理的服务，使用机器学习来提供高度准确的预测。在这次试运行中，由Forecast完成的预测平均比手工过程完成的预测准确67%。通过将所有数据转移到一个数据湖中，亚马逊的运营财务团队可以组合数据集来训练和部署更精确的模型。使用更多相关数据训练机器学习模型可以提高预测的准确性。此外，它使那些手动执行此任务的员工能够自由地从事更具战略性的项目，例如分析预测以推动现场运营改进。使用正确的工具：AWS上的Galaxy亚马逊的零售业务使用了一些早于2006年开始创建亚马逊网络服务的技术。为了提高可扩展性、效率、性能和安全性，亚马逊零售业务的许多工作负载在过去十年中都转移到了AWS。银河数据湖是一个更大的大数据平台的重要组成部分，在内部称为星系。下图显示了Galaxy依赖AWS的一些方式以及它使用的一些AWS服务：银河系数据

本文地址： /ziyuan/18238.html