MySQL数据库_变形金刚百度云资源_高性能

小七 2019年10月25日 21:23 141 0

安全性可以释放数据湖的真正潜力

在过去的几年里，Databricks已经获得了大量在企业中大规模部署数据分析的经验。在许多情况下，我们的客户有成千上万的人在不同的业务部门使用我们的产品，以满足各种不同的使用情况，所有这些都涉及到访问从私有和敏感数据到公共数据的各种数据分类。这给我们带来了在大规模部署、操作和保护数据分析平台时所面临的各种挑战。在这篇博文中，我想谈谈这些经验教训。保护数据湖的挑战在打破数据孤岛的过程中，许多组织将来自不同来源的所有数据推送到数据湖中，数据工程师、数据科学家和业务分析师可以在那里处理和查询数据。这解决了向用户提供数据的挑战，但也带来了一个新的挑战，即保护不同类型的数据并将其与不允许访问数据的用户隔离开来。我们从我们的经验中学到的是，从生产中的单个用例到企业中任何团队都可以利用的平台的扩展带来了许多安全问题：我们如何确保访问数据湖的每个计算环境都是安全的并符合企业治理控制？我们如何确保每个用户只能访问他们被允许访问的数据？我们如何审核谁在访问数据湖，他们在读/写什么数据？我们如何在不依赖用户遵循最佳做法来保护公司最敏感的数据的情况下创建一个受策略控制的环境？对于一个小团队或特定用例的小数据集来说，这些问题的回答和实现都很简单，但是，要在规模上操作数据，使每个数据科学家、工程师和分析师都能最大限度地利用这些数据，确实很难。这正是Databricks平台构建的目的——在企业级安全地简化和支持数据分析。根据我们的经验，这里有一些平台需要注意的主题用于核心安全的云本地控件企业在创建和维护数据湖上花费了大量的资金和资源，并承诺数据可以用于整个企业的各种产品和服务。没有一个平台可以解决所有的企业需求，这意味着这些数据将被不同的产品使用，无论是国产的、供应商收购的还是云计算的。因此，数据必须以开放格式统一，并尽可能使用云本地控件进行安全保护。为什么？两个原因。第一，因为云提供商已经知道如何扩展他们的核心安全控制。第二，如果保护和访问数据需要专用工具，那么您必须将这些工具与访问数据的所有工具集成在一起。这可能是一场恶梦。所以，当有疑问的时候，就去云计算。这正是databricks平台所做的。它与IAM、用于身份的AAD和用于数据加密的KMS/密钥库、用于访问令牌的STS、安全组/NSG（例如防火墙）集成。这使企业能够控制它们的信任锚，将它们的访问控制策略集中在一个地方，并将它们无缝地扩展到数据块。隔离环境计算和存储分离是一种公认的体系结构模式，用于存储和处理大量数据。保护和保护能够访问数据的计算环境是减少总体攻击面最重要的一步。如何保护计算环境？这让我想起了美国联邦调查局（FBI）丹尼斯·休斯（Dennis Hughes）的一句话："唯一安全的计算机是一台没有插头、锁在保险箱里、埋在地下20英尺深的秘密地点，我甚至不太确定这台电脑"—当然，这并不能帮助我们实现让所有企业数据科学家和工程师都能获得的目标在几分钟内就可以在全球范围内大规模实施新的数据项目。那怎么办？隔离，隔离，隔离。第1步。确保用于分析的云工作区仅可从受保护的公司外围访问。如果员工需要从远程工作，他们需要VPN进入公司网络，以访问任何可以接触数据的内容。这将允许企业IT监视、检查和强制执行对云中工作区的任何访问的策略。第二步。隐身，我的意思是，实现Azure Private Link或AWS privateLink。确保平台用户、笔记本电脑和处理查询的计算群集之间的所有流量都经过加密并通过云提供商的网络主干传输，外部世界无法访问。这也有助于防止数据外泄，因为受损或恶意用户无法向外部发送数据。VPC/VNET对等解决了类似的需求，但操作更加密集，并且不能扩展。第三步。限制和监视你的计算。应该通过限制ssh和网络访问来保护执行查询的计算集群。这可以防止安装任意软件包，并确保您只使用定期扫描并持续监视以验证漏洞的图像。这可以用Databricks来完成，只需单击："launch cluster."完成！Databricks使上述操作变得非常容易。动态IP访问列表允许管理员仅从其公司网络访问工作区。此外，私有链接确保用户->数据包->集群->数据之间的整个网络流量保持在云提供商网络中。启动的每个集群都是从已扫描漏洞并被锁定的映像开始的，以便可以限制违反法规遵从性的更改—所有这些都内置于工作区创建和集群启动中。网络隔离保护数据安全数据湖的数据安全/保护面临的挑战是，数据湖有大量的数据，这些数据可能具有不同的分类和敏感度。用户通常通过不同的产品和服务访问这些数据，并且可以包含PII数据。如何为100/1000的工程师提供数据访问，同时确保他们只能访问他们被允许访问的数据？删除PII数据在数据进入数据湖之前，删除PII数据。这在很多情况下都是可能的。这已被证明是最成功的方法，可以最大限度地减少合规范围，并确保用户不会意外地使用/泄漏PII数据。有几种方法可以做到这一点，但将其作为摄取的一部分是最好的方法。如果您必须在数据湖中拥有可以归类为PII的数据，请确保内置查询该数据的功能，并在需要时删除它（由CCPA、GDPR提供）。本文演示了如何使用delta实现这一点。强大的访问控制大多数企业都有某种形式的数据分类。访问控制策略取决于数据湖中数据的存储方式。如果在不同分类下分类的数据被分离到不同的文件夹中，那么将IAM角色映射到隔离存储可以实现完全分离，并且身份提供程序中的用户/组可以与一个或多个这些角色相关联。如果这种方法足够，那么扩展比实现粒度访问控制更容易。如果分类是在数据对象级别定义的，或者访问控制需要在行/列/记录级别实现，则该体系结构需要一个集中的访问控制层，该层可以对每个查询实施细粒度的访问控制策略。这应该集中化的原因是，可能有不同的工具/产品访问数据湖，并且为每个工具/产品提供不同的解决方案将需要在多个地方维护策略。有些产品在基于属性的访问控制领域具有丰富的功能，云提供商也在实现这一功能。赢家将拥有易用性和可扩展性的正确组合。无论您做什么，确保您可以将访问权归还给单个用户是很重要的。用户执行的查询应该在访问数据之前假定该用户的身份和角色，这不仅可以为您提供细粒度的访问控制，还可以提供所需的遵从性审核跟踪。加密加密不仅是在第三方基础设施上获得数据"所有权"的一种方式，而且还可以用作访问控制的附加层。在这里使用云提供商密钥管理系统而不是第三方，因为它们与所有服务紧密集成。想要与第三方加密提供商一起使用的所有云服务实现相同级别的集成几乎是不可能的。想要在安全性方面走得更远的企业应该配置用于加密/解密数据的客户管理密钥的策略，并将其与存储文件夹本身的访问控制相结合。此方法确保了管理存储环境的用户与需要访问存储环境中数据的用户之间的职责分离。即使创建了新的IAM角色来访问数据，他们也不会被授权访问KMS密钥来解密它，从而创建了第二级强制。释放数据湖的潜力数据湖的真正潜力只有在所有想使用它的工程师和科学家都能获得时才能实现。要实现这一点，需要在数据平台中编织一个强大的安全结构。建立这样一个可以扩展到全球所有用户的数据平台是一项复杂的工作。Databricks提供了这样一个平台，是由一些世界上最大的公司信任的基础上，他们的人工智能驱动的未来。在创建一个简单的、可扩展的、可生产的数据平台的过程中，了解更多其他步骤，准备好以下博客实现跨组织的大规模数据转换

本文地址： /zhuji/3317.html