云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

轻量服务器_包头网站建设_怎么买

小七 141 0

从AWS的Databricks安全访问外部数据源

Databricks Unified Analytics Platform由Apache SparkTM的原始创建者创建,它将数据工程师、数据科学家和业务分析师与数据集中在一个平台上。它使他们能够合作,创造下一代创新产品和服务。为了创建驱动下一代产品所需的分析,数据科学家和工程师需要访问各种数据源。除了S3等云块存储中的数据外,他们需要的这些数据通常位于数据库等服务上,甚至来自不同VPC中的流数据源。安全连接到"非S3"外部数据源出于安全考虑,Databricks Apache Spark集群部署在一个独立的VPC中,专用于客户帐户内的Databricks。为了运行其数据工作负载,需要在Databricks Spark集群和上述数据源之间建立安全的连接。位于Databricks VPC内的Databricks集群可以直接从aws3访问数据,而aws3不是VPC特定的服务。但是,我们需要一个不同的解决方案来访问部署在其他vpc中的数据源,比如AWS Redshift、RDS数据库、Kinesis或Kafka的流数据。本博客将带您了解一些您可以安全地访问这些源中的数据的选项,以及在AWS上部署它们的成本考虑因素。为了建立与这些数据源的安全连接,我们必须使用以下两个可用选项之一配置Databricks VPC:选项一:专有网络对等通过VPC对等,可以在Databricks集群和其他非S3外部数据源之间建立安全的连接。AWS将VPC对等定义为"两个VPC之间的网络连接,允许您使用私有IPv4地址或IPv6地址在它们之间路由流量"。有关更多详细信息,请参阅此处的AWS文档。专有网络对等链路选择VPC对等选项时,需要考虑以下因素:当被对等的专有网络之间有多个资源需要进行通信时,专有网络的对等更容易、更合适。当专有网络内部通信程度较高时,建议采用专有网络对等方式。托管其他"非S3数据源"的专有网络必须具有不同于Databricks专有网络的CIDR范围的CIDR范围或Databricks VPC主路由表中作为目的地的任何其他CIDR范围专有网络对等有规模限制。请查阅美国焊接学会的最新文件。定价考虑因素:同地域定价:如果专有网络对等连接中的专有网络在同一地域内,则通过专有网络对等连接传输数据的费用与跨可用区传输数据的费用相同。不同地区定价:如果专有网络位于不同的地区,则采用区域间数据传输成本。有关准确和最新的定价,请参考AWS文档。下面是一个很理想的VPC对等选项的例子–您的任务是创建一个数据表,从Kafka集群中提取数据,并将聚合结果存储在位于Databricks VPC外部的同一个VPC上的Aurora数据库上。假设没有其他安全限制,您可以在Databricks VPC和数据源所在的外部VPC之间使用VPC对等连接,然后连接到这两个数据源。选项2:AWS Privatelink与非S3数据源连接的第二个选项是使用AWS Privatelink。AWS将PrivateLink定义为"在Amazon网络上安全地提供vpc、AWS服务和本地应用程序之间的私有连接的服务。AWS PrivateLink通过消除数据暴露在公共互联网上,简化了与基于云的应用程序共享的数据的安全性。"AWS私人链接在选择Privatelink选项时,必须考虑以下因素:PrivateLink总体上更易于设置,更适合具有以下安全要求的专有网络关系:每个Privatelink只能连接到一个服务很容易找到哪些服务/端口对Databricks服务开放每个访问的服务都可以单独控制AWS Privatelink通过向AWS Privatelink的提供者应用源NAT来支持重叠的CIDR范围尽管AWS Privatelink可以扩展到每个VPC上千个用户,但在任何时候只能配置一个PrivatelinkAWS Privatelink只允许数据使用者发起到数据提供者的连接。如果需要双向通信,则可能需要VPC对等或用户和提供商之间的对等AWS专用链接。AWS Privatelink继承了网络负载平衡器(NLB)的设计考虑。例如,nlb只支持TCP,从使用者到提供者的连接通过源NAT,这可能会阻止应用程序识别消费者的IP地址。定价考虑:无论流量的来源或目的地如何,通过VPC端点处理的每GB数据都将收取数据处理费用通过Direct Connect在可用区域之间或您的端点和您的场所之间传输的数据也将产生通常的EC2区域和直接连接数据传输费用。参见AWS PrivateLink定价。下面是一个使用AWS privatelink的示例。你有一个生产专有网络,有很多数据源,比如Redshift、Aurora和MySQL。企业希望查询MySQL数据库中的数据,但不公开Redshift或Aurora中存储的机密数据。使用privatelink,您可以打开从Databricks集群到MySQL的连接,允许用户安全地访问MySQL,同时限制与Redshift和Aurora的连接。配置编程或手动对等:https://docs.databricks.com/administration-guide/cloud-configurations/aws/vpc-peering.html手动Privatelink设置:https://docs.aws.amazon.com/vpc/latest/userguide/vpce-interface.html连接到数据源的数据链接资源卡夫卡连接示例连接到各种数据源最后步骤一旦通过VPC对等或Privatelink建立了网络连接,就可以设置与特定数据源或服务的身份验证。请访问AWS文档中的Databricks,以获取您需要访问的特定数据源。在任何可能的情况下,考虑使用秘密来保证连接的安全。根据需要使用正确的连接选项可以降低总体复杂性,并帮助数据科学家和数据工程师以安全的方式访问所需的数据。试试看!请致电我们,了解数据块如何改善您的安全状况。通过在apachespark上下载我们的保护企业数据的安全电子书来了解更多信息。免费试用Databricks。今天就开始吧