云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

轻量服务器_分布式消息队列_优惠

小七 141 0

允许使用群集策略创建具有完全管理控制的简单群集

什么是Databricks群集策略?Databricks集群策略是限制用户与集群配置交互方式的模板。现在,任何拥有集群创建权限的用户都可以启动apachespark™ 具有任何配置的群集。这导致了一些问题:管理员被迫在控制和灵活性之间做出选择。我们经常看到集群被集中管理,所有非管理员都被剥夺了创建集群的权限;这提供了对环境的可接受的控制,但却给用户的生产效率造成了瓶颈。允许所有用户自由支配的另一种选择可能会导致成本失控和整个企业集群类型激增等问题。用户被迫选择自己的配置,即使他们不需要或不想这样做。对于许多用户来说,创建一个新集群时的选项太多,很多用户只想创建一个小的、基本的集群进行原型设计,或者重新创建一个其他人已经配置好的集群。在这种情况下,更多的选择并不是更好。为实现标记、按存储容量使用计费、用户登录和跨环境复制等目的而对配置进行标准化通常是手动的。这些基本上可以通过API解决方案来实现,但是它们没有很好地集成。为了帮助解决这些问题,我们引入了集群策略,以允许创建可重用的、管理员定义的集群模板。它们将控制用户在创建集群时可以看到和选择的内容,并且可以通过组或用户权限进行集中管理和控制。我们看到两个广泛的好处:提高管理员平衡控制和灵活性的能力,以及简化非管理员的用户体验。群集策略如何帮助管理员平衡管理控制和用户灵活性?虽然管理员在设计Databricks中的使用模式时,历来必须在控制和灵活性之间做出选择,但集群策略将允许两者共存。通过定义一组可以分配给特定用户或组的模板,管理员可以在不妨碍adhoc集群模型的灵活性的情况下满足组织的使用和治理准则。为此,策略将允许自动复制和强制执行一些最常见的模式:可以强制每个集群每小时的最大DBU烧毁,以防止用户启动过大或昂贵的集群可以强制对集群进行标记,以根据AWS资源标签启用按存储容量使用计费/展示实例类型和实例数量可以通过白名单、范围规范甚至正则表达式来控制,从而对创建的集群的类型和大小提供细粒度的控制可以限制集群类型,以确保用户仅在作业集群上运行作业,而不是在通用集群上运行作业更复杂的模板(如强制传递、启用外部元存储等)也可以提供可重用的框架;与每次创建集群时都要处理复杂配置不同,它可以一次性完成,然后反复应用到新的集群中。所有这些结合在一起,可以为Databricks管理员和云操作团队提供更好的可见性、控制和治理,同时又不丧失使Databricks对我们的许多客户都很有价值的灵活性和敏捷性。群集策略如何帮助简化非管理员用户的体验?作为当今Databricks的用户,我在创建集群时需要做一些选择,比如驱动节点和工作节点使用什么样的实例类型和大小,要包含多少个实例,Databricks运行时的版本,自动调整参数等等。虽然一些用户可能觉得这些选项很有帮助和必要,但大多数用户需要在创建集群时只做一些基本的选择,例如选择小型、中型或大型。高级选项可能对不成熟的用户来说是不必要的。集群策略将允许这些用户选择一个基本策略(如"small"),提供集群名称,并直接访问他们的笔记本。例如,与所有用户今天看到的完全创建群集屏幕不同,一个最小的策略可能如下所示:这对于那些可能不熟悉云计算世界或不熟悉apachesparktm的用户尤其有用;他们现在可以依赖提供给他们的模板,而不是猜测。更高级的用户可能需要其他选项,可以为这些选项创建策略并将其分配给特定的用户或组。策略足够灵活,可以允许多个级别的粒度,因此数据科学或数据工程团队可以看到他们所需的精确级别的详细信息,而不会增加导致混乱和降低生产率的复杂性。集群策略有哪些例子?尽管集群策略将随着我们添加更多的端点和接口而不断发展,但我们已经从该领域中获得了一些最佳实践,并将它们形成了一个可以继续构建的起点。这些模板的一些示例包括:小型/中型/大型"t恤大小"集群:最小的集群,用户几乎不需要配置;我们使用标准的i3.2xlarge节点类型,具有自动缩放和自动终止的功能。用户只需提供群集名称。Max DBU count:允许修改集群的所有参数,但提供一个限制(即每小时50个DBU),以防止用户创建过大或昂贵的集群单节点机器学习(ML)集群:将运行时限制为数据块ML运行时,强制1个驱动程序和0个工作线程,并为ML工作负载可接受的GPU或CPU机器提供选项仅作业群集:用户只能使用此策略创建作业群集和运行Databricks作业,而不能创建共享的通用群集这些是集群策略可能使用的许多不同类型模板的一个小样本。一般群集策略描述:这是一个通用的群集策略,用于指导用户并限制某些功能,同时需要标记、限制实例的最大数量以及强制执行超时。{"火花_conf.spark.databricks.群集.profile": {"type":"修复","value":"无服务器","隐藏":是的},"实例池_id":{"type":"禁止","隐藏":是的},"spark_版本":{"type":"regex","pattern":"6.[0-9].x-scala.*"},"节点类型"标识:{"type":"白名单","价值观":["i3.xlarge","i3.2x大","i3.4XL"],"defaultValue":"i3.2xlarge"},"驱动程序节点"类型"标识":{"type":"修复","value":"i3.2xlarge","隐藏":是的},"autoscale.min_工作人员": {"type":"修复","值":1,"隐藏":是的},"autoscale.max_工人": {"type":"范围","最大值":25,"默认值":5},"自动终止分钟":{"type":"修复","价值":30,"隐藏":是的},"自定义_标签.团队": {"type":"修复","value":"产品"}}注意:对于Azure用户,"节点类型"和"驱动程序节点类型"需要是Azure支持的虚拟机。简单中型保单描述:此策略允许用户使用最少的配置创建一个中型Databricks集群。创建时唯一必需的字段是cluster name;其余字段是固定的和隐藏的。{"实例池_id":{"type":"禁止","hidden":"true"},"火花_conf.spark.databricks.群集.profile": {"type":"禁止","hidden":"true"},"autoscale.min_工作人员": {"type":"修复","值":1,"hidden":"true"},"autoscale.max_工人": {"type":"修复","值":10,"hidden":"true"},"自动终止分钟":{"type":"修复","值":60,"hidden":"true"},"节点类型"标识:{"type":"修复","value":"i3.xlarge","hidden":"true"},"驱动程序节点"类型"标识":{"type":"修复","value":"i3.xlarge","hidden":"true"},"spark_版本":{"type":"修复","value":"7.x-snapshot-scala2.11","hidden":"true"},"自定义_标签.团队": {"type":"修复","value":"产品"}}注意:对于Azure用户,"节点类型"和"驱动程序节点类型"需要是Azure支持的虚拟机。仅限职务政策描述:此策略仅允许用户创建Databricks作业(自动)群集并使用群集运行作业。用户无法使用此策略创建通用(交互式)群集。{"群集类型":{"type":"修复","value":"作业"},".dbus_每小时":{"type":"范围","最大值":100},"实例池_id":{"type":"禁止","hidden":"true"},"工人人数":{"type":"范围","最小值":1},"节点类型"标识:{"type":"regex","pattern":"[rmci][3-5][rnad]*.[0-8]{0,1}xlarge"},"驱动程序节点"类型"标识":{"type":"regex","pattern":"[rmci][3-5][rnad]*.[0-8]{0,1}xlarge"},"spark_版本":{"type":"regex","pattern":"6.[0-9].x-scala.*"},"自定义_标签.团队": {"type":"修复","value":"产品"}}注意:对于Azure用户,"节点类型"和"驱动程序节点类型"需要是Azure支持的虚拟机。高并发传递策略描述:此策略允许用户在高并发模式下创建默认启用了传递的群集。这简化了管理员的设置,因为用户需要手动设置适当的Spark参数。{"火花_conf.spark.databricks.已启用passthrough.enabled": {"type":"修复","value":"true"},"火花_conf.spark.databricks.repl.允许的语言": {"type":"修复","value":"python,sql"},"火花_conf.spark.databricks.群集.profile": {"type":"修复","value":"无服务器"},"火花_conf.spark.databricks.pyspark.enableProcessIsolation": {"type":"修复","value":"true"},"自定义_标记.ResourceClass": {"type":"修复","value":"无服务器"}}外部元存储策略描述:此策略允许用户创建已附加管理员定义的元存储的Databricks集群。这对于允许用户创建自己的集群而不需要额外的配置非常有用。{"火花_conf.spark.hadoop.javax.jdo.option.选项.ConnectionURL::{"type":"修复","值":jdbc:sqlserver://"},