云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

微软云_数据库置疑_评分榜

小七 141 0

在Databricks产品中安装NFS

注意:本博客中的解决方案只适用于AWS单租户部署,可能不适用于Azure数据块。请查看生产文件https://docs.databricks.com/了解什么可以满足您的需求今年春天,我在Databricks的集群团队担任软件工程师实习生。我的实习项目是为Databricks产品启用NFS挂载,它允许您使用NFS协议挂载自己的存储(awsefs、Azure文件或on prem文件系统)。在这个博客中,我将讨论我们如何在Databricks产品中集成网络文件系统,以及我的实习经验。网络文件系统网络文件系统是一种分布式文件系统协议,允许您通过网络访问文件,类似于访问本地存储的方式。NFS广泛应用于云环境(awsefs和Azure文件)和prem文件存储。大量实例可以共享同一个NFS服务器并同时与同一个文件系统交互。但是,Databricks产品不支持NFS装载。以前,如果要访问文件系统,必须使用FUSE手动装载现有的文件系统。保险丝限制FUSE的一个主要限制是它的性能和延迟:FUSE上下文在用户空间和Linux内核空间之间切换,增加了延迟。另一个限制是许多FUSE客户机还没有准备好生产。如果您使用awsefs或在prem上有数据,则体验更糟,因为没有合适的FUSE客户端可用。Databricks通过FUSE挂载到DBFS中提供一个本地POSIX文件系统,由S3/azureblob存储支持。启用NFS挂载还为将来迁移到NFS以提供更高的DBFS性能开辟了可能。基于上述限制和强大的需求,我们决定在Databricks中添加NFS挂载支持。NFS-on-Databricks的工作原理作为合格的AWS客户,您可以通过启用NFS配置标志并使用以下initscript装载NFS来启用NFS装载。使用这个init脚本,EFS将被装载到集群的每个节点上,您可以访问/EFS下的文件系统。你现在可以读写文件系统了!dbutils.fs.put("/home/bootstrap/install-efs.sh公司", """#!/bin/bash安装nfs包apt get-y install nfs common#创建装载目录并装载EFSmkdir/efs系统mount-t nfs4-o nosuid,nodev fs-efg.efs.us美国-区域2。亚马逊网站://efs"",真)NFS使用案例NFS装载解决了以下使用情形:提供高性能、低延迟的I/O操作。允许在Databricks上使用RStudio(RStudio依赖于DBFS-FUSE无法轻松支持的POSIX特性)。确保轻松访问现有NFS部署中的数据集。结论启用NFS挂载为Databricks产品打开了新的可能性,并显著提高了Databricks中对存储延迟敏感的工作负载的性能。在实习期间,我获得了设计、实现和测试Databricks产品生产规模系统中的一个特性的经验。此外,我还经历了现实世界中的项目管理,项目需求会发生变化,我们需要在短时间内适应新的设计和实施。在Databricks实习期间,我觉得自己是团队的一员,有机会对Databricks产品产生真正的影响。更重要的是,我从其他团队成员那里学到了很多,并从这个项目中获得了技术上的成长。Databricks的工程师非常支持,总是乐于接受讨论和反馈,并以主人翁精神和责任感行事。在此特别感谢集群团队成员的支持!我要感谢我的经理Ihor一直在那里支持我,关心我在工作内外的生活,感谢我的导师钱老师帮助我解决我遇到的问题,并给我上了编写健壮代码和构建大规模系统的宝贵经验教训!成为团队的一员,让人们相信你,帮助你成为一名更好的工程师,这真是太棒了!感谢Databricks和Clusters团队给我们带来的美好时光和工作经验!免费试用Databricks。今天就开始吧