域名注册_网站建设报价模板_代金券

小七 2019年10月25日 21:23 141 0

用不断增长的开源生态系统和数据块解决世界上最棘手的问题

2013年，我们在伯克利的一个小办公室里创建了Databricks，我们坚信数据有潜力解决世界上最棘手的问题。我们作为一个拥有1000多名员工的全球性组织进入了2020年，客户群从两人创业公司到财富10强。在这篇博文中，让我们花点时间回顾和反思我们在2019年共同取得的成就。我们将详细阐述以下主题：解决世界上最棘手的数据问题、开放源代码生态系统的新发展，以及我们如何通过Databricks平台增强将两者联系起来。解决世界上最棘手的问题开源生态系统的新发展开源三角洲湖项目用无尾熊轻松缩放熊猫！简化机器学习工作流Databricks统一数据分析平台优化存储数据库池用于机器学习的Databricks运行时和Databricks运行时托管MLflow的自动日志记录利用Databricks实验室的AutoML工具包增强机器学习结束语解决世界上最棘手的问题随着时间的推移，我们会遇到更多的用例，这些用例强化了我们的信念，即有效利用数据将对所有行业和学科产生深远影响，我们为自己在这一过程中所扮演的角色感到自豪。数以千计的组织已委托Databricks承担其关键任务的工作量，并在各种会议上介绍了它们在传播最佳做法方面的进展。2019年的一些好例子包括：Regeneron能够分析大量的基因组数据，并通过机器学习识别出导致慢性肝病的基因组的一部分。通过快速处理所有这些数据，他们现在能够创造和测试一种潜在的救命药来对抗慢性肝病。为了继续这一势头，Databricks和Regeneron今年早些时候联手推出了Glow，一个用于大规模基因组分析的开源工具包。FINRA能够通过使用图形框架构建一个数PB的图形，然后使用机器学习来确定图形中哪些部分有指向市场操纵的点击，从而打击欺诈行为。Quby：利用欧洲最大的能源数据集，包括数PB的物联网数据，Quby已经开发出以人工智能为动力的产品，每天有数十万用户使用。要了解更多关于库比是如何保护地球的信息，请查看家庭节能与数据和人工智能的统一方法。开源生态系统的新发展在阿姆斯特丹举行的2019年欧盟Spark+AI峰会上，我们很兴奋地预告了ApacheSpark3.0（预计将于2020年发布）以及生态系统中的其他主要项目：开源生态系统的新发展：Apache Spark 3.0、Delta Lake和考拉。开源三角洲湖项目DeltaLake是一个开源存储层，它为数据湖带来了可靠性。Delta Lake提供ACID事务、可扩展的元数据处理，并将流式处理和批处理数据处理统一起来。DeltaLake运行在现有的数据湖之上，与ApacheSparkAPI完全兼容。该项目已经部署在数千个组织中，每周处理更多EB的数据，成为数据和AI架构中不可或缺的支柱，Databricks平台上扫描的数据超过75%都在Delta Lake！2019年早些时候，我们宣布，正如Spark+AI峰会2019年主题演讲所述，我们将对三角洲湖项目进行开源。在这一年中，我们很快从0.1.0版（2019年4月）升级到0.5.0版（2019年12月）。一些亮点包括：让Apache Spark™ 与迈克尔·阿姆布鲁斯特的三角洲湖网络研讨会更好使用pythonapi对Delta-Lake表执行简单、可靠的upsert和delete操作潜入三角洲湖：打开事务日志DeltaLake现在由Linux基金会托管，成为数据湖的开放标准有关如何操作博客、网络研讨会、会议和活动的更全面列表，请参阅三角洲湖时事通讯（2019年10月版）。现在要试用Delta Lake，一个很好的资源是Spark+AI Summit EU 2019教程：在Delta Lake上构建数据密集型分析应用程序。用无尾熊轻松缩放熊猫！对于那些喜欢与大熊猫合作但需要扩大规模的数据科学家，我们宣布了考拉开源项目。考拉通过在apachespark上提供pandas API，使数据科学家能够轻松地从小数据集过渡到大数据集。尽管这个项目始于2019年初，考拉现在每天有20000次下载！正如维珍Hyperloop One如何将考拉处理时间从数小时减少到几分钟的博客文章中所强调的：通过对不到1%的熊猫生产线进行修改，我们可以用考拉和星火运行我们的代码。我们能够将执行时间减少10倍以上，从几小时减少到几分钟，而且由于环境能够横向扩展，我们已经为更多的数据做好了准备。简化机器学习工作流MLflow项目于2018年推出，能够跟踪指标、参数和工件，作为实验的一部分，打包模型和可复制的ML项目，并将模型部署到批量或实时服务平台。2019年，MLflow项目每月下载量超过100万次！为了帮助简化机器学习模型工作流，2019年秋季，我们引入了MLflow模型注册中心，它建立在MLflow现有能力的基础上，为组织提供一个共享ML模型的中心位置，协作将其从实验转移到测试和生产，并实施批准和治理工作流。Databricks统一分析平台Databricks统一分析平台是一个用于大规模数据工程和协作数据科学的云平台。2019年，Databricks统一数据分析平台每天创建超过100万个虚拟机（VM）！我们用许多新功能扩展了Databricks平台！完整的列表相当广泛，可以在Databricks平台发行说明（AWS | Azure）中找到。优化存储在Databricks Runtime 6.0中，我们增强了FUSE挂载，使本地文件api能够显著提高读写速度，并支持大于2gb的文件。如果您需要更快、更可靠的读写，比如分布式模型培训，您会发现这个增强特别有用。例如，正如2019年Spark+AI峰会上提到的，简化星巴克快速图像分类的分布式TensorFlow培训，简单CNN模型的培训提高了10倍以上（从2.62分钟下降到14.65秒）。数据库池最近，我们推出了Databricks池来加速数据管道和快速扩展集群。Databricks pools是一个VM实例的托管缓存，允许您将集群启动和自动伸缩时间从几分钟缩短到几秒钟！此外，在2019年，我们引入了更多可使用数据链的地区。截至2019年底，Azure中有29个地区可用，AWS中有13个地区可用，2020年将有更多地区推出！用于机器学习的Databricks运行时和Databricks运行时2019年，用于机器学习的Databricks Runtime（DBR）正式推出！截至2019年12月，基因组学有DBR 6.2 GA、DBR 6.2 ML和DBR 6.2。每个DBR版本都经过了版本兼容性测试和验证，从而简化了对TensorFlow、TensorBoard、PyTorch、Horovod、XGBoost、MLflow、Hyperopt、mlap等不同版本的管理。为了简化Python库和环境管理，我们还引入了Databricks Runtime with Conda（Beta），许多Python用户都喜欢使用Conda来管理Python环境和库，Conda很快成为一种标准。Conda采取了一种整体的方法来管理软件包，它能够：环境的创造和管理安装Python包易于复制的环境与pip兼容Databricks Runtime with Conda（AWS | Azure）为需要最大限度控制包和环境的高级用户提供了更新和优化的默认包列表和灵活的Python环境。托管MLflow的自动日志记录Databricks上的Managed MLflow提供了MLflow的托管版本，它与Databricks的安全模型、交互式工作区以及Databricks企业版和Databricks社区版的MLflow侧边栏完全集成。使用托管MLflow，现在数据科学家可以更轻松地跟踪Apache Spark MLlib、Hyperopt、Keras和Tensorflow的机器学习培训课程，而无需更改任何培训代码。使用MLflow、Apache Spark MLlib和Hyperopt调整超参数在Python中扩展Hyperopt来调整机器学习模型Keras和TensorFlow的自动测井利用Databricks实验室的AutoML工具包增强机器学习注意：Databricks实验室的AutoML工具包是一个实验室项目，旨在加速Databricks统一分析平台上的用例。正如Spark+AI峰会2019年欧洲会议"使用Databricks Labs AutoML Toolkit增强机器学习"中所述，您可以通过使用Databricks Labs AutoML Toolkit显著简化构建、评估和优化机器学习模型的过程。使用AutoML工具箱还可以显著更快地交付结果，因为它允许您自动执行各种机器学习管道阶段。通过发布AutoML FamilyRunner，我们进一步简化了AutoML工具箱，允许您使用一系列不同的ML算法进行测试，如使用AutoML工具箱的FamilyRunner管道api来简化和自动化贷款违约预测。结束语2019年是Databricks的伟大一年！2019年11月，我们雇佣了第1000名全职员工。自从我们的第一年（2013年）以来，已经发生了很多变化，您可以在Databricks和1000名员工的庆祝增长中了解更多信息！作为我们2019年惊人增长的一部分，我们拥有

本文地址： /zhuji/3299.html