云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

分布式存储_网站服务器怎么搭建_0元

小七 141 0

提供按需网络研讨会:Databricks的数据管道

两周前,我们举办了一个在线研讨会——Databricks的数据管道:旅程和经验教训——展示Databricks如何使用ApacheSpark简化我们自己的日志ETL管道。该网络研讨会描述了一种体系结构,在该体系结构中,您可以在笔记本中开发管道代码,创建用于生产笔记本的作业,并利用restapi将所有这些转变为一个连续的集成工作流。我们回答了以下网络研讨会观众提出的常见问题。如果您还有其他问题,请访问Databricks论坛。常见网络研讨会问答单击问题以查看答案:如果我没有对机器的SSH访问权限,如何使用jstack调试线程正在执行的操作?在推荐的方法中,我们通过删除日志日期列来减少分区的数量。然而,在优化输出时,我们要在目录路径中包含日期,以便将数据均匀地分布到不同的分区中——这些建议是否相互矛盾?在使用流式处理而不是使用当前解决方案时,关于Parquet文件中数据的持久性会发生什么情况?在写拼花地板表的时候,你能预见到酸性物质的问题吗?我们可以使用Databricks和apachespark作为"操作数据存储"吗?这意味着数据以批处理的形式摄取,当用户更新以前加载的数据时是增量的。当运行作业时数据被附加到文件中时,有没有一种方法可以获取日志的内容(例如驱动程序)?也就是说,不是为了查看日志而等待作业完成?免费试用Databricks。今天就开始吧