百度云_百度云视频下载_免费6个月

小七 2019年10月25日 21:23 141 0

扩展金融时间序列分析超越个人电脑和熊猫：随需应变网络研讨会，幻灯片和常见问题解答现已提供！

2019年10月9日，我们与Databricks的行业领先金融服务公司Junta Nakai和Databricks的解决方案架构师Ricardo Portilla共同举办了一场在线研讨会——超越PC和熊猫的金融时间序列分析。这是一个在线研讨会，展示了这个博客的内容——用数据链进行金融时间序列分析的民主化。请在此处找到本次网络研讨会的幻灯片。基本经济数据、金融股票指数数据和其他数据集（如地理空间或交易数据）都是按时间索引的，通常是不定期的。解决金融领域的商业问题，如投资风险、欺诈、交易成本分析和合规性，最终取决于能够并行分析数百万时间序列。基于关系数据库的旧技术在分析交易策略或对多年的历史数据进行监管分析时不容易扩展。在本次网络研讨会中，我们回顾了：如何使用apachespark在数十万个股票代码上并行构建时间序列函数™.最后，如果您是一个Pandas（Python数据分析库）用户，希望通过缩放数据准备来进行财务异常检测或其他统计分析，那么我们使用一个市场操纵示例来说明考拉如何使缩放对典型的数据科学工作流程透明。我们在Databricks中使用这个笔记本演示了这些概念如果您想免费访问统一数据分析平台并在其上尝试我们的笔记本电脑，您可以在这里访问免费试用版。最后，我们进行了问答，下面是问答。 Q： BI工具传统上查询数据仓库，现在可以连接到数据块吗？A：好问题。有两种方法可以解决这个问题。是的，你可以将你的BI工具直接连接到Databricks来查询数据湖。让我们看看下面的幻灯片。如果您看一下图表，BI工具会指向apachespark创建的一个托管表。如果您有一个特定于一个行业务的聚合表（假设您创建了一个具有全天聚合交易窗口的表），则可以使用Tableau、Looker等BI工具进行查询。如果您需要非常低的延迟，例如，假设您需要为C级创建仪表板，则可以查询数据仓库。 Q：有没有一种方法可以有效地分布时间序列的建模，或者这仅仅是基于分布式pandas的数据操作来准备数据集。具体来说，我使用了相当多的SARIMAX。我正试图找出如何分发候选SARIMAX模型的交叉验证。A：这个演示更侧重于操作方面，但是Spark绝对可以分发诸如超参数调优和交叉验证之类的东西。所以如果你定义了一个网格或者你想做一个随机的贝叶斯搜索，你需要做的就是定义独立的问题或者你的问题的划分。一个很好的例子就是预测。比方说，我想迭代100个不同的组合，在这里我想改变我们是指定每日季节性还是年度季节性，然后乘以我在ARIMA模型中使用的所有不同参数。然后我需要做的就是定义grid和Spark基本上可以为每个不同的输入向量参数执行一个任务。所以实际上，你可以同时运行1000或5000个预测。这将是一个实际并行化预测等事情的go-to方法。 Q：考拉是开源的吗？考拉和scikit一起工作学习吗？是的，考拉是开源软件。考拉肯定与scikit learn合作。如果你浏览一下博客中的笔记本，你可以有效地转换这些数据结构中的任何一个，并可以直接将其输入scikit learn。唯一不同的是，在将其放入机器学习模型之前，您可能必须直接转换结构。但它应该能起到其他作用。这两个numpy数据结构充当了桥梁。 Q：作为一个团队，如果我们处理数据块，我们如何进行代码审查或版本控制？这篇博客文章实际上指出了这样做的机制。如果你想在性能方面利用数据块，计算方面，MLFlow等等。我们发布了一个叫做Databricks Connect的东西。它允许您在本地IDE上工作。如果您这样做，您可以始终使用标准工具将代码签入到版本控制中，然后像通常那样使用Jenkins进行部署。第二种选择是Databricks笔记本本身与Git集成，因此您可以直接将工作保存在笔记本中，就像您正在进行的那样。 Q：有什么资源，演示，教程来处理面向地理空间的时间序列数据？例如，可以查看过去5年的房地产数据，并将其与交通数据相结合，以显示住房密度如何影响交通模式。A：这里强调的技术是多用途的。对于AS-OF-join，您当然可以使用所描述的数据集。对列进行划分，然后选择正确的时间戳。我们将考虑在以后的地理空间博客，特别是，这可能会深入到技术或库，可以用来有效地连接地理空间数据。但是现在AS-OF-join应该适用于任何想要使用的数据集，只要您只是试图合并它们以获得上下文相关的AS-OF数据。额外资源利用数据链实现金融时间序列分析的民主化考拉：从熊猫到Apache Spark的轻松过渡免费试用Databricks。今天就开始吧

本文地址： /zhuji/3271.html