美国服务器_腾讯云博客_新注册优惠

小七 2019年10月25日 21:23 141 0

如何使用ApacheSpark数据集和数据帧处理IoT设备JSON数据

今天，我加入了Databricks，apachespark背后的公司，作为Spark社区的布道者。过去，我曾在多家科技公司担任过个人贡献者，担任过许多工程职务；最近，我还担任过开发人员和社区倡导者。我怀着无比的自豪和喜悦，在Spark作为最活跃的开源Apache项目的发展轨迹的关键时刻，在Databricks担任这个新角色，在这里，拥抱我们不断增长的Spark社区是最重要的，来自社区的贡献是值得重视的，保持Spark简单易用对每个人来说都是神圣的。追求简单和无处不在"Spark是开发人员的乐事"是Spark的开发者社区经常听到的一句话。自诞生之日起，引导北极星大规模简化大数据处理的愿景并未消退。事实上，Apache Spark从1.0到1.6的每一个后续版本，在其体系结构、跨编程语言的API的一致性和对等性，以及构建在Spark核心之上的主要库组件的统一，这些组件可以处理诸如RDD之类的共享数据抽象，或数据帧。从Spark的早期，它的创造者们就接受了Alan Kay的原则："简单的事情应该是简单的，复杂的事情是可能的。"毫不奇怪，Spark团队在纽约Spark峰会上明确重申了对社区的承诺，2016年：主题演讲和发布路线图证明了简单易用的愿景，因此每个人都可以获得"火花的感觉"为了让我们感受到"火花的感觉"，这本笔记本向我们展示了在Databricks上使用Spark的简单性，不需要配置节点，不需要管理集群；所有这些都是为您完成的，都是Databricks Community Edition免费提供的。对于DataFrames（在1.3中介绍）和Datasets（在1.6中预览），在本笔记本中，我使用这两组api来演示如何使用固有和推断模式快速处理结构化数据（JSON），直观地组合关系表达式，最后对表发出Spark SQL查询。通过使用notebook的无数绘图选项，您可以可视化演示和叙述的结果。更好的是，您可以将这些绘图保存为仪表板。在第二部分中，我扩展了设备数据集，以包括附加属性，例如GeoIP位置、从AdTech示例笔记本借用的一个想法，以及我们可以记录警报的其他设备属性，例如设备电池电量或二氧化碳水平。我上传了近20万个设备，从最初的200万个条目缩减为一个更小的快速原型数据集。同样，所有代码都可以在GitHub上找到：Python脚本Scala库Scala笔记本JSON数据除了从这里导入Databricks笔记本到Databricks帐户之外，您还可以观看它的屏幕广播。要访问Databricks社区版，请立即加入等待列表！免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3394.html