云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

美国服务器_腾讯云博客_新注册优惠

小七 141 0

如何使用ApacheSpark数据集和数据帧处理IoT设备JSON数据

今天,我加入了Databricks,apachespark背后的公司,作为Spark社区的布道者。过去,我曾在多家科技公司担任过个人贡献者,担任过许多工程职务;最近,我还担任过开发人员和社区倡导者。我怀着无比的自豪和喜悦,在Spark作为最活跃的开源Apache项目的发展轨迹的关键时刻,在Databricks担任这个新角色,在这里,拥抱我们不断增长的Spark社区是最重要的,来自社区的贡献是值得重视的,保持Spark简单易用对每个人来说都是神圣的。追求简单和无处不在"Spark是开发人员的乐事"是Spark的开发者社区经常听到的一句话。自诞生之日起,引导北极星大规模简化大数据处理的愿景并未消退。事实上,Apache Spark从1.0到1.6的每一个后续版本,在其体系结构、跨编程语言的API的一致性和对等性,以及构建在Spark核心之上的主要库组件的统一,这些组件可以处理诸如RDD之类的共享数据抽象,或数据帧。从Spark的早期,它的创造者们就接受了Alan Kay的原则:"简单的事情应该是简单的,复杂的事情是可能的。"毫不奇怪,Spark团队在纽约Spark峰会上明确重申了对社区的承诺,2016年:主题演讲和发布路线图证明了简单易用的愿景,因此每个人都可以获得"火花的感觉"为了让我们感受到"火花的感觉",这本笔记本向我们展示了在Databricks上使用Spark的简单性,不需要配置节点,不需要管理集群;所有这些都是为您完成的,都是Databricks Community Edition免费提供的。对于DataFrames(在1.3中介绍)和Datasets(在1.6中预览),在本笔记本中,我使用这两组api来演示如何使用固有和推断模式快速处理结构化数据(JSON),直观地组合关系表达式,最后对表发出Spark SQL查询。通过使用notebook的无数绘图选项,您可以可视化演示和叙述的结果。更好的是,您可以将这些绘图保存为仪表板。在第二部分中,我扩展了设备数据集,以包括附加属性,例如GeoIP位置、从AdTech示例笔记本借用的一个想法,以及我们可以记录警报的其他设备属性,例如设备电池电量或二氧化碳水平。我上传了近20万个设备,从最初的200万个条目缩减为一个更小的快速原型数据集。同样,所有代码都可以在GitHub上找到:Python脚本Scala库Scala笔记本JSON数据除了从这里导入Databricks笔记本到Databricks帐户之外,您还可以观看它的屏幕广播。要访问Databricks社区版,请立即加入等待列表!免费试用Databricks。今天就开始吧