数据库服务器_百度云慢_三重好礼

小七 2019年10月25日 21:23 141 0

apachespark正式创造了大规模分拣的新纪录

一个月前，我们与您分享了2014年灰色分类竞赛的参赛作品，这是一个第三方基准测试系统对100 TB数据（1万亿条记录）进行排序的速度。今天，我们很高兴地宣布，我们的参赛作品已经通过了基准委员会的评审，我们已经正式赢得了戴托纳灰人大赛！如果您错过了我们之前的博客文章，在206台EC2机器上使用Spark，我们在23分钟内将磁盘上的100TB数据排序。相比之下，hadoopmapreduce之前创造的世界纪录使用了2100台机器，耗时72分钟。这意味着apachespark使用更少的机器将相同的数据排序速度提高了3倍。所有的排序都在磁盘（HDFS）上进行，而没有使用Spark的内存缓存。这个项目与加州大学可持续发展学院的研究团队建立了高性能系统，我们共同创造了一个新的世界纪录。Hadoop先生记录火花记录火花1 PB数据大小102.5 TB100 TB1000 TB运行时间72分钟23分钟234分钟#节点2100206190#核心50400物理6592虚拟化6080虚拟化群集磁盘吞吐量3150 GB/s（估计）618 GB/s570 GB/s排序基准Daytona规则是的是的不网络专用数据中心，10Gbps虚拟化（EC2）10Gbps网络虚拟化（EC2）10Gbps网络排序速率1.42 TB/分钟4.27 TB/分钟4.27 TB/分钟排序速率/节点0.67 GB/分钟20.7 GB/分钟22.5 GB/分钟以Jim Gray的名字命名，基准工作负载无论以何种方式衡量都是资源密集型的：按照严格的规则对100 TB的数据进行排序将产生500 TB的磁盘I/O和200 TB的网络I/O。来自世界各地的组织经常构建专用的分类机（专用软件，有时还包括专用硬件）以在该基准测试中竞争。作为一个通用的、容错的系统赢得这个基准，标志着Spark项目的一个重要里程碑。它证明了Spark正在履行其作为一个更快、更可扩展的引擎的承诺，用于从GBs到TBs到PBs的所有大小的数据处理。此外，它验证了我们和其他人在过去几年中为Spark所做的工作。自从Databricks问世以来，我们一直致力于提高Spark的可伸缩性、稳定性和性能。这个基准测试基于我们最近在Spark中的一些主要工作，包括基于排序的shuffle（Spark-2045）、新的基于Netty的传输模块（Spark-2468）和外部shuffle服务（Spark-3796）。前者已在ApacheSpark1.1中发布，后两个将是即将发布的ApacheSpark1.2版本的一部分。您可以阅读我们之前的博文，了解更多关于我们的获奖参赛作品。也期待未来的博客文章，这些主要的新的火花功能。最后，我们感谢亚伦·戴维森、诺曼·莫雷尔、安德鲁·王、周敏、亚马逊网络服务的EC2和EBS团队，以及Spark社区在这一过程中给予的帮助。我们还感谢基准委员会成员克里斯·尼伯格、梅胡尔沙赫和纳加·戈文达拉朱的支持。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3616.html