云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

数据库服务器_百度云慢_三重好礼

小七 141 0

apachespark正式创造了大规模分拣的新纪录

一个月前,我们与您分享了2014年灰色分类竞赛的参赛作品,这是一个第三方基准测试系统对100 TB数据(1万亿条记录)进行排序的速度。今天,我们很高兴地宣布,我们的参赛作品已经通过了基准委员会的评审,我们已经正式赢得了戴托纳灰人大赛!如果您错过了我们之前的博客文章,在206台EC2机器上使用Spark,我们在23分钟内将磁盘上的100TB数据排序。相比之下,hadoopmapreduce之前创造的世界纪录使用了2100台机器,耗时72分钟。这意味着apachespark使用更少的机器将相同的数据排序速度提高了3倍。所有的排序都在磁盘(HDFS)上进行,而没有使用Spark的内存缓存。这个项目与加州大学可持续发展学院的研究团队建立了高性能系统,我们共同创造了一个新的世界纪录。Hadoop先生记录火花记录火花1 PB数据大小102.5 TB100 TB1000 TB运行时间72分钟23分钟234分钟#节点2100206190#核心50400物理6592虚拟化6080虚拟化群集磁盘吞吐量3150 GB/s(估计)618 GB/s570 GB/s排序基准Daytona规则是的是的不网络专用数据中心,10Gbps虚拟化(EC2)10Gbps网络虚拟化(EC2)10Gbps网络排序速率1.42 TB/分钟4.27 TB/分钟4.27 TB/分钟排序速率/节点0.67 GB/分钟20.7 GB/分钟22.5 GB/分钟以Jim Gray的名字命名,基准工作负载无论以何种方式衡量都是资源密集型的:按照严格的规则对100 TB的数据进行排序将产生500 TB的磁盘I/O和200 TB的网络I/O。来自世界各地的组织经常构建专用的分类机(专用软件,有时还包括专用硬件)以在该基准测试中竞争。作为一个通用的、容错的系统赢得这个基准,标志着Spark项目的一个重要里程碑。它证明了Spark正在履行其作为一个更快、更可扩展的引擎的承诺,用于从GBs到TBs到PBs的所有大小的数据处理。此外,它验证了我们和其他人在过去几年中为Spark所做的工作。自从Databricks问世以来,我们一直致力于提高Spark的可伸缩性、稳定性和性能。这个基准测试基于我们最近在Spark中的一些主要工作,包括基于排序的shuffle(Spark-2045)、新的基于Netty的传输模块(Spark-2468)和外部shuffle服务(Spark-3796)。前者已在ApacheSpark1.1中发布,后两个将是即将发布的ApacheSpark1.2版本的一部分。您可以阅读我们之前的博文,了解更多关于我们的获奖参赛作品。也期待未来的博客文章,这些主要的新的火花功能。最后,我们感谢亚伦·戴维森、诺曼·莫雷尔、安德鲁·王、周敏、亚马逊网络服务的EC2和EBS团队,以及Spark社区在这一过程中给予的帮助。我们还感谢基准委员会成员克里斯·尼伯格、梅胡尔沙赫和纳加·戈文达拉朱的支持。免费试用Databricks。今天就开始吧