云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

对象存储_数据库开发语言_9元

小七 141 0

Hadoop的开源工具

Stripe的批处理数据基础设施主要构建在ApacheHadoop之上。我们将这些系统用于从欺诈建模到业务分析的所有方面,今天我们将开放一些部分:林湖Timberlake是一个仪表板,可以让您深入了解集群上运行的Hadoop作业。Jeff构建它是为了替代YARN的ResourceManager和MRv2的JobHistory服务器当前提供的web界面,它具有一些我们发现有用的功能:绘制并减少任务瀑布和计时图烫伤与级联意识失败作业的错误回溯灌木丛Avi编写了一个Scala框架,用于集成决策树模型的分布式学习,称为Brushfire。它的灵感来源于谷歌的星球,但建立在Hadoop和Spirking之上。Brushfire被设计成高度通用的,可以从大量的训练数据中构建和验证随机森林和类似的模型。亮片Sequins是一个静态数据库,用于以Hadoop的SequenceFile格式提供数据。我编写它是为了提供对Hadoop生成的键/值聚合的低延迟访问。例如,我们使用它让API访问历史欺诈建模功能,而不增加对HDF的在线依赖。人字形在Stripe,我们广泛使用镶木地板,尤其是与Cloudera黑斑羚搭配使用。Danielle、Jeff和Avi编写了Herringbone(一个小型命令行实用程序的集合),使使用Parquet和Impala更容易。如果你有兴趣尝试这些项目,在自述中有更多关于如何使用它们(以及它们是如何设计的)的信息。如果您有反馈,请与我们联系或发送一份公关。Hadooping快乐!