云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

消息队列_虚拟主机免费空间_精选特惠

小七 141 0

雅虎卸载实时查询流数据的子弹头

雅虎公司(Yahoo Inc.)在过去几十年里对开源软件社区的贡献可能还没有得到足够的认可。该公司以开发Apache Hadoop软件而闻名,该软件是当今大多数大数据项目的核心,也是众多受欢迎的开源项目的积极参与者。今天,雅虎和AOL的母公司Verizon Communications Inc.将公布雅虎对开源的最新贡献,它可能是一个非常重要的贡献:Bullet,一个用于流数据的通用查询引擎。对于新手来说,有两种类型的数据:流式数据,它是实时到达计算机系统的数据;批处理是指在固定的时间间隔内(例如每小时或每天)批处理在一起的信息。批处理数据通常很容易运行查询,因为它存储在数据仓库中,在那里可以通过常用的SQL接口或业务智能工具(如Tableau、Looker或Superset)访问它。但是,对流数据运行查询一直是一个更具挑战性的问题。Bullet的目标是改变这种状况,在一篇博客文章中,雅虎工程师迈克尔·纳特科维奇、阿克沙伊·萨尔马、内森·斯皮尔、马库斯·斯维德曼和卡特·犹他解释了Bullet引擎与其他引擎的区别。大多数批处理数据查询引擎都有一个称为持久层的东西,其中包括内存存储。雅虎的工程师解释说,当数据被查询时,你实际上是在对存储在持久层中的数据进行"回顾"。Bullet之所以不同,是因为它没有持久层,也不存储任何数据。相反,Bullet是一个"前瞻性"查询引擎,在查询完成后,只查询通过系统的数据。它不会查询任何已经通过系统的旧数据,用雅虎团队的话来说,这使得它"像实时一样实时"。该公司为Bullet提出了许多用例,包括能够快速查看一系列指标、检查假设、迭代查询、检查状态等等。它还提供了以下示例,说明为什么Bullet更适合这些类型的查询:雅虎的工程团队写道:"如果你在一个传统的查询系统中有1000个查询操作相同的数据,这些查询系统很可能每次扫描数据1000次。"由于它具有前瞻性,1000个查询只扫描一次数据,因为查询的到达决定并修复它将看到的数据。从本质上讲,数据将进入查询,而不是将查询外包到数据所在的位置。"高级子弹头架构(图片:雅虎)雅虎已经在一些项目上投入生产。例如,该公司正在对其用户参与度数据流的一小部分运行Bullet实例,以实时收集关于用户行为的见解。Yahoo还使用Bullet手动验证其软件应用程序的检测功能,从而生成用户参与度数据,如点击、刷卡和浏览量。此外,雅虎还将Bullet用于产品发布的功能测试仪器的连续交付管道中。这包括模拟新产品的使用,以便Bullet能够验证这些产品生成的数据。Yahoo的团队写道:"Bullet在此类验证和一般数据探索用例中的使用速度要快几个数量级,而不是等待数据在Hive或其他系统中可用。"。Bullet已经可以在GitHub上下载。主图:莎拉-L-B/flickr.com网站既然你来了…点击订阅我们的YouTube频道(见下文),显示您对我们使命的支持。我们的订户越多,YouTube就越会向你推荐相关的企业和新兴技术内容。谢谢!支持我们的使命:>>>>>立即订阅我们的YouTube频道。……我们还想告诉你我们的使命,以及你如何帮助我们完成它。SiliconANGLE Media Inc.的商业模式是基于内容的内在价值,而不是广告。与许多在线出版物不同的是,我们没有付费墙或横幅广告,因为我们想让我们的新闻保持开放,不受影响,也不需要追逐交通。那个新闻、报道和评论SiliconANGLE——以及现场报道,我们的硅谷工作室和cube环球巡演的视频团队提供的未经剪辑的视频需要大量的辛勤工作、时间和金钱。保持高质量需要赞助商的支持,他们与我们的无广告新闻内容的愿景一致。如果你喜欢这里的报道,视频采访和其他无广告内容,请花点时间看看我们的赞助商支持的视频内容样本,在推特上表达你的支持,然后继续回到SiliconANGLE。