云网站服务器_国内数据云存储_移动云数据库服务器主机-搜集站云

cdn服务器_数据库_自助建站哪个好

小七 141 0

cdn服务器_数据库_自助建站哪个好

里卡多拥有370多万会员,企业管理软件下载,是瑞士最值得信赖、最方便、最大的在线市场。2019年,什么是大数据,我们成功地从on-prem迁移到了Google云,这一举动也引发了一些我们渴望解决的新用例。随着我们内部数据中心的关闭,我们在最后期限内找到了这些用例的解决方案,首先是查看我们的数据流流程。我们找到了一个同时使用cloudbigtable和googlecloud数据流的解决方案。在这里,我们来看看我们是如何决定和实施该解决方案的,以及我们路线图上的未来用例。

探索我们的数据用例

对于分析,我们最初使用的是Microsoft SQL数据仓库,并决定切换到BigQuery,谷歌云的企业数据仓库。这意味着我们的所有工作负载也必须推到那里,因此我们选择通过Apache Beam将导入和批量加载从Kafka运行到BigQuery。

我们还希望让内部团队能够通过我们的客户信息门户执行欺诈检测工作,以帮助保护我们的客户免受欺诈产品的销售此外,我们的工程师必须迅速解决如何移动存储在不同系统中的两个主要数据流的问题。一种是文章,本质上是发布到我们平台上的待售商品。另一种是资产,包括对物品的各种描述。在此之前,我们将流插入BigQuery,如何做淘客,然后进行连接。其中一个挑战是Ricardo已经存在了很长一段时间,所以我们有时会有一篇文章从2006年起就没有存储,或者被重新列出,所以它可能会丢失资产流中的一些信息。

一个问题,哪种解决方案?

在研究如何解决我们的数据流问题时,我发现了一个Google Cloud博客,它提供了Dataflow(Google Cloud的统一流和批处理服务)的通用模式指南,其中有一节是关于流模式的大型查找表。除了我们的文章流之外,我们的资产还有一个大约400gb的大型查找表。但我们需要能够在资产中查找文章。指南建议,一个面向列的系统可以在毫秒内回答这种查询,并且可以在数据流管道中同时执行查找和更新表。我们试用了一个带有Apache Cassandra的原型,Apache Cassandra是一个开源的、宽列存储的NoSQL数据库管理系统,云服务器设备,我们可以使用Apache Beam从BigQuery中导入它来预加载历史数据。

我们在Google Kubernetes Engine(GKE)上构建了一个新的Cassandra集群,使用Datastax作为开源发布的CASS操作符。我们创建了一个索引结构,优化了整个过程,做了一些基准测试,很高兴地发现一切都正常。因此,我们有了新的卡桑德拉集群,管道消耗了资产和物品,这些资产是从卡桑德拉商店里查出来的,那里也存放着这些资产。

但是日常任务和操作的麻烦怎么办?我们的数据情报(DI)团队需要完全自给自足。我们是一家小公司,所以我们需要快速行动,我们不想建立一个系统,很快成为遗留问题。

我们已经在使用和喜欢BigQuery的托管服务。因此,使用Bigtable,这是一个完全管理的、低延迟、宽列的NoSQL数据库服务,似乎是一个不错的选择。

Bigtable的净成本节省了13%

与Bigtable相比,Cassandra在预算领域对它进行了抨击。我们发现Cassandra需要三个节点来确保可用性保证。使用Bigtable,我们可以在apacheflink上运行容错数据管道/apachebeam管道。我们还可以在低可用性的情况下进行容错,因此不需要运行这三个节点。当我们将BigQuery的历史记录摄取到Bigtable中时,我们能够为查找表安排18个节点,但是一旦查找表进入,我们就可以缩小到两个或一个节点,因为它每秒可以处理10000个请求。Bigtable在后台处理可用性和耐用性,因此即使只有一个节点也能提供保证。

通过这种实现,Bigtable解决方案比Cassandra更易于管理,而且更具成本效益。作为一个小团队,当我们考虑到运营学习成本、停机时间以及Cassandra on GKE解决方案所需的技术支持时,什么叫云服务,在Bigtable实例中使用一个TB就可以开始使用,而Cassandra on GKE解决方案是E2节点群集的三倍,这是非常小的,在8cpu的情况下,GM.Bigtable是一个更简单、更快、更便宜的答案。通过将此类查找查询移动到Bigtable,我们最终节省了13%的BigQuery成本。(请记住,这些都是净节省,因此运行Bigtable的额外成本已经考虑在内。)

这个新解决方案一推出,我们就将另一个工作负载转移到Bigtable,在那里我们为客户服务团队集成了来自Zendesk票据的数据。我们致力于整合客户信息,使其在Bigtable中可用,使产品密钥查找与Zendesk数据相链接,以便这些信息可以立即呈现给我们的客户服务代理。

得益于谷歌云工具的紧密集成

如果您是像我们这样的小公司,请构建一个数据高度可访问的基础设施是高优先级的。对我们来说,Bigtable是我们的存储区,在这里我们处理了可供服务使用的数据。Bigtable、BigQuery和Dataflow之间的服务集成使得我们可以很容易地将这些数据提供给用户。