云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

美国服务器_平阳网站建设_哪家好

小七 141 0

西云数据_怎么购买_有关物联网的问题

2015年初,我们开始在图钉建设数据基础设施。当时,该公司的数据分布在一个PostgreSQL副本和一个MongoDB集群上,这两个集群的扩展都不足以处理分析和BI查询的负载。我们PostgreSQL中最大的表有超过10亿条记录,许多查询需要将近一个小时才能完成。

此外,存储在MongoDB中的行为事件数据对于我们的大多数内部数据使用者来说是不可访问的,特别是那些没有技术背景的使用者。因此,Thumbtack数据的关键部分变成了"黑暗数据"。

另外,Thumbtack对更具可扩展性的数据处理基础设施的需求也越来越迫切。这是由于需要更好的a/B测试和我们刚刚开始的机器学习工作。

为了满足更容易访问数据的需要,我们组建了一个团队,专注于(1)使Thumbtack的所有数据易于可靠访问,以及(2)为大规模数据处理提供可扩展的基础设施。我们的第一项工作是在AWS EC2机器上使用单片Cloudera CDH集群。(当时Thumbtack的所有基础设施都在AWS上)然后我们采用apacheimpala来提供分布式SQL支持,而apachespark用于分布式数据处理。