云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

负载均衡_dns域名解析服务_怎么申请

小七 141 0

新的MongoDB连接器apachespark正在运行:构建一个电影推荐引擎

在数据库里试试这个笔记本这是我们在MongoDB的朋友们的博客转载。Sam是位于纽约的MongoDB的开发人员体验产品经理。我们在Databricks环境中添加了一个连接器示例作为笔记本。我们很高兴地宣布,用于apachespark的新的本机MongoDB连接器已经正式上市。与其他连接器相比,它提供了更高的性能、更易于使用和更高级的Spark功能。有了Databricks的认证,Databricks是由在加州大学伯克利分校(UC Berkeley)启动Spark研究项目的团队创建的,后来成为Apache Spark,开发人员可以专注于构建现代的、数据驱动的应用程序,因为连接器提供了Spark进程和MongoDB之间的无缝集成和完整的API兼容性。该连接器使用apachespark的母语Scala编写,为Spark用户提供了更自然的开发体验。连接器公开了Spark的所有库,使MongoDB数据能够具体化为数据帧和数据集,以便使用机器学习、图形、流和sqlapi进行分析,进一步受益于自动模式推断。连接器还利用MongoDB的聚合管道和丰富的二级索引来提取、过滤和处理所需的数据范围,例如,分析位于特定地理位置的所有客户。这与简单的NoSQL数据存储非常不同,后者既不提供二级索引,也不提供数据库聚合。在这些情况下,apachespark将需要基于一个简单的主键提取所有数据,即使Spark进程只需要这些数据的一个子集。这意味着更多的处理开销、更多的硬件和更长的分析时间。为了最大限度地提高大型分布式数据集的性能,Spark connector知道MongoDB集群中的数据局部性。RDD在与相关的MongoDB shard位于同一位置的worker上自动处理,以最小化集群中的数据移动。最近读取首选项可用于将Spark查询路由到MongoDB副本集中最近的物理节点,从而减少延迟。"用户已经在结合apachespark和MongoDB来构建复杂的分析应用程序。新的本地MongoDB Connector for Apache Spark提供了比现在任何可用的MongoDB连接器更高的性能、更易于使用和更高级的Apache Spark功能为了演示如何使用连接器,我们创建了一个教程,它使用MongoDB和apachespark的机器学习库来构建一个电影推荐系统。这个例子假设您熟悉Spark。如果您是Spark新手,但希望学习如何将Spark和MongoDB结合使用,我们鼓励您查看我们新的MongoDB大学课程。您可以在这里的Databricks笔记本中浏览教程。下一步是什么在Databricks上试试ApacheSpark从下载MongoDB云数据库阅读MongoDB Spark connector文档免费试用Databricks。今天就开始吧