分布式数据库_魔道祖师广播剧第二季百度云_返现

小七 2019年10月25日 21:23 141 0

来宾博客：apachespark的MLlib中对PMML的支持

这是我们的朋友Vincenzo Selvaggio的客座博客，他贡献了这一功能。他是高级Java技术架构师和项目经理，专注于为投资银行提供高级业务流程解决方案。最近发布的apachespark1.4为MLlib引入了PMML支持，用于线性模型和k-means集群。这一成就是社区积极讨论JIRA的结果(https://issues.apache.org/jira/browse/SPARK-1406)和GitHub(https://github.com/apache/spark/pull/3062)在预测分析方面，它支持apachespark和其他平台之间的互操作性。什么是PMML？预测模型标记语言（PMML）是数据挖掘集团（DMG）开发的领先数据挖掘标准，已被主要供应商和组织采用(). PMML使用XML来表示数据挖掘模型。PMML文档是包含以下组件的XML文档：提供一般信息的标题，如模型描述和用于生成模型的应用程序包含模型所用字段定义的数据字典定义数据挖掘模型的结构和参数的模型为什么使用PMML？PMML允许用户在一个系统中构建一个模型，将其导出并部署到不同的环境中进行预测。换句话说，它使不同的平台能够讲同一种语言，从而消除了对定制存储格式的需要。图片由Villu Ruusmann提供更重要的是，采用一个标准鼓励最佳实践（已建立的模型结构化方法）和透明度（PMML文档是完全可理解的，而不是黑匣子）。为什么Spark支持PMML？建立一个模型（生产者）和评分（消费者）是两个非常不耦合的任务，因为它们需要不同的系统和支持基础设施。模型构建是一项复杂的任务，它在大量的历史数据上执行，并且需要一个快速且可伸缩的引擎来生成正确的结果：这就是apachespark的MLlib的亮点所在。模型计分是由为高吞吐量而调整的操作应用程序执行的，并与分析平台分离。在PMML中导出MLlib的模型可以在Spark和操作应用程序之间共享模型，这是预测分析成功的关键。代码示例在Spark中，将数据挖掘模型导出到PMML就像调用型号.toPMML. 下面是Scala中构建KMeansModel并将其导出到本地文件的完整示例：进口_org.apache.spark网站.mllib.clustering.KMeans进口_org.apache.spark网站.mllib.linalg.向量//加载并解析数据val数据=sc.TEXT文件（"/path/to/file"）地图=>向量。密集（s.split（'，'）.map（\toDouble）））//使用KMeans将数据分为三个类口粮=20值numClusters=3值kmeansModel=KMeans.火车（数据、数量、数量）//将聚类模型导出到PMMLkmeansModel.toPMML（"/path/to/kmeans.xml文件")生成的PMML文档位于以下文件中：kmeans.pmml有关导出模型的更多示例，以及如何使用JPMML库从Spark中分别对这些模型进行评分，请参见。摘要随着apachespark1.4pmml模型的引入，MLlib可以与PMML兼容的系统进行互操作。您可以从官方文档页面找到支持的模型以及如何将这些模型导出到PMML：。我们要感谢所有帮助审查和QA实施的人。对于MLlib的PMML支持还有很多工作要做，例如，支持PMML导出以获得更多的模型和添加pythonapi。更多详情，请访问https://issues.apache.org/jira/browse/SPARK-8545。免费试用Databricks。今天就开始吧

本文地址： /ziyuan/3676.html