云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

天翼云_虚拟主机广州_好用

小七 141 0

好吧,优惠券返利,标题是个陷阱。实际上,这个博客是关于在机器学习模型中使用位置数据的。但是,我不想宣扬位置维度与时间同等重要,而是想向您展示一个端到端的示例,该示例分析具有和不具有位置信息的同一数据集。最后,我们将比较两个经过训练的ML模型,并将量化位置信息对预测质量的影响!这次不仅仅是说教!

同样,您将在我的GitHub存储库中找到完整的Jupyter笔记本来复制这个示例。通过详细介绍,您将了解如何

将包含空间数据(房屋销售)的csv上传到HANA云建立无空间特征的房价回归模型检索并上传各个区域的OpenStreetMap数据利用数据库函数计算空间特征训练相同的回归模型,包括这些空间特征比较两种模型预测整个城市不同位置的参考房价

另外,我将使用SAP HANA Spatial的一些全新功能,这些功能已通过HANA Cloud和HANA2 SPS05引入。该示例包括以下功能:

创建预定义的空间参考系。HANA Cloud和HANA2 SPS05在引擎盖下承载了9000多个SRS的定义。只需发出以下语句即可创建预定义的SRS:创建由Voronoi细分。利用hanacloud和hana2sps05,我们引入了数据库中的Voronoi细分。SAP HANA是第一个通过保留输入点和输出单元之间的关系来交付Voronoi单元的数据库,它支持复杂的高级分析用例。查看此视频了解更多信息。Voronoi单元可以通过调用k-Means簇上的ST\u ClusterCell或使用点集上的ST\u VoronoiCell窗口函数来计算。ST VoronoiCell(,)OVER()K-均值聚类。这种聚类方法可以通过最小化每个点到其细胞质心的平方距离将点分割成固定数量的聚类。从表中选择COUNT(*)、ST\u ClusterID()、ST\u ClusterCell()使用KMEANS CLUSTERS按点分组30六角形聚类。数据库内六边形聚类的有用特性已经在许多其他博客中讨论过了。这一次,聚类将不会用作ML模型的位置代理,而是用于地图可视化和生成点网格。从表中选择COUNT(*)、ST\u ClusterID()、ST\u ClusterCell()用六边形X细胞5逐点分组最后但并非最不重要的"空间面包和黄油":创建ST\ U几何列[doc],SRS[doc]之间的转换,空间聚合,使用空间谓词连接[doc],将几何图形导出为文本[doc],使用线串和多边形计算距离[doc],质心计算[doc]等

本例数据集可在Kaggle上下载。它包含了澳大利亚墨尔本市2016年、2017年和2018年的近35000套住房销售。不幸的是,只有27000个地理参考与适当的经纬度信息。我们的分析将基于这27000条记录。

我们将使用2016年和2017年的数据来训练我们的模型(86%的记录)。然后,该模型将应用于2018年的数据(14%的记录),以测试预测质量。

在初始数据集中,已经包含了一些列,作为地理位置信息的代理。这些是郊区、地址、距离(到市中心)、邮政编码、市议会区域、地区名称和房产计数(在街区内)。我们忽略所有这些列来训练一个完全依赖于房子本身属性的模型。之后,我们将只使用纬度和经度信息在数据库级别上生成类似(甚至更好)的空间特征。

不带地理空间字段的输入数据(lat/lon除外)

这些特征,我们将在下面考虑:

id–记录的标识符类型–物业类型h–住宅、别墅、别墅、半别墅、露台u-单元,美国云服务器,双工t–联排别墅rooms–房间数卧室2–卧室数量浴室-浴室数量车辆–车位数量土地面积-土地面积(平方米)建筑面积——建筑面积(平方米)建造年份-建造年份形状-纬度/经度信息价格–以澳元表示的销售价格

我们的数据库表示的经纬度将是STëGEOMETRY(28355)类型的列。SRS 28355是一个平面空间参考系统,适用于澳大利亚。SAP HANA上默认不安装此SRS。然而,在最新版本中,数据库已经知道SRS的定义,我们只需发出以下声明,使其可用:

有了这个新功能,以前的方法,如元数据安装工具或根据其定义创建空间参考系统,秒单客返利机器人,对于EPSG空间参考系统来说已经过时。预定义的SRS使用的度量单位也是现成的。无需单独安装。

(注意,根据其定义,仍然可以创建空间参照系。只是不需要,当使用预定义的SRS)

作为参考时,我们将首先训练一个XGBoost回归模型,该模型将包含上面列出的特性(当然除了字段形状)。为了解释模型并了解特性/属性对价格的影响,我们利用了SHAP库。

我们模型的绝对误差中位数在训练数据(2016年和2017年)上为22万美元,在测试数据(2018年)上为30万美元。为了将这一点联系起来,我们应该注意到数据集中的住房价格中值是91万美元。由此我们可以得出结论:

尽管如此,我们还是来看看SHAP对模型的解释和特征的重要性:

非空间特征的影响