网站空间_阿里云干嘛的_稳定性好

小七 2019年10月25日 21:23 141 0

来源：https://www.history.com/topics/exploration

世界上有许多伟大的探险家。每一次都会发现新的土地、新的人、新的财富等等。探索是我们人类与生俱来的魅力，我们喜欢发现未知。

随着HANA ML Python软件包（1.0.7）的发布，您可以通过"探索性数据分析"（EDA）的优化功能来抑制对探索的兴趣。

探索性数据分析

EDA是一个分析数据的统计特性的过程使用各种方法、技术和可视化的数据集，以便更好地理解您正在使用的数据。

为什么这一点很重要？EDA是数据科学和机器学习管道中的一个重要步骤。在应用机器学习算法时，如果不充分理解数据集的统计特性，物联网展，可能会导致严重的错误和不具代表性的结果。EDA不仅对理解数据很有帮助，还可以指导您如何处理和准备数据，以便从中获得最佳结果。一个全面的EDA可以极大地受益于机器学习模型的结果，因此它是数据科学家工具箱中的一个重要工具。

EDA的挑战

围绕EDA的主要挑战，大数据现状，特别是在处理大数据集时，是生产力。等待数小时的图形呈现是一个巨大的挫折，但不幸的是，在开源世界中…并不总是有一个合适的方法来解决这个问题。如果要使用Pandas和MatplotLib等开放源代码包创建散点图，则整个数据集都将物理地移动到Python客户机上，以便在轴上进行处理和打印。如果我要处理数百万个数据点，这可能需要几个小时。

HANA ML EDA

那么HANA ML EDA功能如何缓解这些挑战呢？让我们再次回顾一下HANA数据框。

SAP HANA数据框提供了一种查看存储在SAP HANA中的数据的方法，而不包含任何物理数据。saphanadataframe隐藏了底层SQL语句，为用户提供了saphana数据的Python接口。通过减少数据传输和利用HANA数据库的处理能力，EDA功能得到了优化，可以处理数十亿行数据，并且只返回要绘制的图形所需的统计信息。

作为测试，我在一台10英寸的计算机上使用Pandas和MatplotLib的开源组合生成了3个绘图（分布、条形图和饼图）百万行数据集。每个绘图大约用了3个小时来渲染。

当使用HANA ML包运行相同的绘图时，每个绘图都用了不到5秒的时间来渲染……

这些测试并不是官方的基准统计数据，只是我自己执行的一些开发测试。然而，生产力的提高和分析整个数据集的能力，而不仅仅是样本，对数据科学家来说是一个巨大的胜利？

利用HANA的处理能力，HANA ML包智能地动态创建SQL语句，只向Python客户端返回绘制每个图形所需的基本统计信息。这大大减少了渲染时间，最大限度地减少了HANA和Python之间的数据传输。我会给每个情节一个简短的解释，但更详细的了解请研究每个情节分开。本教程仅向您展示如何为自己创建这些。我将使用泰坦尼克号数据集，其中包含以下12列：

年龄-乘客的年龄，以年为单位。客舱–分配给乘客的客舱编号。如果是NaN，这就意味着他们没有舱位，美国高防云服务器，而且可能因为机票的费用而没有被分配到舱位。登船——登船港（S=南安普敦，C=瑟堡，Q=昆士敦）。票价–乘客购买的车票的票价。姓名–乘客的全名和职务。Parch–与机上乘客相关的父母和子女人数。PassengerId–分配给每位乘客的唯一ID。P等级-购票等级（1=头等舱，2=二等舱，3=三等舱）。性别–乘客的性别。SibSp–与机上乘客相关的兄弟姐妹和配偶数量。票号–票号。幸存–乘客的幸存标志

数据集的贷方为：https://www.kaggle.com/c/titanic/data

分布图

显示泰坦尼克号乘客年龄分布的分布图

显示数字列值的分布图。此图快速显示了变量相对于正态分布的"偏斜"程度。这一点很重要，因为许多机器学习模型都是基于每个变量都是"正态"分布的假设。在模型中留下带有"偏斜"的变量可能会影响其预测的可靠性。

注意：您可能会注意到，在绘制图表时，它返回一个变量元组，在本例中为"ax"和"dist_data"。

"ax"是图表绘制的轴。"dist\ U数据"是返回给客户机用于绘图的基本数据集。

您将看到，对于每个绘图，始终返回一个元组。随意浏览返回的数据，您会发现它的大小比原始表大大减小了！这里是为上面的分布图返回的数据预览。

饼图

饼图显示了泰坦尼克号乘客中机票等级的分布。

饼图是理解分类或离散数字列分布的一个很好的方法。它显示列中每个唯一值的行百分比。