云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站空间_阿里云干嘛的_稳定性好

小七 141 0

来源:https://www.history.com/topics/exploration

世界上有许多伟大的探险家。每一次都会发现新的土地、新的人、新的财富等等。探索是我们人类与生俱来的魅力,我们喜欢发现未知。

随着HANA ML Python软件包(1.0.7)的发布,您可以通过"探索性数据分析"(EDA)的优化功能来抑制对探索的兴趣。

探索性数据分析

EDA是一个分析数据的统计特性的过程使用各种方法、技术和可视化的数据集,以便更好地理解您正在使用的数据。

为什么这一点很重要?EDA是数据科学和机器学习管道中的一个重要步骤。在应用机器学习算法时,如果不充分理解数据集的统计特性,物联网展,可能会导致严重的错误和不具代表性的结果。EDA不仅对理解数据很有帮助,还可以指导您如何处理和准备数据,以便从中获得最佳结果。一个全面的EDA可以极大地受益于机器学习模型的结果,因此它是数据科学家工具箱中的一个重要工具。

EDA的挑战

围绕EDA的主要挑战,大数据现状,特别是在处理大数据集时,是生产力。等待数小时的图形呈现是一个巨大的挫折,但不幸的是,在开源世界中…并不总是有一个合适的方法来解决这个问题。如果要使用Pandas和MatplotLib等开放源代码包创建散点图,则整个数据集都将物理地移动到Python客户机上,以便在轴上进行处理和打印。如果我要处理数百万个数据点,这可能需要几个小时。

HANA ML EDA

那么HANA ML EDA功能如何缓解这些挑战呢?让我们再次回顾一下HANA数据框。

SAP HANA数据框提供了一种查看存储在SAP HANA中的数据的方法,而不包含任何物理数据。saphanadataframe隐藏了底层SQL语句,为用户提供了saphana数据的Python接口。通过减少数据传输和利用HANA数据库的处理能力,EDA功能得到了优化,可以处理数十亿行数据,并且只返回要绘制的图形所需的统计信息。

作为测试,我在一台10英寸的计算机上使用Pandas和MatplotLib的开源组合生成了3个绘图(分布、条形图和饼图)百万行数据集。每个绘图大约用了3个小时来渲染。

当使用HANA ML包运行相同的绘图时,每个绘图都用了不到5秒的时间来渲染……

这些测试并不是官方的基准统计数据,只是我自己执行的一些开发测试。然而,生产力的提高和分析整个数据集的能力,而不仅仅是样本,对数据科学家来说是一个巨大的胜利?

利用HANA的处理能力,HANA ML包智能地动态创建SQL语句,只向Python客户端返回绘制每个图形所需的基本统计信息。这大大减少了渲染时间,最大限度地减少了HANA和Python之间的数据传输。我会给每个情节一个简短的解释,但更详细的了解请研究每个情节分开。本教程仅向您展示如何为自己创建这些。我将使用泰坦尼克号数据集,其中包含以下12列:

年龄-乘客的年龄,以年为单位。客舱–分配给乘客的客舱编号。如果是NaN,这就意味着他们没有舱位,美国高防云服务器,而且可能因为机票的费用而没有被分配到舱位。登船——登船港(S=南安普敦,C=瑟堡,Q=昆士敦)。票价–乘客购买的车票的票价。姓名–乘客的全名和职务。Parch–与机上乘客相关的父母和子女人数。PassengerId–分配给每位乘客的唯一ID。P等级-购票等级(1=头等舱,2=二等舱,3=三等舱)。性别–乘客的性别。SibSp–与机上乘客相关的兄弟姐妹和配偶数量。票号–票号。幸存–乘客的幸存标志

数据集的贷方为:https://www.kaggle.com/c/titanic/data

分布图

显示泰坦尼克号乘客年龄分布的分布图

显示数字列值的分布图。此图快速显示了变量相对于正态分布的"偏斜"程度。这一点很重要,因为许多机器学习模型都是基于每个变量都是"正态"分布的假设。在模型中留下带有"偏斜"的变量可能会影响其预测的可靠性。

注意:您可能会注意到,在绘制图表时,它返回一个变量元组,在本例中为"ax"和"dist_data"。

"ax"是图表绘制的轴。"dist\ U数据"是返回给客户机用于绘图的基本数据集。

您将看到,对于每个绘图,始终返回一个元组。随意浏览返回的数据,您会发现它的大小比原始表大大减小了!这里是为上面的分布图返回的数据预览。

饼图

饼图显示了泰坦尼克号乘客中机票等级的分布。

饼图是理解分类或离散数字列分布的一个很好的方法。它显示列中每个唯一值的行百分比。

相关图

相关图显示泰坦尼克号数据集中5个数字列之间的线性关系。