云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

大带宽_我叫mt数据库_多少钱

小七 141 0

数据科学非常类似于烹饪和做你最喜欢的饭菜。虽然我们通常可以简单地去当地的超市购买原料,但对于一个数据科学家来说,这往往不是那么容易。在烹饪你最喜欢的食物之前,你不知道超市是否开门,或者食物是否可以食用。因此,在烹饪和饮食这一有趣的部分开始之前,我们需要获取、组织和组织我们的数据。根据我的经验,这是机器学习用例中的关键部分之一,通常会占用大部分时间。通常情况下,数据不只是本地驻留在笔记本电脑上的csv或excel文件中,而是最初位于SAP HANA之类的数据库中。要在saphana这样的数据库上工作,您通常使用40多年的结构化查询语言(SQL)。但是作为一个超级R迷,我想呆在我以前的环境中,而不是来回切换。例如,在第一个建模阶段之后,大数据app,我可能需要回到数据准备阶段来设计新特性。因此,我希望更加灵活,但仍然使用SAP HANA的强大功能。R包dbplyr将这两个世界结合在一起,设计用于处理数据库表,就像它们是R中的本地数据帧一样。dbplyr包的目标是自动为您生成特定的SQL语句,重点是select语句。这意味着您可以继续使用您熟悉的dplyr软件包中的函数。

您将学到什么?

通过odbc包连接到您的SAP HANA通过dbplyr包在RStudio中直接生成SQL查询启用内存数据库SAP HANA的功能以进行数据准备

首先,我们需要通过ODBC使用DBI::dbConnect()连接到我们的SAP HANA。要连接到任何SAP HANA系统,您将需要ODBC客户端。如果您没有安装HANA ODBC客户端,您可以从SAP支持启动板下载该客户端。

请按照本指南中的步骤解压缩.SAR文件。完成安装后,打开ODBC数据源桌面应用程序。然后在系统DNS上选择Add并选择HDBODBC.

输入数据源名称、描述和地址服务器:端口和按"连接"。

下一步,输入用户名和密码,然后选择"确定"。

如果安装成功,将出现以下提示。

现在,大数据平台,我们进入我最喜欢的环境RStudio?R脚本在以下链接下可用。首先,我们必须安装以下软件包:

接下来,我们随机模拟我们自己的数据,这当然符合本实用教程中的烹饪主题。因此,我们模拟一个数据帧(df1),其中包含每个客户购买的冰淇淋种类。此外,智慧农业物联网系统,我们还创建了一个数据帧(df2),在该数据帧中,某些客户对冰淇淋提供了从1到5的反馈,大数据可视化,其中5是最高分。因此,请执行以下R脚本:

在模拟我们的数据后,我们需要通过ODBC连接到我们的SAP HANA,并将我们的数据推入数据库。为了创建连接,我们使用DBI包中的dbConnect()函数。这个链接下的教程对入门很有帮助。请熟悉odbc()和dbConnect()函数。然后在提供的R脚本中提供您的凭据并执行以下行:

刷新后,您将看到连接下的两个数据集DF1和DF2,它们现在位于我们的SAP HANA中。我们可以在RStudio中直接控制它。

此外,我们使用tbl()函数创建对这些表的引用。然后我们将结果打印到我们的控制台,它看起来像一个普通的tible。

在下一步中,我们创建一个内部连接,通过customer ID合并这两个数据集。连接这两个表之后,我们可以查看SQL查询或在我们的本地RStudio环境中加载数据。因此,云分析,我们可以使用内存数据库的功能直接在SAP HANA中执行所有计算成本高昂的数据准备步骤,然后只收集最终的数据集。

dplyr包提供了许多准备和转换数据的功能。当然,这只是本实用教程的冰山一角。因此,作为第二个例子,我们将筛选我们的联合数据集,集中于所有给我们的冰淇淋评分高于4分的客户。因此,请执行以下R脚本:

从表中我们可以看到,我们的冰淇淋巧克力软糖布朗尼在两位顾客中得分最高。

此外,当然,您可以复制通过show_query()函数获取的SQL查询,并直接在SAP HANA Studio中执行。

我鼓励您自己尝试,并为下一个机器学习用例准备好数据。更多的实践练习、例子和信息可以在这里找到:

dbplyr简介为什么要使用dbplyr而不是SQL?进一步了解SQL翻译(vignette translation verb和vignette translation function)的细节

我要感谢Stojan Maleschlijski、Christoph Morgen和Sarah Detzler在编写本实践教程时给予的支持。