云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

数据库_阿里云ip段_稳定性好

小七 141 0

您好,

欢迎使用HANA ML Python API进行序列模式挖掘aka(SPM)方法。我在上一篇博文中解释了前四种关联分析方法。

注意:确保您的带有HANA ML的Python环境已启动并运行,淘客是什么,如果没有,请按照前面博客中提到的步骤操作。

序列模式挖掘算法(SPM)在序列数据库中搜索频繁模式。序列数据库由有序元素或事件组成。例如,顾客首先购买面包,然后是鸡蛋和奶酪,然后是牛奶。这形成了一个由三个有序事件组成的序列。如果一个事件或后续事件的支持度(即包含该事件或子序列的序列数)大于某个值,则我们认为该事件或后续事件是频繁的。此算法在满足用户定义的最小支持度的输入序列中查找模式。

在开始实践之前了解序列模式挖掘:

在所有其他事务中查找具有特定序列的所有项目子集:e、 g{打板球->高心电图->出汗}。在事务数据库中查找将一组项目的顺序与另一组项目的顺序相关联的所有规则:e、 72%的用户在进行网络搜索时会长时间盯着对方看在广告之后,点击添加成功。

前提条件:

输入数据不包含空值。每个事务中没有重复项

让我们开始:

导入包

设置连接

在我们的示例中,数据从csv文件"APRIORI\u item"加载到HANA中名为"PAL\u APRIORI\u TRANS\u TBL"的表中_数据.csv". 为此,物联网管理平台,将创建到HANA的连接,永久免费自助建站平台,然后将其传递给数据加载器。要创建这样的连接,需要一个配置文件config/e2数据.ini用于控制连接参数。配置文件中的示例部分如下所示,其中包括HANA url、端口、用户和密码信息。

*************************

[HANA]url=主机urluser=用户名passwd=用户密码port=3xx15

****************************

在一个配置文件中维护登录信息并将其准备好放在根文件夹中

如果连接成功–"True"

我们将分析存储数据以进行频繁模式挖掘,这是SAP帮助网页上提供的示例数据

属性信息:

检查表是否已经存在存在于您的模式选择*从PAL\U SPM\U DATA\U TBL

的功能DataSets.load\u spm\u数据()用于决定从头开始加载或重新加载数据。如果是第一次加载数据,返回消息示例如下:

错误:hana\u ml.dataframe:无法获取当前数据帧的行计数,(259,'无效表名:找不到表/视图

PAL\u SPM\u DATA\u TBL in schema DM\u PAL:line 1 col 37(位置36)')模式DM\u PAL中不存在Table PAL\u SPM\u DATA\u TBL

正在模式DM\u PAL中创建Table PAL\u SPM\u DATA\u TBL…。删除不成功

创建表DM_PAL.PAL\u SPM\u数据\u TBL

数据负载:100%

如果数据已经加载到HANA中:

重新执行下面的命令并检查它返回的消息

显示数据帧记录

数据操作:

使用以下几个操作获得数据集的细节,数据支持,您可以通过应用更多功能可获得更多信息。

获取所有CUSTID='A'

获取所有事务id=1的客户

获取所有客户和事务id='Apple'

GroupBy ITEMS

GroupBy CUSTID

GroupBy TRANSID

导入matplotlib库以显示具有最流行项的绘图在我们的数据集中

plot中最受欢迎的项目是Apple&Blueberry,如果我们试图找到两者的交易计数:

Apple计数-测向滤波器("ITEMS='苹果').head(100).count()=10

蓝莓计数-测向滤波器("ITEMS=‘Blueberry’).head(100).count()=10

方法

拟合(data,customer=None,事务=无,项目=无,项目\u限制=无,最小\u差距=无)

从输入序列模式挖掘数据。执行方法

使用数据集训练模型。

收集结果

结果分析:

Apple支持的项目集1.0表示该项目在所有事务中的频率,最频繁的项目–置信度和提升为0对于所有声明没有前因后果的单项考虑(苹果,蓝莓):支持率是.88(这些项目的频率是88%),信心是88%,这意味着如果有人购买苹果,那么88%的机会,他们也会在他们的桶蓝莓,电梯是.89接近1表示购买项目之间的高度关联。结果显示大多数项目都有支持,1元云购,信心和提升超过70%表示挖掘高频率的项目,可以认为是强关联规则。