云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

香港带宽_老域名交易_试用

小七 141 0

在这个博客里,我们将讨论文本挖掘功能。可用于查找排名靠前的相关文档和术语的功能。

图1显示了可用于进行文本挖掘的排列和组合。

图1:文本挖掘功能

SAP HANA文本挖掘中的可用功能

第一块是确定相关和建议的条款。可用于这些操作的功能获取相关术语得到建议的条件第二块是确定相关或类似的文件。此操作可用的功能获取相关文档获取相关文档第三块是识别文档的相关术语。此操作可用的功能获取相关术语第四块是对文件进行分类。此操作可用的功能TM\\u CATEGORIZE\\u KNN

****************************************************************************************

文档函数

TM\\u GET\\u相关文档

此文本挖掘函数返回搜索请求中查询文档的排名靠前的相关文档,并将这些文档(包括元数据)存储在返回表中。

主成分关键字指定时,将根据找到的文档的相关矩阵计算主成分分析(因子分析)。因子分析是一种数据约简方法。这是一种从数据集中可用的大量变量中提取重要变量(以组件的形式)的方法。它从高维数据集中提取低维特征集,目的是获取尽可能多的信息。它总是在对称相关或协方差矩阵上执行。因子将作为数组返回到结果表的列factors中,而旋转因子将作为数组返回到rotated factors列中。图2中的下图显示了使用PCA将三维数据转换为二维数据(从高维到低维)。

图2 PCA示例

聚类:如果指定了[Clustering],则将对找到的相关文档执行自底向上的分层聚类分析。

在数据挖掘中,层次聚类(hierarchical cluster analysis,HCA)是一种利用自底向上的方法建立聚类层次的聚类分析方法。作为层次树组织的一组嵌套簇。这可以可视化为树状图。两种层次聚类算法是凝聚聚类和分裂聚类。凝聚从数据点开始是单个的簇,在每一步,合并最近的一对簇,直到形成k个簇。决定性的是从一个全包簇开始,在每一步分裂簇,云服务器试用,直到k点簇形成。图3显示了HCA的图形。

图3嵌套聚类和树状图

在可用算法列表下找到

"单链接":在单链接中,我们将两个聚类之间的距离定义为第一个聚类中任何单个数据点和第二个聚类中任何单个数据点之间的最小距离。该算法对噪声和异常值敏感。图4显示了单链接算法的图形

图4:单链接嵌套聚类和树状图

‘完全链接’:在完全链接中,我们将两个聚类之间的距离定义为第一个聚类中任何单个数据点与第二个聚类中任何单个数据点之间的最大距离。这是一个直径近似相等的更平衡的簇。图5显示了完整链接算法的图形

图5:完整链接嵌套聚类和树状图

"AVG\u DISTANCE\u Inwithin"和"AVG\u DISTANCE\u BETWEEN":在平均链接中,我们将两个簇之间的距离定义为第一个簇中的数据点和第二个簇中的数据点之间的平均距离。图6显示了平均距离算法的图形。

图6:平均距离嵌套聚类和树状图

:此方法将聚类分析视为方差问题的分析,而不是使用距离度量或关联度量。根据这个方法,两个簇A和B之间的距离就是我们合并它们时平方和的增加量。图7显示了Ward算法的图形。

图7:Ward嵌套聚类和树状图

聚类分析的结果存储在结果表的Cluster\u LEVEL、Cluster\u LEFT和Cluster\u RIGHT列中。相关性是两个变量之间的关联。

Correlation关键字在结果表的列相关性中以数组形式返回找到的文档之间的相关性矩阵。Highlighted关键字返回带有突出显示信息的文档文本。

第一个示例:在本例中,我们将其固定到一个文档"Federal\u award\u id\u number=1304684"。输入是作为全文索引的一部分进行的查询,文档编号是针对术语文档矩阵/文本挖掘索引运行的,在线建站平台,以获取前5个相关/类似文档。分数描述了文档之间的相似性,值越高文档越相似。图8a显示了函数TM\u GET\u RELATED\u DOCUMENTS的结果。

图8a:TM\u GET\u RELATED\u DOCUMENTS的结果集

前两个排名靠前的文档具有相同的得分值'1'表示两个文档完全匹配(两个文档的奖励摘要列具有相同的内容)。进一步的列表显示文件不相似,得分值在减少

第二个例子:这个例子做统计分析,在这个例子中,免费大数据,我们把它归结为一个文件"联邦奖\u id\u number=1304684"。输入是作为全文索引的一部分进行的查询,文档编号是针对术语文档矩阵/文本挖掘索引运行的,以获取前5个相关/类似文档。我们有主成分,聚类算法和相关矩阵。图8b显示了函数TM_GET_RELATED_DOCUMENTS的结果。

图8b:TM_GET_RELATED_DOCUMENTS的结果集

TM_GET_RELATED_DOCUMENTS

此文本挖掘函数返回与术语相关的排名靠前的文档。