CDN_阿里云服务器拼团_新用户

小七 2019年10月25日 21:23 141 0

在这个博客中，我们将讨论文本挖掘，这是数据科学家最近探索的另一个有趣的领域。接下来的博客将是文本挖掘功能[https://blogs.sap.com/2018/02/18/sap-hana-text-mining-functions-part1/], [https://blogs.sap.com/2018/02/18/sap-hana-text-mining-functions-part2/].

简单来说，挖掘和分析文本数据用于

文本挖掘通过检查文档中使用的术语来提供比较文档的功能。文本挖掘有利于文本分析所确定的信息，而文本分析是文本挖掘的前提。如前所述，文本分析进行语言分析并提取文档中嵌入的信息，软件企业有哪些，而文本挖掘则对文档相对于其他文档的整体内容进行语义判断。请参阅SAP HANA文本分析博客[https://blogs.sap.com/2018/02/01/sap-hana-text-analysis-3/].

图1显示了一个提供关键术语和文档分类的文本挖掘示例。

图1：文本挖掘-关键术语和文档分类

************************************************************************************************************文本挖掘索引

文本挖掘维护称为术语文档矩阵或文本挖掘索引的数据结构。术语是文档中出现的相关词、短语和实体。术语文档矩阵是通过分析一组文档来编制的，其中每列都是一个文档，云服务器哪个好，每个单词都是术语之一，每个单元格或元素表示术语权重，如图2所示。

图2：术语文档矩阵

文本挖掘为文档中的每个术语分配一个权重，以表示其重要性。找到下面几个与文本挖掘相关的术语权重。

术语频率文件频率逆文档频率默认术语权重

术语频度（TF）和规范化术语频度（NTF）：文档中术语出现的次数

用下面的例子解释术语和规范化术语频度：

文档1：生活中永不停止学习

文档2：生活中永不停止教学

文档3：生活的游戏是永恒学习的游戏

图3显示了三个文档中的术语频率

图3：术语频率

建议根据文档大小对文档进行规范化，因为文档大小可能较大。规范化是将术语频率除以术语总数。图4显示了三个文档中的规范化术语频率。

图4：规范化术语频率

文档频率（DF）：出现术语的文档数。图5显示了每个术语的文档频率。

图5：文档频率

逆文档频率（IDF）：DF除以文档总数的倒数。

IDF（term1）=1+loge（文档总数/其中term1的文档数）

共有3个文档=文档1，文档2，Document3

术语game出现在Document3

IDF（game）=1+loge（3/1）=1+1.098726209=2.098726209

图6显示每个术语的逆文档频率。

图6：逆文档频率

默认术语权重（TF-IDF）：TF-IDF补偿所有文档中出现的噪声字。公式：TF*IDF.

对于查询中的每个术语，将其术语频率/规范化术语频率乘以其在每个文档上的IDF。在文献1中，术语寿命的标准化术语频率为0.2，淘客如何推广，其IDF为1。把它们相乘得到0.2（0.2*1）。图7显示默认项权重

图7：默认项权重

创建文本挖掘索引的语法

在[SCHEMA].[TABLE]（[COLUMN]）上创建全文索引[Index NAME]；在[SCHEMA].[TABLE]上快速预处理关闭文本挖掘；

合并[SCHEMA].[TABLE]的增量；

要求：

带字符或二进制内容的列表（与文本分析要求相同）快速预处理关闭（文本分析和文本挖掘需要）增量更改必须首先使用MERGE Delta SQL语句合并到主表存储中

图8显示了数据库表和全文索引之间的关系。

图8：数据库表和文本挖掘索引之间的关系

有关全文索引的详细信息，请参阅blog[https://blogs.sap.com/2018/02/15/sap-hana-full-text-index/].

*************************************************************************************************************

用于比较的"单词包"模型

文本挖掘使用"单词包"模型比较文档。"单词包"模型用于表示单词包（多集）或向量列表中的文本，云产品，不考虑语法和单词顺序，但保留单词的多重性。

下面的示例使用单词包对文本文档进行建模。

文本文档包含

Bob喜欢踢足球。

Bob不喜欢足球。

基于文本文档，一个列表构建如下：

"Bob"

"Likes"

"To"

"Play"

"socket"

"Dislikes"

"Football"

"N维向量空间相似度检查模型"

文本挖掘通过比较两个文档中所包含的术语的相对权重来比较两个文档的相似度。使用N维向量空间模型进行比较。两个文档的相似性与它们的向量指向同一方向的程度有关。文本挖掘现在支持下面列出的标准相似性度量：余弦、JACCARD、DICE和OVERLAP.

余弦相似性：最常用的是余弦相似性。为了理解相似性度量，我们将从向量和欧几里德点积的解释开始。从每个文档中导出一个向量。文档集被视为向量空间中的一组向量。每个项都有自己的轴。

向量有一个大小和方向，如图9a所示。

图9a向量

图9b所示的两个向量的欧氏点积可以计算为

a·b=| a |×| b |×cos（θ）

其中

a |是向量a的大小（长度）

b |是向量b的大小（长度）

θ是角度在a和b之间

图9b欧氏点积

本文地址： /zhuji/76578.html