云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

分布式存储_外国虚拟主机_高性价比

小七 141 0

作者:Benton Li,数据技术与大数据技术,Jiying Wen

在这个博客中,我们展示了如何创建词云来直观地表示文本数据。Word clouds允许用户通过以更大的字体显示频率更高的单词来快速从数据中获得见解。

通过在SAP Analytics Cloud中构建Word clouds,用户可以:

使用文本数据创建一个简单易懂的可视化视图确定重要的文本数据点发现有价值的反馈以指导业务决策

使用文本挖掘包tm和word cloud generator包wordcloud创建word cloud的过程非常简单。这些软件包在R中可以帮助用户分析文本和快速可视化关键字。让我们看一下wordclouds有益的两个场景:

性能最好的产品项讨论最多的主题

示例1:性能最好的产品项

请注意,企业信息化软件,用于创建词云的数据集至少应有10个维度值。在本例中,有29个独特的产品名称将产生完整的、云状的输出。

本例使用涉及饮料销售的事务性数据。我们想很容易地将性能最好的产品项目形象化。

步骤:

8。点击"Execute",然后点击"Apply"

结果:简单看一下cloud这个词,我们可以看到Orange With pulp、Dark Beer和Orange Crush是这个例子中表现最好的饮料。

例子2:讨论最多的话题

这个例子使用了从@SAP官方推特帐户中搜集的数据,日期范围:3月2016年-2017年6月

步骤:在插入工具栏的"R可视化"中,单击"添加输入数据"。在行下,返利app,单击"添加维度"并指定"文本"以分析所有tweet。点击"确定"。

将以下所有代码块粘贴到编辑器中。每个代码块都与某些操作有关:

1。执行包并提取文本数据

2。通过删除不必要的空白、将文本转换为小写以及删除常用停止词("the"、"we"等)来清理文本

注意:您可以通过将所选单词添加到stopwords集合来自定义停止词的筛选。在本例中,我们添加了"amp"、"will"等

3.构建一个包含单词及其频率的数据框

4.生成单词云

5。点击"执行"和"应用"

结果:SAP、数字、物联网是Twitter上讨论最多的话题。将此信息传达给营销和传播团队,有助于制定他们的促销策略。

文字:要策划的文字freq:词频最小频率:频率低于最小频率不会被绘制最大字数:要绘制的最大字数随机顺序:按随机顺序绘制单词。如果为假,它们将以递减频率绘制腐烂率:90度旋转的比例词(垂直文本)缩放:相对字体大小的最大和最小值颜色:从最少到最多的颜色词。例如,使用colors="black"表示单色。

借助R可视化功能,数据挖掘和大数据,大数据定义,SAP Analytics Cloud可以揭示深入的见解,帮助您自信地做出端到端决策。