云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

中间件_阿里的云短文_限量秒杀

小七 141 0

在研究数据时,我们希望找到有助于我们理解信息的特征。我们在机器学习或其他数学和人工智能领域寻找洞察力。我想在这里介绍一个最初来自数学的工具,可以用于探索性数据分析,并在应用更复杂的算法之前提供一些几何洞察力。

我要描述的工具是持久同源性,是一组称为拓扑数据分析的算法的成员,[1,2]。在这篇文章中,我将描述当面对一个常见的数据分析场景时的基本方法:聚类。

一些来自拓扑的想法

空间是一组没有结构的数据。第一步是给出一些结构,物联网流量卡,云服务器厂商,可以帮助我们理解数据,也可以使它更有趣。如果我们定义一个概念,所有的点离这个空间有多近。这个概念是邻域,它告诉我们两点是否接近。有了这个概念,我们已经有了重要的信息:我们现在知道我们的数据是否是相互联系的。

邻域可以是我们想要的任何东西,数据点可以是数字、单词或其他类型的数据。这些概念和思想是拓扑学研究的主题。对我们来说,大数据和数据分析区别,什么叫大数据,拓扑学是对数据形状的研究。

我们需要给出一些定义,但都非常直观。从我们的点空间或数据集,我们定义了以下概念:单纯形。很容易想象我们的意思。

所以,0-单纯形是一个点。我们数据中的每一点都是0-单形。如果我们有一条连接两点的"线",那就是一个单形,依此类推。当然,4-单纯形和更高的类似物对我们来说很难想象。我们可以立即看到什么是连通性。在图像中,我们有四个连接的组件,一个0-单纯形,一个1-单纯形,一个2-单纯形和一个3-单纯形。例如,如果我们用线连接它们,我们将把数据集连接到一个组件中。像这样:

下一个概念是邻里关系。我们将使用欧几里德距离来表示当我们的点接近时,我们将使用圆作为邻域。这个距离取决于一个参数,即圆的半径。如果我们改变这些参数,我们就会改变邻域的大小。

持久性是一种算法,它将这个参数从零变为一个非常大的值,覆盖整个集合。用这个最大半径我们把所有的数据集都围起来。算法[4]可以这样表述:

"某种方式"部分称为同调,是数学中专门研究空间结构的领域。读者可以参考这些概念的参考书目[2]。

我们将使用与SAP HANA数据库集成的R语言来使用这些工具。

车辆数据集

数据集在[5]中提供。是关于车祸的,有一些规格。我们在HANA中只查询这个演示所需的数据。我们使用事故ID、空间坐标和分类数据:当地公路管理局和道路类型。这就是我们需要开始的。这个数据看起来像这样:

然后我们把这个数据可视化:

现在我们用R语言的拓扑数据分析库来研究数据。并存储信息,以便以后进行可视化。

接下来我们将结果可视化。这里我用包TDA本身向您展示R中的结果,作为示例。

这是一个条形码。条形码显示了数据的一些拓扑特征相对于参数"时间"的持久性,这是我们增加它时的邻域半径。红线告诉我们有一个"洞",一个空的空间,我们可以在可视化中检查这个。其他行表示数据集的连接组件,这意味着我们有集群。条形码显示,即使数据有噪声,我们也可以预期3或4个重要的聚类会持续存在。

经过分析后,我们可以开始通常的机器学习方法:K-均值…

由于数据的参数过于密集,在拓扑数据分析中,我们必须使用其他设置来找到更好的持久性特征的近似。欧几里德距离只能帮助我们作为一个开始,我们可以改变这一点,买云服务器,以更专业的过滤我们的数据。但是我们可以肯定我们有一个很好的近似,持久性同调对噪声和数据的平滑变化具有很强的鲁棒性。

我们将在下一篇博客中探讨其中的一些想法,并与机器学习中常用的方法进行比较。

参考文献

1。甘纳卡尔森;阿弗拉佐莫罗迪亚;安妮柯林斯;列奥尼达斯J.吉巴斯(2005-12-01)。"形状的持久性条形码"。国际造型杂志。11 (02): 149–187.

2. 卡尔森,贡纳(2009-01-01)。""拓扑和数据"。美国数学学会公报。46 (2): 255–308.

3. Nicolau M.,Levine A.,Clarsson G.(2010-07-23),"基于拓扑结构的数据分析确定了具有独特突变特征和优秀生存率的乳腺癌亚组",PNAS,108(17)。

4。奥特,尼娜;波特,梅森A;蒂尔曼,乌尔里克;格林德罗德,彼得;哈灵顿,希瑟A.(2015-06-29)。"计算持久同源性的路线图"。附件十四:1506.08903

5. https://data.gov.uk/