云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

数据库服务器_高h小说百度云_12月免费

小七 141 0

如果你正在赶火车,这里是机器学习盒子系列介绍博客的链接,让你从一开始就可以得到这个系列。在这个介绍博客的结尾,你会找到这个系列的每个元素的链接。

在我们开始之前,快速回顾上周

上周,我们看到了如何一个项目方法可以帮助你在机器学习项目上取得成功。

这里有一个链接,可以快速回顾机器学习,在第2周的回顾中,我在开始这篇关于算法学习风格的文章之前写过。你会发现一些关于CRISP-DM方法论的个人想法。

当我在KXEN开始我的旅程时,淘客返利系统,我在数据挖掘或数据科学方面没有血统。我有技术支持和程序员背景。所以,我理解了"算法"这个词在编程方面的含义,我发现对于数据科学来说没有什么区别。

在学校的时候,我们都解决了一些代数问题,比如"求通过点(-1,-1)和(1,2) 或"求函数f(x)=x4−8×2+5和f(x)=x4−8×2+5的最小值和最大值"。我们是手工完成的…通过应用我们在课堂学习中学习到的一个算法。

有很多算法可以帮助你解决一类问题,大数据精准获客,在我们的机器学习项目中,通常用我们的数据挖掘目标来表示。

所以,我们需要一种方法来组织我们的算法工具箱。有许多方法可以将算法组织和分组在一起,这里我将使用一种叫做"学习风格"的方法。

使用"学习风格"可以帮助您思考如何准备和使用数据来构建模型。最终,您将尝试并选择最合适的算法来测试和比较结果。

现在让我们看看机器学习算法的主要学习风格,以及相关的子类别。

使用监督学习,您将使用一组已知结果(目标)的标记数据来推断函数。这个数据集也被称为训练数据集。

训练数据集可以表示为一对特征(或变量、维度)的输入向量和相关的输出值,

因此,有监督学习算法的目标是分析训练数据并生成一个函数,大数据分析过程,该函数可以对特征的新输入向量进行评分并获得预测的输出值。

这将要求算法从训练数据中概括模式(在推断的函数中),以便正确确定任何新特征的输出值有多种监督学习算法,它们各有优缺点。这意味着没有一个"魔术"算法可以解决所有的监督学习问题。

您可以进一步分组监督学习算法,如:

分类

这适用于当您的目标表示为一个类别或一个类,如"真"和"假"或"a"和"B"的二进制分类,或"a","B"和"C"表示多类别分类。

下图描述了一个简单的分类示例,其中每个图标根据其输入值(x1和x2轴)定位,并根据输出值着色。推断函数是绿线(这里是线性函数),每个问号都是新的输入,推断函数将分配给一边或另一边。

回归

当你的目标被表示为一个连续的数字时,这是适用的,比如财政收入,重量或温度。

下图描述了一个简单的回归示例,其中每个标记根据其输入值(x轴)和输出值(y轴)进行定位。推断出的函数是绿线,它可以得到任何"x"输入值的"y"输出值。

时间序列预测

当您的训练数据集代表一个信号或一系列值时,这是适用的,您需要使用以前的数据推断下一个N值。

有些人可能会认为时间序列预测是一个错误一种回归,除了时间序列的推断函数会产生一系列值,而不是像回归中那样的唯一值。

此外,时间序列的数据集结构需要一个具有唯一值的"顺序"列(通常是日期,但在某些情况下可能是一个增量列)。

下面的例子显示了一系列固定间隔的点,蓝色的点。时间序列算法的推断函数(绿线)表示一个余弦函数,可以用来预测接下来的5个值(红点)。

总结分类和回归之间的巨大差异是目标变量(输出)的表示,其中一个是离散的(类别),另一个是连续的。

与监督学习相反,在无监督学习中,您将使用一组未标记的数据(没有定义的结果)来推断函数。

因此,推断函数旨在描述数据中隐藏的底层结构和模式或分布。与监督学习不同,没有真正的方法来评估所发现的结构和模式的准确性或相关性。

您可以进一步分组无监督学习算法,如:

聚类

当您需要根据实体属性的"相似性"或"距离"来定义实体组(即聚类)时,这种算法是适用的与总体分布相比。每个聚类算法都有自己的分组策略,或者基于到中心的距离、组密度、组分布等,就像一些算法允许或防止重叠,或者存在剩余项一样,该算法使用到中心的距离定义了5个聚类。

关联规则