云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

腾讯云_马云悔创阿里_最新活动

小七 141 0

本博客将解释线性回归算法,一种实现数据建模的方法(CRISP-DM模型的第四步)

CRISP-DM:数据挖掘的跨行业标准过程为规划数据挖掘项目提供了结构化方法。该模型是以下事件的理想序列:

数据建模使用机器学习算法,机器从数据中学习。这就像人类从经验中学习的方式一样。

机器学习模型分为两类:

例如,根据历史数据预测一家公司的收入表现是一个回归问题,对一个人是否可能违约进行分类是一个分类问题。

回归是如何工作的?

让我们考虑一个例子,一家公司可以根据他们投入广告的钱来预测it销售额。

以前的广告支出数据和实际销售额

你想知道如果你在广告上花费了X金额,理财返利平台,那么你的销售额会是多少。

永远记住,领域专业知识有助于找到正确的预测结果。此外,该公司广告团队的专业知识可以大致了解广告支出变化对销售变化的影响。但要想知道到底会产生多少销售额,知道广告支出和销售额之间是否存在关系,你可以用回归算法建立模型并进行预测用于预测的是自变量。

因变量:我们要预测的Y轴上的变量是因变量。

直线方程Y=mx+c,其中m是直线的斜率,c是截距。

直线方程中m和c的意义是什么?

m'表示X和Y之间关系的强度。

上例中的c'表示在X=0的情况下,没有钱花在广告上的销售额。

最佳拟合线:最适合散点图的线。什么是最佳拟合?如何确定一条线是否最佳拟合?

残差:残差用于寻找最佳拟合线。每个数据点都有一个残值,云服务器租用价格,即实际值和预测值(在线点的值)之间的差值。让我们用E(误差)

E=实际-预测(对于每个数据点)

最小化总误差平方,即最小化e12+e22+……+en2.

这也称为残差平方和(RSS)。所以,选择m和c的值,这样可以减少RSS的值。

让我们用m和c来写E。

E=ei=yi(实际)–ypred

ei=yi–mxi–c

在机器学习模型中,为一个问题定义一个成本函数,然后根据需求将其最小化或最大化。在上述回归的情况下,剩余平方和中的成本函数

如何最小化成本函数?

区分成本函数,使其等于零。梯度下降;从'm'和'c'的一些值开始,然后迭代移动到更好的'm'和'c'以最小化成本函数。

RSS是一个绝对量,因此,永久免费自助建站软件,在数据集中,如果单位发生变化,RSS的值也会发生变化。存在另一个度量TSS,它是相对的而不是绝对的。TSS是平方和的总和。

如何计算TSS?

TSS是每个数据点与目标变量(y)所有值的平均值之差的平方和。

TSS=(Y1–Ymean)2+(Y2–Ymean)2+……。(Yn–Ymean)2

这里,这条线的截距(y=mx+c中的‘c’)等于Ymean,这意味着这条线不包括任何自变量的影响。这是一个非常基本的模型,因此,任何使用自变量建立的模型都应该比基本模型好。

RSS/TSS是一个标准化的量。

R2=1–RSS/TSS

R2的值越高说明模型有多好。

假设R2的值是0.87;这意味着87%的方差可以在数据中得到解释。

如果预测线能够正确解释每个数据点,那么实际值和预测值之间的差值为0,淘客是啥,这意味着RSS为0,物联网城市,因此R2为1。

下一个主题将通过python使用线性回归。