云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

网站服务器_万网域名交易_12月免费

小七 141 0

线性回归入门

博客数据专业人员的任务通常是寻找数据集中变量之间的相关性,以确定一个变量(x)是否可以成为另一个变量(y)的强预测因子。对于那些不熟悉这种分析的人来说,一个很好的起点就是线性回归。线性回归包括将一组自变量和因变量拟合到一个线性方程中,该方程试图找到任何类型的相关关系。进行这些预测最常用的模型是最小二乘模型,它采用散点图并拟合到所有点的最短距离的直线。这条线使用公式y=mx+b,其中m是直线的斜率,计算公式为(N∑xy−x∑y)/N(∑x2)−(∑x)2,b是y截距,计算结果为∑y−m(∑x)/N,N是绘制的点数。在使用线性回归模型之前,重要的是要了解它是什么,什么时候应该使用,不应该使用,以及如何评估它的性能。何时使用线性回归线性回归的常用用例是确定两个变量之间关系的强度,了解自变量中的某个变化对因变量的影响程度,或预测未来的结果集。在预测的情况下,线性回归可用于插值或外推。为了说明差异,请考虑一组介于1和1000之间的x值,但没有精确值为500的数据。插值是确定x=500时y值的一个合理估计值。外推法将预测数据集范围之外的x值的y结果,例如1100。同样重要的是知道何时不使用线性回归。例如,401k的储蓄额与年回报率的比较可能更符合二次模型,先是缓慢倾斜,然后随着账户价值的增长而变得更陡峭。开始确定线性回归是否合适的一个好方法是用散点图绘制数据,以寻找可见的趋势。在Sisense for Cloud Data Team中,我们可以通过单击"显示趋势线"框来轻松绘制数据并绘制最小二乘线。从一家虚构的游戏公司收集的数据集来看,我们可以看到这两个变量之间显然存在着正相关关系,符合线性方程,可能值得进一步探讨。常见错误和误解需要注意的是,仅仅因为你的数据符合一个线性模型并不一定意味着x导致y,它仅仅意味着x是y的一个很好的预测因子。例如,你可以建立一个回归模型,显示防晒霜销售与游乐园出勤率之间的正相关关系,但是,对于游乐园来说,这是一个误导举行防晒霜大减价,希望能增加售票量。另一个常见的弊端是在没有正当理由的情况下从数据集中删除异常值。如果异常值是一个不可能的结果或者代表坏数据,比如测试中的1000%,那么排除异常值可能是一种有效的做法。然而,如果离群值代表一个可能(但不太可能)的结果,那么通常最好离开它,因为这些数据通常是企业最感兴趣的数据。离群值通常是我们最有洞察力的数据点,值得研究。就像葡萄酒一样,模特也会随着时间的推移变得更好。我们向模型中引入的数据越多,它就越能预测结果。我们可能从生成弱模型的稀疏数据集开始,但是随着时间的推移,如果变量之间存在真正的相关性,我们的模型可以改进。对我们的数据应用线性回归模型一旦我们确定线性回归分析可能适合我们的数据集,我们就可以使用Python或R的强大功能进行更深入的研究。我们的数据社区是编写示例的一个很好的源代码,并且根据您的首选语言,详细介绍了如何在Python和R中执行线性回归分析。第一步是将数据分割成训练和测试数据集。测试模型有效性的最好方法是留出一组较小的数据,供以后使用,以查看模型在预测y变量时的表现。通常使用70/30分体式。进行分割时,必须将条目随机分配给测试或训练数据集。如果这两个群体有一些内在的差异,这将导致不准确的模型生成。评估模型的性能生成模型后,查看m系数是有帮助的,它量化了回归的斜率。斜率定义了变量之间的正相关或负相关程度。接下来,您可能需要评估模型的性能。上面链接的帖子详细说明了如何找到你的模型分数,但是你的分数越接近1,模型在预测y变量方面的作用就越好,越接近0,我们的预测值与实际y值的准确度就越低。模型得分也被称为r平方,它将回归线和平均y值之间的平方差之和除以每个数据点和平均y值之间的平方差之和,R2=∑(ŷi-ȳ)2/∑(yi-ȳ)2。残差是另一个性能指标,它观察预测值和实际值之间的差异。这可以看作是一个以残差为y轴的散点图。或者,我们可以看看MAE(平均绝对误差)或RMSE(均方根误差)。平均绝对误差取残差绝对值除以数据点个数∑| yi−ŷ/n。RMSE计算为⎷∑(yi−i)2/n,取残差平方根除以数据点数。虽然这两个方程的作用是相似的,但RMSE增加了残差较大的数据点的权重,如果你想惩罚模型中漏掉的预测,那么这可能是需要的。两个值的范围都在0和无穷大之间,接近0的值表示我们模型的预测值更接近实际的y值添加其他变量在预测结果时,评估两个变量之间的关系通常是一个很好的起点,然而,一旦适应了单变量线性回归,您可能会注意到y值可能会受到多个变量的影响。我们还可以研究多个变量如何组合在一起影响单个因变量,并确定哪些指标更强,哪些指标较弱。如果你觉得你已经准备好了进入下一步的线性回归,请随时查看这些多元线性回归。标记:数据团队