云服务器价格_云数据库_云主机【优惠】最新活动-搜集站云资讯

域名交易_杭州服务器_怎么样

小七 141 0

本博客将介绍逻辑回归的以下基本概念

二元和多类分类,那云,乙状函数似然函数

让我们从一个问题开始。

逻辑回归是回归还是分类算法?

在这之前,我们阅读了https://blogs.sap.com/2019/07/04/机器学习中的线性回归/。当因变量是连续的,且回归线的性质是线性的时,物联网系统,使用线性回归。

但逻辑回归是一种分类算法,用于将观测值分配给一组离散的类。例如,将网上交易归类为欺诈或非欺诈。Logistic回归使用Logistic Sigmoid函数转换其输出以返回概率值。我们将详细了解这一点。

逻辑回归的输出是什么?

Logistic回归是分类算法,在这种算法中,输出是一个分类变量而不是数字变量。

让我们看一个例子,一家公用事业公司想知道客户是否会流失。在本例中,物联网企业,目标变量的值为churn和not churn。这是一个二元分类问题,目标变量中有两个可能的值。

逻辑回归做什么?

逻辑回归有助于从数据中提取模式,并将结果分类为给定的类别之一。

让我们以多类别分类问题为例,其中可能的结果不止两个。

开发了一个软件,用于预测和分类错误的严重程度,返利app开发,分为低、中、低,利用历史数据进行高风险投资。这种情况有三类,因此,这是一个多类分类问题。

什么是S形函数?

让我们用一个例子来学习这一点。

想象一个由银行信用卡持有人的主数据和交易数据组成的数据集。我们需要预测客户是否会拖欠付款。在这个数据集中,我们可以有许多变量,如年龄、工资、按时支付的部分(百分比)、是否拥有财产等

将根据使用对目标变量中的值有贡献的重要变量形成的模式进行决策。为了便于理解,让我们只关注按时付款的百分比(一个自变量)和结果(因变量)。

一个由11条记录组成的数据集(从来没有在这么小的数据集上进行过分析,这只是举例)

仔细看数据,客户违约时,按时付款的百分比较低,但有一个记录打破了模式,即60%。50%的人开始了"不"的模式,云产品,但60%的人打破了这一模式。

让我们把"是"作为0,把"否"作为1来绘制图表。很少有点显示客户违约且未完成付款(为0),也有一些点显示客户未违约且已完成付款(为1)。

决定未来数据集的一种方法是将决策边界设置为55%。

但是,这种方法存在问题,很明显,在在这种情况下,我们对两个客户进行了错误分类。

是否有一个边界可以帮助实现零错误分类?

与真实数据集没有边界,没有错误分类。在医学等领域,尖锐的边界可能是非常危险的。

与其关注精确值,避免尖锐边界的问题,不如考虑概率。我们希望从"按时支付的金额较低"的客户处"收到完整付款"的概率较低,反之亦然。对于中间点,百分比既不高也不低,概率接近0.5.

如何尽可能少地进行错误分类?

用曲线替换边界,使用S形曲线。

S形曲线方程:y(违约概率)=1/1+e−β0+β1x)

查看按时付款的百分比和收到完整付款的概率。你会发现为什么Sigmoid曲线比锐切边界好。通过改变β0和β1的值可以得到不同的S形曲线。

考虑所有11个点的概率是P1、P2、P3、P4、P5、P6、P7、P8、P9、P10、P11。

如何得到最佳的β0和β1?

β0和β1的最佳拟合组合将是使乘积最大化的组合:

(1-P1)*(1-P2)*(1-P3)*(1-P4)*(1-P5)*(1-P7)*P6*P8*P9*P10*P11

因此,我们讨论了logistic回归是一种分类算法。使用Sigmoid函数以概率的形式输出。然后根据输出概率将输出转换为可用类别之一。最好的结果是根据需求最小化或最大化成本函数。