首页 > 科技 >

机器学习之线性回归概述

2019-11-13 00:19:39 暂无 阅读:1066 评论:0

线性回归是利用梳理统计学中的回归分析来确定两种或两种以上变量之间相互依赖的定量关系的一种统计分析方法。

线性回归简介

线性回归是一种有监督算法,通常被用于响应预测、分类划分。线性回归的针对的是目标变量是区间型变量的问题。

机器学习之线性回归概述

线性回归是描述目标变量Y是如何随着一组自变量X1、X2…的变化而变化的模型。其中Y的变化分为两部分,一部分是系统性变化,也就是由自变量引起的变化;一部分是随机变化,也就是自变量不能解释的残差。

线性回归优势

机器学习之线性回归概述

通俗易懂。输入变量的系数与权重挂钩,很容易解释每个输入变量对目标变量预测值的贡献大小;速度快,效率高。相对来说计算速度是最快的;可以作为查找异常值的有效方法。那些与线性回归方程预测值相差较大的观察值一般都值得进一步考虑。

原理概述

线性回归包括一元线性回归和多元线性回归,实际中最常用的是多元线性回归。但一元线性回归可以帮助我们更好的理解线性回归的原理。

一元线性回归的表达形式为:Y=aX+b+e。

系统性变化:aX+b

随机变化:e,e为误差服从均值为0的正态分布。e不是一个定值,每一组x和y都对应一个e。

假设现在有一个输入变量x和一个目标变量y,把他们映射到二维坐标系中,这个时候可以用一条线把所有散点连接起来,这条线可以用一个一元函数y=ax+b表示,而在引入误差e之后其实就是一个线性回归的模型y=ax+b+e。这种从大量的函数结果和自变量反推会函数表达式的过程就是回归。而把一系列样本点用一条光滑的曲线连接起来的过程就叫做拟合。

机器学习之线性回归概述

而当有两个输入变量时,就需要把样本点映射到三维的空间中,进而拟合出一个平面,而这个平面代表的函数就是我们得到的线性回归模型。

机器学习之线性回归概述

随着输入变量和目标变量的增多,同样可以在更高维的空间拟合出对应的多元线性回归模型,这就是线性回归的基本思路。

系数求解方法

机器学习之线性回归概述

那么如何确定线性回归模型的系数呢?通常用的是最小二乘法,即找出一组参数使得目标变量Y的实际观察值与回归方程的预测值之间总的方差最小。或者说在线性回归中,最小二乘法就是找到一条直线(一元线性回归模型时)使所有样本到直线上的欧式距离之和最小。

线性回归模型检验

机器学习之线性回归概述

模型的解释程度,也叫拟合度检验。通常用R平方表示拟合度的优劣;

总体显著性检验。主要是检验目标变量与输入变量之间的线性关系是否显著,也就是输入变量的系数是否不全为0。通常用F检验完成;

系数显著性验证。需要对每个系数分别检验。如果某个系数对应的P值小于理论显著性水平α,则认为在显著性水平α下,该回归系数是显著的。

显著性表示得以相互区别的能力。在统计假设检验中,公认的小概率事件的概率值被称为统计假设检验的显著性水平,对同一量,进行多次计量,然后算出平均值。对于偏离平均值的正负差值,就是其不确定度。其差值越大,则计量的不确定度就越大,对于具有特定的发生概率的随机变量,其特定的价值区间,即一个确定的数值范围(“一个区间”)就越大。

应用注意事项

机器学习之线性回归概述

算法对噪声和异常值比较敏感。只适合处理线性关系。如果是非线性关系则不适合,可以尝试先对自变量进行转换。输入变量是确定的变量而不是随机变量,且自变量之间没有线性关系。随机误差项具有均值为0的等方差性;随机误差呈正态分布。

相关文章