多元回归算法

1.与简单线性回归区别(simple linear regression)

多个自变量(X)

2.多元回归模型

y = B0 + B1x1+B2x2+…+Bpxp + e

e是误差值

3.多元回归方程

期望值中e的期望值为0,因此得到多元回归方程如下

E(y) = B0 + B1x1+B2x2+…+Bpxp

4.估计多元回归方程

y_hat = b0 + b1x1 + b2x2+…+bpxp

一个样本被用来计算B0,B1,B2…Bp的点估计b0,b1,b2,…,bp

5.估计流程(与简单线性回归方程类似)

6.估计方法

使sum of squares最小

 

运算与简单线性回归类似,涉及到线性代数和矩阵代数的运算

7.例子

一家快递公司送货:

运输里程:x1

运输次数:x2

运输时间:y

运输里程 运输次数 运输时间
100 4 9.3
50 3 4.8
100 4 8.9
100 2 6.5
50 2 4.2
80 2 6.2
75 3 7.4
65 4 6.0

y = b0 + b1*x1 + b2*x2

计算后得出方程如下:

y = -0.869 + 0.0611*x1 + 0.923*x2

8.参数含义

b0 平均每多运送一英里,运输时间延长0.0611小时

b1 平均每多一次运输,运输时间延长0.923小时

9.预测

如果一个运输任务是跑102英里,运输6次,预计多少小时?

time = -0.869 + 0.0611 * 102 + 0.923*6 = 10.9(小时)

10.如果自变量中有分类型变量(categorical data),如何处理?

英里数 次数 车型 时间
100 4 1 9.3
50 3 0 4.8
100 4 1 8.9
100 2 2 6.5
50 2 2 4.2
80 2 1 6.2
75 3 1 7.4
65 4 0 6
90 3 0 7.6

针对分类型变更需要先将分类型变量转化成数值型,有几种分类就追加几列,对应列值设置为1,其余设置为0,转化规则如下:

英里数 次数 车型 0 1 2 时间
100 4 1 0 1 0 9.3
50 3 0 1 0 0 4.8
100 4 1 0 1 0 8.9
100 2 2 0 0 1 6.5
50 2 2 0 0 1 4.2
80 2 1 0 1 0 6.2
75 3 1 0 1 0 7.4
65 4 0 1 0 0 6
90 3 0 1 0 0 7.6

11.关于误差的分布

误差e是一个随机变量,均值为0,e的方差对于所有自变量来说相等,所有e的值是独立的,

e满足正态分布,并且通过B0+B1*X1+B2*X2+…+Bp*Xp反映y的期望值

About the Author

发表评论

电子邮件地址不会被公开。 必填项已用*标注