多元线性回归
多元特征
公式: $$h_\theta (x) = \theta_0 + \theta_1 x_1 + \theta_2 x_2 + \theta_3 x_3 + \cdots + \theta_n x_n $$
向量化: 我们可以看成矩阵相乘:
多元特征的梯度下降
和week1二元类似,也是需要同时更新所有$\theta$知道收敛
$$\begin{align}& \text{repeat until convergence:} \; \lbrace \newline \; & \theta_j := \theta_j - \alpha \frac{1}{m} \sum\limits_{i=1}^{m} (h_\theta(x^{(i)}) - y^{(i)}) \cdot x_j^{(i)} \; & \text{for j := 0…n}\newline \rbrace\end{align}$$
梯度下降-特征缩放 (Feature Scaling)
确保所有特征在一个相近的范围内, 这样收敛的速度大大增加
均值归一化 (Mean Normalization)
$$x_i := \dfrac{x_i - \mu_i}{s_i}$$
$\mu_i$是这个特征的平均数
$s_i$是这个特征的范围(最大-最小)
例子: $x_i$表示房价范围¥100-¥2000, 平均房价¥1000
$$x_i := \dfrac{price-1000}{1900}$$
梯度下降-学习速率(Learning Rate)
确保梯度下降正确
如果正确J(θ)应该一直减小
总的来说:
- $\alpha$太小->收敛慢
- $\alpha$太大->可能无法收敛
特征和多项式回归
我们可以把不同的特征组合起来
组合: 例如把$x_1$和$x_2$乘起来组合成新特征$x_3$
多项式回归
成本函数不一定要线性,有时候二元活着三元函数更符合。
注意:多项式回归时特征缩放很关键
#计算变量
正规方程(Normal Equation)
一次性求接出最佳的$\theta$
公式: $$\theta = (X^T X)^{-1}X^T y$$
不需要做特征缩放
与梯度下降的区别:
梯度下降适合大数据,
正规方程适合小数据
正规方程不可逆(Normal Equation Noninvertibility)
可能的原因:
- 多余的变量
- 太多特征