08-线性回归+基础优化算法

动手学深度学习李沐

更新历史

  • 24.04.24:初稿

系列

线性回归+基础优化算法

1.线性回归

  • 房价预测例子

  • 线性模型

    • 输入:$x=[x_1,x_2,…,x_n]^T$

    • 线性模型需要确定一个n维权重和一个标量偏差$\omega=[\omega_1,\omega_2,…,\omega_n]^T,b$

    • 输出 :$y=\omega_1x_1+\omega_2x_2+…+\omega_nx_n+b$,

      向量版本的是 $y=<\omega,x>+b$

    • 线性模型可以看作是单层神经网络

      • 神经网络源于神经科学
        • 最早的神经网络是源自神经科学的,但是时至今日,很多神经网络已经远远高于神经科学,可解释性也不是很强,不必纠结
  • 衡量估计质量

    • 我们需要估计模型的预估值和真实值之间的差距,例如房屋售价和股价

    • 假设$y$是真实值,$\tilde{y}$是估计值,我们可以比较

      $l(y,\tilde{y})=\frac{1}{2}(y-\tilde{y})^2$,这个叫做平方损失

  • 训练数据

    • 收集一些数据点来决定参数值(权重$\omega$和偏差$b$),例如6个月内被卖掉的房子。

    • 这被称之为训练数据

    • 通常越多越好。需要注意的是,现实世界的数据都是有限的,但是为了训练出精确的参数往往需要训练数据越多越好,当训练数据不足的时候,我们还需要进行额外处理。

    • 假设我们有n个样本,记为

      $X=[x_1,x_2,…,x_n]^T,y=[y_1,y_2,…y_n]^T$

      $X$的每一行是一个样本,$y$的每一行是一个输出的实数值。

  • 参数学习

    • 训练损失。但我们训练参数的时候,需要定义一个损失函数来衡量参数的好坏,应用前文提过的平方损失有公式:

      $l(X,x,\omega,b)=\frac{1}{2n}\sum_{i=1}^n(y_i-{< x_i, w >}-b)^2=\frac{1}{2n}||y-X\omega-b||^2$

    • 最小化损失来学习参数。训练参数的目的就是使损失函数的值尽可能小(这意味着预估值和真实值更接近)。最后求得的参数值可表示为:

      $\omega^*,b^*=argmin_{\omega,b}l(X,x,\omega,b)$

  • 显示解

    • 线性回归有显示解,即可以直接矩阵数学运算,得到参数w和b的最优解,而不是用梯度下降,牛顿法等参数优化方式一点点逼近最优解。

    • 推导过程

      • 为了方便矩阵表示和计算,将偏差加入权重,$X\gets[X,1],\omega\gets[\omega,b]$

      • 损失函数是凸函数,最优解满足导数为0,可解出显示解

        令$\frac{\partial}{\partial\omega} l(X,y,\omega)=0$

        有$\frac{1}{n}(y-X\omega)^TX=0$

        解得$\omega^*=(X^TX)^{-1}X^Ty$

  • 总结

    • 线性回归是对n维输入的加权,外加偏差
    • 使用平方损失来衡量预测值和真实值之间的误差
    • 线性回归有显示解
    • 线性回归可以看作单层神经网络

2.基础优化算法

  • 梯度下降

    • 当模型没有显示解的时候,应用梯度下降法逼近最优解。
    • 梯度下降法的具体步骤:
      • 挑选一个初始值$\omega_0$
      • 重复迭代参数,迭代公式为:$\omega_t=\omega_{t-1}-\lambda\frac{\partial l}{\partial\omega_{t-1} } $
        • $-\frac{\partial l}{\partial\omega_{t-1}}$为函数值下降最快的方向,学习率$\lambda$为学习步长。
    • 选择学习率
      • 学习率$\lambda$为学习步长,代表了沿负梯度方向走了多远,这是超参数(人为指定的的值,不是训练得到的)
      • 学习率不能太大,也不能太小,需要选取适当。
  • 小批量随机梯度下降

    • 在整个训练集上算梯度太贵了

      • 在实际应用中,很少直接应用梯度下降法,这是因为每次更新都需要计算训练集上所有的样本,耗费时间太长。一个深度神经网络模型,迭代一次可能需要数分钟甚至数小时。
    • 为了减少运算代价,我们可以==随机采样==b个样本$i_1,i_2,…,i_b$来近似损失,损失函数为:

      ​ $\frac{1}{b}\sum_{i\in I_b}l(x_i,y_i,\omega)$ ,

      其中b是批量大小(batch size),也是超参数

    • 选择批量大小

      • b也不能太大:内存消耗增加;浪费计算资源,一个极端的情况是可能会重复选取很多差不多的样本,浪费计算资源
      • b也不能太小:每次计算量太小,很难以并行,不能最大限度利用GPU资源
  • 总结

    • 梯度下降通过不断沿着负梯度方向更新参数求解
    • 小批量随机梯度下降是深度学习默认的求解算法(简单,稳定)
    • 两个重要的超参数:批量大小(batch size),学习率(lr)

3.线性回归的从零开始实现

  • 代码

4.新型回归的简洁实现

  • 代码
  • 1.为什么使用平方损失而不是绝对差值?
    • 其实差别不大,最开始使用平方损失是因为它可导,现在其实都可以使用。
  • 2.损失为什么要求平均?
    • 本质上没有关系,但是如果不求平均,梯度的数值会比较大,这时需要学习率除以n。如果不除以n,可能会随着样本数量的增大而让梯度变得很大。
  • 3.不管是梯度下降还是随机梯度下降,怎么找到合适的学习率?
    • 选择对学习率不敏感的优化方法,比如Adam
    • 合理参数初始化
  • 4.训练过程中,过拟合和欠拟合情况下,学习率和batch_size应该如何调整?
    • 理论上学习率和batch_size对最后的拟合结果不会有影响
  • 5.深度学习上,设置损失函数的时候,需要考虑正则吗?
    • 会考虑,但是和损失函数是分开的,深度学习中正则没有太大的用处,有很多其他的技术可以有正则的效果。
  • 6.如果样本大小不是批量数的整数倍,需要随机剔除多余的样本吗?
    • 就取多余的样本作为一个批次
    • 直接丢弃
    • 从下一个epoch里面补少的样本