线性神经网络
Chapter 3 线性神经网络
线性回归
随机梯度下降:
预测结果
在线性假设(目标可以表示为特征的加权和)下,对于预测结果$\hat{y}$有:
$\hat{y} = w_1x_1 + …+w_dx_d + b$ 或 $\hat{y} = w^Tx + b$
其中$w$ 是所有权重构成的向量,$x$是所有特征构成的向量,b是偏移量。
损失函数
我们使用损失函数来量化目标的实际值与预测值之间的差距,当样本预测值为$\hat{y}^{(i)}$,真实值为$y^{(i)}$时,损失值是关于${w,b}$的函数。回归问题中常用的损失函数是平方损失函数。
$l^{(i)}(w,b) = \frac{1}{2}(\hat{y}^{(i)}- y^{(i)})^2$
其中常数$\frac{1}{2}$不会导致本质区别,但可以使求导后的结果系数为1,这样在形式上会稍有简化。
梯度下降
梯度下降方法通过不断地在损失函数递减的方向上更新参数来降低误差,具体的更新方法是:
每次更新取小批量样本$B$,然后计算小批量的损失均值关于模型参数的导数(梯度),最后将梯度乘以一个预先设定的正数$\eta$,并从当前参数的值中减掉。
$(w,b) \leftarrow (w,b) - \frac{\eta}{|B|}\sum_{i\in B}\partial_{(w,b)} l^{(i)}(w,b)$
其中$|B|$表示批量大小,$\eta$表示学习率。
极大似然估计:
概率:根据已知环境中的参数来预测某件事情发生的可能性,记作$P(x|\theta)$;
其中$x$是事件结果,$\theta$是已经确定的环境参数,$P$是$x$的函数。
似然:基于已经确定的结果来推测产生这个结果的可能环境参数,记作$L(\theta|x)$;
其中$x$是已经确定的事件结果,$\theta$是环境参数,$L$是$\theta$的函数。
极大似然估计法是在已知某个随机样本满足某种概率分布,但其中具体的参数不清楚的情况下,通过若干次试验观察其结果,利用结果推出参数的大概值的一种方法。
其基本原理是,在给定样本的情况下,寻找使得该样本出现概率最大的参数值作为参数的估计值。
正态分布与线性回归之间有密切的关联,我们借噪声服从正态分布这个假设来说明这一点。
设噪声服从: $\epsilon$ ~ $N(0,\sigma^2)$ 即: $P(\epsilon = x) = \frac{1}{\sqrt{2\pi\sigma^{2}}} e^{-\frac{1}{2\sigma^{2}}x^2}$,
由于噪声是观测值与真实值的差:$ y = w^Tx + b + \epsilon$,故通过给定$x$观察到特定$y$的似然是$\epsilon = y - w^Tx - b $的概率,即:$L(y|x)=\frac{1}{\sqrt{2\pi\sigma^{2}}} e^{-\frac{1}{2\sigma^{2}}(y - w^Tx - b)^2}$
根据极大似然估计法,${w,b}$的最优值是使得整个数据集的似然最大的值,也就是说我们需要使得$P(y |X) = \prod_{i=1}^{n} L (y^{(i)}|x^{(i)})$最大,
这等价于要求该乘积的负对数最小,即$-log P(y|X) = \frac{1}{2}\sum_{i=1}^{n}log(2\pi\sigma^2)+\frac{1}{2\sigma^2}(y^{(i)}-w^Tx-b)^2$ 最小
当噪声分布确定的时候,该式的最小值由$\sum_{i=1}^{n}(y^{(i)}-w^Tx-b)^2$决定。因而,在高斯噪音的假设下,最小化均方误差等于对线性模型的极大似然估计。