2.Regression

2.1线性回归模型

如 $y=f(x)=w \cdot x+b$

$y$ 是输出;
$\hat{y}$ 是真实值/标签 (label)
$w$ 是权重 (weight) ；
$b$ 是偏置 (bias) :
$x$ 是输入 (input)，也可叫做特征 (feature)

数据集中一般包含多个object，每个object一般包含多个component。此时，上标是object的索引，下标是component的索引。
损失函数 (Loss Function)

如果不考虑模型的好坏，衡量一个函数的好坏，其实是衡量模型参数的好坏。
以线性模型为例，就是衡量参数和的好坏。如
$L(f)=L(w, b)=\sum_{n=1}^{10}\left(\hat{y}-\left(b+w \cdot x^n\right)\right)^2$ ，把所有样本误差的平方和作为损失函数
输入: 一个函数
输出: 多么地不好 (how bad it is)。损失函数值越大，则这个函数越差、与数据集中内容越不相符。

梯度下降可以优化损失函数的值，使其尽量小，即可找到最好（在数据集上拟合效果最好）的模型参数。

现在假设模型 $f$ 中只有一个参数 $w$ ，则损失函数为 $L(f)=L(w)$ ，梯度下降算法如下（若模型有多个参数，按相同方法更新各参数)

$\left.\frac{d L(f)}{d w}\right|_{w=w^0}$

如果小于 0 ，此时 $w$ 增大则 $L(f)$ 会减小; 如果大于 0 ，此时 $w$ 减小则 $L(w)$ 会减小。如果模型有多个参数，则计算损失函数在各个参数方向上的偏导数。

$w^1=w^0-\left.\operatorname{lr} \frac{d L(f)}{d w}\right|_{w=w^0}$

$w$ 的变化量取决于梯度和学习率 (Learning Rate) 的大小: 梯度绝对值或学习率越大，则 $w$ 变化量越大。如果模型有多个参数，则用上一步计算出的偏导数对应更新各参数。

重复第 2 步和第 3 步
经过多次参数更新/迭代 (iteration)，可以使损失函数的值达到局部最小 (即局部最优，Local Optimal)，但不一定是全局最优(Global Optimal)。

线性模型过于简单，

All Piecewise Linear Curves=Constant+sum of a set of 简单线性函数

$\begin{equation} \begin{aligned} y&=c\ \frac{1}{1+e^{-\left(b+w x_1\right)}}\\ &=c\ sigmoid(b+wx_1) \end{aligned} \end{equation}$

通过改变sigmoid function的参数来拟合各种蓝色function

最终的拟合：