读书笔记：Chapter1 三要素相关概念

书中将方法分为三个部分即模型、策略和算法，所谓模型即使要考虑对问题的定性建模，是有监督、无监督，是学习出条件概率还是决策函数；策略所要表达的是如何对建立的模型进行定量分析，如何去评价、选择最优的模型；最后算法就是学习模型的具体计算方法，是通过数据学习，还是直接求解解析解。
下面介绍几个重要的概念

损失函数和风险函数

损失函数是用来度量预测值和真实值之间差别大小的函数。常见的损失函数有

0-1损失函数(0-1 loss function) $L(Y,f(X))= \left\{ \begin{aligned} 1, Y \neq f(X) \\ 0, Y = f(X) \end{aligned} \right.$
平方损失函数(quadratic loss function) $L(Y,f(X)) = (Y- f(X))^2$
绝对损失函数(absolute loss function) $L(Y,f(X)) = |Y- f(X)|$
对数损失函数(logarithmic loss function) $L(Y,P(Y|X)) = -log(Y|X)$

损失函数越小说明模型越好，对loss的设计需要根据具体要解决的问题为依据，而loss值也是在模型跳槽过程中需要参考的维度之一。

风险函数(risk function)是理论上模型$f(x)$关于联合概率分布$P(X,Y)$(因为模型输入，输出都是随机变量所以遵从联合分布)的平均意义下的损失。

经验风险最小化和结构化风险最小化

经验风险(empirical risk)或经验损失(empirical loss)，
模型关于训练集的平均损失 $R_{emp}(f)=\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i))$ 其中，$N$是训练集样本个数，$f(x)$是所选择的模型
期望风险(expected risk)或期望损失(expected loss)
期望风险是模型关于联合分布的期望损失，根据大数定律，当样本$N$趋于无穷大时，经验风险近似于期望风险，因此采用经验风险估计期望风险。
经验风险最小化
由于经验风险是模型在数据集上的平均损失，换个思路，经验风险最小也表示模型最优，
$min_{f \in \mathit{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i))$
这个有个问题需要深层理解

极大似然估计(maximum likelihood estimation) 就是经验风险最小化的一个例子。当模型是条件概率分布、损失函数是对数损失函数时，经验风险最小化就等价于极大似然估计.(具体推导)
结构风险最小化(structural risk minimization)
结构风险最小化等价于正则化，结构风险是在经验风险上添加控制模型复杂度的正则化项或惩罚项。结构风险如下,
$R_{srm}(f) = \frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i)) +\lambda J(f)$
因此结构风险最小化下的最优模型等价于，
$min_{f \in \mathit{F}}\frac{1}{N}\sum_{i=1}^{N}L(y_i, f(x_i)) +\lambda J(f)$

贝叶斯估计中的最大后验概率(maximum posterior probability estimation, MAP)就是结构化风险的一个例子。当模型是条件概率、损失函数是对数损失函数、模型复杂度有模型先验概率表示，结构风险最小等价于最大后验概率。

训练误差和测试误差

训练误差
训练误差是模型关于训练样本的平均损失 $R_{emp}(\hat{f})=\frac{1}{N}\sum_{i=1}^{N}L(y_i, \hat{f}(x_i))$
测试误差
模型关于测试集的平均损失，注意训练时采用的损失函数和测试时采用的损失函数不一定完全相同。 $R_{emp}(\hat{f})=\frac{1}{N^\prime}\sum_{i=1}^{N^\prime}L(y_i, \hat{f}(x_i))$

总结

本节主要记录了损失函数，期望风险，结构风险最小化，期望风险最小化等概念。