统计学习的分类
- 监督学习的本质是学习输入到输出的映射的统计规律。
- 无监督学习的本质是学习数据中的统计规律或潜在结构。
- 强化学习本质是学习最优的序贯决策。
监督学习
输入输出变量用大写字母表示,习惯上输入变量写作\(X\),输出变量写作\(Y\)。
输入输出变量的取值用小写字母表示,输入变量的取值写作\(x\),输出变量的取值写作\(y\)
输入实例\(x\)的特征向量记作
\[ x = \left (x^{(1)}, x^{(2)}, ...,x^{(i)},...,x^{(n)}\right ) ^{T} \]
\(x_{i}\)表示多个输入变量中的第\(i\)个变量,即
\[x_{i} = \left( x_{i}^{(1)}, x_{i}^{(2)}, ...,x_{i}^{(i)},...,x_{i}^{(n)} \right)^{T}\]
训练数据由输入与输出对组成,训练集通常表示为
\[T = \left\{(x_{1},y_{1}),(x_{2},y_{2}),…,(x_{N},y_{N})\right\}\]
联合概率分布简称联合分布,是两个及以上随机变量组成的随机向量的概率分布。根据随机变量的不同,联合概率分布的表示形式也不同。对于离散型随机变量,联合概率分布可以以列表的形式表示,也可以以函数的形式表示;对于连续型随机变量,联合概率分布通过一非负函数的积分表示。
- 输入变量与输出变量均为连续变量的预测问题称为回归问题
- 输出变量为有限个离散变量的预测问题成为分类问题
- 输入变量与输出变量均为变量序列的预测问题称为标注问题
统计学习方法三要素
方法 = 模型 + 策略 + 算法
模型
统计学习首先要考虑的问题是学习什么样的模型。在监督学习过程中,模型就是所要学习的条件概率分布或决策函数。模型的假设空间(hypothesis space)包含所有可能的条件概率分布或决策函数。例如,假设决策函数是输入变量的线性函数,那么模型的假设空间就是所有这些线性函数所构成的函数集合。假设空间中的模型一般有无穷多个。
假设空间用\(\mathcal{F}\)表示。假设空间可以定义为决策函数的集合:
\[\mathcal{F} = \left \{ f|Y = f(X)\right \}\]
策略
有了模型的假设空间,统计学习接着要考虑的是按照什么样的准则学习或选择最优的模型。统计学习的目标在于从假设空间中选取最优模型。
损失函数
用损失函数(loss function)来度量预测错误的程度。损失函数值越小,模型就越好。
损失函数是\(f(X)\)和\(Y\)的非负实值函数,记作\(L(Y,f(X))\)
统计学习常用的损失函数有以下几种:
- 0-1损失函数(0-1 loss function)\(L(Y,f(X)) = \left\{\begin{matrix}1, y\ne f(X) \\0, y=f(X)\end{matrix}\right.\)
- 平方损失函数(quadratic loss function)\(L(Y, f(X)) = (Y-f(X))^{2}\)
- 绝对损失函数(absolute loss function)\(L(Y,f(X)) = |Y-f(X)|\)
- 对数损失函数(logarithmic loss function)\(L(Y,f(X)) = -logP(Y|X)\)
风险函数
\[R_{exp}(f) = E_{P}[L(Y, f(X))] = \int_{\chi \times y}^{} L(y,f(x))P(x,y)dxdy\]
损失函数的期望是\(R_{exp}(f)\), 这是理论上模型\(f(X)\)关于联合分布\(P(X,Y)\)的平均意义下的损失,称为风险函数(risk function)或期望损失(expected loss)
学习的目标就是悬着期望风险最小的模型。由于联合分布\(P(X,Y)\)是未知的,\(R_{exp}(f)\)不能直接计算。实际上,如果知道联合分布\(P(X,Y)\),可以从联合分布直接求出条件概率分布\(P(Y|X)\), 也就不需要学习了。正因为不知道联合概率分布,才需要进行学习。
给定一个训练数据集,模型\(f(X)\)关于训练数据集的平均损失称为经验风险(empirical risk)或经验损失(empirical loss)记作\(R_{emp}\)
\[R_{emp} = \frac{1}{N} \sum_{i=1}^{N} L(y_{i},f({x_{i}}))\]
经验风险最小化
在假设空间、损失函数以及训练数据集确定的情况下,经验风险函数式就可以确定。经验风险最小化(empirial risk minimization, ERM)的策略认为,经验风险最小的模型是最优的模型。根据这一策略,按照经验风险最小化求最优模型就是求解最优化问题。
\[\min_{f\in\mathcal{F} } \frac{1}{N} L(y_{i}, f(x_{i}))\]
当样本容量足够大时,经验风险最小化能保证有很好的学习效果,在现实中被广泛采用。比如,极大似然估计(maxinum likelihood estimation)就是经验风险最小化的一个例子。当模型是条件概率分布、损失函数式对数函数损失时,经验风险最小化就等价于极大似然估计。当时当样本容量很小时,经验风险最小化学习的效果就未必很好,会产生过拟合(over-fitting)现象。
结构风险最小化
结构风险最小化(structural risk minimization, SRM)是为了防止过拟合而提出来得策略。结构风险最小化等价于正则化(regularizer)。结构风险在经验风险上加上表示模型复杂度的正则化项(regularizer)或罚项(penalty term)。在假设空间、损失函数以及训练数据集确定的情况下,结构风险的定义是:
\[R_{srm}(f) = \frac{1}{N} \sum_{N}^{i=1} L(y_{i}, f(x_{i})) + \lambda J(f)\]
比如,贝叶斯估计中的最大后验概率估计(maxinum posterior probability estimation, MAP)就是结构风险最小化的一个例子。当模型是条件概率分布、损失函数式对数函数损失,模型复杂度由模型的先验概率表示时,经验风险最小化就等价于最大后验概率估计。
算法
算法指学习模型的具体计算方法。统计学习问题归结为最优化问题,统计学习的算法称为求解最优化问题的算法。如何保证找到全局最优解,并使求解的过程非常高效,就成为一个重要问题。
模型评估与模型选择
过拟合:指学习时选择的模型所包含的参数过多,以至出现这一模型对已知数据预测的很好,但对未知数据预测的很差的现象。
正则化与交叉验证
范数(英语:Norm),是具有“长度”概念的函数。在线性代数、泛函分析及相关的数学领域,是一个函数,其为向量空间内的所有向量赋予非零的正长度或大小。另一方面,半范数(英语:seminorm)可以为非零的向量赋予零长度。
正则化是结构风险最小化的实现,作用是选择经验风险与模型复杂度同时较小的模型。
正则化符合奥卡姆剃刀(Occam's razor)原理。在所有可能选择的模型中,能够很好的解释已知数据并且十分简单才是最好的模型,也就是应该选择的模型。
交叉验证(cross validation)的基本想法是重复的使用数据;把给定的数据进行切分,将切分的数据集合作为训练集与测试集,在此基础上反复训练、测试及模型选择。
简单交叉验证
首先随机地讲已给的数据分为两部分,一部分作为训练集、一部分作为数据集;然后用训练集在各个条件下(如不同的参数个数)训练模型,从而得到不同的模型;在测试集上评价各个模型的测试误差,选出测试误差最小的模型。
\(S\)折交叉验证(\(S\)-fold cross validation)
随机地将已给数据切分为\(S\)个互不相交大小相同的子集,然后利用S-1个子集的数据训练模型,利用余下的子集测试模型;将这一过程对可能的S种选择重复进行,最后选出S次评测中平均测试误差最小的模型。
泛化能力
泛化能力(generalization ability)是指由该方法学习到的模型对未知数据的预知能力,是学习方法本质上最重要的性质。
监督学习应用
分类问题
监督学习从数据中学习一个分类模型或分类决策分类函数,称为分类器(classifier),分类器对新的输入进行输出的预测称为分类(classification)。可能的输出称为类别(class)。
二分类评价指标
通常已关注的类为正类,其他类为负类
- TP(True Positive) 正类预测为正类
- FN(False Negative) 正类预测为负类
- FP(False Positive) 负类预测为正类
- TN(True Negative) 负类预测为负类数
精确率(precision)定义为 \(P = \frac{TP}{TP+FP} \)
召回率(recall)定义为 \(R = \frac{TP}{TP+FN} \)
\(F_{1}\)值为精确率和召回率的调和均值 \(\frac{2}{F_{1}} = \frac{1}{P} + \frac{1}{R} \)
标注问题(tagging)
可以认为标注问题是分类问题的一个推广,标注问题又是更复杂的结构预测(structure prediction)问题的简单形式。
标注问题的输入是一个观测序列,输出是一个标记序列或状态序列。
标注问题的目标在于学习一个模型,使它能够对观测序列给出标记序列作为预测。注意,可能的标记个数是有限的,但其组合缩成的标记序列的个数是依序列长度呈指数级增长的。
标注常用的统计学习方法有:隐马尔可夫模型、条件随机场。
标注问题在信息抽取、自然语言处理等领域被广泛应用,是这些领域的基本问题。
回归问题
回归(regression)用于预测输入变量和输出变量之间的关系,特别是当输入变量的值发生变化时,输出变量的值随之发生的变化。
回归问题的学习等价于函数拟合:选择一条函数曲线使其很好的拟合已知数据切很好地预测未知数据。
回归学习最常用的损失函数是平方损失函数。在此情况下,回归问题可以由著名的最小二乘法求解(least squares)