Lecture 3
Exponential Concentration Inequalities and ERM
回顾:切比雪夫不等式
R(h)=n1i=1∑nL(h(xi),yi)=n1i=1∑nδ(h(xi),yi)δ(y^,y)=1,ify^=yand0otherwise
- Z:等概率从所有样本中抽取其损失,进行K次彼此独立的随机抽取得到一组随机变量Z,即Z1,Z2,…,ZK,其平均值为经验风险的近似值,如下所示。
SK=K1k=1∑KZk≈R(h)andE[SK]=E[Z]=R(h)
1
| 概率论回顾:一组随机变量的和的期望与这组随机变量各自期望的和相等。
|
- 其对应的切比雪夫不等式:Var(Z)≤41的推导见另一篇。
P(∣SK−E[SK]∣≥a)≤a2Var(SK)=a2KVar(Z)≤4a2K1
问题:如果我们想在该场景下,近似计算经验风险,并将误差控制在10%以内,也即令∣SK−R(h)∣≤10%,且对应概率为99%。如果使用切比雪夫不等式约束,需要对多少个样本?
列出上述要求对应的不等式:
P(∣SK−E(SK)∣≤0.1)≥0.99
上式等价于:
P(∣SK−E(SK)∣≥0.1)≤0.01
根据切比雪夫不等式,我们希望:
4a2K1≤0.01,a=0.1
因此:K≥2500,至少需要 2500 个样本来确保近似值SK与R(h)之间误差不超过 0.1 的概率达到 99%。
局限性:需要联合近似多个模型的情况
如果有多个预测器h(1),h(2),…,h(M),每个预测器的经验风险由彼此独立的子样本SK(1),SK(2),…,SK(M)近似估计,样本大小都为K。
我们希望使用切比雪夫不等式得到一个概率界限,找到一个K,使得对于任意i∈{1,2,…,M},都有下式成立。
P(∣SK(m)−R(h(m))∣≥a)≤4a2K1
现在对M个预测器同时进行分析,设事件Ai表示近似值与真实值超过a的事件,即:
Am={∣SK(m)−R(h(m))∣≥a}
根据联合概率性质,如果我们希望每个假设的经验风险与真实风险的差距都小于a,且这些事件彼此独立。根据Boole 不等式有:
P(∪Am)≤∑P(Am)≤M⋅4a2K1
由于Am之间彼此独立,有:
P(∩Am)=1−P(∪Am)=P(∣SK(m)−R(h(m))∣≤afor allm∈{1,…,M})≥1−4a2KM
注意:
P(∪Am)=P(∃m:∣SK(m)−R(h(m))∣≥a)
P(∩Am)=P(∀m:∣SK(m)−R(h(m))∣≤a)
问题:如果我们想在该场景下,近似计算经验风险,并将误差控制在1%以内,也即对所有预测器,令∣SK−R(h)∣≤1%,且对应概率为99%,一共 100 个预测器。如果使用切比雪夫不等式约束,需要对多少个样本?
列出上述要求对应的不等式:
P(∣SK(m)−R(h(m))∣≤0.01for allm∈{1,…,100})≥0.99
根据切比雪夫不等式,我们希望:
1−4a2KM≥0.99,M=100,a=0.01
因此:K≥25,000,000,至少需要 25,000,000 个样本来确保所有预测器的近似值SK与R(h)之间误差不超过 0.01 的概率达到 99%。
综上所述,切比雪夫不等式的局限性如下:
相比于训练单个模型的场景,多模型场景下需要非常多的样本来进行经验风险的近似计算。如果我们要在数千个模型上经历上百次迭代的训练,这个问题的严重性将成倍增长。
此外,切比雪夫不等式给出的概率界限仍然不够理想。其界限通过事件方差来计算,方差通常是关于样本量K的倒数,当K增加时,界限会减小,但减小速度是多项式的(如K1或K21)。而正态分布中,偏离均值较大的事件概率以指数速度下降,这意味着远离均值的极端事件概率非常小,远比多项式递减快。
因此,虽然切比雪夫不等式提供了一种普适的界限,但在描述极端事件概率时,特别是当我们期望概率随着偏离均值的增加而显著减小时,它可能会显得过于保守。
改进:霍夫丁不等式
对总和的尾部概率有更严格的限制。
同样从0−1损失中随机抽样,得到一组随机变量Z1,Z2,…,ZK,其平均值SK如下:
SK=K1k=1∑KZk
如果Zk满足限制条件:zmin≤Zk≤zmax,则根据霍夫丁不等式,有下式成立:
P(∣SK−E[SK]∣≥a)≤2exp(−(zmax−zmin)22a2K)
问题:如果我们想在该场景下,近似计算经验风险,并将误差控制在10%以内,也即令∣SK−R(h)∣≤10%,且对应概率为99%。如果使用霍夫丁不等式约束,需要多少个样本?
列出上述要求对应的不等式:
P(∣SK−E(SK)∣≤0.1)≥0.99
上式等价于:
P(∣SK−E(SK)∣≥0.1)≤0.01
根据霍夫丁不等式,我们希望:
2exp(−(zmax−zmin)22a2K)≤0.01,a=0.1
因此:K≥265(zmax−zmin)2,令C=(zmax−zmin)2,则有K≥265C。
多模型场景
如果有多个预测器h(1),h(2),…,h(M),每个预测器的经验风险由彼此独立的子样本SK(1),SK(2),…,SK(M)近似估计,样本大小都为K。
我们希望使用霍夫丁不等式得到一个概率界限,找到一个K,使得对于任意i∈{1,2,…,M},都有下式成立。
P(∣SK(m)−R(h(m))∣≥a)≤2exp(−(zmax−zmin)22a2K)
现在对M个预测器同时进行分析,设事件Ai表示近似值与真实值超过a的事件,即:
Am={∣SK(m)−R(h(m))∣≥a}
根据联合概率性质,如果我们希望每个假设的经验风险与真实风险的差距都小于a,且这些事件彼此独立。根据Boole 不等式有:
P(∪Am)≤∑P(Am)≤2M⋅exp(−(zmax−zmin)22a2K)
由于Am之间彼此独立,有:
P(∩Am)=1−P(∪Am)=P(∣SK(m)−R(h(m))∣≤afor allm∈{1,…,M})≥1−2M⋅exp(−(zmax−zmin)22a2K)
注意:
P(∪Am)=P(∃m:∣SK(m)−R(h(m))∣≥a)
P(∩Am)=P(∀m:∣SK(m)−R(h(m))∣≤a)
问题:如果我们想在多模型场景下,近似计算经验风险,并将误差控制在10%以内,也即对所有预测器,令∣SK−R(h)∣≤10%,且对应概率为99%,一共 100 个预测器。如果使用霍夫丁不等式约束,需要多少个样本?
列出上述要求对应的不等式:
P(∣SK(m)−R(h(m))∣≤0.1for allm∈{1,…,100})≥0.99
根据霍夫丁不等式,我们希望:
1−2M⋅exp(−(zmax−zmin)22a2K)≥0.99,M=100,a=0.1,C=(zmax−zmin)2
因此:K≥500C。
综上,霍夫丁不等式界限要严格得多,可以更好地适应多模型场景下的样本量估计。还有一些其他的集中不等式,其作用简述如下:
- Azuma’s inequality:可以适用于Zk间彼此不独立的情况
- Bennett’s inequality:可以适用于考虑方差的情况
经验风险最小化
为每个预测器分配一个d维的参数向量,也即每一个d维参数向量对应一个预测器。并将经验风险最小化视作一个优化问题:
minimize:R(hw)=n1i=1∑nL(hw(xi),yi)overw∈Rd
通常,我们将经验风险视作关于参数w的函数:
f(w)=R(hw)=n1i=1∑nL(hw(xi),yi)=n1i=1∑nfi(w)
注意:
- hw表示与参数向量w相关联的假设,即模型。例如,在线性回归中,假设hw(x)=wTx。
- 经验风险R(hw)是模型在训练数据上的平均损失,其定义中L是损失函数,例如均方误差、交叉熵等。
- 为了更明确地表示损失函数关于参数w的依赖关系,我们将每个损失L(hw(xi),yi)表示为fi(w),这样fi(w)表示第i个数据点的损失。
梯度下降
依照下式的法则,迭代地降低经验风险损失的值。
wt+1=wt−αt⋅∇f(wt)=wt−αt⋅n1i=1∑n∇fi(w)
其中,wt表示迭代t轮时的参数向量,αt是学习率,∇f表示f的梯度(偏导数向量,具体的计算与损失函数的形式有关)。那么如何考虑计算成本呢?降低计算成本的方式?
随机梯度下降:更低的计算成本
在实施梯度下降时,进行子采样:
pickiuniformly at a random from{1,…,n},then update wt+1=wt−αt⋅∇fi(wt)
具体来说,随机梯度下降的过程为:
-
随机选择一个数据点:
从{1,…,n}中均匀随机地选择一个索引i,也即每个索引被选中的概率是相同的。
-
计算梯度并更新参数:
- 使用选择的数据点的损失函数fi计算当前参数wt的梯度,即∇fi(wt)。
- 计算出的梯度更新参数,更新公式如上所示。
全批量梯度下降,在每次更新参数时需要计算整个训练集的梯度,计算成本为O(n⋅d),其中n是训练样本的数量,d是参数向量的维度。
随机梯度下降在每次更新参数时仅计算一个样本的梯度,计算成本为O(d),显著降低了每次更新的计算成本。