子采样的数学期望、方差推导
假设Z的期望和方差分别为μ、σ2,由于Z1,Z2,…,ZK是独立同分布的随机变量,每个Zk的期望和方差也是μ、σ2。SK的定义如下:
SK=K1k=1∑KZk
-
E(SK)
E(SK)=E(K1k=1∑KZk)=K1k=1∑KE(Zk)=K1k=1∑Kμ=μ
-
Var(SK)
Var(SK)=Var(K1k=1∑KZk)
根据方差的定义,可以提取出常数的平方:
Var(SK)=K21Var(k=1∑KZk)
由于Z1,Z2,…,ZK是独立同分布的随机变量,独立随机变量的方差可以直接相加,因此:
Var(k=1∑KZk)=k=1∑KVar(Zk)=k=1∑Kσ2=Kσ2
综上:
Var(SK)=Kσ2
0−1损失函数与随机变量的方差
随机变量Z从0−1损失中抽取,则Z是一个取值为0或者1的随机变量,其方差计算公式为:
Var(Z)=E[Z2]−(E[Z])2
由于Z为0−1分布,有Z2=Z,因此E[Z2]=E[Z]。设E[Z]=p,那么:
Var(Z)=p−p2=p(1−p)
对于0−1分布的随机变量Z,p是其取值为1的概率,为了找到方差的最大值,考虑函数f(p)=p(1−p)的最大值。显然其最大值在p=0.5时取得,即Z的方差最大值为0.25。
Boole 不等式
布尔不等式也叫union bound,即并集的上界。描述至少一个事件发生的概率 P(⋃Ai) 不大于单独事件发生的概率之和 ∑P(Ai),即P(⋃Ai)≤∑P(Ai)。(i∈{1,2,…,N})
数学归纳法证明
-
当n=1时,显然P(A1)≤P(A1)。
-
对于n,假设下式成立:
P(∪i=1nAi)≤i=1∑nP(Ai)
-
对于N=n+1:
P(∪i=1NAi)=P({∪i=1nAi}∪An+1)
又由:
P(A∪B)=P(A)+P(B)−P(A∩B)
则:
P({∪i=1nAi}∪An+1)=P({∪i=1nAi})+P(An+1)−P({∪i=1nAi}∩An+1)≤i=1∑NP(Ai)−P({∪i=1nAi}∩An+1)≤i=1∑NP(Ai)
二项分布
有 35 个用户,每个用户活跃的概率为 10%(相互独立),计算任一时刻超过 10 个用户活跃的概率。
这是一个 二项分布 问题。设 X 是活跃用户的数量,则 X 服从参数为 n=35 和 p=0.1 的二项分布:
X∼Binomial(n=35,p=0.1)
求概率 P(X>10),即超过 10 个用户活跃的概率。根据概率的性质,计算该概率的方式为:
P(X>10)=1−P(X≤10)
其中,P(X≤10) 是 X 小于或等于 10 的概率,可以通过二项分布的累积分布函数(CDF)计算。
**二项分布的概率质量函数(PMF)**公式如下:
P(X=k)=(kn)pk(1−p)n−k
其中:
- n=35 为试验次数(用户数)
- k 是活跃用户的数量
- p=0.1 是每个用户活跃的概率
组合数公式为:
(kn)=k!(n−k)!n!
累积分布函数(CDF) 表示 X 小于或等于某个值 k 的概率,即:
P(X≤k)=i=0∑kP(X=i)
因此,我们可以用 CDF 计算 P(X≤10):
P(X≤10)=i=0∑10(i35)(0.1)i(0.9)35−i
最后,将 P(X≤10) 代入以下公式,得到最终概率:
P(X>10)=1−P(X≤10)
排列组合计算公式
排列(Permutation)
排列是从 n 个不同元素中选出 k 个元素的所有可能的排列方式。排列的计算公式为:
P(n,k)=(n−k)!n!
其中:
- n 是元素总数
- k 是选取的元素数
- ! 表示阶乘
组合(Combination)
组合是从 n 个不同元素中选出 k 个元素的所有可能的组合方式。组合的计算公式为:
C(n,k)=(kn)=k!(n−k)!n!
其中:
- n 是元素总数
- k 是选取的元素数
- (kn) 是组合数,表示从 n 个元素中选出 k 个元素的组合方式
- ! 表示阶乘