斯坦因悖论

2020-08-26 16:39:39

跳到导航跳跃搜索斯坦的例子(或现象或悖论),在决策论和估计论中,是指当同时估计三个或多个参数时,存在比单独处理参数的任何方法平均更准确的组合估计器(即具有较低的期望均方误差)。它是以斯坦福大学的查尔斯·斯坦命名的,他在1955年发现了这一现象。[1]。

一个直观的解释是,优化组合估计器的均方误差并不等同于优化单个参数的单独估计器的误差。在实践中,如果组合误差实际上是感兴趣的,那么即使基础参数是独立的,也应该使用组合估计器。相反,如果人们对估计单个参数感兴趣,那么使用组合估计器无济于事,实际上更糟糕。

下面可能是悖论的最简单形式,即观测数目等于待估计参数数目的特殊情况。设θ是由n个≥和3个未知参数组成的向量。为了估计这些参数,对每个参数θi执行单个测量X i,得到长度为n的向量X。假设已知测量是独立的高斯随机变量,具有均值θ和方差1,即,

X∼N(θ,1)。{\displaystyle{\mathbf{X}}\simN({\boldbol{\theta}},1)。}。

因此,每个参数都是使用单个噪声测量来估计的,并且每个测量都同样不准确。

在这些情况下,使用每个测量值作为其相应参数的估计是直观和常见的。这个所谓的普通决策规则可以写成。

这种估计器的质量是通过它的风险函数来衡量的。常用的风险函数是均方误差,定义为。

E⁡[‖θ−θ^‖2]。{\displaystyle\Operatorname{E}\Left[\Left\|{\boldSymbol{\theta}}-{\hat{\boldSymbol{\theta}\Right\|^{2}\Right]。}

令人惊讶的是,当n=≥=3时,上面提出的普通估计器在均方误差方面是次优的。换句话说,在这里讨论的设置中,无论θ{\displaystyle{\boldbol{\theta}的值是什么,都存在总是获得较低均方误差的替代估计器。

对于给定的θ,人们显然可以定义一个完美的估计器,它总是θ,但是这个估计器对于θ的其他值是不好的。对于给定的θ,斯坦悖论的估计器对于X的某些值来说比X好,但对其他值来说肯定比X差(可能除了一个特定的θ向量,对于它的新估计总是比X好)。他们只是在平均水平上更好。

更准确地说,如果对于θ{\DisplayStyle{\boldSymbol{\theta}}的所有值,对于θ{\DisplayStyle{\boldSymbol{\theta}_{2}},则称估计器DisplayStyle^1{\DisplayStyle{\HAT{\boldSymbol{\theta}_{1}}支配另一估计器DisplayStyle^2{\DisplayStyle{\HAT{\boldSymbol{\theta}_{2}},θ^1{\DisplayStyle{\HAT{\boldSymbol{\theta}}_{1}}的风险低于或等于θ^2{\DisplayStyle{\HAT{\boldSymbol{\theta}_{2}}的风险,并且如果某些θ{\DisplayStyle{\boldSymbol{\theta}的不等式很严格。如果没有其他估计量支配一个估计量,则称该估计量是可容许的,否则它是不可接受的。因此,斯坦的例子可以简单地表述如下:在均方误差风险下,用于估计多变量高斯分布的平均值的普通决策规则是不可接受的。

许多简单、实用的估计器比普通估计器取得了更好的性能。最著名的例子是James-Stein估计器,它的工作原理是从X开始,以与X到该点的距离成反比的量向某个特定点(如原点)移动。

有关这一结果的证明的草图,请参阅斯坦的例子的证明。另一种证明归因于Larry Brown:他证明了n维多元正态平均向量的普通估计是可容许的,当且仅当n维布朗运动是递归的。[2]由于布朗运动对于n=≥[3]不是常返的,所以普通的估计量对于n=≥[3]是不可接受的。

斯坦的例子令人惊讶,因为普通的决策规则是直观和常用的。事实上,许多构造估计量的方法,包括最大似然估计、最佳线性无偏估计、最小二乘估计和最优同变估计,都产生了普通的估计量。然而,如上所述,这个估计器是次优的。

为了演示斯坦的例子的非直觉性,请考虑以下现实世界的例子。假设我们要估计三个不相关的参数,例如1993年的美国小麦产量、2001年温布尔登网球锦标赛的观众人数,以及从超市随机选择的一块糖果的重量。假设我们对这些量中的每个量都有独立的高斯测量。斯坦的例子现在告诉我们,通过同时使用三个不相关的测量,我们可以(平均地)对三个参数的向量得到更好的估计。

乍一看,通过测量其他一些无关的统计数据,比如温布尔登的观众人数和一块糖果的重量,我们似乎以某种方式获得了更好的美国小麦产量估计值。这当然是荒谬的;我们本身并没有得到更好的美国小麦产量估计值,但我们已经给出了所有三个随机变量的均值向量的估计值,这降低了总风险。这是因为向量的一个分量中的不良估计的成本被另一个分量中的较好的估计所补偿。此外,用新估计器获得的三个估计平均值的特定集合不一定比普通集合(测量值)更好。只有在平均情况下,新的估计器才会更好。

对于θ的任何特定值,新的估计器将改善至少一个个体均方误差E⁡[(θi−θ^i)2]。{\DisplayStyle\OperatorName{E}\Left[\Left({\theta_{i}}-{{\Hat{\theta}}_{i}}\Right)^{2}\Right]。}这不是硬−,例如,如果θ1{\DisplayStyle\Theta_{1}}在−1和1之间,并且σ=1,则将X1{\DisplayStyle X_{1}}向0移动0.5(或者如果其绝对值小于0.5则将其设置为零)的估计器将具有比X1{\DisplayStyle X_{1}}本身更低的均方误差。但是,对于θ1{\DisplayStyle\theta_{1}}的其他值,该估计器比X1{\DisplayStyle X_{1}}本身差。Stein估计器和其他产生Stein悖论的方法是,它们以这样一种方式调整移位,即(对于任何显示向量)总有至少一个Xi{\displaystyle X_{i}}其均方误差被改善,并且其改善足以补偿对于另一个显示样式^i{\θ{\θ{\theta}}_{i}}可能发生的均方误差的任何退化。问题是,在不了解θ的情况下,您不知道n个均方误差中哪些得到了改善,因此您不能仅对这些参数使用Stein估计器。

例如,上述设置的示例出现在电信中的信道估计中,因为不同的因素影响总体信道性能。

雷曼,E.L.;卡塞拉,G.(1998年),第5&34章;点估计理论(第二版),ISBN0-471-05849-1。

史坦,C.(1956)。多变量分布均值的常用估计量不可接受。第三届伯克利数理统计与概率研讨会论文集。1.第197-206页。0084922岁的先生。