今日的统计挑战:假设随机试验得出的治疗几率比为[0.72,0.91]的置信区间为0.95。您能提供此间隔的准确解释吗? #bbrcourse @vandy_biostat @EdgeforScholars
-弗兰克·哈雷尔(@ f2harrell)2020年11月19日
在这篇文章中,我将简要介绍一下试图回答弗兰克的问题,然后再简要介绍一下我提出的另一个问题,即,如果区间是贝叶斯可信区间,而不是区间,那么解释将如何变化?频繁的置信区间。
构建频繁的95%置信区间,以便如果模型假设正确,则(假设)重复实验或多次采样,则构建的区间的95%将包含参数的真实值。去年,我制作了一个简短的视频,在R中进行了仿真,以演示此定义/想法:
弗兰克(Frank)问人们如何解释特定的实现置信区间(0.72,0.91)。困难(如他所知!)是,所有常客只能说的是,这个特定的已实现间隔包含或不包含真实参数值,并且他们无法告诉您是否包含真实参数值。他们只能说,如果建模假设正确,则在假设重复中,使用此过程构造的间隔中有95%包含真实值。
现在假设我们已经完成了贝叶斯分析。我们已经根据先前的证据,对参数值的主观信念为参数指定了参数的先前分布,或者我们使用了内置在软件包中的默认“非信息”先前值。我们使用与以前相同的模型,贝叶斯定理给出了后验分布。构造了贝叶斯后可信区间,并假定它给了我们一些价值。为简单起见,我再次假设该区间为0.72到0.91,但这并不是说贝叶斯分析可信区间通常与常客的置信区间相同。
我们应该如何解释这个可信区间?我认为贝叶斯说的是一个间隔,其真实参数存在的可能性或概率为95%。在这一点上,我们必须问,它们有95%的概率是什么意思?
我们可以将其解释为经典的长期频繁概率,但这意味着将其解释为置信区间。实际上,贝叶斯程序通常具有良好的频繁性。例如,请参见Wang和Robins 1998年以分析丢失数据的多重插补的频度性质,或参见Bartlett和Keogh 2018年以贝叶斯方法处理协变量测量误差的频度性质的模拟调查。实际上,在一定条件下,当样本量变大时,贝叶斯方法会达到最大似然法的相同频繁属性-参见Gelman等人的出色贝叶斯数据分析书的第4章。
但是从概念上讲,我们不会选择做简单的贝叶斯分析作为执行频繁推断的一种方法。我们之所以选择它,是因为它(希望)能更直接地回答我们感兴趣的内容(请参见Frank Harrell的“从常客到贝叶斯统计的我的旅程”一文)。即,它使我们能够根据给定的模型,先验和观察到的数据做出有关未知参数的概率陈述。那么,对于可信区间中95%的机会或概率的解释是什么?
毫无疑问,我完全不了解有关该主题的大量文献,但是贝叶斯对概率的解释或定义对我来说还不清楚。维基百科有关贝叶斯概率的条目说:
广义上讲,对贝叶斯概率有两种解释。对于将概率解释为逻辑扩展的客观主义者而言,概率量化了合理的期望,即,拥有相同知识的每个人(甚至是“机器人”)都应根据贝叶斯统计规则来共享,这可以由考克斯定理证明。 [2] [8]对于主观主义者,概率与个人信念相对应。[3]合理性和连贯性允许在它们所构成的约束范围内进行实质性的变化。这些限制条件由荷兰书中的论述或决策理论和德芬内特定理[3]来证明。贝叶斯概率的主观和主观变异主要在于先验概率的解释和构建。
维基百科关于贝叶斯概率的条目
贝叶斯数据分析的第1.5节“概率作为不确定性的度量”讨论了贝叶斯分析使用概率作为不确定性的度量的方法,但是在我看来,它并没有真正定义这个概念。这不是批评。正如Gelman等人在其书中先前所说:
与其争论统计的基础(请参阅本章末尾的参考书目注释以获取有关基础辩论的信息),我们不如着重于贝叶斯框架的实用优势,该框架的灵活性和通用性使其能够应对复杂的问题。
如果贝叶斯推断的吸引力的一部分是它回答了我们真正想要的问题(即,以我们所看到的,我们对参数的了解/相信为条件),在我看来,解释或定义对我们来说,先验/后验概率应该相对简单明了。但至少对我来说不是。我非常有信心(无论我指的是什么!),这反映出我对该主题的无知。我写这篇文章的部分动机是希望人们能帮助我更好地理解如何明确定义贝叶斯先验/后验概率的含义。如果可以提供帮助,请写评论。
以上并不意味着我不喜欢贝叶斯方法。确实,在过去的十年中,我一直在使用和使用像多重插补这样的方法来处理丢失的数据,这些数据以贝叶斯范式发展。对我来说,这很好,因为我知道诸如多重插补之类的方法具有良好的频繁性,并且尽管在置信区间内肯定存在解释性问题,但我至少认为我理解他们声称要做/要做的事情。