一个新的热手悖论

2020-11-28 04:31:25

1.几乎所有事物的效果大小都被高估了。在统计意义上的选择,寻找能够支持喜欢的理论的重大影响的动机,研究人员的自由度,灯柱下的照耀以及其他各种偏见。 Edlin因子通常小于1。(有关最新示例,请参见此处。)

2.对于热手,情况恰恰相反。连拍之间的相关性很低,但是,与乔什·米勒(Josh Miller)以及几乎所有参加运动的人一样,我认为真正的效果是巨大的。

如何调和1和2?答案与Miller和Sanjurjo发现的条件概率悖论无关,而与测量误差有关。

这是怎么回事。假设您有一半的时间“热”,有一半的时间“冷”,Pr(成功)在您的热咒中等于0.6,在您的冷咒中等于0.4。那么,两次连续射击具有相同结果的概率为0.6 ^ 2 + 0.4 ^ 2 = 0.52。因此,如果将热手定义为以先前成功为条件的成功概率,减去以先前失败为条件的成功概率,则您会认为效果仅为0.04,即使在此简单模型中,真实效果为0.20 。

这在统计和计量经济学中被称为衰减偏差,并且是对误差测量的背景变量进行调节的众所周知的效果。这里的衰减偏差特别大,因为二进制结果大约是最嘈杂的。衰减偏置在热手上的应用并不新鲜(在比Miller和Sanjurjo早先的一些热手文献中,他们都引用过)。由于它与效果大小有关,因此我在这里重点介绍它。

因此,这里的一个信息是,根据序列相关性来定义热手是一个错误(因此,我不同意Uri Simonsohn)。

从根本上说,热手假设是有时您很热,有时您并不热,并且这种差异对应于您的能力的某些真实方面(即,您并不是仅仅因为您做过的事而追溯地宣称自己“很热”)一枪)。串行相关性可能是热手的影响,但是将串行相关性定义为热手是错误的。

在热手讨论中经常开放的一件事是,“热手”在多大程度上代表了一种潜在状态(有时您很热,有时却不热,这种状态不受拍摄的影响)以及在何种程度上是因果关系(您开枪,或更普遍地说,您打的很好,这会暂时增强您的能力,无论是出于更好的自信心,肌肉记忆力还是其他原因)。我想这两者都是;这也是米勒和桑茹茹所说的。

零模型是每个玩家j都有做出给定投篮的概率p_j,并且p_j对玩家而言是恒定的(仅考虑某些特定难度级别的投篮)。但是p_j来自哪里?显然,球员会随着练习,比赛经验,教练等方面的进步而进步。因此p_j并不是一个常数。但是,如果“ p”在玩家之间有所不同,而“ p”在个别玩家的数月或数月的时间范围内变化,那么为什么“ p”也不应在较短的时间范围内变化?从什么意义上说,“恒定概率”根本不是一个明智的零模型?

我可以看到,“对于一个给定玩家,在一年期间内的恒定概率”是一个更好的模型,而不是“对于游戏中任何玩家,p在0.2到0.8之间变化很大。”但这是一个不同的故事。

能力在比赛,赛季和职业期间会有所不同。因此,将常数p_j视为合理模型似乎很奇怪。

好的。热手存在,并且基于相关性的估计将大大低估它,因为衰减偏差。

但是,关于上述第1点,心理学和经济学研究文献(不是关于热手,我在这里谈论的是更广泛地应用因果效应的估计)通常会高估效应的大小,有时会高估很多。热手问题与所有其他问题有何不同?在所有其他问题中,已公布的估算值被高估了。但是在这个问题上,公布的估计值太小。衰减偏差会在其他问题中发生,不是吗?确实,我怀疑计量经济学家如此缓慢地认识到M型错误和Edlin因子的重要性的一个原因是,他们被教导有关衰减偏差的知识,并且他们被训练认为噪声估计值太低。从计量经济学培训中,很自然地认为您发布的估算值“如果有的话,太保守了”。

我认为,区别在于,在大多数政策分析和因果推论问题中,要估计的参数是明确定义的,或者可以明确定义的。我们正在努力估算可能存在的问题。

换句话说,假设“真实”的热手效应确实是一个很大的0.2,当您从冷到热时,您的机率从40%上升到60%。鉴于您永远不会真正了解自己的高温或低温状态,因此实际上在这方面没有什么可以做的。因此,并不一定可以获得巨大的潜在热手效应。这并不意味着热手并不重要,仅是难以捉摸。浓度,流量等,这些绝对是真实的。估算特定的治疗效果(可能很小)和整个潜在现象(可能很大)之间的区别。