如何考虑相关性?

2020-12-09 20:00:45

我是联邦贸易委员会(Federal Trade Commission)的一名经济学家,提出了一个非常基本的统计问题,我已经向几位颇具实力的计量经济学家提出了这个问题,但没有人对此有满意的答案。

问题是这样的。为什么关联有意义?我们知道它们无处不在,它们在许多学科的工作中一直得到报道。但是对于我的一生,我无法理解问题的答案是什么。我知道了解相关性是否接近0有时很有用;如果它接近0,那么您就可以说不存在(线性)关系,这与事实相差不远,这可能就是您需要知道的全部。同样,如果相关系数为0.9,则说明线性关系不存在,因此您需要进一步研究该关系是什么。我无法理解的是为什么人们会凭自己的观点将0.9解释为有意义的独立数字。相关系数为0.9表示数据沿具有正斜率的某条直线排列得很好,但是该斜率可以在0之上到无穷大以下的范围内。当您不知道该线性关系是什么时,知道该线性关系有什么用?

以您最近(非常有趣)的选举工作为例,发现状态A和状态B之间的轮询误差的相关性为0的发现显然很重要且相关。因此,相关性远非0的发现显然很重要,因为它告诉您肯定不为零是不正确的。但是除此之外,它的重要性是什么?如果您不知道状态A的1个百分点的错误是否与1个百分点或0.1个点的错误相关联,那么知道状态A和状态B之间的轮询错误高度相关有什么好处? B国2分?

我知道关联具有无单位的优势。很好,但这似乎无法解决问题。

我在这里缺少基本的东西吗?如果是这样,我希望您能分享它的内容。如果没有,这是一个严重的问题吗?还有其他一些无单位号可以代替吗?也许是经济学家使用的弹性之类的东西?

我回答说,我考虑相关性的方式是,如果两个变量已标准化为具有相同的sd,则它是y在x上的回归斜率。我向他指出了回归和其他故事的12.3节,其中讨论了这一点。

答:由于相关性是y-on-x回归线和x-on-y回归线的共同斜率,因此点的配置必须使它们在翻转轴时看起来几乎相同。

B.唯一可以实现的方法是,点围绕某条直线,斜率为1。

C.请注意,这并不意味着通过这些点的回归线为1,而是必须≤1(根据您的书)。由于点沿倾斜度为1的直线排列,因此当您翻转轴时,它们仍将沿倾斜度为1的直线排列。截距可能会改变,但斜率不会改变。由于点的方向变化不大(在极限范围内也没有变化),因此通过它们的回归线也不会变化。我很难理解的部分是为什么对点可以沿着斜率不等于1的线完美对齐,或者不完全沿着斜率等于1的线对齐。我认为这就是假设sd相等的问题。如果两个变量具有相同的sd,则相关性为1意味着它们基本上是相同的变量(可能由于均值不同而发生了偏移),这意味着它们可以完美对齐的唯一一条线的斜率为1。同样,如果它们之间的相关性不为1,则开始对书中描述的均值进行回归,因此回归线必须小于1,并且随机性意味着点将不会沿着该线完美对齐。

我对此回答:是的,corr就像重新定标的回归系数。有时这是有道理的,而其他时候则没有。例如,如果您正在计算弹性,这大致上是log(输出)对log(输入)的回归,那么标准化根本没有任何意义。但是,如果x和y是两个不同的标准化测试,则将每个均数重新指定为均值为0和sd可能很有意义。