高尔夫推杆的层次模型

2022-02-26 03:39:20

我之前的建模基本上是成功的,这是一个流行的例子,这是一个斯坦案例研究,在我们的工作流文章中。我们有一个初始数据集,可以与一个简单的单参数几何模型相匹配:

然后,我们得到了第一个模型不适合的新数据,但我们可以按照Mark Broadie的建议进行修复,只需再添加一个参数,以捕捉问题的更多几何图形:

这一切都很好,但我们在用斯坦拟合这个模型时遇到了收敛问题,我能让它平滑拟合的唯一方法是在每个距离处添加一个模糊因子,一个独立的误差项。包括这个额外的误差并没有困扰我,毕竟,我们不会期望一个简单的模型完美地拟合真实数据,但我很恼火,要添加这个误差项,我需要用正态分布近似二项可能性。如果我们想在给定的球员、高尔夫球场和天气条件下对成功的概率进行建模,这种近似会给未来带来问题,在这种情况下,我们会有很多单元格,只有1或2个观测值,因此正常近似将不起作用。

所以我尝试了一种直接的方法,在建模成功的概率中加入一个误差项,但这不能在概率尺度上完成,因为这样概率可能会低于0或高于1,所以我尝试了逻辑尺度上的加性误差;在斯坦:

这里,p_angle。*p_distance是预测的成功概率(使射程角度和射程都在公差范围内的概率),sigma_eta*eta是误差向量(给定正常(0,1)先验的eta和代表误差范围的sigma_eta)。logistic和逆logistic变换将概率限制在0和1之间。

几天前我们就在这里。卡住了!卡住了。

评论中有各种各样的建议,但没有一个是直接有用的,直到Kj提出了以下建议:

这个问题似乎源于一个模型,该模型需要最短推杆概率非常接近1,以便拟合其余数据。在普通黑客攻击之前,(抽样较差)模型估计在logit空间中最短推杆的概率为10^9。

普通的黑客攻击适用于概率空间,在那里,误差很小,所以工作正常。但如果你看看logit空间中的错误,拟合仍然非常糟糕。

我就想,啊哈!这里有一个解决方案:一个三参数模型,将所有概率从1降到1:

数据{

关键是使其成为一个必须小于1的乘数。这就消除了边界问题和对logit的需求。

可变平均中位数sd mad q5 q95 rhat ess_散装ess_尾

我不确定尾部有效样本量是怎么回事;我们得调查一下。我怀疑这是由舍入误差引起的。不过这并不重要。

上面的模型在遍历数据点的意义上符合数据,但它仍然只是一个三参数模型,所以为了真正做正确的事情,我们可能仍然需要添加一个错误项。我们可以这样做,使用相同的原理,使错误成倍增加,并将其限制在0到1之间:

数据{

这有点不妥,因为我们对ε使用指数密度,然后将其限制为不大于1,但在实践中可以。标度参数sigma_epsilon可控制误差。(我尝试了ε~normal(0,sigma_ε);模型和它给出的结果基本相同。)我们还可以扩展模型,以便计算残差:

数据{

我们需要将一些东西移动到转换参数块中,以便在生成的数量计算中可以访问它们。此外,我们还计算了相对于p_角的残差。*p_距离,与p无关,因为整个问题是看两参数模型拟合的拟合。从这个意义上讲,误差项epsilon不是预测的一部分,尽管在贝叶斯模型的通常框架中,例如在计算elpd等时,它似乎是如此。

不管怎样,下面是拟合模型的曲线图及其残差的后验平均值:

实际上,我们的新情节看起来有点糟糕!但我想这是我愿意付出的代价,让模型在数学上更加连贯。

嗯,这让我想知道。以上三参数模型的残差是多少,其中p=p_角。*p_距离。*(1–ε);,所以有一个固定的下行乘数?我们来看看:

嘿这看起来不错。所以我倾向于现在就停在这里,而不必为每个距离都有独立的ε而烦恼。

正如评论帖子中所讨论的,有很多方法可以改进这个模型,但现在我们有了一个简单的三参数模型,可以在没有正常近似的情况下拟合数据,所以这就是我要从下一步开始的,然后允许这些参数随高尔夫球手、洞和天气条件而变化。