“守望”中关于性别的随机试验

2020-06-08 00:28:10

此表中的实验条件为男性与女性名称(男/女)和竞争模式与快速比赛(comp/qp)。这些数字是百分比。EST是估计值,P25是25%的ILE估计值,P75是75%的ILE估计值。竞争模式和使用女性名字都与被告知如何打球相关。请看安德鲁·吉尔曼的这篇文章,了解为什么你可能想要看50%的区间,而不是95%的区间。

对于不熟悉监督的人,在竞争模式下,你会被明确告知你的ELO类评级是什么,你会得到一个反映你评级的徽章。在快速游戏中,您有一个被跟踪的评级,但它从未直接出现在用户面前,您也不会获得徽章。

人们通常认为,在竞争性游戏中,人们更紧张,更有可能大发雷霆(例如,告诉你应该如何玩)。这些数据与这一普遍信念是一致的。

根据上面的说明,我不想对消息的语气进行编码以避免偏见,因此此表仅显示人们告诉我演奏不正确或要求我切换到不同字符的比率。这个表格低估了体验中的质的差异。例如,有一次有人让我在男性状态下交换角色,这个请求是一句礼貌的请求(嘿,我们死得太快了,我们能不能从标准的一个初级治疗师/一个关闭治疗者设置)切换到双初级治疗师,或者把我们的坦克换成[可以阻挡更多伤害的坦克]?当使用女性名字时,一个典型的案例是,在比赛的大部分时间里,会有1-4个人称我为人类垃圾,并安慰自己说,我们球队输掉比赛的整个原因是我不会改变角色。

我们正在使用的简单模型表明,在竞争性和QP之间以及玩一个男性名字和一个女性名字之间可能是有区别的。然而,大多数公布的结果都是假的,所以让我们看看这个结果可能是假的原因,然后你就可以自己决定了。

最大的问题是,这不是预先注册的试验。我显然不会去正式注册这样的试验,但我也没有非正式地注册,因为我在开始实验的时候就考虑到了这个比较。未预先注册的试验的一个问题是,无论是就我们可以观察的内容而言,还是就我们过去观察事物的方法而言,都有很大的自由度,因此,目前还不清楚结果是真实的,还是寻找看起来有趣的东西的人工制品。一个标准的例子是,如果你寻找100个可能的影响,你很可能会找到1个在p=0.01的统计意义上有意义的结果。

有一些标准的技术可以修正这个问题(例如,Bonferroni修正),但我不认为这些有说服力,因为它们通常不能捕捉到统计模型中的所有自由度。一个例子是,将一个变量离散到几个桶中是很常见的。有很多方法可以做到这一点,你通常不会看到论文讨论这一点的影响,也不会以任何方式纠正这一点,尽管改变这些水桶的排列方式会极大地改变一项研究的结果。人们可以用来操纵结果的另一个常见的旋钮是曲线拟合到不合适的曲线(当散点图显示明显不正确时,通常是二次或三次多项式)。处理此问题的另一种方法是使用更复杂的模型,但我希望使其尽可能简单。

如果我真的想在这一点上被说服,我至少会考虑到这个精确的比较,重新运行这个实验。因此,这个实验需要重复才能提供更多的初步结果,充其量也就是微弱的证据。

随机对照试验(RCT)的另一大类问题是,尽管是随机化的,但实验的两个方面可能在某些方面是不同的,而不是随机化的。由于Overwatch不允许您不断更改姓名,因此此实验使用了两个不同的帐户,并且这些帐户在竞争模式下具有不同的评级。平均而言,男性账号的评分更高,因为我一开始的评分更高,这意味着我的对手是更强的球员,而男性账号的比赛更差。从长远来看,这会平衡的,但由于这个实验中的大多数游戏都是在QP中进行的,所以没有时间在COMP中平衡。结果,我有了更高的胜率,以及在Comp中与女性账户的比赛通常要好得多。

在没有其他信息的情况下,我们可能会认为,玩得更差的人会被告知如何更频繁地玩,而玩得更好的人应该会被告知如何更少地玩,这意味着上面的表格低估了实际的差异。

然而,卡苏莫维奇等人在对“光环3”进行的一项基于性别的随机试验中发现,玩得不好的玩家对女性更负面,尤其是对玩得好的女性(对数据进行了足够的统计处理,以至于这种简明的说法只能大致正确,详情请参阅研究)。如果这一结果成立,我可能会有更少的人告诉我,我是人类垃圾,如果我是普通人,我需要更换角色,而不是在女性环境下主宰我的大部分游戏。

如果这一结果推广到OW,那将解释一些我认为奇怪的事情,那就是在我与女性账户最好的表演期间,有很多要求更换和普遍的尖酸刻薄。一个典型的例子是这样的游戏,我们有一个2-2-2的团队组成(游戏中三个角色中的每一个都有两个玩家),在几乎每一次交战中,我的角色相同的对手在战斗开始时都会撞到敌人的队伍,并在战斗开始时死亡。我碰巧度过了美好的一天,并且控制了另一支球队(在10分钟的比分比赛中37胜2负,同时专注于保护我们球队的治疗师),而我只死了两次,一次是故意作为牺牲,第二次是在犯了一个愚蠢的错误之后。在我死后,立即有人让我交换角色,这样他们就可以接替我,但从来没有人要求我角色中的其他球员转换角色,尽管他们在整个比赛中都很有用(对于OW球员来说,这是一个立即抓住每一个机会冲到敌队中间的球员,在我们球队不可能支持他们的范围内;这是花村2CP,在那里,雷小山很容易设置他们的球队无法帮助他们的情况)。这种表现是典型的比赛,我的球队因为我打得不正确而责备我。这并不是说我没有糟糕的游戏;我有很多糟糕的游戏,但当我玩一场伟大的游戏时,有不成比例的最有害的经历发生了。

我跟踪了我在游戏中做得有多好,但是这个样本没有足够的火力游戏来对我的表现和被扔进公交车下面的可能性进行有意义的统计分析。

不同评分的游戏可能环境也不同,得到的评论也不同,但目前还不清楚2000分的负面评论是否比2500分多,或者反之亦然。网上有很多关于这一问题的辩论;除了最低或最高评级以外的任何评级级别,你都能找到很多人表示,他们所在的评级区间含有最多的有毒评论。

以下是在玩女性名字时发生的一些事情,这些事情在实验期间或实验以外的任何游戏中都没有发生在男性名字上:

与我没有文字或语言互动的人主动提出的请求(总共发生了7次,没有记录哪些案例在实验中,哪些不在实验中)

另一个团队中的某个人认为我的团队在保护我方面做得不够好,而我在扮演治疗师的时候,斥责我的团队,然后把游戏扔了,这样我们就赢了(在实验中发生过一次)。

我的团队里有人和我调情,然后当我没有回应时就发疯了,然后在剩下的游戏中称我为自闭症或中毒(这种情况在实验期间发生了一次,还有一次是在玩一个没有包括在实验中的游戏时)。

所有这些的比率都很低,以至于我不得不玩更多的游戏来观察一些东西,而不会有很大的不确定性间隔。

我没有接受任何与我没有互动的人的好友请求。据传闻,一些人报告说,在主动提出好友请求后,人们会发送性评论或斥责他们。如果我接受这些好友请求,表格中显示的效果可能会更大,而且不可能更小。

我没有试图将评论归类为调情或非调情,因为与我分类的评论不同,这通常有些微妙,你可以很好地证明,任何特定的评论都是或不是调情。在没有回复的情况下(我没有这样做),许多这样的评论都是模棱两可的。

另一个不同之处在于恭维的语气。我得到称赞的游戏比率没有太大差别,但在男性状态下的赞美往往是简短而真实的(例如,在一场占主导地位的比赛之后,另一支球队的某人说[我正在玩的角色的名字]没有回答),而在女性状态下的赞美往往更热情洋溢,有时会有很多人插话说我有多棒。

在这两种情况下,不包括解释我是如何玩错的或者我如何需要交换角色的游戏中的补充率和侮辱率是相似的。

其他一些有趣的因素可能是一天中的时间、服务器、单独或在一起玩、特定的角色选择、或多或少的沟通性等,但是当添加更多的变量时,需要更多的数据才能得到正确的估计。暴雪应该拥有进行这类综合分析所需的数据,但他们对数据的保密是出了名的,所以暴雪必须有人做这项工作,然后将其公之于众,而他们并不是真的有这样做的习惯。如果你在暴雪工作,并且对让第三方对匿名数据集做一些分析感兴趣,请告诉我,我很乐意深入研究。

在这两种情况下,我都避免使用语音聊天,在时间允许的情况下,我会用短信聊天。同样,在这两种情况下,我大多会填写团队最需要的角色类别,尽管我有时会选择DPS(一般来说,DPS的订阅量很大,所以如果你不选择一个,即使在不必要的情况下,你也很少玩DPS)。

对于快速游戏,回填游戏不计算在内(回填游戏是指游戏开始后,你可以代替离开的玩家加入游戏;Comp不允许回填)。6%的QP游戏是回填的。

这些游戏来自代言补丁之前,大多数游戏都是在2018年5月左右玩的。所有的游戏都是单人问答进行的(随机有5名队友)。为了避免游戏之间的关联取决于游戏时间的长短,我在游戏之间退出,并等待足够的时间(因为否则你很可能会和一些或许多和以前一样的玩家一起玩游戏)。

该模型利用博弈中评论发生的概率避免了Kasumovic等人提出的问题。在那里,一个咆哮的人可以歪曲评论的总数。Kasumovic等人。通过删除离群值解决了这个问题,但我真的不喜欢手动进入并删除数据来调整结果。这也可以通过使用更复杂的模型来解决,但更复杂的模型意味着更多的旋钮,这意味着偏见有更多的方式潜入。使用发表评论的玩家数量是缓解这个问题的一种方法,但我认为这仍然不理想,因为这些并不是独立的--当一名玩家开始消极时,这会极大地增加该游戏中另一名玩家消极的几率,但仅仅使用玩家数量就会使四场有一个消极的人的游戏与一个有四个消极的人的游戏相同。这也可以用稍微复杂一点的模型来解释,但这也涉及到在模型中添加更多的旋钮。

当我写这篇文章时,我得到的最常见的评论之一是,它只有在低评级时才有效,比如Plat,它的评级是50%。如果有人要承认一款游戏的社区在50%的使用率下是有毒的,而你必须比这更好才能避免有毒的玩家,这似乎就是承认游戏的社区是有毒的。

然而,为了看看这是否准确,我多玩了一点,玩了高达98%的游戏,看看情况是否有所改善。虽然有很小的改善,但98%的员工并没有什么本质上的不同,所以那些认为公司高层的情况要好得多的人,要么与我的经历截然不同,要么就是指的是99%或更高级别的员工。如果是后者,那么我会说之前关于承认这个游戏有一个有毒社区的评论是成立的。如果是前者,也许我只是运气不好,但根据其他人对游戏体验的评论,我不认为我特别倒霉。

一个常见的抱怨或许是2000 SR以下(约30%)或1500 SR(约10%)以下的人最常见的抱怨是,他们身处地狱,因为队友太差而被压低。根据我的经验,我发现这是极不可能的。

人们经常把技能分成机械师和游戏感觉两类。我的机械师几乎是我能得到的最差的了。我玩的最后一款游戏是一款90年代的视频游戏,基本上是在线小行星游戏,在此之前我投入的最后一款游戏是原始的SNES超级马里奥卡丁车。正如你所期待的那样,一个没有花大量时间玩90后视频游戏或任何一种FPS游戏的人,我的目标和躲避都是残忍的。最重要的是,我是一个反应迟钝的老头,尽管我的机械技能几乎为零,但通过避免一些基本的谬误和错误,我能够达到2500 SR(在玩竞技游戏的玩家中大约是60%,在所有玩家中可能更高)。如果你也是一个基本上没有FPS经验的老家伙,你可以做同样的事情;如果你有很好的反应能力或足够的FPS经验来实际瞄准或躲避,你基本上不会比我在机械上更差,你可以通过避免一些基本的错误来做得更好。

我看到的最常见的谬论是,你必须玩DPS才能从铜牌或金牌中移出。人们给出的证据是,当GM Streamer扮演柔道、坦克或治疗师时,他们有时会输掉铜牌。我猜这个想法是,因为确保99.9%铜牌胜率的唯一方法是成为一名GM级别的DPS球员并玩DPS,所以保持55%或60%的胜率的最好方法是玩DPS,但这并不能随之而来。

治疗师和坦克在低等级时都非常强大。因为低等级的特点是协调性差,目标也相对较差(协调性好或目标好的玩家往往移动得很快),与高等级相比,杀死时间非常慢。因此,非治疗师可以倾斜1v1(有时甚至是2v1)比赛的结果,而初级治疗师通常可以决定2v1比赛的结果。因为协调性差,大多数比赛最终都是2v1或1v1。缺乏协调的另一面是,你几乎永远得不到队友的帮助。看到一个敌方球员走进我的队伍中间,攻击某人,然后在没有其他人注意到的情况下离开,这是很常见的。如果被攻击的人是你,另一个治疗师通常不会注意到,并会在完全健康的情况下继续治疗某人,而经典的“剥皮”角色都不会帮助,甚至不会注意到正在发生的事情。这意味着你有责任注意你的周围环境,注意侧翼路线,以避免被谋杀。

如果你能避免不断地被谋杀,并真正尝试治疗(而不是许多级别较低的治疗师,他们会试图杀人或坚持一个角色,并一直在治疗他们,即使他们完全健康),那么当你扮演非治疗师的时候,你有一半的时间超越了一名初级治疗师,作为一名初级治疗师,你通常每10分钟可以获得10k-12k的治疗,而在Silver,大多数人每10分钟可以获得10k-12k的治疗(如果他们的话有时会更少)。这就像在你的团队里多了一个半个治疗师,基本上就是让游戏从6v6变成6.5v6。你仍然可以输掉一场6.5v6的比赛,而且你会输掉很多比赛,但是如果你持续的治疗量比你这个级别的普通治疗师高出50%,那么即使你犯了很多重大错误(治疗秩序,只养活对方的时候治疗,等等),你也会倾向于晋升。

在扮演治疗师时95%必须注意自己的一个必然结果是,作为一个可以剥皮的角色,你实际上可以照顾你的队友,并让你的球队在95%的比赛中处于显著的优势。作为扎里亚或猪,如果你只是无聊地朝你的队伍前面打,你基本上总是可以在团队战斗中至少挽救一名队友的生命,而且你经常可以这样做2到3次。与此同时,你在另一个团队的对应者正在四处走动,寻找1v1的匹配。如果他们找到一个好的,他们很可能会杀人,如果他们没有(如果他们遇到了一个有机动技能的人,或者遇到了像禁闭机或收割机这样的反抗器),他们也不会。即使他们杀了人,而你没有做很多事情,你仍然提供了和他们一样多的价值,平均来说,你会提供更多价值。类似的事情也适用于许多DPS角色,尽管这取决于角色(例如,McCree作为剥皮者是有效的,至少在我玩过的低级角色中是有效的)。如果你玩的是不适合剥皮的非狙击手DPS,你可以在你的团队中找到一个正在寻找1v1战斗的DPS,并将这些战斗变成2v1战斗(在低级别,这类人在两支队伍中都不缺乏,所以有很多1v1战斗可以通过让它们变成2v1来控制)。

我提到的所有这些事情实际上都是在帮助你的团队,而不是去做华而不实的POTG设置,或者试图自己主宰整个团队。如果你抽象地说这一点,这似乎是显而易见的,但大多数人认为他们比他们的评级更好。OW的设计是为了让人们在他们不是很好的时候认为他们做得很好,这也无济于事,而获得奖牌或玩这个游戏的最佳方式是以一种严重降低你实际赢得每一场比赛的几率的方式玩。

除了明显的游戏失误之外,输掉比赛的另一件大事是有人倾斜,要么开始玩得很糟糕,要么发疯了,说了一些激怒团队中其他人的话,然后他们开始玩得很糟糕。我不认为你可以直接做太多事情,但是你永远不可能做到这一点,所以你的团队中有六分之五的人会以某种基本比率这样做,而另一个团队中有六分之六的人会这样做。就像上面所有的一样,t。

..