你毁了在线评分

2020-10-15 05:42:39

好了,网民们,我需要你们帮我个忙。这对你们来说不会有多大困难,但除非我们共同努力,否则我们不能解决这个问题。

问题是:你们都破坏了互联网上的评分和评论系统。

当然,审查和评级机制已经启动并运行;他们正在做自己的工作,列出人们点击的明星数量,并或多或少地确保他们不能投票两次。从技术上讲,评级系统本身没有问题。问题是我们如何使用它们。十分之十或者五分之五的星级已经不再有任何意义了。

听着,别这么快就放弃我。通过示例场景可以更好地解释这一点。让我们想象一下,我们正在尝试寻找一款新的视频游戏来玩。

当我们永远困在家里的时候,我们有一些时间可以消磨时间(没有出路!没有出路!)。我们已经受够了玩“死亡空间”。«我们可以上网阅读最近一两个月发布的每一款游戏的评论,但这要花很长时间。相反,对我们来说,更明智的做法是根据简单的评级标准剔除一些游戏-1-5或1-10星,或者1/10或1/100;无论有什么数字或图形系统。从那里,我们可以选择一些看起来很有前途的,并投入时间来听取人们实际上对他们的看法。

我们滚动浏览游戏列表,立即开始遇到一些问题。这似乎发生了一些奇怪的事情,视频游戏的宇宙现在只有一些令人难以置信的游戏,人们认为这些游戏满分是9-10分,而糟糕的游戏得到了0-2分。这里发生了什么事?

视频游戏怎么可能是十分之一的完美,或者十分之一的“有史以来最糟糕的事情”呢?亚马逊产品、Netflix电影或应用程序商店上的应用程序评级也是如此。

仅仅根据评分和审查系统上的数字,人们就会得出结论,我们生活在一个事情要么很棒,要么很可怕的世界里。²没有什么只是“好”、“好”或“好”,这是令人担忧的,因为这意味着我们无法区分哪些东西比其他东西更好。是每个人都真的喜欢“红死队3”,还是他们真的喜欢它?这真的是他们玩过的10/10最好的游戏吗--因为考虑到他们的回顾历史显示,他们玩过的许多其他游戏也是10/10,这是很难相信的。当然,每一场比赛都不可能是你玩过的最好的比赛?

现在,我听到你在想什么了。“达科达,你这个自命不凡、吹毛求疵、书生气十足、笨蛋的家伙,跟上程序就行了。”如果你喜欢它,你给它所有的星,如果你不喜欢它,你给它尽可能少的星。太简单了!“。

不过,这不管用。如果您使用的系统具有5度或10度的好坏程度,那么只使用其中两个选项就会破坏其有用性。它把一切都变成了在好和坏之间的二元选择,没有任何迹象表明哪些好的东西比其他任何东西更好,哪些坏的东西比其他任何东西都差。

这与教育中真正令人遗憾的分数膨胀趋势相似。“C”级没什么好尴尬的--它的字面意思是你和其他人一样做得很好,不是特别的,也不是糟糕的。尽管社会有不同的想法,但由于某种原因,C变成了一个“差”分。在人们的心目中,评分制度从最高的A和最低的F降低到只有A或F。

这导致了这样一个世界,在这个世界里,全优学生并不是超级天才,他们只是做足了功课的人。如果你交上好的试卷,做完所有的家庭作业,然后出现在课堂上,那么,只要你期中和期末考试得90%的成绩,你很可能会以A的成绩脱颖而出。

那么,我们如何确定哪些学生非常聪明呢?如果一篇关于亚伯拉罕·林肯的可接受的论文得了A,但一篇分析将林肯描绘成平等捍卫者的荒谬的现象研究论文也得到了A,那么怎么可能有人能区分“良好”和“特殊”呢?

这在今天的在线收视率中有所体现,而且同样存在问题。如果我买了两副耳机来测试一下,那么几乎可以肯定的是,我会更喜欢其中的一副。给他们两个五星级并不能开始将这一信息传达给其他寻求推荐的买家。所有这些都告诉人们,这两副耳机都可以工作,因为如果他们不工作,他们会得到一颗星,但它没有说明哪一副听起来更好,哪一副更舒服,等等。

以这种方式给出评级有两种看待人性的方式:

2)人们本质上是善良的,不想伤害任何人的感情。

很长一段时间以来,我不得不承认我认为1号才是问题所在。不过,多年来我一直在思考这个问题,我得出的结论是,实际上,它可能比其他任何东西都更有可能排在第二位。每个人都意识到星级评分在某种程度上没有太大帮助,他们只是不想刻薄-尽管我承认,考虑到网络刻薄或多或少是网络文化的主要组成部分,这种情绪对我来说似乎非常奇怪。

解决这个问题的方法是,我们所有人都将不得不认真审视自己,承认一些大忌:只做…是完全可以接受的。好吧。

我再说一遍:我们需要接受这样一个事实,那就是没事。

这不是一个流行的说法,但是我们不可能在任何时候都是最好的。同样地,也不是每本书、电子游戏、电影、T恤、卷笔刀、亚马逊卖的其他任何东西都是最好的。

相反,请允许我花几分钟来解释我们应该如何在互联网上对事情进行评级和审查,因为如果我们所有人都能共同努力,我们都会受益。想一想,能够从这些指标中收集有用的信息是多么有用,而不是仅仅用它们来衡量某个东西是否值得购买(4.5到5星),或者它是否肯定是一种欺骗性产品,会折磨你的宠物,让你长粉刺(任何低于4.5星的东西)。

选择如何打分的心态应该是回顾和同期审查的心态。换句话说,你在消费或使用产品之前和之后是怎么想的?

当买东西或选择要看的电影或要听的歌曲时,理想情况下,人们应该对自己期待的东西有一个想法。对于这件商品,以这个价格,根据我对它的描述和听说的情况,会有什么可以接受的结果呢?

让我们以一副耳机为例,因为这也说明了我所建议的方法如何与个人品味等主观因素很好地配合。当我在网上购物时,我会看看价格、功能和所有的好东西,我会根据我花了多少钱,以及它们是什么类型(过耳式、入耳式、运动型等),对我期望的音频听起来有多“好”有一些模糊的想法。这一预期是我将用来决定我的评级的基线。

当耳机送来时,我会插上电源,开始听一些音频。可能的结果有三个原型:³。

如果我们使用三星评级系统,或者如果数字选项是数字1、2或3,那么我们也已经获得了可能的评级。如果他们比我预期的更糟,他们就会得到一个。如果他们是我预期的那样,他们会得到2分,如果他们比我预期的要好一些,我认为值得一提的是,那么他们就会得到3分。

这意味着,当我给出我的评级时,人们可以从中学到东西。诚然,我对一副特定价格的耳机的期望,与其他人对该价格的期望可能略有不同。一些人想要更强的低音,另一些人对响应时间更感兴趣,等等。不过,在平均大量评论的情况下,随着时间的推移,这一点会自动解决:普遍的共识是,耳机的质量是与大多数人的预期一样好,还是更好,还是更差。

然而,如果我们按照最常用的方式使用评级,我可能会给耳机打三颗星,即使它们只在我预期的质量范围内。我不想伤害卖家的感情,也不想因为只给他们两颗星而让他们难堪!

但是,这再次迫使我们问这个问题:两颗星有什么问题?两颗星的意思是耳机没问题。你买的东西都拿到手了。如果我们不认为三星评级意味着耳机要么是好的,要么是特别的,我们可以假设,如果大多数人给它们三星评级,它们实际上是非常物有所值的,这不是很棒吗?那就更有信息量了!人们可以从这些信息中寻找最好的产品,而不是所有可以接受或更好的产品,永远不知道它们属于哪个级别。

我们可以把这个范围扩大得更远。普通的五星级评级系统给了我们另一种程度的帮助。以下是可能发生的情况的新选择:

这甚至比三星系统更能提供信息,因为现在我可以表达出事情是好是坏的一定程度,而不仅仅是它们是更好还是更坏。它为正在寻找产品的人提供了更多的数据,因为现在他们可以在很小程度上看到人们喜欢或不喜欢某样东西的程度。

这是我们需要进行评级的方式,也是评级系统应该如何运作的方式。在统计学上,有一个概念叫做钟形曲线,其想法是,如果你对事物进行大量的抽样,你应该得到一条看起来像倒铃的曲线。最常见的事情在中间结束,而更高或更低(更好或更坏)的事情发生的频率较低,分别发生在中心的右边或左边。

得A应该不是经常发生的事情,因为它意味着某人做了比平均水平好得多的事情。A、B应该更多地出现,但仍然不是那么普遍,因为它意味着一个人比大多数人做得更好。不过,大多数人应该得到一个C,因为大体上说,大多数人的表现与其他人大致相同。

得到C没有什么错,在Metacritic上得到3星(满分5星)、5分(满分10分)或50分(满分100分)应该没有什么错。这些评级意味着该产品表现良好。还可以。它起作用了,它做了它应该做的事情,或者它给你带来了娱乐,但它不是你会写下狂热评论的东西。就是…。很好,这没什么不对的。

我们应该努力使用评级系统来沟通项目的质量,而不是试图强化消极的想法,即一切都应该是例外的,否则就是失败的。

等一下!我听到你在喊叫。你得考虑一下平均数!

我想过平均数,但这样用起来没什么用处。似乎1000人喜欢并给出5星,1000人不喜欢并给出1星的产品平均会被评为3星,这是完全正确的。这就是难题所在。

五星级评论中有多少来自绝对喜欢该产品的人?有多少人认为那只是我?一星级的评论家是不喜欢这个产品,还是它来了DOA,或者着火了,或者引起了过敏反应?

有人可能会认为,这个问题的答案是阅读措辞严谨的评论,但拜托,你不可能是认真的。撇开书评的整体质量不谈,人们偏向书评的问题十分突出。与喜欢某一产品的人相比,讨厌某一产品的人更有可能出于怨恨而写一篇严厉的、可能具有误导性的评论。当你喜欢一种产品时,你宁愿花时间使用它,也不愿上网为一家有能力支付费用的公司提供免费广告服务。当你甚至对一件产品感到些许不安或失望时,没有什么比点击在线并写下它有多糟糕更令人愉快的了。

在统计学中,数据点的分布很重要。在在线产品评级的情况下,这一点也是如此。重要的是要知道有多少五星级评价者真的被这款产品惊呆了,有多少人只是感到惊喜,有多少人只是点击了五星级评级,因为这表明它是以应有的方式启动和工作的。一星级收视率也是如此。

如果某件事非常糟糕,那么一星的数量应该很多,但如果只是一种糟糕的情况,那么二星应该更常见。一星级评级比二星级评级更能拖累平均数跌破三星级。五星评级比四星评级更能将平均数提高到三星以上。“怪物史莱克2”真的值五星级吗,还是更像是四星级?

考虑这一问题的另一种方式是列出清单。如果我让你给我列一张你认为人们需要看的十大电影的清单,你可能不会有太多麻烦。如果我问你其他好电影的清单,你大概可以再草草写下50部左右。如果我让你给我一张不错的、有娱乐性的电影清单,那么你也许可以开始写一段时间,而不需要做太多的思考,除了它们是否会引发糟糕的记忆。

糟糕的电影也是如此。大多数人可以很容易地列出他们看过的10部最糟糕的电影,还可以再增加几十部糟糕但并不令人震惊的电影。

但是如果我给你一张清单,列出你评过五星的每一部电影,并请你解释一下,会怎么样?你真的认为恐怖电影和银翼杀手是同一级别的吗?说真的,一个外星人坠毁在你的后院,当她在等待星际拖车出现的时候,她想要低调行事,Netflix,并冷静下来。⁴她想看看地球电影是什么样子的。

好的,太好了。你会调出你的亚马逊五星级评论名单,让她随机挑选一个吗?几乎可以肯定不会。你不会仅仅因为偶然的机会就想展示她的香肠盛宴,而不是水库狗!

这应该是五星评级的标准:你认为它是电影、音乐、文学或任何其他形式的产品的杰出典范吗?相反,一星级评级应该保留给那些非常糟糕的事情,它们会留下持久的记忆。一星级应该是你在聚会上讲的轶事;可怕的是,你买了一个烤面包机,它不知何故袭击了你的狗。

不过,我的呼吁有一个问题,我们应该解决这个问题:在这一点上,这是一个根深蒂固的标准。这并不容易克服。

即使迅速增加的用户明白了我的观点,悔过并改正他们的错误方式,也会有一段时间两个相互竞争的标准在起作用,平衡正确做事的好处。

更糟糕的是:即使每个人都能在一夜之间魔术般地开始正确地进行在线评分,我们也会陷入一大堆根据旧制度进行评级的事情的积压目录中。看着一双新运动鞋的收视率,人们会想,这四颗星是否表明大多数人感到惊喜,或者认为这双鞋可以接受(或更好)的人比不喜欢它(或更糟)的人略多。

那个…。是我不确定该如何解决的问题,但我想我有一个解决方案:

就目前情况而言,在线评级没有太大帮助。它们没有提供太多信息,因为它们没有按照预期的方式使用。这就是我们现在的基线,所以如果我们作为一个互联网社区开始共同努力,对事情进行适当的评级,并将三星是好的这一想法正常化,实际上,那么我们就会改善事情。

从本质上说,评级系统不可能真的比现在更少的信息,所以虽然改变我们的行为可能不会立即解决所有的问题,但它不会让事情变得更糟。在此期间,我们将朝着更美好的未来而努力。

所以,我恳求你们,网络同志们:请适当使用收视率。当你这么做的时候,我们都会过得更好。

»死亡空间是一款非常棒的游戏,我爱死它了。它有很好的重放价值,但大约每年只有一次。

³从技术上讲,我们可以把它压缩下来,然后说只有两种可能的结果:音频是或不是我预期的,然后我们可以从那里决定它是更好还是更差,如果它不是我预期的情况。然而,该机制不足以传达任何有用的信息,因此我们将采用三种可能的通用结果。