Twitter的众包事实核查飞行员Birdwatch的早期分析有大约1000个用户，显示出游击党的言论和缺乏消息来源的引文

2021-02-19 22:10:07

2月5日，Twitter在有争议的YouTuber Tim Pool上发表了一篇文章，称2020年美国总统大选已被操纵。该平台指出，该索赔存在争议，并“由于存在暴力风险”而取消了婚约。

但是，根据2月14日对Twitter数据的分析，在社交媒体平台Birdwatch的众包事实检查实验中，用户绝大多数表示该推文没有误导性。而且大多数Birdwatch用户在工具中都指出，他们发现这些支持被揭穿的声明的注释很有帮助且提供了信息。

一位知情人士说：“根据《时代》的主旨（原文如此）报道，影子组织中有一群组织良好的秘密参与者，听起来像是一个阴谋集团，他们一起为选举乔·拜登而动摇，”尽管用户包含指向“时代杂志”文章的链接，而该文章的确使用了诸如“粗鄙”和“阴谋”之类的词，但是文章的上下文（强大的团体在幕后进行工作以保护选举的完整性）丢失了。

旨在显示有用笔记的Birdwatch算法将“事实检查”的有用性得分定为0.68，这是该推文中笔记的最高得分，仅在该算法认为的得分最高的10％之外。 ”（截至2月14日）。在此分析中，有用评级的注释约占2695条注释的7％，而其中不到三分之二包含不是另一条推文的来源链接。

2月17日，Twitter更改了算法，并且Pool推特上的注释不再被评为有用，尽管它们仍列在帖子下方。在此更改之前，有一个较低的阈值被认为是有帮助的（与新的0.84截止相比仅是0.5），并且在运行过程中仅需要三个等级就可以被认为是有帮助的，按优先级排序并标有蓝色注释。

现在，笔记必须累积五个等级，才能将该推文推入Birdwatch中新的“有效等级”标签。平台数据库中将近2700个笔记中，有126个达到了新阈值-不到5％。四分之三的新“被评为有用”笔记包含Twitter以外的消息来源。

它及时地说明了Birdwatch模型所面临的问题之一：由看似随机的人群提供的算法能否准确“评估”真相？

Birdwatch处于试验阶段，拥有1000多个用户，它允许参与者将推文标记为误导性内容，并添加注释以注明来源和/或解释其误导性的背景。然后，Birdwatch用户可以根据帮助对这些注释进行排名（此后，算法将接管）。

最终，所有Twitter用户表面上都可以在推文下方看到这些注释，但是目前，它们仅限于网站的特定部分。 Birdwatch用户最终还将建立信誉分数，并将其纳入帮助算法。

Twitter产品副总裁Keith Coleman表示：“ Birdwatch飞行员计划的目标是建立一个任何人都可以参与其中的系统，并自然地提升人们认为有用的信息。” “我们认为，对谁可以做出贡献的开放性很重要，通过多元化的意见，可以提高最有用的说明。”

但是，从目前的状态看，它揭示了事实检查人员对Birdwatch提出的挑战：用户之间缺乏事实检查专业知识，创建算法的难度难以以某种方式浮现出最有名的用户的有用注释以及有关用户游击党动机的问题。

“鉴于社交媒体平台的两极分化性质和主流用户对平台所提供的此类查询提供反馈的犹豫，我对这些发现并不感到惊讶，而过道两旁的积极用户则将平台视为促进其叙事方式的战场其他事实，”国际事实检查网主任BaybarsÖrsek说。

大多数最高产的Birdwatch用户的笔记都将批评右手的推文标记为“误导”，而批评左手的推文则标记为“请勿误导”。（例如，用户在参议员Ted Cruz和Pool的推文中说“拜登团队对中国持软态度”，这条推文“没有误导”；而《新闻周刊》中有关极右翼极端分子和GameStop传奇的推文以及一条推文将唐纳德·特朗普总统与国会暴动联系在一起被标记为“令人误解”和“有害”。）在用户的82张笔记中，只有不到五分之一包括了消息来源，其中一些是其他推文。（此Birdwatch用户未回复采访请求。）

科尔曼说，可以鼓励Birdwatch来考虑来自“不同贡献者”的笔记。此外，评分系统是平台背后的主要驱动力

科尔曼说：“我们相信这些将奖励和激励许多人认为有价值的贡献，并解决由一个特定的团体或意识形态接管观鸟的风险。” “这是我们在整个试验过程中都会积极进行的工作。”

确实，与2天前的迭代相比，该算法在2月17日的更改之后被认为是最有用的注释，显示出更可靠的来源和更少的党派言论。但是，更改具有1,000个用户且少于2700个音符的试验程序的算法是一回事，一旦Birdwatch适用于所有用户，则要更改算法是另一回事-谁知道当用户开始倒水时该算法的功效是否会保持下去进入平台，也许可以复制一些最多产的飞行员参与者的行为。

科尔曼说：“我们目前没有具体的扩展时间表，因为我们正在努力学习尽可能多的知识，并在飞行员人数小的时候进行迭代。” “我们计划扩大规模，因为我们能够安全地做到这一点，并在何时可以帮助改善学习。”

不过，就像在“池”推文中的注释一样，仍然有一些游击党或误导性信息的示例，它们仍可以作为常规注释看到。

在五个最活跃的用户中，有四个（占总笔记的10％以上）的活动与最活跃的用户相似。其中一位声称杰弗里·爱泼斯坦的死从未被裁定为自杀。但是，第二多产的Birdwatcher在每个注释中都引用了一个来源，包括来自世界卫生组织和FactCheck.org的链接。

根据他们的Twitter个人资料，排名前10位的用户都不是专业的事实检查员或记者。

PolitiFact主编安吉·霍兰（Angie Holan）在一封电子邮件中说：“事实检查实际上是一项艰苦的工作，因为它在精神上要求很高。” “您确实必须专心致志地推动精神惰性来识别索赔，然后集思广益地对揭穿或验证索赔的方法进行调查。然后，您必须继续进行搜索，然后撰写调查结果。坦率地说，这不是在海边的一天。而且，如果事实检查员有党派动机，那将使彻底而公正的努力变得更加困难。”

尽管存在问题，Birdwatch仍会标记错误信息，传统的事实检查人员可能会由于潜在的危害而错过或选择不进行检查-这可能有助于填补数字错误信息中的某些空白。在GameStop传奇期间，有关该公司股票的错误信息在各个平台上迅速传播。

Snopes和PolitiFact没有对有关GameStop的主张进行评级，而Lead Stories则对Reddit职位进行了评级。但是在Birdwatch上，评分最高的纸币（帮助得分为1.00）标志着有关Reddit的误导性推文，有关该股票的讨论正在进行中。有关Reddit，GameStop和Robinhood投资应用程序的大约50条笔记，本月初在其上进行了大量交易。

Birdwatch用户在发推文后正确地将一个声称属于弗吉尼亚州参议员阿曼达·蔡斯的帐户标记为伪造，“……我们在弗吉尼亚州存在毒品问题，合法化大麻只会导致更多的大麻滥用和死亡……”

科尔曼说，Twitter致力于保持透明度（这使这种分析成为可能），并吸收专家对平台未来的意见。

他说：“从与芝加哥大学RISC中心的嵌入式团队成员合作，到与记者和研究人员主持反馈会议，我们都在努力利用Twitter以外的大量专业知识和知识。”

Holan和Örsek建议为Birdwatch用户提供奖励和培训，并聘请专业的事实检查员来审查高级笔记。

霍兰说：“但我对那些相信用户会为他们免费审核内容的科技公司表示怀疑。” “大多数用户并不认为帮助平台运营自己的业务是他们的工作。”

支持为民主服务的高完整性，独立新闻。今天就给Poynter送礼物。珀因特学院（Poynter Institute）是一个无党派，非营利性组织，您的礼物可以帮助我们更好地发展良好的新闻事业。捐这对得克萨斯州参议员而言真是一副糟糕的样子，尤其是当他的妻子的文字成为新闻报道的主题时我们必须向受众提供有关新闻对他们意味着什么，或者对某些人群意味着什么的背景和背景。另外，暴风雨的延误将如何影响您的第二针疫苗剂量，以及更多关于“突破性”的信息冠状病毒病病例事实检查人员警告称，随着澳大利亚开始其COVID-19疫苗接种运动，Facebook的媒体禁令将影响信息生态系统当我们让这个话题以及过时的礼节支配叙事时，记者就会失败

返回新闻

https://www.poynter.org/fact-checking/2021/analysis-twitters-crowdsourced-fact-checking-experiment-reveals-problems/

tags users