阿帕奇皮诺对俄罗斯巨魔的深度分析

2020-10-17 01:43:53

俄罗斯虚假信息背后的历史是一个密集且不断演变的主题。世界上最好的研究似乎还没有进入主流,这使得这是一个极好的机会,可以看看我是否可以使用一些开放源码工具来展示新的分析证据。

这个课题的研究人员可以使用的首批数据集有很长的历史渊源。克莱姆森大学(Clemson University)、达伦·林维尔(Darren Linvill)和帕特里克·沃伦(Patrick Warren)的研究人员公布了一个包含2973371条推文的数据集,这些推文来自爱尔兰共和军(IRA)的2848个虚假账户。多年来,达伦和帕特里克在这个主题上增加了非同寻常的深度,以帮助监控和应对社交媒体平台上的外国恶意影响。

“从本质上讲,如果整个民主世界的安全机构和政治行为者要在未来发现并阻止这种行动,我们就必须了解这种战略性社交媒体活动的模式,并开发出在它出现时加以抵制的工具,这一点至关重要。”

这个大数据集由克莱姆森研究人员发布,并通过GitHub上的FiveThirtyEight开源。您可以在这里阅读更多关于数据集背后的历史和GIT存储库的模式信息。

在这篇博客文章中,我将向您展示如何使用Apache Pinot和Superset来分析由FiveThirtyEight开源的互联网研究机构(IRA)发布的300万条tweet。

要启动并运行我在这篇博客文章中讨论的示例项目,请带着引导食谱前往我的开放源码库。

要在数百万条tweet上实时进行有效的探索性分析,需要一个专门为此而设计的快速数据存储。Apache Pinot提供的后端查询功能使我能够进行此研究。更上一层楼,我需要一个在Pinot之上创建图表和仪表板的工具,Apache Superset在这方面发挥了完美的作用。

我的分析开始于基于我之前对这个主题的研究的一些基本假设。首先,我想从现有的信念中退一步,即巨魔使用策略来影响预期的选举结果。这一假设是臭名昭著的,可能导致了2016年后被新闻媒体和国会议员政治化的复杂调查。

所以,我心想,如果使用社交媒体干预选举在技术上是不可能的,那该怎么办?

将原始数据加载到Apache Pinot后,第一步是验证FiveThirtyEight在2018年最初提供的分析。他们展示的第一张图表是一个简单的活动视图,试图显示2016年可能的选举干预。

为了验证我是否拥有相同的数据集,我使用Pinot和Superset生成了一个SQL查询和可视化。

在验证我的查询与Clemson研究人员的图表匹配之后,我进一步了解了数据集中的其他功能。

上图显示了克莱姆森研究人员为对假爱尔兰共和军账户的意图和行为进行分类所做的大量工作。对我来说,这种对数据的看法是选举干预假设破灭的地方。Twitter是一个复杂的行为和反应的动态系统,它发生得如此之快,以至于很难让系统达到任何预期的结果。

我决定开发一个图表,更容易地描述数据集中不同类型Twitter帐户的行为。

我设计的图表使FiveThirtyEight可视化中显示的活动更加流畅。我们在这里看到,自2015年以来出现了可能与选举干预无关的激增活动。我需要看到的是对每一个尖峰的叙述的看法。我认为看看主流新闻媒体中的特定话题或主题是否能解释这些激增可能是有用的。

上面的图表显示了与福克斯新闻有关的所有提到的正确巨魔。这个查询显示了一些有趣的峰值活动,所以我决定查看福克斯新闻2015年6月10日的标题。

这一结果令我震惊的是,它与2020年5月乔治·弗洛伊德(George Floyd)不幸去世后的叙述惊人地相似。为了了解这个特定的标题是否与Twitter的数据集有关,我决定将福克斯新闻与其他新闻媒体进行比较。

上面是美国有线电视新闻网(CNN)网站的截图,几个小时前,福克斯新闻(Fox News)报道了他们的头条。这两个网站在新闻报道上的最大不同在于,福克斯新闻在爱尔兰共和军的推文中使用了叙事性的术语,而CNN则没有。虽然这只是一个数据点,但我需要了解叙事是否推动了新闻周期,或者反之亦然。哪个排在前面,新闻报道是如何随着时间的推移而变化的?

下面的图表显示了警察和种族不公正作为一种叙事开始的起源事件。我用来过滤结果的查询是一个基于相关性的搜索,它使用福克斯新闻(Fox News)网站6月10日标题中的关键字。Apache Pinot有一个基于Apache Lucene的全文索引实现,它允许我返回与我的查询相关的结果。

我们在这里看到,2015年6月10日,围绕种族不公正和警察的叙事有一个明确的起源事件。故事以右翼巨魔主导的尖峰活动开始。在这些蓝钉之间,我们有左派巨魔以同样的说法持续活动。最后的扣球,同样是由右巨魔主导的。

在对数据进行了一些平滑处理后,我能够看到图表中最大的峰值是2017年8月的整整一个月。我用Wayback Machine查看了当月的新闻标题,并将这些叙述与2015年6月的正确巨魔叙述进行了比较。

新闻媒体的叙述现在与两年前的意识形态内容完全一致。始终如一的主题?恐惧、恐惧、愤怒和愤怒。

在这一点上,我得到的结论是,爱尔兰共和军数据集中的有毒意识形态和短语在最近的新闻媒体头条中变得流行起来。为了了解意识形态和叙述是如何演变的,我决定使用开源的Stanford CoreNLP库中的命名实体识别来丰富原始数据集。

要进一步理解爱尔兰共和军推文的语义内容和叙述,需要基于时间序列的自然语言处理。理想情况下,我希望避免将时间序列图表的内容与单个tweet相关联,而是将所有tweet中包含的文本实体关联起来。

Stanford NLP项目提供了一个基于JDK的库,用于执行命名实体识别(NER)。我过去在tweet上使用过这个库,它工作得相当好。

上图显示了包含特定类别的命名实体的tweet数量。

下一个图表显示了属于每个类别的不同实体名称的数量。对于这张图表,我已经过滤掉了Handle和url,它们对于理解虚假帐户背后的不同叙述是无关紧要的。

现在我们对实体和类别的分布有了相当好的了解,我们可以开始查看每个类别包含的内容。具体地说,我们希望查看对不同虚假帐户的叙述进行分类的命名实体。

此图表包含按Person实体的虚假帐户类别划分的推文数量。

此图表包含按组织实体的虚假帐户类别划分的推文数量。

这张图表包含了按虚假账户类别划分的刑事指控推文数量。

此图表包含按虚假帐户类别分类的死因推文数量。

此图表包含按其他实体的虚假帐户类别划分的推文数量。

此图表包含代表涉及个人的各种头衔的实体按虚假帐户类别划分的推文数量。

这个图表包含了按虚假账号的意识形态类别划分的推文数量。

这张图表是一个时间序列,显示了推文中提到的意识形态的平滑分布。

爱尔兰共和军巨魔有没有可能成功地干预了美国的选举?要回答这个问题,我觉得有必要了解甚麽是干预选举。

选举干预是一个模糊的政治术语,在政客们使用时几乎没有法律效力。然而,外国恶意影响是一个术语,描述的是用来影响选民舆论的民族国家资助的竞选活动。当外国试图影响公众舆论时,选举的选民也是如此,这是国家安全问题。

国内干预选举是一个完全捏造的术语,大致翻译为“为政治候选人竞选”。只要政客们遵守竞选财务法律,没有卷入任何形式的选举舞弊,他们就可以在国内自由干预选举,而不承担法律责任。例如,当社交媒体上的政治言论威胁到国家安全或公共安全时,我能找到的唯一例外是这条规则。

当然,但原因并不是大多数人认为的那样。在广泛分析了这些推文之后,我很清楚,选举干预不是重点。相反,这300万条推文的目的是放大恐怖、愤怒、恐惧,并在公共广场上挑拨离间。这些推文造成的损害是,任何人都无法得出他们的最终目标是什么。只要通读这些推文,就会向读者反映出他们在练习前持有的任何偏见或结论。

社交媒体真正的危险在于让人们相信没有人说真话的迷雾。在现实中,我认为可能没有一个简单的真相,或者对于那些知道真相的人来说,没有简单的解释。

政党成员之间确实会出现美德信号,但这并不是什么新鲜事。推特可能会放大这种效应,一些政客可能会发现,通过发出个人叙述的信号,自己的影响力不成比例。政治家们应该明白,在激烈的政治竞选中发出分裂美德的信号是要付出代价的。

Twitter对信任其订阅源的用户有过多的控制。毕竟,我们是社会性的生物。推特给了我们更好的空间,让我们更好地理解如何通过模因和美德信号等东西来认同我们的群体。美德信号往往会获得更多的点赞、转发和追随者。

群体中的行为以这样或那样的方式影响着每个人,在Twitter上,没有人能幸免于恶意影响。恶意影响似乎是基于这样一种观点,即美德信号是保护群体边界的关键。通过引入在意识形态上反对Twitter用户的In-Group的虚假Out-Groups,该群体的影响力者屈服于更极端的美德形式,向他们的追随者发出信号。我认为这就是多米诺骨牌在2015年开始倒下的地方。

那么,我们如何阻止恶意影响行为者通过美德信号传播有毒或极端的意识形态叙事?我认为,如果不对数字美德信号背后的心理进行更多的研究,我们就不能做到这一点。恶意的影响力演员只需要找到一种方法,进入一个善意的群组成员的馈送。转发和点赞都容易受到这一点的影响,只需要一个你信任的人就能在整个群中传播恶意影响。

我认为解决推特上的这个问题需要减少转发放大,并重新考虑推荐算法。话题应该集中在非政治性的美德信号来源上,而不是那些建立在恐惧、愤怒或愤怒之上的美德来源。这不是一个要解决的简单问题,我希望随着Twitter处理好事情,能看到更多的数据和研究。

我希望这篇文章对读者是有趣的和有帮助的。如果您有任何反馈、评论、更正或建议,请随时在这里或Twitter上与我联系。我鼓励那些足够勇敢的人探索我的开放源码项目,它将允许您复制我的发现,并对数据运行您自己的分析。

这对我来说是一个充满激情的话题,我希望对你也是如此。我已经不遗余力地尽可能轻松地设置您自己的分析环境。

要启动并运行我在这篇博客文章中讨论的示例项目,请带着引导食谱前往我的开放源码库。

特别感谢Apache Pinot社区的人们对本文提供反馈。同时,感谢达伦·林维尔(Darren Linvill)和帕特里克·沃伦(Patrick Warren),以及其他正在努力向决策者通报外国恶意影响社交媒体威胁的人。