社交媒体已成为在线新闻消费的重要来源,被新闻媒体,个人记者和最终用户广泛采用(Hermida等,2012; Kalsnes& Larsson,2018)。社交媒体的使用增强了公民参与和政治参与,提供了与全球数百万用户直接交流的方式(Bennett,2008; Gil deZúñiga,Jung& Valenzuela,2012)。
社交媒体平台中普遍存在的现象是特定新闻媒体通常会充当虚假信息的传播源,从而产生和传播不可靠的内容(例如虚假或欺骗性信息,夸大的标题,伪科学,宣传)。社交媒体中虚假信息的传播通常是在新闻源发布一个故事之后开始的,该故事随后由用户通过将其重新发布(例如重新发布,共享)到他们的朋友个人网络传播。据观察,与社交媒体中的可信信息相比,虚假信息的传播速度更快(Vosoughi,Roy& Aral,2018; Lazer et al。,2018)。此外,当用户一次遇到不可靠的故事时,足以增加他们以后对其准确性的看法(Pennycook,Cannon& Rand,2018)。传播不可靠内容的媒体通常旨在操纵人们的意见并影响选举结果,这对全世界的政治稳定都有影响(Allcott& Gentzkow,2017; Humprecht,2018)。
先前的研究表明,与在社交网络上分享不可靠的新闻帖子正面相关的因素包括心理因素(例如,在线信任,自我披露,害怕失踪和意识形态极端)和政治倾向(例如,向右倾斜)(Shu等人,2019; Talwar等人,2019; Hopp,Ferrucci& Vargo,2020)。在这项研究中,我们调查用户语言信息是否可以帮助识别谁将从不可靠新闻来源的Twitter句柄中转发项目。为了检验这个假设,我们定义了一个新的分类任务,该任务旨在根据用户发布的所有历史记录到新闻条目的第一次重新发布,即在用户实际执行发布之前,预测用户是否可能从不可靠的新闻源重新发布内容它。尽早发现可能从不可靠来源转贴内容的用户可以帮助:(i)政治学家和新闻工作者分析哪些讨论主题与虚假信息大规模相关(Bode& Vraga,2015); (ii)诸如Twitter或Facebook之类的社交媒体平台,以防止在网络中传播潜在不可靠的故事(Castillo,Mendoza& Poblete,2011; Conroy,Rubin& Chen,2015; Shu等,2017); (iii)心理学家来补充人格分析研究(Pennycook& Rand,2018)。本文的主要贡献如下:
我们制定了一项新颖的二进制分类任务,以利用从用户原始推文汇总中提取的多种语言特征,尽早发现用户从不可靠的新闻来源共享内容;
我们评估了一系列传统的基于特征和神经预测模型,可达到79.7 F1得分;
我们对结果进行定性分析,以了解分散不可靠或可靠新闻来源内容的用户的语言使用差异;
社交媒体已成为实时报道的主要平台(Engesser& Humprecht,2015),大多数主流新闻媒体都使用官方账户(例如@BBC和Twitter上的@Reuters)。但是,由于社交媒体平台的开放性和受欢迎程度,它们也被视为传播未经验证,虚假和误导性信息的沃土(Zubiaga等人,2018a)。这种类型的信息通常称为错误信息。
错误信息已被定义为一个笼统的术语,包括社交网络中传播的任何不正确信息(Wu等人,2019)。另一方面,虚假信息的定义是散布虚假的事实事实信息,主要目的是故意欺骗听众(Glenski,Weninger& Volkova,2018b)。
不可靠的新闻来源按其意图和内容的真实性进行分类(Rubin,Chen& Conroy,2015; Rashkin等,2017)。鲁宾·陈& Conroy(2015)将欺骗性新闻定义为三类:(1)严重的捏造,包括未经证实的主张,夸张和耸人听闻的内容; (2)伪装成可信新闻的大规模骗局,可能被拾起并错误地传播; (3)假冒品,其目的是捏造目的,无意欺骗。 Rashkin等。 (2017)将这三组错误信息扩展为更细粒度的分类:
宣传新闻使用误导性的信息和写作技巧(Martino等,2019)来促进特定议程(Glenski,Weninger& Volkova,2018a)。宣传新闻来源大多分享不可靠的故事,往往旨在操纵人们的意见并影响选举结果,这对全球政治稳定构成威胁(Allcott& Gentzkow,2017; Humprecht,2018)。
Clickbait的定义是使用夸大的标题吸引用户的注意力并误导公众舆论(Glenski,Weninger& Volkova,2018a)。
阴谋论可以理解为对政治和宗教团体等别有用心的人对真实事件的一种扭曲解释(Goertzel,1994; Byford,2011)。
讽刺新闻通常模仿专业新闻媒体,出于讽刺目的结合讽刺和不合逻辑的内容(Tandoc Jr.,Lim& Ling,2018; Burfoot& Baldwin,2009)。
最近发现和索引不可靠新闻来源的工作依靠众包和专家1来注释新闻媒体的可靠性(Volkova等人,2017; Baly等人,2018; Glenski,Weninger& Volkova,2018a)。
先前在打击社交媒体中虚假信息传播方面的工作(Castillo,Mendoza& Poblete,2011; Conroy,Rubin& Chen,2015; Shu et al。,2017)专注于表征(1)新闻来源的可信赖性(Dong等人,2015; Baly等人,2018); (2)条新闻报道(Rashkin等人,2017; Horne等人,2018; Potthast等人,2018;Pérez-Rosas等人,2018); (3)个人声明,包括新闻头条和谣言(Popat等人,2016; Derczynski等人,2017; Volkova等人,2017; Zubiaga等人,2018b; Thorne& Vlachos,2018)。周等。 (2019)提出了一种新颖的任务,用于检测检查点,该检查点可以及早发现社交网络中传播的谣言。 Martino等。 (2019)开发了用于检测宣传新闻中使用的多达18种写作技术(例如,加载的语言,标语,挥旗,夸张等)的模型。同样,Pathak&斯里哈里(2019)引入了一系列与美国政治相关的新闻文章,其中包含以令人信服的方式撰写的错误主张。在用户层面,社会科学家和心理学家利用传统方法(例如招募参与者进行在线调查和采访)来探索可能影响人们分辨假新闻能力的认知因素(Pennycook,Cannon& Rand,2018)。例如,缺乏分析思维在识别错误信息中起着至关重要的作用(Pennycook& Rand,2018)。以前的数据驱动研究包括(1)分析机器人在社交媒体讨论中的参与度(Howard& Kollanyi,2016)和区分自动账户和人工账户(Mihaylov& Nakov,2016); (2)识别用户对可靠/不可靠新闻发布的反应(例如,同意,回答,欣赏,幽默等)(Glenski,Weninger& Volkova,2018a); (3)分析传播不可靠新闻源的用户的人口特征(Glenski,Weninger& Volkova,2018b),例如,低收入和低学历人群更可能在社交网络上传播不可靠新闻源。
在我们的论文中,我们解决了及早发现可能从不可靠的新闻来源分享帖子的用户的问题,这与先前关于虚假信息检测和分析的工作重点大不相同。
我们的目标是及早发现社交媒体用户,他们很可能在实际共享任何其他新闻之前,先从不可靠的新闻来源重新发布内容。为此,我们定义了一种新颖的二进制分类任务,用于预测社交媒体用户将仅使用语言信息2传播来自不可靠或可靠新闻源的新闻项。
我们假设训练集为n个用户U = {(x 1,y 1),...,(xn,yn)},其中xi是从用户的i时间线中提取的语言信息的矢量表示,该信息包括帖子,直到第一个repost任何新闻项,并且yi∈{可靠,不可靠}是一个关联的用户标签。给定U,我们学习一个函数f,该函数使用任何合适的监督机器学习算法将新用户j映射到y = f x j的两个类别中。
我们会考虑发布到任何新闻项目的第一部分之前的帖子,以确保我们仅使用未链接到任何新闻来源的先前信息。一个人也可以采用截止日期或保留前k个职位,但我们选择使用所有可能的可用信息。我们选择定义一个二进制任务(即可靠与不可靠)而不是细粒度的分类任务(即宣传,骗局,点击诱饵和可靠),因为传播任何类型的虚假信息可能同样有害。出于类似的原因,我们不关注用户Twitter时间轴中来自可靠/不可靠来源的帖子比例的建模。
目前,没有现有的数据集可以对我们的预测任务进行建模。为了我们的实验目的,我们开发了Twitter用户的新数据集,这些用户转发了来自不可靠或可靠新闻源的帖子。我们之所以选择Twitter,是因为大多数帐户和帖子都是公开可用的,并且已在相关工作中广泛使用(Volkova等人,2017; Rashkin等人,2017; Glenski,Weninger& Volkova,2018a)。
我们的数据收集过程包括三个主要步骤(概述于图1):(1)从可靠和不可靠的新闻来源收集帖子; (2)收集至少共享第一步中收集的帖子中的一个的候选用户; (3)将用户分配到可靠和不可靠的类别。
为了识别共享了特定新闻源内容的用户,我们首先需要从可靠和不可靠的新闻源中收集帖子。为此,我们使用Volkova等提供的广泛使用的,可公开获得的英语新闻媒体Twitter帐户列表。 (2017)和Glenski,Weninger& Volkova(2018a)包含424种英语新闻媒体资源,其来源分别是Rubin,Chen& amp; Co.康罗伊(2015)。对于每个新闻来源,我们使用Twitter公共API检索时间轴(最近的3200条推文)。然后,我们过滤掉所有转发,以确保我们只能从每个Twitter帐户收集原始帖子。
在此列表中,不可靠的新闻来源(例如Infowars,Disclose.tv)已由数字新闻组织(例如PropOrNot,fakenewswatch.com等)注释,而可靠的新闻媒体帐户(例如BBC,路透社)所有内容均已在Twitter上进行了验证,并已在Glenski,Weninger&沃尔科娃(2018a)。由于讽刺的新闻来源(例如The Onion,Clickhole)具有幽默的目的(不想故意欺骗(Rashkin等,2017)),因此我们将它们排除在Glenski,Weninger& Volkova(2018b)产生了251个值得信赖的来源和159个不可靠的来源。请注意,该列表并未详尽涵盖所有可用来源,但出于我们的实验目的,它只是一个代表性示例。根据Rashkin等人的观点,我们还将整个新闻来源的特征描述为可靠/不可靠。 (2017); Volkova等。 (2017),而不是个别职位。
通过查看最近从每个新闻源转发了至少一条原始推文的最近用户帐户,我们检索了大约15,000个候选用户的初始集合。由于公共Twitter API的限制,我们无权访问用户喜欢的新闻项目。由于Twitter公用API的限制,基于用户个人资料信息,我们会过滤掉3200条以上的推文,因为我们需要访问整个时间轴来确定用户所属的类别(请参阅标记用户)。对于其余用户,我们收集了他们的整个时间轴(最多3200条推文),并过滤掉了大多数具有非英语推文(即,推文标记为“ en”或“ en-gb”的推文)的任何用户。然后,对于每个用户,我们分别计算来自可靠和不可靠新闻来源的转发数量。随后,我们删除所有用户的转发(包括包含RT的推文),并且仅将每个用户的推文保留到新闻源的第一个转发。此外,我们只会为用户保留10条以上的原始推文。
我们的分类任务的定义是,在用户第一次发布不可靠的新闻来源之前,尽早发现它们。因此,候选用户被分为两类(不可靠,可靠):
不可靠重新发布不可靠来源至少3次的用户(以确保这是一致的行为),包括用户共享可靠和不可靠来源的情况(建模不可靠/可靠比率的情况超出了早期发现的范围) )分配给不可靠的类别。
可靠。仅转推了可靠新闻源的用户被分配到可靠类别。
鉴于Twitter用户还可以共享来自不可靠新闻网站(例如http://www.infowars.com)的缩短的URL,我们将收集并扩展提取的所有缩短的URL(例如'https://t.co/example')从标记为可靠的用户帖子中删除。然后,我们从不可靠的新闻网站中删除所有共享任何URL的用户。我们的数据收集过程产生了6266个用户的集合(分别为3468和2798个用户,分别为可靠和不可靠),总共有1356480条推文(请参阅表1)。
我们先处理所有用户的所有tweet,方法是先将文本小写,然后标记化。此外,我们删除所有停用词3,并分别用url和usr标记替换所有URL和@ -mentions。有关每个用户的令牌统计信息,请参见表1。
先前关于谁在社交网络中传播错误信息的研究工作已经使用了通过调查问卷收集的数据(即自我报告数据)和跟踪数据(即用户生成的内容)(Talwar等人,2019; Chen等人。 ,2015; Shu等人,2019; Hopp,Ferrucci& Vargo,2020)。我们在研究社交媒体用户行为方面采用了类似的标准做法。我们的工作已获得谢菲尔德大学研究道德委员会(Ref。No 025470)的批准,并符合Twitter的研究数据政策(https://developer.twitter.com/en/developer-terms/agreement-and-policy) 。请注意,我们不会出于非研究目的共享数据。
我们对所有基于特征的模型都使用带有径向基函数(RBF)内核的支持向量机(SVM)(Joachims,2002)。我们提取三种类型的语言特征:(1)单词袋(BOW); (2)主题; (3)语言查询和单词计数(LIWC),遵循与计算社会科学最新工作类似的方法(Rashkin等人,2017;Pérez-Rosas等人,2018; Zhang等人,2018; Holgate等人)等(2018年):
我们使用BOW将每个用户表示为TF-IDF加权分布,分布在20,000大小的词汇表中,其中最常见的是unigram,bigrams和trigram。我们仅考虑n-gram出现在总用户中的5%以上且不超过40%。
我们还将在Twitter语料库上计算并由Preoţiuc-Pietro,Lampos& Co.提供的200个通用词簇(主题4)的分布中代表每个用户。 Aletras(2015)展示了用户讨论的主题主题。
我们最终代表了93个心理语言类别分布中的每个用户,这些类别由《语言查询和单词计数(LIWC)2015词典》提供的单词列表表示(Pennebaker,Francis& Booth,2001)。
然后,我们使用三种类型的功能训练SVM:SVM-BOW,SVM-Topics和SVM-LIWC分别或组合使用(SVM-All)。
作为我们的第一个神经模型,我们使用一个简单的前馈网络(Avg-EMB),该网络将用户所有标记化推文的级联作为输入。首先,将来自用户推文中的单词映射到嵌入中,以计算平均嵌入,该平均嵌入表示用户发布的文本内容。随后,将平均嵌入通过S型激活函数传递到输出层,以进行二进制分类。
此外,我们训练具有自我注意力的双向门控循环单元(Cho等,2014)(Xu等,2015)(BiGRU-ATT)。 5输入首先映射到词嵌入中,然后通过BiGRU层传递。将用户内容嵌入计算为通过自我注意得分加权的结果上下文感知嵌入的总和。然后将用户内容嵌入传递到输出S型层。
通用语言模型微调(ULMFiT)(Howard& Ruder,2018)是一种转移学习方法,使用平均随机梯度下降权重下降的短期短期记忆(AWD-LSTM)(Merity,Keskar& Socher,2017年)使用语言建模目标对大型语料库进行了预训练的编码器。按照ULMFiT的标准适应过程,我们首先使用数据集对AWD-LSTM进行语言建模,然后通过替换输出层使分类器适应二进制任务。最终,我们使用Howard& amp;所提出的逐步解冻方法对ULMFiT进行了微调。鲁德(2018)。
Deep Bidirectional Transformers(BERT)(Devlin等,2018)是一种基于Transformer网络(Vaswani等,2017)的最新蒙版语言模型,已在大型语料库上进行了预训练,例如Books Corpus和英文维基百科。给定BERT的最大输入序列长度为512,我们首先使用BERT的截短版本(T-BERT),该版本仅将每个用户的前512个单词作为输入。对于特定的二进制分类任务,我们在通过BERT传递输入而获得的用户上下文嵌入的基础上,添加具有S型激活的完全连接层。
为了考虑所有可用的文本信息,我们还采用了BERT(H-BERT)的分层版本,因为大多数用户的串联推文超过512个字。在这里,每个输入被分成几个512个长度的字块。每个块的输出在通过与T-Bert中相同的输出层之前,平均为一个向量。
XLNet是类似于BERT的通用自回归语言模型(Yang等,2019),在多个NLP任务中都实现了最先进的性能。 XLNet使用干扰的语言模型目标,而不是BERT中使用的屏蔽语言模型。与基于BERT的模型相似,我们采用XLNet的截短版本和分层版本(即分别为T-XLNet和H-XLNet),以使用S型输出层使它们适应我们的任务。
我们将数据分为训练(70%),开发(10%)和测试(20%)集。开发集用于调整模型的超参数。
遵循与计算社会科学领域最近的工作类似的超参数调整方法(Vempala&Preoţiuc-Pietro,2019; Maronikolakis et al。,2020),我们调整了 ......