由新泽西州普林斯顿普林斯顿大学 Susan T. Fiske 编辑,并于 2021 年 6 月 15 日获得批准(于 2021 年 2 月 1 日收到审核)患有抑郁症的人容易出现适应不良的思维模式,称为认知扭曲,他们会思考自己、世界和未来以过于消极和不准确的方式。这些扭曲与个人情绪、行为和语言的显着变化有关。我们假设社会可以经历类似的集体心理变化,这些变化反映在语言使用的历史记录中。在这里,我们调查了过去 125 年中超过 1400 万本书籍中认知扭曲的文本标记的流行情况,并观察到自 1980 年代以来它们的流行程度激增,达到超过大萧条和两次世界大战的水平。这种模式似乎不是由词义、出版和写作标准或 Google 图书样本的变化驱动的。我们的研究结果表明,最近的社会转向与认知扭曲和内化障碍相关的语言。抑郁症是造成全球残疾负担的主要因素 (1, 2)。一些证据表明,在过去的几十年里,由抑郁症引起的残疾一直在增加,尤其是在年轻人中 (3 ⇓– 5)。随着时间的推移,社会是否会集体变得或多或少沮丧,因为他们的人口面临战争、政治动荡、经济崩溃、粮食不安全、不平等和疾病等压力因素 (6, 7)?这个问题很难在很长一段时间内回答,因为正式的诊断标准是在 40 年前才引入的,并且这些标准随着时间的推移发生了变化(8)。抑郁症与独特且可识别的适应不良思维模式有关,称为认知扭曲,其中个人以不准确和过于消极的方式思考自己、未来和世界 (9 ⇓ ⇓– 12)。例如,当个体用消极的、绝对主义的术语(例如,“我是一个失败者”)给自己贴上标签时,就会出现抑郁症中的认知扭曲。他们可能会用二分法、极端的术语谈论未来事件(例如,“我的会议将是一场彻头彻尾的灾难”)或对其他人的心态做出毫无根据的假设(例如,“每个人都会认为我是个失败者”)。认知扭曲的类型通常区分许多部分重叠的类型,例如“灾难化”、“二分推理”、“否定积极的”、“情感推理”、“算命”、“标记和错误标记”、“放大和放大”。最小化”、“心理过滤”、“读心术”、“过度概括”、“个性化”和“应该陈述”。认知行为疗法 (CBT) 是治疗抑郁症和其他内化障碍的黄金标准 (13),其基础理论认为认知扭曲与内化障碍有关;它们反映了环境压力下的负面情感和回避行为模式 (14, 15)。语言与这种动态密切相关。事实上,最近的研究表明,患有内化障碍的个体在他们的语言中表现出更高水平的认知扭曲 (16, 17),以至于他们的患病率可能被用作抑郁症易感性的指标 (18, 19)。在这里,我们利用抑郁症和语言之间的联系来研究整个社会是否与抑郁症患者类似,是否会发生与认知扭曲相关的集体语言变化。我们分析了过去 125 年中大量认知扭曲标记的流行情况,该集合包含超过 1400 万本以英语、西班牙语和德语出版的书籍(谷歌图书)。具体来说,我们正在研究由 CBT 专家、计算语言学家和双语母语人士组成的团队设计的数百个 1 到 5 个单词 (n-gram)、标记的认知失真图式 (CDS) 的纵向流行情况,以及由 CBT 专家小组外部验证,以捕捉 12 种认知扭曲类型的表达 (9)。 CDS n-gram 被设计为简短、明确和独立的语句,使用频率很高的术语表达特定认知扭曲类型的核心(图 1 和 SI 附录,表 S1-S3)。例如,3-gram 的“I am a”捕获了标签和错误标签失真,而不管其上下文或所涉及的精确标签(“女士”、“尊贵的人”、“失败者”等)。较早的研究表明,与随机样本相比,这些相同的 n-gram 在抑郁症患者的语言中更为普遍 (17)。为了说明出版量的变化,对于每个 CDS n-gram,我们将其在给定年份的流行率定义为该年在 Google 图书数据中出现的次数除以出版总量(从句尾估计)标点符号)。所有生成的时间序列都转换为 z 分数,以提供不同 CDS n-gram 之间相同的比较尺度,并与相同年份和书籍集(材料和方法)随机选择的 n-gram 的空模型进行比较。
我们对三个独特的地理和语言领域进行了分析:1) 美利坚合众国(美国英语),2)德语国家(德语),以及 3)所有西班牙语国家(西班牙语)。英语(美国)、西班牙语和德语被选为我们分析的焦点,因为它们具有共同的字母表、共同的历史,并且在特定地理区域(美国书籍仅和德语国家)或跨越几个大洲(西班牙语)作为控制。我们将我们的分析限制在 1855 年到 2019 年的范围内,因为它为所有三种语言提供了 125 年的持续高出版量,并且几乎没有影响我们分析的语法、正字法或拼写变化。尽管在特定地理区域以特定语言出版的书籍不一定是整个社会的代表性反映,但从数千万本书中观察到的数十年和数百年来持续的语言趋势在先前的研究中已被证明表明文化,语言和心理变化(18, 20 ⇓ ⇓ ⇓ ⇓ ⇓ ⇓ ⇓– 28)。我们首先检查了从 1855 年到 2019 年英语(美国)书籍(N = 9,018,119,仅美国)中整套英语认知失真图式(n = 241)的中位流行率(z 分数)的历史(图 2)。 2 A)。由于这些数据仅与在美国出版的书籍有关,我们标记了美国历史上的显着事件或时间序列的显着变化:1899 年世纪末;第一次世界大战的开始; 1929 年的金融崩溃;第二次世界大战的开始; 1968 年 CDS 流行高峰; 1978 年、1999 年和 2007 年有明显的趋势变化。 20 世纪大部分时间 CDS 患病率的总体趋势明显下降到 1978 年的历史最低点,只有几个明显的峰值,一个是在 1899 年的世纪之交(可能与美西战争有关),1940 年至 1945 年(二战前后)略有高峰,1968 年达到高峰(可能与社会和政治动荡有关)。从 1978 年开始,我们观察到 CDS 患病率在加速增加。这种加速似乎分为三个时期:1978 年至 1999 年的加速增长(CDS 流行率首次超过 1910 年代观察到的水平),1999 年至 2007 年之后更快的增长,随后是 2007 年之后的加速增长,以及2010 年可能趋于稳定。所谓的“互联网泡沫破灭”似乎与 1999 年之后 CDS 流行率的加速增长相吻合,而 2007 年以来的加速似乎与社交媒体的广泛采用和开始大萧条时期。目前的 CDS 流行水平比 1900 年代以来观察到的水平高出几乎两个标准差(1899 年的峰值除外)。我们在分析中将西班牙语与英语(美国)和德语作为对照,因为它不限于特定的地理区域;即,这些数据包括所有以西班牙语出版的书籍,其中包括西班牙(欧洲)和拉丁美洲的大部分地区(N = 1,658,438 本书)。西班牙 CDS 标记(N = 435 n-gram)的流行在整个 20 世纪保持相当稳定,在第一次世界大战开始前后温和增加,1929 年出现非常短暂的温和峰值,并从 30- y 在 1953 年呈下降趋势,此后水平似乎在 1984 年之前趋于平稳(图 2 B)。然而,从 1984 年开始,我们观察到与英语(美国)相同的曲棍球棒模式:从 1984 年开始的上升趋势急剧加速,导致目前的 CDS 流行水平超过历史基线超过一个标准差.这种趋势似乎在 2008 年加速。德语(图 2 C)书籍(N = 3,843,962)的流行模式为我们的 CDS 标记(N = 296 n-gram)捕捉重要压力时刻的能力提供了表面效度在人口中,因为它们与德语国家(主要是德国和奥地利)特有的重大历史和地缘政治事件相匹配。与英语和西班牙语 CDS 相反,流行水平在 1900 年代左右开始相对较低,但自第一次世界大战开始以来急剧增加,在 1920 年和 1923 年达到顶峰,恰逢德国第一次世界大战的后果和德国的毁灭性衰退。 1923. 在魏玛共和国存在的整个过程中,我们观察到 CDS 标记物的水平下降。然而,这一趋势在 1932 年被中断,此时认知失真水平急剧增加。这一时期包括重大的社会动荡、经济斗争、魏玛共和国的终结、纳粹政权的出现以及第二次世界大战的开始。 CDS 的流行水平在二战期间迅速增加,在 1946 年达到顶峰,即德国战败后的第二年。 CDS 患病率此后急剧下降,并在 1950 年代至 2007 年期间达到稳定的稳定状态,1962 年只有一个小高峰,并且没有迹象表明 CDS 患病率在 1970 年代或 1980 年代加速,正如我们在英语(美国)和西班牙语中观察到的那样。值得注意的是,在 2007 年全球大衰退开始时,我们看到 CDS 患病率几乎立即增加到比历史平均值高出近两个标准差。我们比较了所有三种语言在英语(美国)、西班牙语和德语的 CDS 流行率(材料和方法,引导)的 95% 置信区间方面的变化模式与 10,000 组随机选择的 241 个 n -克(图3)。这些随机 n-gram 集是从相应的英语、西班牙语和德语 Google n-gram 语料库中的所有 n-gram 中采样的,因此它们具有与相应 CDS 集相同的 1 到 5-gram 数量和相同的由于出版量随着时间的推移而增加(材料和方法,空模型),对最近出版的书籍的偏见。
我们提供了标注图表中影响三个人群的重大历史事件的注释,例如 1929 年的金融危机(“华尔街崩盘”)、两次世界大战和 2007 年开始的大衰退。近几十年来,英语(美国)、西班牙语和德语显着超过了这种零模型,但在第一次世界大战和第二次世界大战期间,德国也是如此。请注意,从 1920 年代到 1990 年代,英语(美国)水平低于零模型的水平(SI 附录,图 S6)。我们绘制了由 12 种普遍认可的英语(美国)、西班牙语和德语的认知扭曲类型(14)分隔的年度平均 CDS 患病率的时间序列(图 4)。对于所有三种语言和大多数认知扭曲类型,我们看到 CDS 流行水平稳定或下降的特征曲棍球签名,随后在 1980 年至 2010 年期间飙升至高于历史水平,远高于历史平均水平。一个例外是 should 语句,由于它们的语法结构,它可能难以转换为与特定认知扭曲唯一相关的 n-gram。对于英语,我们经常看到“倾斜曲棍球棒”模式,其中某些类型的 CDS n-gram 在 20 世纪下降,然后自 1978 年以来迅速流行。这就是算命、过度概括、放大和最小化、读心术的情况,以及标签和错误标签,也许在二分推理中最为明显,这表明这些失真类型可能是整个 20 世纪观察到的 CDS 流行率下降的原因(图 2A)。我们还发现,在美国卷入二战期间,灾难化、情绪化推理和读心术都出现了轻微的峰值。然而,对于德国人来说,我们看到围绕第一次世界大战和第二次世界大战的二分推理、算命、标签和错误标签、心理过滤、读心术、过度概括、个性化和应该陈述的高峰,可能表明两次世界大战的广泛影响关于德语的使用。由于我们的观察可能是由多种影响和偏见引起的,因此我们进行了许多缓解控制和敏感性分析,以测试对观察到的模式的替代解释。我们警告说,CDS n-gram 的含义或语义变化的变化可能会影响我们的结果。作为修辞的例子,1-gram“ever”可能随着时间的推移获得不同的含义或用法,因此失去其作为二分类型认知扭曲标志的意义。我们执行多项控制措施以应对语言随时间的变化。首先,CDS n-gram 主要由自 1895 年以来出现频率最高的单词组成[所有 1-gram 中的平均单词百分位数 M ( P r ) = 99.885 , SD = 0.346; SI 附录,图 S1]。自 1895 年以来,CDS n-gram 同样是最常见的 [平均 CDS n-gram 百分位数在所有 2 到 5 克 M ( P r ) = 0.946 , SD = 0.010; SI 附录,图 S2]。 Hamilton、Leskovec 和 Jurafsky (25) 使用词嵌入量化了历史时间的语义变化,表明频繁词经历的变化率最低,按词频的逆幂律进行缩放。因此,我们的 CDS n-gram 和 CDS n-gram 本身中单词的语义转移率也可能是最低的。其次,句子更短的趋势 (29) 可能为我们的观察提供另一种解释,但尽管英语的句子长度从 1890 年到 1920 年代确实减少,但自 (30) 以来一直保持稳定。此外,我们的分析通过将 n-gram 流行率归一化为当年句末标点符号的频率来解释句子长度的变化(材料和方法,时间序列:流行率和归一化)。最后,我们之前表明,CDS n-gram 在抑郁症患者的语言中的流行不受 n-gram 的情感效价或人称代词的存在的影响 (17);因此,趋向于更情绪化的语言或使用人称代词的语言趋势不太可能影响我们的结果。我们的 Google 图书示例可能会出现几个问题。首先,佩切尼克等人。 (31) 表明在过去的几十年里,谷歌图书样本中的技术写作和非小说类作品可能有所增加。由于我们的 CDS n-gram 包含可能涉及个人事务的人称代词、常用动词和形容词,如果技术写作和非小说类的数量增加,人们可以假设这可以解释 CDS 流行率的下降。然而,我们观察到相反的情况,CDS 患病率显着增加。其次,CDS n-gram 的选择可能会导致我们的结果出现“新近偏差”,这解释了近几十年来它们流行度的上升。由于自 1895 年以来出版量迅速增加,我们使用一个空模型来控制这种影响,该模型更频繁地从最近的书籍中采样随机 n-gram,从而导致对更新语言的偏见。我们观察到 CDS n-gram 流行率的增加远高于该空模型预测的水平(图 3)。因此,相对于这种空模型,近十年来观察到的 CDS 流行率激增可能无法单独解释新近偏差。
最后,英语(美国)、西班牙语和德语 CDS 集中的所有 n-gram 都发生在 1895 年至 2019 年的每一年,表明它们在整个期间都在持续使用。它们在 1895 年到 2019 年间非常频繁,实际上平均比 Google Books 数据中所有 n-gram 的 94.6%(SD = 0.0103)更频繁(SI 附录,图 S1 和 S2)。我们进一步引导我们的流行率估计,以衡量我们的发现对 CDS n-gram 组随时间随机变化的敏感性(材料和方法,引导)。在整个考虑期间,狭窄的 95% CI 带(图 3)表明我们的观察随着时间的推移具有稳定性。我们警告说,虽然谷歌图书数据已被广泛用于评估文化和语言的转变,并且它们是历史文献中最大的记录之一,但 CDS 的流行是否真正反映了社会语言和社会福祉的变化仍然不确定。 Google 图书样本中包含的许多图书的出版时间或地点的特点是表达自由减少、宣传广泛、社会污名化以及文化和社会经济不平等可能会减少对文献的访问,从而可能降低其反映社会变化的能力.尽管 CDS n-gram 在抑郁症患者中的患病率更高 (17) 并且我们的 CDS n-gram 组成紧密遵循 Beck (9) 建立的认知扭曲框架,但它们并不构成个体诊断标准给作者、读者和公众。也不清楚作者的心理健康状况是否真实反映了社会变化,也不清楚是否发生了文化变化,从而改变了心理健康、认知扭曲及其语言表达之间的关联。虽然语言之间的差异很有趣,但也许最重要的一点是,在最近三个十年中,所有三种语言的认知扭曲表达都有所增加,导致明显的曲棍球模式,表明 CDS 流行水平激增,这作为认知扭曲的词汇标记。我们只能推测这三种语言中观察到的 CDS 流行率激增的可能潜在原因,因为我们的结果没有建立任何因果机制。第一次和第二次世界大战期间德国 CDS 流行率的强劲增长正在验证我们的 CDS n-gram 在动荡时期发出社会动态信号的能力,并与我们的结果是由新近偏差引起的假设背道而驰在我们选择的 CDS n-gram 和 Google Books 示例中。事实上,二战期间和刚结束时 CDS 流行的激增可能是战争经验和国家社会主义宣传有害结合的产物。虽然没有单独的国家社会主义语言 (32),但国家社会主义的话语侵入了许多言论领域,包括日常语言使用,从而使政治议程正常化 (33, 34)。特别是,国家社会主义的话语是由一种强调我们与他们之间分歧的身份语言塑造的 (35),w ......