算法如何从我们在网上写的东西中识别我们的情绪

2020-09-18 03:50:09

研究人员和公司正在利用计算机来识别我们书面文字背后的情感。虽然情绪分析远不完美,但它设法从海量数据中提取意义-有朝一日甚至可以监测精神健康。

许多人宣布2020年是有史以来最糟糕的一年。虽然这样的描述可能看起来主观得无可救药,但根据一项衡量标准,这是真的。

这个标尺就是Hedonometer,一种计算机化的方式来评估我们的幸福和绝望。它日复一日地在佛蒙特州大学(UVM)的电脑上运行,每天从Twitter上刮下约5000万条推文,然后快速而肮脏地阅读公众的情绪。根据Hedonometer的说法,自2008年开始跟踪以来,2020年是迄今为止最可怕的一年。

Hedonometer是计算机科学家50多年来一直致力于的一项任务的相对较新的化身:使用计算机评估词语的情感基调。为了建造Hedonometer,密歇根州立大学的计算机科学家克里斯·丹福斯不得不教一台机器理解这些推文背后的情感--没有人可能全部读懂它们。这一过程被称为情绪分析,近年来取得了重大进展,并发现了越来越多的用途。

除了测量推特用户的情绪温度外,研究人员还使用情绪分析来衡量人们对气候变化的看法,并测试传统观点,例如,在音乐中,次要和弦是否比大和弦更悲伤(以及悲伤程度有多大)。垂涎顾客感受信息的商家正在利用情绪分析来评估Yelp等平台上的评论。一些人正在用它来衡量员工在工作中内部社交网络上的情绪。这项技术也可能有医学上的应用,比如识别需要帮助的抑郁症患者。

丹福斯说,情绪分析使研究人员能够检查以前耗时且难以收集的大量数据,更不用说研究了。“在社会科学中,我们倾向于衡量容易的事情,比如国内生产总值(GDP)。幸福是一件很难衡量的重要事情。“。

你可能认为情绪分析的第一步是教计算机理解人类在说什么。但这是计算机科学家做不到的一件事;理解语言是人工智能中最臭名昭著的难题之一。然而,书面文本背后有丰富的情感线索,即使不理解单词的意思,计算机也可以识别这些线索。

最早的情感分析方法是字数统计。这个想法很简单:计算正面单词的数量,减去负面单词的数量。一个更好的衡量标准可以通过加权得到:例如,“优秀”比“好”表达了更强烈的情感。这些权重通常由人类专家分配,是创建情感分析经常使用的词到情感词典(称为词典)的一部分。

但是字数统计有其固有的问题。其一,它忽略了词序,把句子当作一种词炖肉。而且,字数统计可能会遗漏上下文特定的提示。想想这篇产品评论:“我很高兴我的iPhone和我的旧的丑陋的Droid完全不一样。”这句话有三个消极的词(“什么都没有”,“老”,“丑陋”),只有一个积极的(“快乐”)。当一个人立刻意识到“老”和“丑”指的是不同的电话时,对计算机来说,它看起来是负面的。而比较带来了额外的困难:“不像”是什么意思?这是否意味着演讲者没有将iPhone与Android进行比较?英语可能会如此令人困惑。

为了解决这些问题,计算机科学家们越来越多地转向更复杂的方法,将人类完全排除在圈子之外。他们正在使用机器学习算法,教计算机程序识别模式,比如单词之间有意义的关系。例如,计算机可以了解到诸如“岸”和“河”之类的词对经常一起出现。这些联想可以给出意义或情绪的线索。如果“bank”和“money”在同一句话里,那很可能是另一种银行。

2013年,谷歌大脑(Google Brain)的托马斯·米科洛夫(Tomas Mikolov)应用机器学习构建了一种名为单词嵌入的工具,这是此类方法的重要一步。它们将每个单词转换成一个由50到300个数字组成的列表,称为向量。这些数字就像描述一个单词的指纹,特别是它倾向于与之打交道的其他单词。

为了获得这些描述符,米科洛夫的程序查看了报纸文章中的数百万个单词,并试图根据之前的单词预测文本的下一个单词。米科洛夫的嵌入可以识别同义词:像“钱”和“现金”这样的词有非常相似的向量。更微妙的是,单词嵌入捕捉到了基本的类比-例如,国王对于女王就像男孩对于女孩一样-尽管它不能定义这些词(考虑到这样的类比是SAT考试评估成绩的一部分,这是一个非凡的壮举)。

米科洛夫的单词嵌入是由所谓的具有一个隐藏层的神经网络产生的。松散地模仿人脑的神经网络使机器学习取得了惊人的进步,包括AlphaGo(它学会了比世界冠军更好地下围棋)。米科洛夫的网络是一个刻意肤浅的网络,因此它可以用于各种任务,如翻译和主题分析。

更深层次的神经网络,具有更多的“皮层”,可以提取更多关于特定句子或文档上下文中单词情绪的信息。一个常见的参考任务是让计算机阅读互联网电影数据库中的电影评论,并预测评论者是赞成还是反对。最早的词典方法达到了大约74%的准确率。最复杂的人达到了87%。就在2011年,第一批神经网络的得分为89%。今天,它们的准确率超过94%-接近人类的准确率。(幽默和讽刺仍然是很大的绊脚石,因为书面文字可能从字面上表达了与原意相反的情绪。)。

尽管有神经网络的好处,基于词典的方法仍然很受欢迎;例如,Hedonometer使用了词典,丹福斯并不打算改变它。虽然神经网络对于某些问题可能更准确,但它们是有代价的。光是训练期就是你可以要求计算机完成的计算最密集的任务之一。

沃顿商学院(Wharton School)的罗伯特·斯汀(Robert Stine)在“2019年统计及其应用年度评论”(The 2019年度Review of Statistics and It Applications)中介绍了情绪分析的演变,他说:“基本上,你会受到电力供应的限制。”“谷歌训练AlphaGo用了多少电?我听到的笑话是,足以沸腾海洋,“Stine说。

除了电力需求,神经网络还需要昂贵的硬件和技术专业知识,而且缺乏透明度,因为计算机正在计算如何处理任务,而不是遵循程序员的明确指令。伊利诺伊大学芝加哥分校的刘兵(Bing Liu)是情感分析的先驱之一,他说:“用词典修复错误更容易。”

虽然情绪分析通常属于计算机科学家的职权范围,但它在心理学中有着深厚的根基。1962年,哈佛大学心理学家菲利普·斯通(Philip Stone)开发了第一个用于心理学的计算机化通用文本分析程序General Inquirer;20世纪90年代,社会心理学家詹姆斯·彭尼贝克(James Pennebaker)开发了一个早期的情感分析程序(语言查询和字数统计),以了解人们的心理世界。这些早期的评估揭示并证实了专家们长期观察到的模式:被诊断为抑郁症的患者有不同的写作风格,比如更频繁地使用代词“我”和“我”。他们更多地使用带有负面影响的词语,有时也更多地使用与死亡相关的词语。

研究人员现在正在通过分析社交媒体帖子来探索心理健康在演讲和写作中的表达。例如,丹福斯和哈佛心理学家安德鲁·里斯(Andrew Reess)分析了被正式诊断为抑郁症或创伤后应激障碍的人的Twitter帖子,这些帖子是在诊断之前撰写的(经参与者同意)。抑郁症的迹象早在九个月前就开始出现了。Facebook有一种算法可以检测似乎有自杀风险的用户;人类专家会审查这些案例,如果有必要的话,会向用户发送提示或求助电话号码。

然而,社交网络数据距离用于患者护理还有很长的路要走。隐私问题显然令人担忧。此外,要证明这些分析有多有用,还有很多工作要做:西北大学(Northwest University)以人为中心的计算专家史蒂维·钱克尔(Stevie Chauer)说,许多评估精神健康的研究都没有正确定义自己的术语,或者没有提供足够的信息来复制结果。他最近与人合著了一篇关于75项此类研究的综述。但她仍然相信情绪分析可能对临床有用,例如,在对新患者进行分诊时。即使没有个人数据,情绪分析也可以识别趋势,比如大流行期间大学生的总体压力水平,或者引发饮食障碍患者复发的社交媒体互动类型。

情绪分析也在解决更轻松的问题,比如天气对情绪的影响。2016年,现供职于柏林马克斯·普朗克人类发展研究所(Max Planck Institute For Human Development)的尼克·奥布拉多维奇(Nick Obradovich)分析了Facebook和Twitter上的约20亿条帖子和10亿条帖子。一英寸的降雨使人们表达的幸福感降低了约1%。低于冰点的温度降低了大约两倍的量。在一项更令人沮丧的后续研究中,奥布拉多维奇和他的同事们通过Twitter了解人们对气候变化的感受。他们发现,在经历了大约五年的升温后,推特用户对“正常”的感觉发生了变化,他们不再发关于热浪的推文。尽管如此,数据显示,用户的幸福感仍然受到影响。“这就像煮青蛙,”奥布拉多维奇说。“这是我做过的所有论文中最令人不安的实证发现之一。”

周一被誉为一周中最糟糕的一天,调查的时机也已经成熟。丹福斯的Hedonometer对推特的早期分析发现,尽管“星期一”是平日里引起最多负面反应的名字,但周二实际上是人们最悲伤的一天。当然,星期五和星期六是最快乐的日子。但在2016年美国总统大选后,周度模式发生了变化。丹福斯说,虽然可能还是每周一次的信号,但“上面叠加的是吸引我们注意力的事件,人们谈论的不仅仅是生活的基本知识。”翻译:在推特上,政治永不停歇。“一周中的任何一天都可能是最悲伤的,”他说。

另一个受到考验的老生常谈是,在音乐中,大调和弦被认为比小调和弦更快乐。印第安纳大学(Indiana University)计算社会科学专家安永耀(Yong-Yeol Ahn)通过分析12.3万首歌曲每个和弦的歌词情绪,测试了这一观点。大和弦确实与更快乐的词语有关,6.3,而小和弦为6.2(1-9分)。尽管差异看起来很小,但它大约是圣诞节和正常工作日在Hedonometer上情绪差异的一半。安还比较了各种流派,发现20世纪60年代的摇滚是最快乐的;重金属是最负面的。

商界也在使用这一工具。情绪分析正被公司广泛使用,但许多人并不谈论它,因此很难准确地衡量它的受欢迎程度。“每个人都是

一些公司使用情绪分析来了解他们的客户在社交媒体上说了什么。一个可能是虚构的例子是,加拿大Expedia在2013年开展了一场营销活动,但以错误的方式疯传,因为人们讨厌刺耳的背景小提琴音乐。Expedia很快用取笑旧广告的新视频取代了恼人的广告-例如,他们邀请了一名心怀不满的Twitter用户砸碎小提琴。人们经常声称,Expedia通过情绪分析提醒了社交媒体的反弹。虽然这很难证实,但这肯定是情绪分析可以做的事情。

其他公司使用情绪分析来跟踪员工满意度,比如通过监控公司内部社交网络。例如,IBM开发了一个名为Social Pulse的程序,该程序监控公司的内部网,看看员工在抱怨什么。出于隐私原因,该软件只查看与整个公司共享的帖子。即便如此,这一趋势还是让丹福斯感到不安,他说:“我担心的是员工的隐私与公司的底线不相称。从道德上讲,这是一件粗略的事情。“。

随着情绪分析变得越来越普遍,道德很可能会继续成为一个问题。公司、心理健康专业人士和任何其他考虑使用它的领域都应该记住,虽然情绪分析是无穷无尽的希望,但兑现这一承诺仍然可能是令人担忧的。作为分析基础的数学是最容易的部分。最困难的部分是理解人类。正如刘所说,“我们甚至不明白什么是理解。”

达娜·麦肯齐(Dana Mackenzie)是加利福尼亚州圣克鲁斯的一名自由撰稿人。他的新书“为什么:因果的新科学”(与朱迪亚·珀尔合著)被“科学星期五”评为2018年最受欢迎的科学书籍之一。

这篇文章最初发表在“可知”杂志上,这是一家独立的新闻机构,来自“年度评论”。订阅时事通讯。