教育心理学家本杰明·布鲁姆(Benjamin Bloom)发现,使用掌握学习进行一对一辅导导致了两西格玛(!)。学生成绩的提高。结果是重复的。他在他的论文中问道,确定了2西格玛问题:我们如何在比一对一辅导更实际(也就是更具可扩展性)的条件下实现这些结果?
在一个相关的脉络中,这项大规模的荟萃分析显示,使用掌握学习的直接教学产生了巨大的(0.5科恩的d)效应。然而,尽管有非常多的研究支持它的有效性,直接注入还没有被广泛接受或实施。
这篇文章是关于布卢姆的两西格玛问题的一般研究,这反过来又涉及到一种教育方法,掌握学习和辅导的审查。我还包括了对基于软件的辅导的回顾。稍后,我从总体上看教育研究、间隔重复和刻意练习,因为这些似乎与本综述的核心主题密切相关,其原因在通读后将会显而易见。
我在这里只关心学生在考试中的表现,而不是教育可能带来的其他好处;我不会详细研究是什么让学生保持动力,是什么让他们感觉良好,是什么让他们更有创造力,或者是什么让他们成为更好的公民。我本可以着眼于更长期的成功衡量标准(例如晚年的收入),但我找不到这样的研究。
一般而言,除非另有说明,否则在这里讨论效果大小时,效果大小是正在讨论的干预与一切照旧的情况下,使用学校使用的任何教育方法的影响大小。
本杰明·布鲁姆(Benjamin Bloom)几十年前发现,与基线班相比,个别辅导使学生的表现提高了两个标准差,这是一个巨大的效应。由于1:1辅导非常昂贵,他想知道是否有接近这种效果的方法适用于较大的教室。找到这样一种方法就是两西格玛问题。而掌握学习似乎是解决这个问题的有希望的方法。
从上面引用的元分析来看,直接教学最初是由西格弗里德·恩格尔曼在60年代开发的教学计划,它假设任何学生都可以学习任何给定的材料,这将在以下情况下发生。
这听起来没有那么有帮助;幸运的是,国家直接教学研究所有更多的信息。
DI有四个主要功能,可确保学生比任何其他可用的程序或技术更快、更有效地学习:
学生们被安排在他们的技能水平上授课。当学生开始这个项目时,每个学生都会接受测试,以找出他们已经掌握了哪些技能,以及他们需要学习哪些技能。由此,学生与其他需要学习相同技能的学生被分组在一起。这些小组是按适合学生的课程级别组织的,而不是按学生所在的年级级别组织的。
节目的结构设计是为了确保对内容的掌握。该计划的组织方式是逐步引入技能,让孩子们有机会学习这些技能,并在被要求学习另一套新技能之前加以应用。每节课只有10%是新材料。每节课剩余90%的内容是复习和应用学生已经学到但需要练习才能掌握的技能。技能和概念单独教授,然后与其他技能集成到更复杂、更高级别的应用程序中。教学的所有细节都受到控制,以最大限度地减少学生曲解所教信息的机会,并最大限度地增强教学的效果。
教学内容进行了修改,以适应每个学生的学习速度。DI的一个特别奇妙的部分是,学生可以按照他们学习的速度被重新教授或加速。如果他们需要更多的特定技能的练习,教师可以在项目内提供额外的指导,以确保学生掌握这项技能。相反,如果学生很容易获得新技能并需要进入下一阶段,学生可以被转移到新的位置,这样他们就可以继续增加他们已经拥有的技能。
课程在出版前要经过实地测试和修订。DI程序在出版前编写和修改的方式非常独特。所有的DI课程在出版之前都会在真实的学生中进行实地测试,并根据这些测试进行修改。这意味着您的学生正在接受的计划已经被证明是有效的。
请注意,直接指令(标题大小写)与直接指令(小写)不同,在名称中包含直接指令的各种程序,如显式直接指令。除非另有说明,否则我们将在此评论中讨论直接指导。这两种方法都是以教师为中心的,因为教师被视为向学生传授知识的人,而不是,比方说,学生在寻求知识的过程中得到教师的帮助。如上所述,直接教学由国家直接教学研究所管理,而直接教学则不是。
掌握学习不同于直接教学,但精通学习是直接教学的组成部分。这也是Bloom最初研究的方法之一,所以我们在这篇综述中也研究了ML。一个关键区别是ML不需要脚本课程,而DI需要脚本课程。
ML的关键原则很简单,就是迫使学生在学习下一课之前先掌握一课。在每节课结束时,每月或每周对学生的知识进行测试。那些不及格的学生会被安排补习班,他们必须重新参加考试,直到他们掌握为止。这可以在小组环境下完成,就像布鲁姆最初的精通学习(LFM)计划一样,也可以像凯勒的个性化教学系统(PSI)那样单独完成,每个学生都按照自己的速度前进。
这里检查的文献充满了小样本、非随机试验和高度异质性的结果。
一般来说,辅导很可能没有达到布鲁姆建议的2西格玛水平。同样,掌握学习不太可能提供1西格玛改进。但是,高质量的导师和高质量的软件很可能达到2西格玛改进甚至更高的水平。
本文研究的所有方法(掌握学习、直接指导、辅导、软件辅导、刻意练习和间隔重复)都在不同程度上有效,概述如下。
这篇文章涵盖了许多正在教授的科目,也涵盖了许多群体(特殊教育VS普通学校,大学VS K-12)。这里报告的效果大小是作为一般指导的平均值。
与其他方法相比,所研究的方法往往对技能较低的学生更有效。
除了直接指导之外,研究的方法在各级教育中都发挥了作用:没有证据来判断其在大学层面的有效性。
当设定了明确的目标和要学习的事实时,这些方法的效果要好得多。几乎没有证据表明学习迁移:练习或学习X科目并不能提高X科目以外的成绩。
有一些提示性的证据表明,这些方法奏效的潜在原因是增加和反复接触材料、测试效果以及在辅导情况下对表现的细粒度反馈。
长期研究倾向于找到淡出效应的证据,效应大小随着时间的推移而减小。这很可能是因为学到的技能没有得到实践。
评估效果大小是否有意义可能很难。执行此操作的常见方法如下:
但是,应该能够通过使用特定于领域的引用来微调所使用的描述性语言。在这种情况下,根据Hugues&;Matthew(2019年)的研究,一年的学校教育(从5年级到6年级)对阅读成绩的平均影响为d=0.26,来自141个大规模教育干预RCT的平均影响为0.06。正因为如此,我将使用改编自卡夫(2018)的量表:
考虑到这一点,下面是主要结果的总结,以及我能找到的支持这些主张的最好的研究。为了便于比较,我引用了布鲁姆的发现:
*有了真正好的导师和真正好的软件,效果的规模确实可以是巨大的。
**当考虑到对一系列事实的狭隘知识,或在初级水平教授的基本技能时,ML和DI对普通人群的影响可能很大,对弱势学生的影响可能非常大。
本文开头的元分析对文献进行了回顾,指出所有以前的文献、系统综述和元分析都显示出依赖注入的强大、积极的影响。这不是好坏参半的文学作品,它本身就相当令人惊讶,甚至令人怀疑;我很少发现这么好的东西,而且显然没有争议。
正如模因所说,DI/ML是顶峰教育的模样;你可能不喜欢它,但它是事实(就考试成绩而言)。
在20世纪60年代末,DI被接受为项目后续的一部分,这是一项由政府资助的非常大型的研究,比较了多年来在高贫困社区进行的20多种不同教育干预的结果。全国各地的社区选择在他们的学校实施计划,DI由19个不同的地点选择,涵盖了广泛的人口统计和地理特征。外部评估者使用各种比较组和分析技术收集和分析结果数据。最终结果表明,直接投资是唯一对所有结果测量都有显著积极影响的干预措施(Adams,1996;Barbash,2012;Bereiter&;Kurland,1996;Engelmann,2007;Engelmann,Becker,Carning,&Amp;Gersten,1988;Kennedy,1978)。直接投资的开发者曾希望,项目的结论将通过评估者的跟踪,导致项目的广泛采用,但各种政治阴谋似乎导致了只有少数学者和政策制定者知道研究结果。研究结果表明,直接投资是唯一一个对所有结果都有显著积极影响的干预措施(Adams,1996;Barbash,2012;Bereiter&;Kurland,1996;Engelmann,2007;Engelmann,Becker,Carning,&;Gersten,1988;Kennedy,1978。
其中一些干预措施是(我以前从未听说过):直接指导、家长教育、行为分析、西南实验室、银行街、响应性教育、TEEM、认知课程和开放教育。
与传统的学校教学相比,其中大多数实际上导致了相当低的表现。这支持了这样的观点,即至少在后续跟踪所衡量的指标上,教育方法的选择是重要的。特别是,表现最差的开放教育听起来像是时髦的老师们会觉得很酷的东西:
专注于培养孩子对自己学习的责任感。阅读和写作不是直接教的,而是通过激发交流的欲望来教的。灵活的时间表,以孩子为导向的选择,以及对强烈的个人参与的关注,这些都是这种模式的特点。
在荟萃分析中发现的效应大小约为0.5,这在社会科学中被认为是相当高的。
这篇论文还考察了不同研究之间结果的变异性。由于方法不同,可能是由于劣质研究过多,估计被夸大了。但是,即使控制了你认为你可以控制的一切,影响仍然存在,或者说他们声称是这样的;控制变量几乎没有减少它:这似乎是一个非常强大的影响,无论你如何分割数据都会显示出来。
就荟萃分析而言,这是好的,也许太好了。我想起了达里尔·贝姆(Daryl Bem)现在臭名昭著的荟萃分析(Meta-Analysis),他关于一些人能够预见未来的可能性。如果基础文献不好,那么荟萃分析将产生有偏见的估计。
一个广泛的批评,更多的是警告,关于DI的大部分文献都是由国家直接教学研究所(NIDI)的相关人员撰写的,包括本文开始时的元分析;也就是说,元分析本身发现NIDI赞助的研究与其他研究没有区别。
这里有一位教育学教授说,可以肯定的是,DI按照它的设计目的工作,但他认为,代价是一个缺乏创造力、欢乐和自发性的环境。他没有为此提供证据,这些也没有在之前的荟萃分析中进行测试。
教育研究员阿尔菲·科恩(Alfie Kohn)在一篇文章中批评了DI,从后续研究开始。他还提到,在他引用的某些情况下,DI技术导致学生对材料有很好的了解,但无法更深入地理解或概括。
Eppley&Amp;Dudley-Marling(2018)发现了DI文献的不足。他们查看了2002至2013年间发表的研究成果,发现这些文献的质量很低,声称它根本不起作用,除非是在极少数情况下,效果很小。但他们似乎没有量化这一点,这不是一个荟萃分析,他们也没有评论之前的系统评价和荟萃分析确实发现了积极的影响。
What Works Clearinghouse审查了7项关于直接教学的研究,其中只有一项被认为足够好,可以纳入他们的证据摘要。他们的结论是它没有任何效果。这项研究是一项随机对照研究,有164名学龄前水平(平均年龄~5岁)智商非常低(平均76岁)的学习障碍学生参加。
正如人们可能想象的那样,NIDI的人们有一个专门的页面来回答上面的问题。现在,考虑到WWC没有审查那么多的研究,而且他们所关注的研究是一个非常不典型的样本,我打算忽略这一点,看看更多的研究。
我不得不提到,元分析的作者之一与人合著了一篇论文(Stockton&;Wood,(2016)),他们在论文中质疑在评估证据质量时是否应该优先考虑随机对照试验(RCT)。
表1在荟萃分析中,讨论的效应大小(平均为~0.5)在该值附近具有紧密的置信区间。但是,当我们到了表3,讨论研究设计对效应大小的影响时,我们发现随机研究的影响是相当负面的,对初始分数或智商进行调整也是如此。样本量本身并没有太大的影响。
让我们试着看看最好的研究,看看我们能找到什么。他们提到有他们看过的具体研究的附录,但我无法访问它。
寄养儿童,在教育上处于不利地位。6-13岁。采用小组(4名学生)辅导。使用(D)irect(I)指令的RCT。
.25在配对研究中,RCT最高为1.18。在所有情况下,处于不利地位的学生,在1.18的情况下,是智力落后的学生。RCT是一篇未发表的博士论文。
我正在抽样一些,但不是挑剔:出现了一种模式:大多数DI研究都是在贫困学生身上进行的。正如我们稍后将在掌握学习中看到的那样,教育方法对那些技能较低的孩子有更大的影响,这是可能的,而且确实是这样的。在Stockard的荟萃分析中,提到了1999年的一次回顾,重点是通识教育,而不是弱势学生,但除了DI的创始人亚当斯和恩格尔曼(1996)1996年的一本书外,他们没有引用任何具体的论文。他们发现,平均效果为0.87,在普通教育和特殊教育之间没有太大区别,对成年人的影响更大(超过1西格玛)。
但是,考虑到这一效应是后来荟萃分析中发现的两倍,这让你对文学的质量产生了怀疑。回顾文献后,似乎确实有一些证据表明,DI对低技能儿童有影响,这种影响可能不超过0.4。对于普通孩子来说,我们没有太多的工作要做。这可能是DI没有在一般情况下得到更广泛采用的原因之一。
掌握学习最广为人知的大规模实施是可汗学院。目前正在进行随机对照试验,没有显示有意义的效果。
由罗伯特·斯莱文(Robert Slavin)维护的最佳证据百科全书,是一个收集教育中有效证据的网站,它对不同的数学教学方法进行了审查,发现在初中/高中没有效果,而且对小学产生更大影响的证据有限。(他们只包括5项研究,影响大小从-0.18到1.08不等)。
鉴于上述情况,这听起来可能令人惊讶。但一个可能的解释是,所有这些研究使用的方法并不完全相同。有了直接指导,我们有一个协会来管理什么是直接投资,以及如何准确地进行直接投资。在掌握学习的情况下,到底什么重要,什么不重要,这是不清楚的。
关于掌握学习的元分析文献可以追溯到1983年,也就是那个时期的最后一项研究,Kulik等人。(1990)发现对于能力较差的学生的效应量较大(d=0.61),对于能力较强的学生的效应量为中等(d=0.4),并指出这两组学生之间的差异在他们的样本中没有统计学意义。这项荟萃分析涵盖了从几周到几个月的课程,K-12教育和大学,以及各种科目和掌握水平(ML的一些变体要求完美,其他的可以通过80%的测试进入下一单元)。就像布鲁姆的研究一样,要求更严格的掌握学习方法会产生更好的结果,最大的差异似乎是81-90和91-100研究之间的差异。换句话说,将要求从比如70%增加到80%并不能起到多大作用,但是增加到90%或100%(完美性)会起到很大作用。重要的是,结果根据学生的测试方式有很大的不同,这是我们将在下一节中讨论的话题。当只考虑标准化测试,而不是由教师或实验者自己设计时,效果大小很小(0.08),而那些使用实验者/教师进行测试的人得到了更令人印象深刻的0.5。如果只包括布鲁姆设计的掌握学习计划(Learning for Master,LFM),效果大小上升到0.59。
库克等人。(2013)研究了将掌握学习应用于医学教育,涵盖了82项研究,发现技能有很大改善(ES=1.29),对患者结果的改善中等(ES=0.73)。研究结果是高度不同的,因此作者警告说,他们必须在个案的基础上进行解释。如果这是真的,这对医疗保健来说将是个好消息!
在对掌握学习最常见的一般性评价中,Guskey(2015)的评价也是有利的。有一个例外的普遍有利的系统评价和荟萃分析,斯莱文(1987),他选择了一个子集的文学,他认为是较高的质量,发现几乎为零的影响。后来的研究不断发现积极的影响;古斯基将读者3推荐给库利克等人。至于为什么很多人认为斯拉文的评论不好。在这里停下来解释一下斯拉文的批评是什么,回复是什么,这是很有用的,我将在下一节做这方面的工作。我先回顾一下其他的荟萃分析。
Summaedu.org汇编了其他的荟萃分析。奇怪的是,库利克(1983)早些时候的一项荟萃分析也发现了一个很小的效应量(0.05),这与斯莱文在1987年晚些时候的论文中发现的结果相似。耳朵。
.