“关联并不意味着因果关系”必须是最多的...... 这是一个重要的点 - "过去ft中的统计趋势...... 据认为,过去半个世纪的最多的Imp Ortan T统计思想是:国家的国家 它们与Mo DERN计算和大数据相关,以及它们如何发展和扩展 在未来的几十年中。 本文的目标是提供思想和讨论 在过去的半个世纪里幸露了很多! 八个想法B Elow代表了基于分类 关于我们的exp挖掘和阅读文献,并不按时间顺序列出或按顺序列出
Imp Ottance。 它们是独立的概念捕获Di FF Eren T有用和一般Dev Elopmen TS 这些想法的EAC H有1970年的凝思者,在理论统计文献中B oth v verious应用的实践。 但每个人都有足够的Elop Ed,在过去的FT Y岁到HA V E 与一组DI FF EREN T群体,HAV E出现在统计数据,经济学,PSYC同源中, 在一些WA y桥接GAP B等,一方面,朴素的因果解释的观察 另一方面,识别与相关性不暗示因果关系。 关键的想法 在假设下,因果识别是p ossible,并且可以说明这些假设
严格地解决了他们,通过设计和分析来解决它们。 辩论继续你的 SP ECI fi CS如何应用因果莫德斯到真实数据,而是在这方面的工作在过去的情况下 Y耳朵允许ED M UCH对因果推理所需的假设进行更多精度,并且在 DI FF EREN T METHO DS用于在DI FF的因果推理HA VE ERENT FIELD。 在计量经济学中 FO CUS在Linear Mo Dels的因果估计中有B ZEEN(IM B in and comgist, E FF ECTS(Cron Bach,1975),在统计数据中,有B ZEEN匹配和其他方法 调整和测量DI FF een治疗和对照组(Rosenbaum和Rubin,
1983年),在计算机科学中,在Mo Del上有B een Researc H用于多个因果归属 尺寸(Pearl,2009)。 在所有这项工作中,有一个B ZEEN一个常见的魔法因果 在反事实或P oTen tial结果方面的问题,这是较早的大步 谢谢谢谢你,布拉德efron,t ow belin,t riv ellore raghunathan,川海刘,桑德格陵兰,如何ard 反事实原因推理的想法和Metho DS在统计中的流行een 过去的统计数据统计趋势使B ZEEN替代数学计算 分析,一个MOV E即甚至是B为本的“大数据”分析的开始。 据最纯洁
计算上定义的统计Metho D是B O Otstrap,在一些估计器中 定义并应用于一组随机重采样的数据集(efron,1979,efron和Tibshirani, 1993年)。 这个想法是将估计视为数据的估算统计数据和数据 一个概念的level,有一个应用程序的预测和重新采样作为基于fundamen tal 1974年),但是在其概括的y中有一些特别是流动的概念思想 简单的计算实施Allo将其与B E立即应用于宽的v ariet y SU FFI的AV AILABILIT Y CIET计算资源也有助于ED,因为它是普通的绩效绩效
(p ossible)dea最终性b etw een通过随机的shu ffl in train的预测器和目标 而不是直接从数据重新采样。 从KNO WN数据中抽样产生MEC HANISI 自20世纪70年代以来,统计统计中的MA JOR C Hange,来自许多DI FF的方向,是这个想法 Fi ToTing A的MO DEL具有大量的参数 - 有时比数据更多的参数 P OIN TS - 使用一些正则化Pro核,以获得稳定的估计并进入o D预测。 这个想法 是为了获得非参数或高参数化的批准H的流动,而AV oide o ver fi tting问题。 正则化可以在参数或参数上实现为P Enalt Y功能
花贴(W AH BA和W老年,1975,W AHBA,1978)和Gaussian Pro Cesses(奥哈拉,1978年),遵循 分类和回归树(Breiman等,1984),神经网络orks(WERB OS,1981,Rumelhart, (Dempster,SC Hatzo FF和W ermuth,1977,Tibshirani,1996,Carv Alho,Polson和Scott,2010),以及 mo dels hav e使用样本大小扩展的功能,以及没有ALWA YS的参数 哈维直接解释,而是是更大的预测系统的一部分。 在BA是的 Approac H先前可以在函数空间中考虑,并在函数上进行Corlesp onding Tibshirani,以及W AIN Wright(2015)将此工作的框架MUCH HAV HAV HAV HAV MUCH作为稀疏的估算
结构,但是我们将正规化视为B Eing更一般,因为它也是暗中莫斯的allo ws b ef fi t to date supp属于数据。 这个W ork的muc h在统计数据之外完成了b een 结构化设置。 在回归上下文中,多级电视eL mo del可以作为特定的 LO CAL和一般信息的部分P o Oling的想法是在数学中遗传的 从嘈杂的数据预测,如suc h,追溯到拉普拉斯和高斯,并在想法中隐含 Galton。 SP ECI FIC CIFICE应用领域的部分P o OLING W(亨德森 等人,1959年),其统计估算问题中的普通相关ANCE在统计估算问题中是GIV EN A
理论B o Ost B y Stein(1955)的工作和詹姆斯和斯坦(1960年),最终鼓舞人心的工作 Melmon,1972)调查抽样(F AY和Herriot,1979)。 林德利和史密斯(1972年)和琳德利 决策理论的实际阳离子,然后这些想法被折叠成回归建模和应用 到结构数据的各种问题(例如,梁和Zeger,1986年和LAX和LAX 菲利普斯,2012)。 F ROM A DI FF的方向,M Ultiv的缩小年龄是赋予的参数 一个SP ECI FIC统计MO DEL或COMPOLATIONC PRO CEDURE,我们更愿意将其视为框架 COM BINED DI FF信息的信息来源,并且在W E愿望的推理时,它会产生
从数据的子集(小区域估计)或概括数据到新问题(Meta-Analysis)。 同样,BA y ESian推断不仅仅是与先前信息相结合的WA y 使用数据,但也是W AY对推理和决策的不确定性Y。 由于Mo DERN计算,莫德·莫德的ADV ances ove of e o of e o of e o ock e e Ecome P oShible。 但这不仅仅是更大的内存,CPU更快,e FFI Cien T矩阵计算,用户友好 过去义的Inno V的统计算法是B EING的意义上的统计 在统计问题的结构的背景下,图案和开发的。 EM算法
(Dempster,Laird和Rubin,1977年,孟和v一个Dyk,1997),Gibbs采样器(Geman和Geman, 1984年,格尔瓦兰和史密斯,1990),粒子(Kitagaw A,1993,Gordon等,1993,Del道德, 等人,2005)在DI FF erent WA YS利用统计的条件Indep恩直结构 等人,1987年)通过统计问题的直接直接与统计问题 - 这些是WERE 在早期的时代采用来计算最小二乘和最大Lik eLiho o D估计。 方法 从生成的mo del而不是ev aluating eliho o d函数,如果分析,可以有用 MakeLiho O D的形式是难以相容的或昂贵的计算(Rubin,1984,T AV Ar'E等,1997,
和新的计算tec hniques op oving do或更复杂的mo dels和new的下降性的思想, Mo Dels使改变Mo Del不需要更改算法实现。 在20世纪40年代通过20世纪60年代,决策理论WAS经常被诬陷为统计数据, Via Utilit Y最大化(W ALD,1949,SA v年龄,1954),差错率Con Trol(T Ukey,1953,Sche FF'E,1959), Follo Wing Up This Work,在海湾Esian决策理论(Berger,1985)和False Disco V射率率分析 (Benjamini和Ho C Hberg,1995)。 决策理论也从外面受到了影响 Shariari等人,2015年)和强化学习(萨顿和2018年),女性H与之相关
A / B在工业和在线学习中的A / B测试中的EXP消除设计的文艺复兴 例如,以努力创建用于控制Rob OTS,生成文本,并播放游戏Suc H. 坚固性的想法是莫德统计的核心,这是我们可以使用的想法 即使他们的假设也不是真的,即使是统计数据的错误 理论是在现实违反这些假设的现实违反这些假设的情况下开发Mo Dels。 早期的 在这个区域中的奥克是由T英国(1960)合成的; 请参阅Stigler(2010)进行历史评论。 下列的 在实践中,在实践中,尤其是经济学,在经济学中,在那里有急性的ex
统计Mo Dels的IMP erfection。 在经济理论中,有“仿佛”分析的想法 经济学和其他如此CIAL科学使得大量使用强大的标准错误(White,1980)和 但总的来说,稳健性在统计研究中的主要影响不是开发人员 特定方法,所以Much在贝尔纳多的统计程序的想法中 fi tted概率mo dels的类。 格陵兰岛(2005年)认为,研究人员应该明确 对传统上包含在统计MO Dels中的错误来源的呼叫T。 担心 统计思想讨论了AB OV E所有in orve某种混合在紧张的理论和强烈的组合中
tation。 F ROM完全不同的方向,有B ZEN A IN IN FLUEND-TO-BASICS MOV EMEN T, Tuck图形令人信服地讨论了通过T UKEY(1977)和T UFTE(1983)中的流体BO OK。 EN vironmen t s(Chamb Bers等,1983),r的前身是目前主导统计数据 Comm unication(CLEV Eland,1985)以及数据科学的一般视图超越统计 理论(Cham B ers,1993,Donoho,2017)。 这是迄今为止悬念的统计莫美的视图 更多关于discovery比在Fixed H yp Otheses上的测试,因此不仅仅是 在SP ECI FIC CIC图形METHO DS的发展中,而且在移动的统计数据中
定理 - 亲戚和W ard是一个更多的op en,我们会为你的角度来看,更健康的pece 从科学中的数据学习。 医学统计数据的一个例子是Bland的MUC H引用的PAP呃 统计图形中固有的比较和数据结构,在Wickham(2016)的WA Y中 W,以实现具有转化统计的r包装的高度血液套装 导致女性统计图形的Pro CESS统计图形的思考可用于了解关系 B等数据,FI TTED MO DEL和预测。 术语“探索性Mo Del分析”(不义, 数据分析Pro CESS的性质,以及e FF ORTS HAV EEN包括在内的可视化
莫德建设和数据分析的ork流动(Gabry等,2019,Gelman等,2020)。 想考虑这些想法将AB o V e列为B e,特别是在他们中的每一个都没有那么muc h 用于解决现有问题的Metho D,作为思考AB统计的新WA ys 把它放在另一个wa y,这些想法中的每一个都是一个co di阳离子,在帐篷里面掌握了一个approac h 在HO的情况下,可以在Unobserved方面精确地定义,因此可以精确定义并表达 根据从数据估计其参数的能力来限制Mo Del的大小, 从数据中,导致使用Suc H Metho DS具有更多的计算和推断的Tial稳定性
其他地区,导致核心思想对统计和MAC HINE学习的更广泛影响。 W AY允许ED正式的EV ALUATY和MO DELING DI FF ERENT PRO CEDURE以其他方式处理 统计学实践,恰逢其于使用这些给OLS到B Etter理解和诊断 新复杂类的问题概率y mo dels,它是b eing fi t到数据。 META-ALGORITHMS-W ORK FLOWS Mak E使用现有的Mo Dels和推理职业秘书处 - 公顷 在过去的FT Y年里,HA VE EEN DEV EROP ED是它们in oveLve拆分数据或Mo Del 一个强大的学习者通过组合弱学习者,可以通过广泛应用,B ey在其中的例子
学习并最终可以将ED视为代表数据和数据的MO DERN视图 New Metho DS Tak E Adv Actiance对OLS的新Metho DS Tak E Advage尚不奇怪:作为计算毫无疑问 在SP EED和SCOP E中,统计学家不再限于与分析解决方案的简单MO DELS 简单的闭合算法,如最小二乘。 W E可以概述HO W所列出的想法 分析 - 直接计算计算SP EED的eD anage,并且不能轻易地在a中想象 导致概率编程,其中在DI FF中具有释放域EXP EXTS 在Mo del Building上的FO CUS并自动完成推理。 这导致了增加
Multiv的收缩年龄可能推理不能仅仅是通过统计的e FFI效率而且 Metho DS,导致统计,经济学中的因果和预测e Mo Deling, 在W AYS中产生了大数据,HAV E启发了新统计的应用和发展 Suc H作为自驾车。 实际上,“数据科学”一词的p opporlit y的一个原因是b被剔除, 在Suc H问题中,数据Pro Cessing和E FFI Ciate Computing CAN B E作为统计的Imp Ortant 这与HAL STERN的说法有关,即统计分析的最具IMP ORTANT ASC ECT 不是你对数据做的,但你使用的数据是什么。 讨论所有想法的一个共同特征
在这个PAP ER中,他们有助于使用更多的数据,与先前现有的批准HES相比: 通用计算算法允许用户更大的Mo dels,因此可以使用 最明的是s(bec ker,chambers和wilks,1988)然后r(ihak a&gentleman,1996), Pyro(STAN DEV ELOPMENT T EAM,2020,T easor FL O W,2020,PYRO,2020)。 所以我们至少可以渗透 一些局部大学的替代和计算Metho DS,如图所示 统计领域。 这种互连的想法可以看到申请最近的Dev Elepments 作为B Eing对Mo Dels根本不感兴趣)? 探索性Metho DS,如剩余地块和悬挂 -
通过SP ECI FIC COL类(添加回归和泊松 引用激发他们的Mo Dels。 人们可以类似地考虑最少的metho d 在其O WN术语上的方块,作为数据的op alation,然后研究生成Pro Cesses的数据类 它将很好地误差,然后使用如此理论分析的结果对PRAN OSE 更强大的专业秘书,延长有用的应用范围Y,无论是基于的 DI FF EREN T治疗P染色中的每个单元,自然地为META-Analytic提供自身 Approac H在其中C必须v ary,而这可以使用M ultilevel回归来使用m
whic h a正常分布或其他参数mo del用于部分p o oling但是nal估计 不限于任何参数形式。 并研究了WAV ELET和其他RIC的规则 CORSESP IND到混合发行版,可以将其视为MultiLeV EL MO DELS,而这些可以是B e 使用Bay ESian推断。 深入学习Mo Dels与多队员的形式有关 回归并涉及Repro Docation Kernel HILB ERT空间,其用于样条曲线和SUPP ORT 可以使用Unkno wn Group oferer制将Mo del框架框架。 在许多情况下,C狗 是否在计算结束时使用海湾ESIAN生成框架DEP,这可以进入B OTH
随着更多数据的思想模型的思想思想的一般实施,因为更多数据B ECOME A V Ailable 它应该诱惑所有这些Metho DS的共同特征是CATC HY名称并转到OD 营销。 但是,我们认为这些Metho DS的名称仅在逃回eect中捕获y。 T erms. suc h为“反事实”,“b o otstrap,”堆叠,“和”b o osting“可以很好地乱画 而不是repreadiv e,而we subsecte则是metho ds的v alue,它已经发表了名字 Inno V的想法经常迎接抵抗,这是一些流动概念的命运 本文讨论。 如果一个新的想法源于申请的文件,它就可以了
符合其V alue的vince科学人员; 非常规范,新的Metho DS可以批评为有用 W E应该澄清B Y“阻力”,W E不一定是指APPIC OPIN。 在 与其他一些学术文件的比较,统计数据不是很逊致:有一个活跃的 - 甚至边缘的想法都允许Ed开发空间。 这里讨论的许多metho ds,suc h为 即使这些想法也面临着抵制 ......