跳转到导航跳转搜索极值理论或极值分析(EVA)是统计学的一个分支,处理与概率分布中值的极端偏差。它试图从给定随机变量的给定有序样本中评估比之前观察到的事件更极端的概率。极值分析在结构工程、金融、地球科学、交通预测、地质工程等领域有着广泛的应用。例如,EVA可用于水文学领域,以估计发生异常大洪水事件(如百年一遇的洪水)的概率。同样,对于防波堤的设计,沿海工程师会设法估计50年的波浪,并据此设计结构。
第一种方法以求取块极大值(最小值)级数作为初步步骤。在许多情况下,提取年度最大值(最小值)是惯例和方便的,生成年度最大值系列(AMS)。
第二种方法依赖于从连续记录中提取值超过某个阈值(低于某个阈值)的任何时间段所达到的峰值。该方法通常被称为超过阈值的峰值(POT)方法(POT)。
对于AMS数据,分析可能部分依赖于Fisher-Tippett-Gnedenko定理的结果,从而选择广义极值分布进行拟合。[2][3]然而,在实践中,应用各种程序在更大范围的分配中进行选择。这里的定理涉及来自同一分布的非常大的独立随机变量集合的最小或最大值的极限分布。考虑到一年内相关随机事件的数量可能相当有限,对观测到的AMS数据的分析经常导致选择广义极值分布(GEVD)以外的分布也就不足为奇了。[4]。
对于POT数据,分析可能涉及拟合两种分布:一种是针对所考虑的时间段内的事件数量,另一种是针对超出范围的大小。
对于第一种情况,一个常见的假设是泊松分布,超出部分采用广义的帕累托分布。尾部拟合可以基于Pickands-Balkema-de Haan定理。[5][6]。
Novak[7]将术语“POT方法”保留为阈值为非随机的情况,并将其与处理超过随机阈值的情况区分开来。
估计人类能够跑100米短跑的最快时间[12],以及在其他运动项目上的表现。[13][14]
极值理论领域由伦纳德·蒂皮特(Leonard Tippett,1902-1985)开创。蒂皮特受雇于英国棉花工业研究协会,在那里他致力于使棉线变得更坚固。在他的研究中,他意识到一根线的强度是由它最弱的纤维的强度控制的。在R.A.Fisher的帮助下,Tippete得到了三个描述自变量极值分布的渐近极限。埃米尔·朱利叶斯·冈贝尔(Emil Julius Gumbel)在1958年出版的“极端统计”(Statistics Of Extreme)一书中编纂了这一理论,其中包括以他名字命名的冈贝尔分布。这些结果可以扩展到允许变量之间的轻微相关性,但经典理论不能扩展到方差顺序的强相关性。一个特别感兴趣的普适性类是对数相关场的普适性,其中相关性随距离对数衰减。
与极值理论有关的历史上重要出版物的摘要可以在统计中的出版物文章列表中找到。
设X1,…。,Xn{\DisplayStyle X_{1},\dots,X_{n}}是具有累积分布函数F的独立同分布随机变量序列,设Mn=MAX(X1,…。,Xn){\displaystyle M_{n}=\max(X_{1},\dots,X_{n})}表示最大值。
Pr(M n≤z)=Pr(X 1≤z,…。,Xn≤z)=Pr(X1≤z)⋯Pr(Xn≤z)=(F(Z))n.。{\displaystyle{\Begin{Alignment}\pr(M_{n}\leq z)&;=\pr(X_{1}\leq z,\dots,X_{n}\leq z)\\&;=\pr(X_{1}\leq z)\cdots\pr(X_{n}\leq z)=(F(Z))^{n}。
关联指标函数In n=i(Mn>;z){\displaystyle I_{n}=I(M_{n}>;z)}是一个成功概率为p(Z)=1−(F(Z))n{\displaystyle p(Z)=1-(F(Z))^{n}}的伯努利过程,它取决于极端事件的震级z{\displaystyle z}。因此,在n{\displaystyle n}次试验中极端事件的次数服从二项分布,并且直到事件发生的试验次数遵循具有相同阶为O(1/p(Z)){\displaystyle O(1/p(Z))}的期望值和标准差的几何分布。
在实践中,我们可能没有分布函数F{\displaystyle F},但Fisher-Tippett-Gnedenko定理提供了一个渐近结果。如果存在常数序列a n>;0{\displaystyle a_{n}>;0}和b n∈R{\displaystyle b_{n}\in\mathbb{R}}使得。
pr{(M n−b n)/a n≤z}→G(Z){\DisplayStyle\pr\{(M_{n}-b_{n})/a_{n}\leq z\}\right tarrow G(Z)}。
G(Z)∝EXP[−(1+ζz)−1/ζ]{\DisplayStyle G(Z)\Propto\EXP\Left[-(1+\zeta z)^{-1/\zeta}\Right]}
其中ζ{\DisplayStyle\zeta}取决于分布的尾部形状。归一化后,G属于以下非退化分布族之一:
威布尔定律:G(Z)={exp{−(−(z−b a))α}z<;B 1 z≥b{\DisplayStyle G(Z)={\Begin{Cases}\EXP\Left\{-\Left(-\Left({\frac{z-b}{a}}\Right)\Right)^{\Alpha}\Right\}&;z<;b\1&;当Mn{\displaystyle M_{n}}的分布具有有限上界的轻尾时,Zgeqb\end{case}}.。也称为类型3。
甘贝尔定律:G(Z)=exp{−exp(−(z−b a))}∈R。{\displaystyle G(Z)=\exp\Left\{-\exp\Left(-\Left({\frac{z-b}{a}}\right)\right)\right\}{\text{for}}z\in\mathbb{R}}当Mn{\displaystyle M_{n}}的分布具有指数尾部时。也称为类型1。
弗雷谢特定律:G(Z)={0 z≤b exp{−(z−b a)−α}z>;b.。{\displaystyle G(Z)={\Begin{case}0&;z\leq b\exp\Left\{-\Left({\frac{z-b}{a}}\right)^{-\alpha}\right\}&;z>;b.\end{case}当Mn的分布{\displaystyle M_{n}}具有重尾(包括多项式衰减)时。也称为类型2。
一个以上变量的极值理论引入了必须解决的其他问题。出现的一个问题是,必须明确什么构成极端事件。[18]虽然这在单变量情况下很简单,但在多变量情况下没有明确的方法可以做到这一点。基本问题是,虽然可以对一组实数进行排序,但没有一种自然的方法来对一组向量进行排序。
例如,在单变量情况下,给定一组观测值x i{\displaystyle x_{i}},只需取最大值(或最小值)即可直接找到最极端的事件。然而,在二元情况下,给定一组观测(xi,yi){\displaystyle(x_{i},y_{i})},不能立即清楚如何找到最极端的事件。假设已经在特定时间测量值(3,4){\displaystyle(3,4)},并且在稍后时间测量值(5,2){\displaystyle(5,2)}。这些事件中哪些会被认为更极端?这个问题没有统一的答案。
多变量情况下的另一个问题是极限模型没有像单变量情况下那样完全规定。在单变量情况下,模型(GeV分布)包含三个参数,它们的值不是由理论预测的,必须通过将分布拟合到数据来获得。在多变量情况下,该模型不仅含有未知参数,而且还含有理论上没有规定的精确形式的函数。但是,此函数必须遵守某些约束。[19][20]。
作为应用实例,二元极值理论已在海洋研究中得到应用。[18][21]
^LeadBetter,M.R.(1991)。";的基础上建模";的峰值超过阈值(';Peak Over Threshold';Modeling";)。统计和概率通讯。12(4):357-362。电话:90107-3(91)10.1016/01677152。
题名/责任者:Reach and/by J.。(2017年3月)。湖泊生态系统时间序列中的极端事件。湖沼学和海洋学通讯。2(3):63。DOI:10.1002/lol2.10037.。
^J.H.J.Einmahl&;S.G.W.R.Smeets(2009),通过极值理论创造的终极1亿项世界纪录(PDF),蒂尔堡大学中心讨论论文,57,存档于2016-03-12 CS1 Maint:Users Authors参数(链接)。
^D.Gbra is,J.Taylor&Amd;Suter(2002年),“田径运动的趋势和随机波动”,“自然”,12037557,Bibcode:2002Natur.417..506G,doi:10.1038/417506a,hdl:2003/417506a,PMID:2003CS1维护:使用作者参数(链接)。
^D.Gbra is,J.Taylor&Amd;Suter(2007年),“运动记录的演变:统计效应与实际改进”,应用统计杂志,34(5):529-545,DOI:10.1080/02664760701234850,HDL2003/2003CS1 Maint:Users Authors参数(链接)。
Songitruksa,P.;Tarko,A.P.(2006)。安全评估的极值理论方法。事故分析与预防。38(4):811-822。doi:10.1016/j.aap.2006.02.003.。PMID为16546103。
^Orsini,F.;Gecchele,G.;Gastaldi,M.;Rossi,R.(2019年)。环形交叉口碰撞预测:极值理论方法的比较研究。运输计量A:运输科学。15(2):556-572。DOI:10.1080/23249935.2018.1515271.。
^C.G.Tsinos,F.Fukalas,T.Khattab和L.Lai,&34;关于载波聚合系统的信道选择。IEEE通信学报,第一卷。66,No.2,2018年2月)808-818。
书名/作者Deborah://A.A.B·莫顿,I.D.;鲍尔斯,J.。(1996年12月)。多变量近海环境中的极值分析。应用海洋研究。18(6):303-317。电话:00007-2,电话:10.1016/s0141-1187(97)1187。ISSN电话:0141-1187。
^Beirlant,Jan;Goegebeur,Yuri;Teugels,Jozef;Segers,Johan(2004-08-27)。极值统计:理论与应用。威利概率统计系列。英国奇切斯特:John Wiley&;Sons,Ltd DOI:10.1002/0470012382。ISBN为9780470012383。
斯图尔特·科尔斯(2001)。极值统计建模导论。统计中的斯普林格级数。电话:10.1007/978-1-4471-3675-0。ISBN978-1-84996-874-4。ISSN电话:0172-7397。
题名/责任者:The Feld,G.;Ward,G.;Wolfram,J.。(1998年10月)。近海环境中的多元外推。应用海洋研究。20(5):273-295。电话:00027-3,电话:10.1016/s0141-1187(98)1187。ISSN电话:0141-1187。
题名/责任者:Abarbanel,H.;Koning,S.;Levine,H.;MacDonald,G.;Rothaus,O.。(1992年1月),极端事件统计与气候应用(PDF),Jason,JSR-90-30s。
Alvarado,Ernesto;Sandberg,David V.;Pickford,Stewart G.(1998),#34;将森林大火建模为极端事件(PDF),西北科学,72:66-75,存档于2009-02-26。
劳伦斯·巴尔科马(1974年),“大龄剩余寿命”,概率年鉴,2(5):792804doi:10.1214/aop/1176996548,jstor:2959306。
Castillo E.(1988)工程中的极值理论。学术出版社,Inc.。纽约。ISBN电话:0-12-163475-2。
(2005)极值及相关模型及其在工程与科学中的应用,概率统计中的Wiley级数,Hoboken,New Jersey。ISBN电话:0-471-67172-X。
Embrechts P.,Klüppelberg C.和Mikosch T.(1997)为保险和金融的极端事件建模。柏林:春色。
Fisher,R.A.;Tippett,L.H.C.(1928);样本中最大和最小成员的频率分布的极限形式。夏令营。菲尔。SoC.,24(2):180190,Bibcode:1928PCPS.24..180F,DOI:10.1017/s0305004100015681。
格内登科,B.V.(1943年),《数学年鉴》,44(3):423-453,DOI:10.2307/1968974,《数学年鉴》,10.2307/1968974。
Gumbel,E.J.(1935),#34;Les valeur Extremes des分布统计(PDF),Annales de l';Institut Henri Poincaré,5(2):115-158。
《极值分析中的问题》,结构安全,30(5):405-419,doi:10.1016/j.strusafe.2006.12.001。
LeadBetter,M.R.(1991年),基于峰值超过阈值的建模,统计与概率通讯,12(4):357-362,doi:10.1016/0167-7152(91)90107-3。
LeadBetter M.R.,Lindgren G.和Rootzen H.(1982)随机序列和过程的极值及其相关性质。斯普林格-维拉格,纽约。
林格伦;鲁岑,H.(1987),“极值:理论与技术应用”,斯堪的纳维亚统计、理论与应用杂志,14:241-279。
Novak S.Y.(2011)极值方法及其在金融学中的应用。查普曼与安培·霍尔/CRC出版社,伦敦。ISBN电话:978-1-4398-3574-6。
Pickands,J(1975年),使用极序统计量进行统计推断,统计年鉴,3:119131,DOI:10.1214/aos/10.1214