L1(Lasso)和L2(Ridge)正则化已被广泛用于机器学习以克服过拟合。特别是,套索会导致权重稀疏。另一种正则化是介于Lasso和Ridge正则化之间的,称为“群Lasso”,它也导致了权重的稀疏性。
在这篇博客文章中,我们将首先回顾一下套索和岭正则化,然后看看什么是套索集团,并了解为什么套索集团会导致权重稀疏。
假设$\beta$是参数集合。$\beta=\{\beta_1,\beta_2,\cdots,\beta_n$,则L0、L1和L2规范表示为$||\beta||_0$,$||\beta||_1$,$||\beta||_2$。它们被定义为。
给定一个数据集${X,y\}$,其中$X$是特征,$y$是回归的标签,我们简单地将其建模为具有线性关系$y=X\beta$。利用正则化方法,给出了L0、Lasso和Ridge回归的优化问题。
理想情况下,对于权重稀疏和特征选择,L0回归是最好的优化策略。然而,由于L0回归在任何地方都是不可微的。我们将L0回归放宽为Lasso回归,并且Lasso回归也会导致合理的权重稀疏性。
假设$\beta$中的权重可以分组,则新的权重向量变为$\beta_G=\{\beta^{(1)},\beta^{(2)},\cdots,\beta^{(M)}\}$。$1\leq l\leq m$的每个$\beta^{(L)}$表示来自$\beta$的一组权重。
我们相应地将$X$进一步分组。我们将$X^{(L)}$表示为X的子矩阵,其列对应于$\beta^{(L)}$中的权重。最优化问题变成了。
值得注意的是,当只有一个群,即$m=1$时,群Lasso等价于Ridge;当每个权重形成一个独立群,即$m=n$时,群Lasso变为Lasso。
对于套索造成的稀疏性,最直观的解释是套索$||\beta||_1$中沿轴线的不可微角更有可能与损失函数$||y-X\beta||_2^{2}$接触。在岭回归中,由于在岭$||\beta||_2$内处处可微,沿轴接触的几率极小。
还应注意,正则化强度$\λ$也很重要。当$\lambda$变大时,套索$||\beta||_1$的大小会变小,沿轴接触的机会会增加,因此权重变为零的数量会变大。相反,当$\lambda$变小时,套索$||\beta||_1$的大小会变大,沿轴接触的机会会变小,从而权重的数量会变小。请试着理解这一点,这一点很重要。
类似地,套索组合的原始作者提供了套索、套索组合和三维山脊的几何图形。特别地,套索组中,前两个权重$\beta_{11}、\beta_{12}$在组中,第三个权重$\beta_2$在一个组中。
因为在$\BETA_{11}\BETA_2$平面或$\BETA_{12}\BETA_2$平面上,沿轴仍有不可微角,所以沿轴接触的可能性很大。注意,对于相同的正则化强度$\lambda$,套索群的轴向接触几率比套索的小,但比山脊的大。