近线性时间的分布压缩

2022-02-15 17:35:21

下载PDF摘要:在分布压缩中,一个目标是使用少量代表点准确总结概率分布$\mathbb{P}$。通过从马尔可夫链中采样$n$点,并用$\widetilde{\mathcal{O}(1/\sqrt{n})$差异到$\mathbb{P}$识别$\sqrt{n}$点,接近最优的细化程序实现了这一目标。不幸的是,这些算法在样本量为$n$时存在二次或超二次计时问题。为了解决这一缺陷,我们引入了compress++,这是一个简单的元过程,用于加速任何细化算法,但误差最多为4美元。当与Dwivedi和Mackey(2021)的二次时间核减半和核细化算法相结合时,Compress++在$\mathcal{O}(\sqrt{log n/n})$积分误差下提供$\sqrt{n}$n}$点,并且在$\mathcal{O}(n\log 3 n)$时间和$\mathcal{O}(\sqrt{n}\log 2 n)$空间上优于Monte Carlomaxim平均差异。此外,在给定任何二次时间输入的情况下,Compress++享受相同的近似线性时间,并通过平方根因子减少了超二次算法的运行时间。在我们的基准测试中,使用高维蒙特卡罗样本和马尔可夫链,针对具有挑战性的微分方程后验概率,Compress++在数量级更短的时间内匹配或接近匹配其输入算法的精度。