近线性时间的分布压缩

2022-02-15 17:35:21

下载PDF摘要：在分布压缩中，一个目标是使用少量代表点准确总结概率分布$\mathbb{P}$。通过从马尔可夫链中采样$n$点，并用$\widetilde{\mathcal{O}（1/\sqrt{n}）$差异到$\mathbb{P}$识别$\sqrt{n}$点，接近最优的细化程序实现了这一目标。不幸的是，这些算法在样本量为$n$时存在二次或超二次计时问题。为了解决这一缺陷，我们引入了compress++，这是一个简单的元过程，用于加速任何细化算法，但误差最多为4美元。当与Dwivedi和Mackey（2021）的二次时间核减半和核细化算法相结合时，Compress++在$\mathcal{O}（\sqrt{log n/n}）$积分误差下提供$\sqrt{n}$n}$点，并且在$\mathcal{O}（n\log 3 n）$时间和$\mathcal{O}（\sqrt{n}\log 2 n）$空间上优于Monte Carlomaxim平均差异。此外，在给定任何二次时间输入的情况下，Compress++享受相同的近似线性时间，并通过平方根因子减少了超二次算法的运行时间。在我们的基准测试中，使用高维蒙特卡罗样本和马尔可夫链，针对具有挑战性的微分方程后验概率，Compress++在数量级更短的时间内匹配或接近匹配其输入算法的精度。

https://arxiv.org/abs/2111.07941