朗之万法抽样得分匹配:甘斯的新竞争者

2020-09-04 06:59:33

它的工作方式是采样一个干净的数据,用高斯噪声破坏它,然后让计分网络学习模拟被破坏数据的得分函数(请参阅损失函数的正确术语),条件是噪声水平()。对于高斯噪声,归结为试图恢复原始的未损坏样本减去损坏样本除以噪声的方差。可以看出,如果Noise()的方差变为0,则得分网络精确地恢复得分函数。因此,当为非零时,我们恢复得分函数的近似值,且值越高,近似值的噪声越大。吵闹是好事!它可以帮助我们在图像概率为零的长距离旅行,这有助于朗之万样本的正确收敛。所以我们做了,我们近似了对数梯度密度!我们现在可以在采集的同时使用朗之万法采样。现在,这很好,但是我们应该用什么,一个小的来得到一个好的近似值呢?不,我们应该使用较大的噪波渐变(通过使用较大的来调节分数网络),然后慢慢地使用较少的噪波渐变。我们的想法是,它有助于更好地探索分布,因为图像可以有非常大的区域,其中图像的概率为0,而我们需要噪声来避免这一点。事实上,使用无噪声得分函数,即使我们有真实的分布,Langevin也不能很好地处理图像。嘈杂=适合探险。

因此,我们不仅要将学习率退火到0,而且要使得分函数近似的噪声(即,给定的得分函数)退火到0。作者通过使学习率(其中是恒定的),然后退火下来(这在朗之万方程和得分网络中都存在)来做到这一点。有关更多细节,请阅读报纸。

如果退火朗之万样本的超参数调整得很好,我们应该收敛到分数网络假设的真实分布。因此,与需要技巧才能使模式不崩溃的Gans相反,这种方法不会通过设计来使模式崩溃!事实上,我的下一篇论文表明,我们在StackedMNIST实验中获得了全部1000个模式,这是一项评估生成样本多样性的艰巨任务。我们也观察到样品的质量相对较高。因此,我们获得了高质量和多样性!请记住,对于高分辨率图像,质量是好的,但并不总是像Sota Gans那样好。我的论文将更多地展示如何提高质量。

Gan只能做他们被训练要做的事情(生成完整的图像)。然而,有了DSM-ALS,我们可以完成许多网络没有训练过的任务。例如,我们可以做内画,这意味着我们可以从部分完整的图像开始,然后填充其余的图像。这是因为您只能对图像中缺失的部分应用朗之万法采样,因此请将其填写!更疯狂的是,我们还可以做更多的事情:去噪(通过分数匹配的设计),去模糊/超分辨率,解决逆问题,分离两个组合的图像,等等。

有两个主要问题:计算能力和生成时间。Sota Gans需要大量的计算能力来生成高分辨率的图像,但它仍然比DSM-ALS更易于管理。原因是Gans学习了映射z->;x和x->;1,这使得鉴别器和生成器架构呈金字塔状(它们的维度随着时间的推移而减少或增加)。同时,对于DSM-ALS,输出的维度必须与输入的维度(图像)相同,试图降低中间的维度(U-net)在实践中效果不佳。大多数工作良好的体系结构只进行一次下采样和一次上采样。正因为如此,我们需要大量的参数,因此需要GPU RAM。如果没有8个V100GPU或更多GPU,256×256图像无法可靠地完成!🙀所以遗憾的是,这意味着只有那些控制大量计算资源的人才能使用dsm-als生成高分辨率图像😿。我们在文本生成和GPT-3方面也有同样的问题。另一个主要问题是,生成单个图像意味着我们需要分多个步骤进行Langevin采样(32×32图像约为250个,256×256图像约为2k)。这需要很长时间。这意味着这种方法永远不会实时可行。此外,如果您想要生成大量图像,您将需要较大的批处理大小,这意味着较高的GPU RAM。因此,您再次遇到了需要大量昂贵的GPU或TPU才能以合理的速度生成图像的问题(想象一下,使用朗之万GPU采样和32😿的小批量采样来采样1k图像)。正如我前面简要提到的,生成的样本的质量并不总是像Sota Gans那样好,但我的下一篇论文会在这一点上有所改进,去噪扩散纸已经在提高质量方面做了很大的工作。Gans有很多年的时间才能达到现在的水平,所以预计DSM-ALS达到顶峰性能的时间稍长是正常的