无别名兄弟

2021-06-24 00:47:08

我们观察到,尽管它们的分层卷积性质,典型的生成对抗网络的合成过程取决于以不健康的方式坐标。这表明了本身,例如,看起来将被粘合到图像坐标而不是描绘对象的表面。我们将根本原因追溯到导致发电机网络中的混叠的粗心信号处理。将网络中的所有信号解释为连续,我们普遍适用,小型架构更改,保证不需要的信息无法泄漏到分层合成过程中。由此产生的网络与风格的FID匹配,但在其内部表示中急剧差异,即使在子像素尺度也是完全的转换和旋转。我们的结果为更适合视频和动画的生成模型铺平了道路。

前两个视频展示了使用在未对准的FFHQ-U DataSet上培训的发电机创建的两种“阴剧”中的“纹理粘贴”问题。循环视频显示在潜在空间中的中心点周围的小随机散步。观察细节(毛发,皱纹等)样式甘蓝型结果(左)似乎粘在屏幕坐标,而面部在其下移动,同时所有细节在我们的结果(右)中完全变换。

以下视频在多个数据集中的手动挑选的潜在点之间显示插值。在SetdeGan2结果中再次观察质地细节如何固定,但在无别名生成器中使用其他场景平滑地转换。

特别是,特别是我们的别名发电机似乎如何学会了在海滩数据集中模仿相机运动。

以下视频以几种“桥梁”配置在视觉上展示了EQ-T标准分数的含义,下面的视频表示平移的等价性或缺乏。在所有面板中,第一图像是通过分析翻译的傅立叶输入特征运行相应发生器的结果。通过极高质量的重采样滤波器,通过第一通过“未转化”的像素从第一图像获得。对于完美的发电机,前两个图像是相同的,模型图像边界(由于光裁剪而不是所示)和来自重采样的数值噪声。第三图像可视化前两个图像的差异。可以看出,60 dB范围内的EQ-T分数基本上是视觉上的完美。请咨询技术细节的附录。

以下视频以类似于先前视频的方式示出了旋转标准。我们的别名无线Config-T仅用于翻译标准规则,完全失败,正如所预期的那样失败。以下比较方法是使用P4对称G-CNN的Config-T的变型,用于旋转设备。该模型显示了循环行为,其中旋转精确为90度的倍数,但在中间角度下拆分我们的别名配置为高质量,尽管没有视觉上的旋转标准。

以下视频说明了固定非线性(此处,Relu)和我们解决方案固有的混叠。左列:原始带状信号z。其理想的版本(顶部)是采样的(中间),然后从样品(底部)重建。随着采样率足够高以捕获信号,不会发生混叠。中间列:在连续域(顶部)中施加点的非线性度,产生由于零点剪切而产生的非平滑功能。采样该信号(中间)并重构来自样本(底部)的功能产生锯齿结果,因为由剪辑产生的高频不能由采样网格表示。右栏:将低通滤波器应用于连续域(顶部)中的锁上功能,再次产生平滑功能;抽样它(中间)允许忠实的重建(底部)。

以下视频将无别名生成器的内部激活与Stylegan2(顶部)进行比较。我们的别名翻译(中间)和旋转(底部)的等级网络以完全不同的方式构建图像,从似乎是遵循最终图像中看到的特征的多尺度相位信号。由于我们的别名施工,这些信号必须控制图像特征的相对位置的外观;我们假设局部导向的振荡形成为能够进行分级本地化的基础。我们的施工似乎使网络自然地从低频输入傅里叶功能构建它们。

@Article {Karras2021,作者= {Tero Karras和Miika Aittala和Samuli Laine和Erik H \" {A} Nen和Janne Hellsten和Jaakko Lehtinen和Timo Aila},Journal = {corr},title = {别名生成副主角网络},卷= {abs / 2106.xxxxxx},年= {2021}}

本网站上的图像,文本和视频文件是在Creative Commons CC By-NC 4.0许可证下的非商业用途进行自由使用。只要您通过提及我们的论文的标题和作者名单给我们适当的信贷,可以随意使用任何材料。

我们感谢Ming-Yu Liu,Koki Nagano,TuomasKynkäänniemi和Timo Viitanen的审查草稿和有用的建议。 FrédoDurand进行早期讨论。 Tero Kuosmanen用于维护我们的计算基础架构。 AFHQ作者为其数据集的更新版本。在海滩数据集中的训练图像的Getty图像。 janne hellsten由DARPA的语义取证(SEMAFOR)GRANT(HR0011-20-3-0005)部分支持。本文件中所载的观点和结论是作者的意见和结论,不应被解释为代表美国政府的官方政策,无论是表达或暗示的。