Styleclip:Text-Drive Setygan Imager的操作

2021-04-04 21:46:29

Styleclip:Text-Drive More的Setygan Imagery或Patashnik *,Zongze Wu *,Eli Shechtman,Daniel Cohen-or,Dani Lischinski *平等贡献,按字母顺序排序HTTPS://Arxiv.org/abs/2103.17249

摘要:灵感灵感在各个领域中,STYLEGAN在各个领域中生成高度现实的能力,最近的工作已经讨论了了解如何使用SyleGan的潜在空间来操纵生成和真实图像。然而,发现语义有意义的潜在操纵结构批次涉及对多程度的自由度的人类检查,或者为每个所需操纵的图像的注释集合。在这项工作中,Weexplore利用最近引入了对比度线的力量 - 图像预训练(Clip)模型是为了开发一种基于文本的界面,用于Stylegan ImageManipulation,这不需要这样的手动努力。 WeFirst介绍了一种优化方案,该优化方案利用基于剪辑的卷来修改输入潜航的输入潜航,响应于Auser提供的文本提示。接下来,我们描述了一个潜在的Mapperthat Infers给定输入图像的文本引导的潜在操纵步骤,允许更快更稳定的TextBaseDmanulation。最后,我们介绍了一种用于Mappea文本的方法,提示在StyleganSstyle Space中输入 - 不可知方向,使能交互式文本驱动的Imp1apulation。广泛的结果和比较规范了我们方法的有效性。

STYLECLIP的官方实施,一种使用驾驶文本操纵图像的方法。我们方法使用佩带的样式生成器的生成功率,以及剪辑的视觉语言功率。在本文中我们提出了三种方法:

我们仍在努力将所有代码汇总。储存库包含优化和全球方向的代码。工作仍在进行中 - 保持调整!

其部分描述了每个方法的具体要求。要安装剪辑请运行以下命令:

Conda Install --yes -c pytorch pytorch = 1.7.1 Torchvision Cudatoolkit =< cuda_version> pip安装ftfy正则表达式tqdm gdownpip安装git + https://github.com/openai/clip.git

在这里,该代码依赖于Stylegan2的rosinal pytorch实现。修改了样式甘格的组成部分,使整个实现是本机Pytorch。

除了之前提到的要求外,佩带的样式创造器将尝试下载,(或从这里手动下载)。

给定文本描述,可以编辑给定图像,或者生成最适合描述的随机图像。可以通过main.py脚本或优化_playground.ipynb笔记本()完成操作。

编辑图像集--mode =编辑。编辑可以在两个提供的潜在载体上完成,以及来自Stylegan' s潜在空间的随机潜伏向量。建议根据所需的编辑调整-l2_lambda。

在这里,我们提供使用全局方向编辑图像的GUI。我们提供Jupyter笔记本和视频中使用的GUI。对于这两者,线性方向是实时计算的。代码位于全局/。

它需要具有Tensorflow,版本1.14或1.15(Conda Install -C Anaconda Tensorflow-GPU == 1.14)。

CD Global#输入数据集名称数据集_Name=' FFHQ' #inpind dataSet名称,目前只支持ffhq#inpect prepate data python getcode.py --dataset_name $ dataset_name --code_type' w' python getcode.py --dataset_name $ dataset_name --code_type&#39 ; s' python getcode.py --dataset_name $ dataset_name --code_type' s_mean_std' #交互式操作Python PlayInteractional.py --dataset_name $ dataSet_name

如视频中所示,编辑图像需要编写中性文本和目标文本。要操作GUI,请执行以下操作:

双击左侧方形以选择图像。图像从全局/数据/ ffhq拍摄,相应的潜伏向量是全局/数据/ ffhq / w_plus.npy。

修改目标文本,以便它将包含目标编辑,然后按Enter键。

解剖阈值 - 大值意味着更加解散的编辑,只需操作一些通道,所以只有目标属性将改变(例如,灰发)。小值意味着不诚实的编辑,将被操纵大量渠道,相关的属性也将改变(如皱纹,肤色,眼镜)。

在终端中,对于每个操作,打印正在操纵的通道数(该数量由属性(中性,目标)和解剖学阈值控制)。

对于彩色变换,通常10-20个通道足够。对于大结构变化(例如,高级淡出),通常需要100-200通道。

对于属性(中性,目标),如果给出低解剖学阈值,则仅操作很少的通道(< 20),并且通常不足以执行所需的编辑。

在COLAB中打开笔记本并运行所有单元格。在最后一个单元格中,您可以使用图像玩。

设置所需的参数集后,请再次运行最后一个单元格以生成图像。 在下文中,我们显示了使用我们的方法获得的一些结果。所有图像都是真实的,并且使用E4E被倒入样式语和#39;潜伏的空间。每个编辑使用的驱动文本出现在每个图像下方或高于每个图像。 我们发现编辑的全球方向是S空间的方向,在QuideSpace(Wu等人)中被引入和分析。 为了编辑真实的图像,我们使用E4e(tov等人)将它们倒入样式闹词和#39; s潜空间。 @misc {patashnik2021styleclip,title = {styleclip:styleggan图像的文本驱动操作},作者= {或Patashnik和zongze wu和zongze wu和zoniel cohen-or和daniel cohen-or和dani lischinski},年= {2021},ePrint = {2103.17249 },ArchivePrefix = {ARXIV},PrimaryClass = {CS.cv}}