我们正在介绍TextStyleBrush,AI Research项目可以仅使用单个单词复制照片中的文本风格。使用此AI模型,您可以编辑和替换图像中的文本。
与可以为明确定义的专用任务执行此操作的大多数AI系统不同,TextStyleBrush是第一个自我监控的AI模型,替换手写和场景的图像中的文本 - 使用单个示例字。
虽然这是一个研究项目,但它可能有一天可以解锁创造性的自我表达的新潜力,如个性化消息传递和标题,并为未来的创新奠定了基础,如增强现实(AR)中的语言逼真翻译。
通过发布本研究的能力,方法和结果,我们希望对对话和研究进行刺激,以检测这种技术的潜在滥用,例如DeepFake文本攻击 - AI领域的一个关键,新兴挑战。
AI生成的图像一直在突破速度 - 能够综合重建历史场景或改变照片以类似于梵高或雷诺的风格。现在,我们构建了一个可以在场景和手写中替换文本的系统 - 仅使用单个单词示例作为输入。
虽然大多数AI系统可以为明确定义的专业任务执行此操作,但构建一个灵活的AI系统,以了解现实世界场景中的两种文本的细微差别,并且手写是一个更难的AI挑战。这意味着了解无限制的文本风格不仅仅是不同的排版和书法,还可以针对不同的转换,如旋转,曲线文本和手写之间发生的纸张和笔之间发生的变形;背景杂乱;和图像噪音。由于这些复杂性,它不可能从其背景中完成段文本,也不是为了为整个字母表的所有可能的外观以及数字来创建带注释的示例。
今天,我们正在介绍TextStyleBrush,这是第一个自我监督的AI模型,可以替换在一个场景和手写的现有图像中的文本 - 只使用单个示例字。该工作还将提交给同行评审日志。
它类似于样式刷工具在文字处理器中工作的方式工作,但是对于图像中的文本美学。它在任何类型的文本中超越了自动测试和用户研究的最先进的准确性。与以前的方法不同,这些方法定义了特定参数,例如字体或目标样式监督,我们采取了更全面的培训方法,并从整个单词框的外观外观中解散文本图像的内容。然后可以将整体外观的表示作为单次传输应用,而不会在新颖的源样式样本上再次进行再培训。
通过公开发布这项研究,我们希望以与Deepfake面孔的方式相同的方式刺激额外的研究和对话抢先袭击。如果AI研究人员和从业者能够在建立这项技术的对手领先,我们可以学会更好地检测这种新风格的Deewκ并建立强大的系统来解决它们。虽然这项技术是研究,但它可以在未来为各种有用的应用提供电力,例如将图像中的文本翻译成不同的语言,创建个性化消息传递和标题,也许有一天能够使用AR促进街道标志的真实翻译。
TextStyleBrush证明它可以构建可以学习以更灵活性和准确性传输文本美学的AI系统,而不是使用一个单词示例。我们继续通过我们遇到的一些限制来改善我们的系统,如用金属物体或不同颜色的字符写入的文本。
我们希望这项工作继续降低光电型翻译,创造性的自我表达和深蓝攻击研究的障碍。
随着正在进行的自我监督的革命继续取得进展,我们认为AI领域公开促进了检测技术滥用的研究。这包括超越虚假面对文本和共享基准数据集,例如DeepFake检测挑战数据集。我们希望通过公开发布综合生成文本风格的工作和方法,更广泛的AI字段将能够建立在这项工作中并进行累积前进进度。
这是一个缩写版本的原始文章,这些文章出现在Facebook AI博客上,其中包括TextStyleBrush如何工作的技术细节。