
那些拥有本文的人主要来自美国和美国许多大学。第一个是莱·博林(Lai Bolin),他是一名学生,正在佐治亚理工学院(Georgia Tech)学习一项机器研究(目前是对UIUC研究的访问),他的导师是James Rehg教授(转移到UIUC)。他的主要研究方向是对多模式,发展和理解视频的研究,他发表了有关CVPR,ECCV,ACL和其他会议的相关论文。这项工作是由赖·博林(Lai Bolin)在Genai Meta部门实习期间完成的。传播模型的最新发展促进了图像编辑算法的快速增长,其基于文本的编辑指导图像编辑。但是,当使用用户的编辑方法在语言中很难准确描述或严重偏离YETDIVIDE练习集时,当前模型的性能将在很大程度上降低。示例:我们需要一个模型将普通汽车转换为兰博基尼。如果训练集不包含相同的数据,模型很难将相应的视觉属性(例如形状和纹理)降低,仅通过四个单词“ Lamborghini”。同时,兰博基尼的特征也很难按语言详细描述。该网络的快速流行导致了当今正在出现的大量新概念。培训数据中未包含的新概念是当前图像编辑模型的整体概括的巨大挑战。为了解决此问题,直接有效的过程是在基于文本指令的情况下和转换为示例之前提供一组或多种图像,以便该模型了解用户想要的图像转换,即某些图像编辑。当前,现有模型是根据扩散模型开发的。但是,研究图像从照片样本中的潜在转化需要模型具有强大的理解能力,并且Abili扩散产生的产生很强,但理解的能力仍然很弱。相比之下,自回归模型在许多领域(例如文本,图像和发音),尤其是上下文研究中显示出强大的概念能力。但是,视觉生成的当前自回旋模型仅使用最基本的自刺激机制来建模输入和输出。这种简单和非这种方法并未基于上下文研究完全释放自回归模型的能力。如果可以改善某些SHOT图像编辑任务的模型结构,则该工作中模型的性能将进一步改善。在CVPR今年收到的亮点论文中,来自Meta,佐治亚理工学院,伊利诺伊州伊利诺伊大学(UIUC)(UIUC),Sungkyunkwan大学(SKKU)和威斯康星大学麦迪逊大学(UW-Madison)的研究人员。纸张标题:发行文章中的释放一些拍摄图像操纵纸的自回归模型地址:https://arxiv.org/pdf/2412.01027项目主页:https://bolinlai.github.io/projects/instamip可能知道用户同时从文本和图像示例中使用图像更改的功能,然后可以以同样的方式编辑输入的图像。该过程的理论基础,在本文中研究了一些图像编辑照片,输入包含图片。这个问题是基于所有变量输入的条件分布对输出图像的重要研究。它可以用一个公式写入:输出是目标图像中已更改的编辑图像。许多样本图像显示了如何使用图像和文本说明。神经科学的最新研究表明,从人脑的情况下进行研究的过程可以分为两个阶段:(1)从示例中学习和抽象转移的知识,以及(2)将获得的知识应用于新场景。受此启发,本文介绍了一个新变量彼此独立,因此图像的编辑可以在以下两个阶段中腐烂:代表图像转换的特征,此变量的第一项和此处的输入图像代表研究阶段,第二个项目代表应用阶段,仅与大脑研究的机理相匹配。本文提出的自尊机理分别是为这两个阶段进行建模,以用两个简单的子问题打破这个复杂的问题,并分裂和征服它们,从而取得更好的结果。该模型结构和技术首先使用编码器将所有输入和文本图像转换为代币,并将它们嵌入预设模板中:在此处引入其他操纵令牌,以查找并隐藏图片上先前文本说明和示例的图片中的EDI特征,然后该序列输入了本文中建议的模型。模型的结构如图2:图2:模型结构(左)And分组自我进入机制(右)。本文提出的模型是Instamip,其主要进入机制的主要部分。同时,本文的启发还提出了一种关系正则化,以进一步提高绩效。自我控制机制的分组本文提出的模型的结构包含许多反复分组自机械 - 通过引入操纵令牌,将输入的遵守分为两组。第一组包含文本说明,MGA照片的示例和操纵令牌,其中该模型计算每个令牌的自读和更新,从而学习通过文本和示例图片提供的图像编辑功能,并将它们存储在操纵令牌中,即研究阶段。第二组包含用于生成编辑图像的操纵令牌,查询图像和令牌。该模型计算此组中的自节省以更改新输入图像使用在上一阶段的操纵令牌中存储的知识,即应用的阶段。研究人员发现,定期调节用户提供的示例图像可能会有噪声,并且在研究阶段,模型可能被一些无关的示例图像信息所欺骗,而噪声ITHIS也是一个错误,被认为是转换的一部分并添加到生成的图像中。为了应对这个问题,本文建议调节相关性。具体方法是使用存储在操纵令牌中的学习图像更改功能。在培训团队中,可以通过制造内部产品来获得各种变化之间的相似性。这种相似性也可以通过文本的文本特征的内部产品获得。然后,MSE的失去损失用于实现学习的统一性和通过教书获得的相似性,从而推动模型排除与无关的视觉特征的破坏e当前的修改。有关更多详细信息,请介绍本文的原始文本。 Bablation中的比较和实验本文使用了ConscessPix2Pix收集的数据集,并使用两个设置将其与以前的最佳模型进行了比较。一个是分布设置,即示例图片和输入图片具有相似的样式和视觉内容,另一个是分布设置,即样本图片的内容,输入的图像不同(因为一个是内部的,另一个是外部的),这比以前的设置更加困难。在实验中,本文提出的Intmanip模型超过了两个设置下的先前最佳模型,并成为了新的最佳方法(最先进的方法)。这两个优点在图3的视觉定性比较中也可以看到。表1:根据示例图像将该模型与自然的图像编辑方法进行比较。图3:此方法和以前的视觉比较型号。在表2中的消融实验中,自我释放机制可以改善自回归模型的性能,并结合关系的正则化,模型的影响进一步改善,这完全证实了每个模块的有效性和需求。在表3的实验中,文本指令和示例的使用仅会导致模型性能的重大降级,表明每种模式的这两种模式都具有自身的图像编辑优势,并且可以通过一起使用它可以实现最佳结果。表2:分解为重要模型模块的实验。表3:文本说明和示例图片中的培训实验。本文还研究了图像图像的数字和差异。在这里,研究人员介绍了第三个实验分布设置(多样)。在这种情况下,许多图像示例的样式内容存在显着差异S虽然在分布设置的普通范围内,但许多图像示例的视觉内容具有很高的相似性。图4的实验结果表明,本文提出的模型的性能可以通过增加图像的示例或增加差异的示例来进一步改善 - 图像的各种示例。图4:数字和差异的模型性能分析 - 图像的示例。总结本文提出了AA新的自动进度模型Instmanip,该模型可以通过提高内在的学习能力来更好地解决Shot图像编辑的问题。本文的创新提出了一系列自我控制机制,负责任的两阶段问题的崩溃 - 研究阶段和应用阶段,并分别对两个阶段进行建模以取得更好的结果。同时,本文还介绍了一种关系正规化方法,以帮助培训并进一步提高绩效。提出的模型本文在许多指标中取得了最佳结果,并且可以使用更多图像示例或增加差异来进一步提高其性能。