[2209.00647] Visual Prompting via Image Inpainting (arxiv.org)
主要思想:
- 出发点是为了下游任务的适应性,如何做不需要微调和模型修改的下游任务适应
- visual prompting:给定新任务的输入输出图像示例和新输入图像,目标是自动生成与给定示例一致的输出图像。
- 将这个任务作为一个简单的inpainting任务得到了非常有效的结果
- 在88k unlabeled figures from academic papers sources on Arxiv上进行了MAE训练

-
数据构造方式:input/output examples + novel query image + 空白部分(model填充)
-
有一些使用自回归方式逐行合成图像的方式,但本文重点是跨多个图像进行推理
-
model 结合了VQGAN和MAEmodel detail:

model detail:
- MAE 重建部分的目标不再是像素级别,而是通过softmax层给一个visual token的概率值
- 建模对象为分布:$p_\theta(z_i \mid x,m)$,x是输入图像,m是mask,$z_i\in V$,是来自VQGAN的词表V中的visual token,对应第i个ViT patch
- visual token 通过VQGAN的codebook得到,直接使用了ImageNet预训练的词表
- ground truth的visual token indices通过VQGAN encoder得到
- 用cross-entropy loss
- decode visual token 到pixels时,使用VQGAN的decoder来做
prompt engineering:
- 大多数情况下是按照(n+1)*2的方式来构造图,n是prompt pair的数量
- 对于不同的task,output的形式需要去设计,比如seg mask怎么画
- 也可以对同一个任务用不同的prompt,然后投票结果