Images Speak in Images: A Generalist Painter for In-Context Visual Learning

CVPR2023

主要思路：

image task prompt。用来自同一个task中的input/output pair来做prompt，拼接上query image和它的mask，在mask图像上输出对query图像的task结果
模型使用ViT-L，loss为smooth-L1 loss，训练使用MIM，格式如下：将同一个task的两个pair拼接到一起，按patch mask掉部分（75%）groundtruth图像，然后用ViT重建，计算重建损失。
输入图像全部定义到3通道上
推理时拼接：1张示例图、1张示例图的结果图、1张query图，1张mask
示例图通过启发式搜索从示例任务的集合中找效果会更好，或者用可学习的提示图，效果都比随机选择要好
merge patch：因为拼接了图，所以计算开销增大，就在3个block后把input image 和output image 的早期feature patch by patch地相加，减少开销的同时效果还好。可能是帮助学习了对应pixel关系。

截屏2023-12-22 17.13.46.png

主要结论：