CVPR2023
主要思路:
image task prompt。用来自同一个task中的input/output pair来做prompt,拼接上query image和它的mask,在mask图像上输出对query图像的task结果
模型使用ViT-L,loss为smooth-L1 loss,训练使用MIM,格式如下:将同一个task的两个pair拼接到一起,按patch mask掉部分(75%)groundtruth图像,然后用ViT重建,计算重建损失。
输入图像全部定义到3通道上
推理时拼接:1张示例图、1张示例图的结果图、1张query图,1张mask
示例图通过启发式搜索从示例任务的集合中找效果会更好,或者用可学习的提示图,效果都比随机选择要好
merge patch:因为拼接了图,所以计算开销增大,就在3个block后把input image 和output image 的早期feature patch by patch地相加,减少开销的同时效果还好。可能是帮助学习了对应pixel关系。
主要结论: