2304.08485.pdf (arxiv.org)

主要贡献:

模型结构

用pre-trained CLIP 视觉编码器(ViT-L/14)

$H_v = W · Z_v, with Z_v = g(X_v)$

也可以考虑更复杂的语言、图像链接方式,比如Flamingo、BLIP-2

或者其他image encoder 比如SAM可以提供object- level的features

截屏2023-12-07 23.19.03.png

training

For each image $X_v,$ we generate multi-turn conversation data $(X^1_q, X^1_a, · · · , X^T_q , X^T_a )$, where T is the total number of turns.

截屏2023-12-08 10.57.55.png

截屏2023-12-08 10.59.39.png

截屏2023-12-08 11.00.26.png

L为sequence length,$x_i$ 为 current prediction token,上述为公式(3)

stage1: 预训练,特征对齐