不使用GPT情况下,可以构造naive的数据集,方式如下:
158k language-image instruction-following samples
58k in conversation,23K in detailed description, and 77k in complex reasoning
每种人工构造一点seed example用来作为in-context-learning的部分
使用GPT构造的情况下,图像不是真的用图像, 而是用captions和Boxes来替代
用pre-trained CLIP 视觉编码器(ViT-L/14)
$H_v = W · Z_v, with Z_v = g(X_v)$
也可以考虑更复杂的语言、图像链接方式,比如Flamingo、BLIP-2
或者其他image encoder 比如SAM可以提供object- level的features
For each image $X_v,$ we generate multi-turn conversation data $(X^1_q, X^1_a, · · · , X^T_q , X^T_a )$, where T is the total number of turns.
L为sequence length,$x_i$ 为 current prediction token,上述为公式(3)