LLaVA: Visual Instruction Tuning

主要贡献：

多模态 instruction-following data。
- 提出了一个转换流程，使用GPT-4来将image-text pairs 转换为对应的instruction-following格式
LMM：large multimodal models
- 将CLIP的 open-set 视觉编码器和LLaMA的语言解码器结合
- 在instructional vision-language 数据上进行端到端的微调
data：使用GPT生成的数据集
- 不使用GPT情况下，可以构造naive的数据集，方式如下：
  - image $X_v$，对应的caption为$X_c$， question为$X_q$目的是让模型描述image的内容
  - expand an image-text pair to its instruction-following version is $Human : X_q X_v<STOP>$ \n $Assistant : X_c<STOP>$\n
- 158k language-image instruction-following samples
- 58k in conversation，23K in detailed description, and 77k in complex reasoning
- 每种人工构造一点seed example用来作为in-context-learning的部分
- 使用GPT构造的情况下，图像不是真的用图像，而是用captions和Boxes来替代