上预训练视觉语言模型已成为传统图像分类数据预训练的强大替代方案。图像字幕数据集被认为更加开放域因为它们包含更广泛的场景类型和词汇这使得模型在少样本和零样本识别任务中具有强大的性能。然而具有细粒度类描述的图像可能很少见并且由于图像标题数据集不经过手动管理类分布可能不平衡。相比之下大规模分类数据集例如通常经过精心策划因此可以提供具有平衡标签分布的细粒度类别。虽然听起来很有希望但直接组合标题和分类数据集进行预训练通常是不成功的因为它可能会导致有偏差的表示而这些表示不能很好地推广到各种下游节是一种通用方法可以轻松集成到现有的预训练目标中例如对比语言图像预训练或统一对比学习。
高层次的想 美国手机数据列表 法我们注意到分类数据集往往至少在两个方面存在偏差图像大多包含来自受限领域的单个对象词汇量有限并且缺乏零样本学习所需的语言灵活性。例如针对优化的狗的照片的类嵌入通常会导致从数据集拉取的图像中心有一张狗的照片这不能很好地推广到包含多只狗的图像的其他数据集在不同的空间位置或狗与其他主体。相比之下字幕数据集包含更广泛的场景类型和词汇。如下所示如果模型只是从两个数据集学习则语言嵌入可能会纠缠图像分类和标题数据集的偏差这会降低零样本分类的泛化能力。如果我们能够消除两个数据集的偏差我们就可以使用为标题数据集量身定制的语言嵌入来提高泛化能力。

上语言嵌入纠缠了图像分类和描述数据集的偏差。底部语言嵌入消除了两个数据集的偏差。前缀调节前缀条件部分受到提示调整的启发它将可学习的标记添加到输入标记序列中以指示预先训练的模型主干学习可用于解决下游任务的特定于任务的知识。前缀调节方法与提示调整有两个不同之处它旨在通过消除数据集当提前知道不同类型数据集的数量时这在生产中特别有用。在训练过程中前缀条件为每个数据集类型学习一个文本标记前缀标记它吸收数据集的偏差并允许剩余的文本标记专注于学习视觉概念。具体来说它将每个数据集类型的前缀标记添加到输入标记中以通知输入数据类型的语言和视觉编码器例如分类与标题。