给大语言模型“开个眼”，看图说话性能超 CLIP，斯坦福等新方法无需多模态预训练

给大语言模型“开个眼”，看图说话性能超 CLIP，斯坦福等新方法无需多模态预训练

2023-07-21 16:51

大型语言模型可以在不依赖多模态数据的情况下理解图形吗？！

话不多说，直接看效果。

以测试BLIP-2的长城照片为例。它不仅能辨认出它是长城，还能讲述两句关于历史的故事：

又一个奇形怪状的房子，它也能准确识别异常，知道如何进出：

故意将“红色”设为紫色，将“绿色”涂成红色不会干扰它：

这就是研究人员最近提出的一种新的模块化框架LENS(-)的识别效果。

重要的是，不需要对多模态数据集进行额外的预训练，只需现成的大语言模型就可以完成目标识别和视觉推理任务。

省钱又省力！

据研究人员称：

这种方法可以与零样本的多模态大型模型以及开箱即用的端到端联合预训练模型相媲美，甚至可能更好。

看到这里，网友们不淡定了：

家人好兴奋啊！用于训练大型模型的资源现在也可以用于解决不同领域的问题。

另一位网友表示：

看看哪个模块最能提高视觉推理能力是很有趣的！

你是怎么做到的？

现有的法学硕士虽然在自然语言理解和推理方面表现出色，但无法直接解决视觉输入的推理任务。

AI 和斯坦福大学研究人员的这项工作利用法学硕士作为冻结语言模型（不再训练或微调），并向其提供从“视觉模块”获得的文本信息，使他们能够执行对象识别和 V&L（视觉和语言））任务。

简单来说，当你询问一张图片的内容时，该方法首先会操作三个独立的“视觉模块”，Tag（提取标签信息）、（提取属性信息）、（生成详细的图像描述），这样，提取有关图像的文本信息。

然后，该信息被直接输入推理模块 ( )，即冻结的法学硕士，该模块会回答问题。

这样，通过集成LENS，无需额外的预训练即可获得自动跨领域适用的模型。并且能够充分利用计算机视觉和自然语言处理的最新进展，最大限度地发挥这些领域的优势。

先前的研究提出了几种使用法学硕士解决视觉任务的方法。

视觉编码器是指用于将视觉输入（例如图像或视频）转换为表示向量的模型或组件。它可以将高维视觉数据转换为低维表示，并将视觉信息转换为语言模型可以理解和处理的形式。

显然，这三种方法都需要使用数据集进行多模式预训练。

△ 视觉和语言模态对齐方法对比，(a)代表上述三种方法(b)是LENS方法，代表从头开始训练，??代表预训练和冻结

LENS提供了一个统一的框架，使LLM的“推理模块”能够对从“视觉模块”提取的文本数据进行操作。

在三个“视觉模块”中，对于标签模块，研究人员组装了多样化且全面的标签词汇。包括多个图像分类数据集、对象检测和语义分割数据集以及视觉基因组数据集。为了能够准确识别图像并为其分配标签，研究人员还采用了 CLIP 视觉编码器。

该模块的一般提示是：

“{} 的照片”

在提取属性信息的视觉模块中，使用GPT-3生成视觉特征描述，以区分对象词汇表中每个对象的类别。对比预训练的 CLIP 视觉编码器用于识别图像中的对象并将相关属性分配给图像中的对象。

在详细描述信息的视觉模块中，研究人员采用了 BLIP 的图像字幕模型，并应用随机 top-k 采样为每个图像生成 N 个描述。这些多样化的描述不经任何修改直接传递到“推理模块”。

在最终的推理模块中，LENS可以与任何LLM集成，以以下格式集成上述提取的信息：

标签：{Top-k 标签}

: {前 K }

: {前 N }。

OCR：这是一张带有“{meme text}”的图像。

: {任务- } 短:

值得一提的是，表情符号也被考虑在内，研究人员为此添加了 OCR 提示。

斯坦福犬训练__小学一年级看图写话说话

比 CLIP 更好的性能

为了演示LENS的性能，研究人员使用了8块A100（40GB）显卡进行实验，默认冻结的LLM为Flan-T5模型。

对于视觉任务，研究人员评估了八个基准，并将它们与零样本和少样本设置中物体识别领域的最先进模型进行了比较。

△LENS在物体识别任务中的零样本结果

从上表可以看出，在零样本的情况下，由 ViT-H/14 作为视觉主干和 Flan-T5xxl 作为冻结的 LLM 组成的 LENS 平均优于 CLIP 0.7%。在大多数情况下，LENS 的其他组合也优于 CLIP。

有趣的是，研究人员在物体识别任务中发现：

冻结的 LLM 的大小和分类性能之间似乎没有直接关系。并且标签生成架构（ViT主干）的大小和性能之间存在对应关系。

△ LENS 在样本较少的视觉任务上表现一般。

如上所示，研究人员还绘制了除

更多样本有助于提高性能。同时，冷冻法学硕士的表现与视觉表现之间没有直接关系，而更好的视觉主干有助于提高平均视觉表现。

对于视觉和语言任务，研究人员评估了四种代表性的视觉问答任务，并与需要额外预训练以协调视觉和语言模式的最先进模型进行比较。

在零样本设置上，与最先进的方法 VQAv2、OK-VQA、-SST 和 Memes 相比，LENS 的性能与依赖大量数据进行对齐预训练的方法相比仍然具有竞争力。即使与 BLIP-2 等更大、更复杂的系统相比也是如此。

虽然 LENS 在大多数情况下表现良好，但在某些情况下会出现故障：

据研究人员称：

LENS 的视觉功能在很大程度上依赖于其底层视觉组件。这些模型的性能还有进一步提升的空间，有必要将它们的优势与LLM结合起来。

门户网站：

[1] / 2306.16410（论文链接）

[2] /lens（代码开源）

以上就是本篇文章【给大语言模型“开个眼”，看图说话性能超 CLIP，斯坦福等新方法无需多模态预训练】的全部内容了，欢迎阅览！文章地址：http://www.razcy.com/news/4977.html
资讯企业新闻行情企业黄页同类资讯首页网站地图返回首页月落星辰移动站 http://m.razcy.com/ , 查看更多

打赏