CtrlK

探索（1-4.1）

LMM的黎明：使用GPT-4V(ision)进行初步探索。

1 介绍

1.1 动机和概述

概述

4个问题过渡

支持哪些输入

通用性如何

如何有效使用

未来发展如何

选取示例说明

1.2 探索GPT-4V的方法

报告目标

展示已有能力

样本选择指导

避免训练样本

默认工作模式

1.3 如何阅读此报告？

适合阅读人群

四个核心问题

怎样的运作

怎样的能力

怎样去使用

怎样的前景

图表列表

2 GPT-4V的输入模式

本节介绍

纯文本输入

单一图像-文本对

交错的图像-文本输入

税务支付提问

菜单结账

以上例子说明

交错图像-文本输入

3 GPT-4V的工作模式和提示技术

3.1 遵循文本指示

遵循文本指示

指定字数说图

指定字母说图

缺失的图像a

缺失的图像b

能够遵循文本

限制性的提示

JSON格式输出a

JSON格式输出b

JSON格式输出c

指定输出格式

基于良好表现的条件

数苹果a

数苹果b

数苹果c

数苹果d

数苹果e

改善计数条件

强大的通用性

文本指令技术

限制格式提示

良好表现条件

3.2 视觉指向和视觉引用提示

指向

多个指向

视觉指向和视觉参照提示

描述指定事物

描述表格栏列

饮料

三角形运算

理解视觉指向

3.3 视觉+文本提示

视觉引用提示

集成多模态指令

已有模型vsGPT-4V

多模态示例引导的指令

图形选择题a

图形选择题b

应对任意提示组合

3.4 在上下文中的少样本学习

少样本学习

零样本学习

零样本+推理

零样本+文字说明

零样本+文本说明+推理

回答错误a

给1个示例a

给1个示例b

回答错误b

给2个示例

回答正确

零示例

零示例+思维链

零示例+指示

零示例+指示+思维链

需要继续尝试

给1个样本学习

仍然失败

给2个样本学习

成功回答正确

4 视觉-语言能力

第4节介绍

4.1 多样化领域的图像描述

评估泛化能力

识别名人外貌

地标识别描述

食物识别描述

医学图像识别

Logo识别描述

场景识别描述

非事实例子

识别名人外貌

名人识别a

名人识别b

名人识别c

能识别名人

地标识别和描述

地标识别a

地标识别b

地标识别c

地标识别d

能识别地标

地标识别e

地标识别f

地标识别g

地标识别h

捕捉地标本质

食品识别和描述

菜品识别a

菜品识别b

菜品识别c

菜品识别d

能识别食物

医学图像a

医学图像b

医学图像c

理解医学图像

医学图像d

医学图像e

识别常见病症

Logo识别和描述

Logo识别a

Logo识别b

正确识别Logo

场景识别描述

场景识别a

场景识别b

场景识别c

场景识别d

场景识别e

场景识别f

理解许多场景

场景理解a

场景理解b

提供场景细节

非事实描述的识别

描述事实a

描述事实b

描述事实c

描述事实d

描述事实e

描述事实f

准确描述事实

探索（1-4.1）

2023-10-28

702 次观看

无畏者-乔

粉丝：294

主题：25

描述：7

例子：70

其他：56

段落：133

字数：26112

探索（1-4.1）

2023-10-28

702 次观看

无畏者-乔

粉丝：294

无畏者-乔

粉丝：294

主题：25

描述：7

例子：70

其他：56

段落：133

字数：26112

LMM的黎明：使用GPT-4V(ision)进行初步探索。

1 介绍

1.1 动机和概述

概述概述

大型语言模型（LLMs）的突破在各种领域和任务中展示了显著的多功能性和能力。这个领域的下一步演变，大型多模态模型（LMMs），旨在通过整合多感官技能来扩展LLMs的能力，以实现更强的通用智能。

考虑到视觉在人类感官中的主导地位，许多LMM研究开始扩展视觉能力。

初步的研究调查要么微调视觉编码器以与预训练的LLM对齐，要么使用视觉语言模型将视觉输入转化为LLMs可以理解的文本描述。然而，大部分现有模型的模型和数据规模有限，可能限制了各种引人入胜的能力的出现。因此，目前还不清楚基于最先进的LLMs（如没有视觉功能的GPT-4和PaLM）开发出来的LMMs的现状和新兴多模态能力是什么。在本文中，我们报告了我们对（早期版本的）GPT-4V（一个基于最先进LLM并使用大规模多模态数据训练的具有视觉功能的最先进LMM）的初步探索。

过渡 4个问题过渡

我们对GPT-4V的探索是由以下问题引导的。

问题支持哪些输入

GPT-4V支持哪些输入和工作模式？

多模态模型的通用性不可避免地要求系统能够处理各种不同输入模式的任意组合。GPT-4V在理解和处理输入图像、子图像、文本、场景文本和视觉指针的任意组合方面表现出前所未有的能力。我们还展示了GPT-4V很好地支持在LLMs中观察到的测试时技术，包括遵循指令，思维链，上下文中的少样本学习等等。

问题通用性如何

GPT-4V在不同领域和任务中的能力质量和通用性如何？

我们选择了涵盖广泛领域和任务的查询来理解GPT-4V的能力，包括开放世界的视觉理解，视觉描述，多模态知识，常识，场景文本理解，文档推理，编码，时间推理，抽象推理，情绪理解等等。在许多实验领域，GPT-4V展示了令人印象深刻的人类水平的能力。

问题如何有效使用

如何有效地使用和提示GPT-4V？

GPT-4V在理解像素空间编辑方面很强，例如在输入图像上绘制的视觉指针和场景文本。受此能力的启发，我们讨论了“视觉引用提示”，该提示直接编辑输入图像以指示感兴趣的任务。视觉引用提示可以与其他图像和文本提示无缝使用，为指示和示例演示提供了一个细微的接口。

问题未来发展如何

有哪些有前途的未来方向？

鉴于GPT-4V在各个领域和任务中的强大能力，我们问，多模态学习的下一步是什么，更广泛地说，人工智能的下一步是什么。我们将我们的想法和探索组织成两个观点，即，应关注的新兴的应用场景，以及基于GPT-4V系统的未来研究方向。我们提出我们的初步探索以激发未来的研究。

注释选取示例说明

受上述问题的指导，我们全面组织并列出了我们探索的定性结果。这份报告包含最少量的定量基准测试结果，而主要由精选的有趣的定性示例组成。尽管这种设计不够严谨，但它能在固定的能力下，提供涵盖广泛领域、任务、工作模式和提示技术的更全面的分析。我们相信，这种有组织的探索集合将激发新兴的新颖应用、下一代多模态任务形式化以及开发基于LMM的先进智能系统的未来工作。

1.2 探索GPT-4V的方法

目标报告目标

评估系统的标准方法是将其与一系列精心设计的数据集进行基准测试，每个数据集代表一个特定的领域和任务。一个挑战是，现有的一些基准可能不再适合评估LMMs。例如，LMMs的图像字幕输出比图像字幕基准数据集中的实地真实数据更丰富，包含更详细的描述。GPT-4V大规模预训练的公开信息也很少，这可能违反了某些现有数据集的训练-测试设置，并使这些基准数字无效。因此，将评估限制在现有的基准和指标上可能会无意间缩小GPT-4V评估的范围。开发一份全面的下一代评估任务和基准列表将是理想的最终解决方案。然而，由于所需的努力巨大，我们将这些留作未来的工作。

目标展示已有能力

在缺乏定量基准测试的情况下，本文主要侧重于使用定性结果来展示GPT-4V的新能力和可能出现的使用案例。我们的目标是发现并预览GPT-4V可能已经具备的能力，尽管这些新能力可能尚未完全可靠。我们希望这一系列的探索将激发未来在建立下一代多模态任务的定量基准，现代化现有基准，进一步提高模型性能和系统可靠性，以及在新兴使用案例中激发创新方面的研究。接下来，我们将深入探讨我们探索GPT-4V的核心设计。

说明样本选择指导

本报告主要是通过展示定性结果来展示GPT-4V的潜在能力，而不是提供全面的定量基准测试结果。这自然引发了对展示示例可靠性的问题。报告中特色的例子可能需要仔细调整指令以增强GPT-4V的相应能力。应注意，一些复杂的情况可能只能配合特定设计的提示才能工作。因此，展示的能力可能不会在不同的样本中始终有效。本报告的主要目标不是只展示可靠的功能，而是为读者提供我们发现的GPT-4V的潜在能力列表，这些能力在几次不成功的尝试后可能会被忽视。

说明避免训练样本

防止仅从训练中记忆的样本选择：

定性报告中的一项基本设计考虑因素是区分模型的真实能力与仅从训练样本中记忆响应或根据指令和上下文示例的提示进行有根据的猜测。我们仔细控制输入提示中的图像和文本，以防止它们在GPT-4V训练期间被看到。我们从头开始生成原始的文本查询，并尝试使用在线上无法获取或时间戳超过2023年4月的图像。我们将指出哪些特定样本不符合这个标准，例如，故意使用来自特定视觉-语言数据集的样本。在确保样本未被看到的同时，我们将理由查询融入到过程中。这些查询旨在探查模型的推理过程，从而验证GPT-4V是否具有预期的能力。

注释默认工作模式

如第3节后面详述，GPT-4V在不同的工作模式下都能有效工作，包括零样本学习指令，上下文少样本学习等。

其中，本报告主要关注零样本学习指令调整，而不是上下文少样本学习。这种设计是为了防止潜在的信息从上下文示例中泄漏。

虽然上下文中的少样本学习示例可以提高性能和可靠性，但它们并不能始终产生新的能力。

因此，我们将零样本学习设定为默认的工作模式进行展示，并减少使用上下文示例以最小化示例对评估能力的影响。

1.3 如何阅读此报告？

注释适合阅读人群

本报告记录了计算机视觉和视觉-语言多模态领域的研究人员对GPT-4V的探索。它主要面向相关学科的同行研究人员，他们希望对LMM的能力有一个定性的印象，并理解其与传统视觉-语言模型的区别。该报告也为专业人士准备，他们可能不专门从事AI或计算机科学，以帮助他们构想LMM可以如何提高他们在各自专业领域内的熟练程度。

过渡四个核心问题

我们提供了关于报告的概述，围绕指导我们探索的四个核心问题进行结构化。

问题怎样的运作

GPT-4V支持的输入和工作模式是什么？

第二部分总结了GPT-4V支持的输入类型，并对其相应的使用案例进行了概述。基于灵活的图像-文本交错输入，第三部分讨论了GPT-4V的不同工作模式，如指令调整、上下文学习以及其他新兴用法。该部分覆盖了使用和提示GPT-4V的新颖方式，旨在提供一个全面的概述，说明我们将如何在后续部分中使用GPT-4V。

问题怎样的能力

GPT-4V在不同领域和任务上的能力的质量和通用性如何？

对这个问题的探索构成了报告的大部分内容。第四部分提供了一个全面的分析，涵盖了广泛的视觉和视觉-语言场景，包括在不同领域上的图像描述和识别、密集的视觉理解、多模态知识、常识、场景文本理解、文档推理，以及更多。我们还单独列出了几种新颖且有趣的能力。第六部分研究了GPT-4V在时间、运动和视频理解方面的能力。第七部分探讨了抽象视觉理解和推理能力，第八部分涵盖了情感和情绪理解。

问题怎样去使用

如何有效地使用和提示GPT-4V？

我们从第三部分的工作模式和提示方法介绍开始讨论这个问题。在第五部分，我们强调了一种新颖的提示技术，即视觉引用提示，它在输入图像上绘制视觉指针和场景文本以提示GPT-4V。我们在报告中给出的示例中展示了灵活的提示方法，如指令和示例演示的结合。

展望怎样的前景

有哪些有前景的未来发展方向？

第九部分关注由GPT-4V促成的新颖使用案例。我们希望这些初步的例子能激发未来的工作设计新的任务设置和提出严格的基准。第十部分设想了可以基于GPT-4V构建的强大未来系统，如多模态插件、多模态链、自我反思、自我一致性和检索增强的LMMs等。

注释图表列表

除了这个概述和目录，我们还包括了一个图表列表。该列表列出了报告中详细介绍的定性示例，作为一个额外的工具，帮助读者导航到他们感兴趣的场景。

2 GPT-4V的输入模式

概述本节介绍

这一部分总结了GPT-4V支持的输入，即，作为一个单一模型的语言模型只使用文本输入，选择性地使用单一图像-文本对，只有一个图像，以及选择性地使用交错的图像-文本对，只有多个图像输入。接下来，我们将突出这些不同输入模式下的代表性用例。

纯文本输入

GPT-4V的强大语言能力使其能够作为一个有效的单模态语言模型，只使用文本输入。GPT-4V完全使用文本作为输入和输出，能够执行各种各样的语言和编码任务。我们建议读者参阅GPT-4的技术报告，以获得对GPT-4V的语言和编码能力的全面和深入分析，以及与GPT-4（无视觉）的比较。

单一图像-文本对

GPT-4V，最新的大型多模态模型，接受图像和文本作为输入以生成文本输出。与现有的通用视觉-语言模型一致，GPT-4V可以接受单一的图像-文本对或单一图像作为输入来执行各种视觉和视觉-语言任务，如图像识别、对象定位、图像标注、视觉问题回答、视觉对话、密集标注等。我们注意到，图像-文本对中的文本可以被用作指令，如“描述图像”用于标注，或作为查询输入，如视觉问题回答中的问题。GPT-4V的出色智能体现在其与先前艺术相比显著提高的性能和通用性。对其在各个领域的多模态能力的全面分析在第四部分详细介绍。

交错的图像-文本输入

税务支付提问

Prompt:

1.我为税务支付了多少钱？

2.信息在哪里？

1

Prompt Continued

GPT-4V：

在第一张收据中，您支付了3.72美元的税款。该信息位于收据底部。在第二张收据中，您支付了42.23美元的税款。该信息位于收据底部附近，“销售税”一行下面。在第三张收据中，您支付了4.58美元的税款。该信息位于收据底部，“税”一行下面。总共，您在三张收据中支付了50.53美元的税款。

菜单结账

Prompt：

我应该根据菜单上的价格支付多少钱桌子上的啤酒。

这是菜单的照片。

GPT-4V:

根据菜单，一瓶 Magna 啤酒的价格是6美元。由于桌子上有两瓶 Magna 啤酒，啤酒的总费用将为12美元。

注释以上例子说明

图¹：GPT-4V可以处理多图像和交错的图像-文本输入。请参阅第2.3节以获取详细讨论。

交错图像-文本输入

GPT-4V的通用性进一步增强，因为它能够灵活处理交错的图像-文本输入。交错的图像-文本输入可以是视觉为中心的，例如多个图像配上一个简短的问题或指示，也可以是文本为中心的，例如一个带有两个插入图像的长网页，或者是图像和文本的平衡混合。这种混合输入模式为广泛的应用提供了灵活性。例如，它可以计算多个收据图像上支付的总税款，如图¹所示。它还能处理多个输入图像并提取查询信息。GPT-4V也能有效地关联交错的图像-文本输入中的信息，例如在菜单上找到啤酒价格，计算啤酒数量，并返回总费用，如图¹所示。除了直接应用外，处理交错的图像-文本输入作为在上下文中少量学习和其他高级测试时间提示技术的基本组成部分，从而进一步提升GPT-4V的通用性。我们将在下一节，第3节中展示这些引人入胜的新用法。

3 GPT-4V的工作模式和提示技术

3.1 遵循文本指示

遵循文本指示

指定字数说图

Prompt:

用三/六/九个英语单词描述图像。

2

GPT-4V:

三: Seaside dining table（海滨餐桌）

六: Dining table overlooking ocean with beer （俯瞰海洋的餐桌，配有啤酒）

九: Outdoor restaurant table with ocean view and a beer（带海景的户外餐厅桌子还有一杯啤酒）

指定字母说图

Prompt:

用以'B'/'D'/'T'开头的单词构成的句子来描述这张图片。

GPT-4V:

'B': Beachside bar boasts beautiful blue backdrop.（海滨酒吧以美丽的蓝色背景为特色。）

'D': Dining deck displays delightful drinks,distant docks.（餐厅露台展示令人愉悦的饮料和遥远的码头。）

'T': Tabletop terrace teeming with tropical tranquility.（桌面露台充满热带的宁静。）

缺失的图像a

Prompt:

缺失的图像会是什么样子？

GPT-4V:

缺失的图像很可能是钻石或星形的变化，就像其他三个图像一样。它可能是具有不同图案或颜色的钻石，或者是具有不同点数或颜色的星形。没有更多的上下文很难确定，但它很可能会遵循其他图像的主题。

缺失的图像b

Prompt:

这里有三个子图像排列成一个2x2的矩阵。首先，看看第一列中的两个图像，即左上角和左下角的图像。然后，根据左两个图像找出第一列中的模式。接下来，使用找到的模式和右上角的图像来推断缺失的图形。最后，描述缺失的图像会是什么样子？

GPT-4V:

第一列中的规律是，左下方的形状中心有一个点，而左上方的形状中心没有点。因此，右下方缺失的图像应该是一个带有中心点的星形，类似于右上方的图像，但中间有一个点。

注释能够遵循文本

图²：GPT-4V可以理解并遵循文本指示，以生成期望的文本输出或学习执行新任务。

光亮部分突出显示了较不具信息性的答案。请查阅第3.1节以获取详细讨论。

限制性的提示

JSON格式输出a

Prompt:

请阅读此图像中的文本，并以以下JSON格式返回信息（请注意，xxx是占位符，如果图像中没有提供信息，请改为“N/A”）。

{"class": xxx, "DLN": xxx, "DOB": xxx, "Name": xxx, "Address": xxx, "EXP": xxx, "ISS": xxx, "SEX": xxx, "HGT": xxx,

"WGT": xxx, "EYES": xxx, "HAIR": xxx, "DONOR": xxx}

3

GPT-4V:

{"class": "D", "DLN": "D08954796", "DOB": "01/01/1974", "Name": "Jelani Sample", "Address": "123 Main St,

Phoenix, AZ 85007", "EXP": "03/01/2024", "ISS": "03/01/2016", "SEX": "M", "HGT": "5-09", "WGT": "185 lbs",

"EYES": "BRO", "HAIR": "N/A", "DONOR": "Y"}

JSON格式输出b

Prompt:

请阅读图像中的文本，并以以下JSON格式返回信息（请注意，如果图像中没有可用信息，请用“N / A”代替）。

{"class": xxx，"DLN": xxx，"DOB": xxx，"Name": xxx，"Address": xxx，"EXP": xxx，"ISS": xxx，"SEX": xxx，"HGT": xxx，

"WGT": xxx，"EYES": xxx，"HAIR": xxx，"DONOR": xxx}

GPT-4V:

{"class": "C", "DLN": "1234568", "DOB": "08/31/1977", "Name": "Ima Cardholder", "Address": "2570 24th Street,

Anytown, CA 95818", "EXP": "08/31/2014", "ISS": "08/31/2011", "SEX": "F", "HGT": "5-05", "WGT": "125 lbs",

"EYES": "BRN", "HAIR": "BRN", "DONOR": "VETERAN"}

JSON格式输出c

Prompt:

请阅读此图像中的文本，并以以下JSON格式返回信息（请注意，xxx是占位符，如果图像中没有信息，请改为“N/A”）。

{"Surname": xxx, "Given Name": xxx, "USCIS #": xxx, "Category": xxx, "Country of Birth": xxx, "Date of Birth": xxx,

"SEX": xxx, "Card Expires": xxx, "Resident Since": xxx}

GPT-4V:

{"Surname": "STEVENS", "Given Name": "ICHIKA", "USCIS #": "000-000-000", "Category": "IR1", "Country of Birth":

"Japan", "Date of Birth": "18 AUG 1988", "SEX": "F", "Card Expires": "07/04/2027", "Resident Since": "07/05/2017"}

说明指定输出格式

图³：限制性提示以返回JSON格式。图像是样本的示例ID。

光亮突出显示了错误的答案。请查阅第3.1节以获取详细讨论。

基于良好表现的条件

数苹果a

Prompt:

统计图像中苹果的数量。

4

GPT-4V:

这张图片中有12个苹果。

数苹果b

Prompt:

数一下图片中的苹果数量。让我们一步步来思考。

GPT-4V:

步骤1：查看图像并识别出所有的苹果。

步骤2：逐个开始数苹果。

步骤3：确保不要漏掉任何一个苹果或重复计算同一个苹果。

步骤4：在计算完所有的苹果后，再次检查以确保计数正确。

答案：图像中有12个苹果。

数苹果c

Prompt:

数一下图片中的苹果数量。让我们逐行数苹果。

GPT-4V:

第一行：4个苹果

第二行：3个苹果

第三行：4个苹果

图中总共有11个苹果。

数苹果d

Prompt:

数一下图片中有多少个苹果。首先数出有多少行苹果，然后数出每行有多少个苹果，最后把它们加起来得到总数。

GPT-4V:

这张图片中有3行苹果。

顶部一行有5个苹果。

中间一行有4个苹果。

底部一行有6个苹果。

因此，这张图片中苹果的总数为5+4+6=15个苹果。

数苹果e

Prompt:

你是图像中计数的专家。让我们逐行计算下面图片中的苹果数量，以确保我们得出正确的答案。

GPT-4V:

第一行：4个苹果

第二行：4个苹果

第三行：3个苹果

图片中苹果的总数：11个苹果

说明改善计数条件

图⁴：基于良好表现的条件以改善计数。

光亮突出显示错误的答案。

加粗表示除了“计算图像中的苹果数量”的基本要求外，提示的不同方式。请查阅第3.1节以获取详细讨论。

优势强大的通用性

GPT-4V的一个独特优势是其通用性，这部分是通过其强大的理解和遵循文本指令的能力实现的。指令提供了一种自然的方式来定义和定制任意视觉-语言用例的期望输出文本。图²显示了一个图像描述的示例，该示例对句子长度和使用的单词进行了约束。

另一方面，在输入方面，GPT-4V可以理解详细的指令来执行具有挑战性的任务，例如通过提供中间步骤的指令使GPT-4V更好地解释抽象推理问题。从指令中学习新任务的能力在适应各种未见过的应用和任务中显示出巨大潜力，如第9节中详细介绍的。与最近的研究一致，本小节讨论的指令主要以文本格式提供，提供感兴趣任务的语言描述。我们将在第3.3节后面讨论GPT-4V遵循多模态示例引导指令的独特能力。

概述文本指令技术

此外，我们展示了文本指令在塑造GPT-4V响应中的重要作用，采用了来自LLM文献的两种技术，（i）“有约束的提示”，使GPT-4V以某种格式响应；和（ii）“对良好性能的条件”，明确要求GPT-4V表现出良好的性能。

限制格式提示

在图³中，我们提示GPT-4V阅读图像中的文本，并以特定的JSON格式返回信息。尽管GPT-4V在提取驾驶证上的相应信息时犯了一些错误，但响应仍然被限制在文本指令中指定的JSON格式中。我们在第9节中利用这种技术处理某些应用场景。

良好表现条件

关于LLMs的一个观察是，LLMs并不想成功。相反，他们希望模仿具有一系列性能质量的训练集。如果用户希望在给模型的任务中成功，用户应该明确要求它，这在提高LLMs的性能方面已被证明是有用的。在LMMs的背景下，我们有类似的观察。在图⁴中，我们比较了模型对于计数的不同文本指令的响应。我们从一个简单明了的提示开始：“计算图像中苹果的数量。”然而，GPT-4V错误地在图像中计算了总共12个苹果。为了提高其性能，我们通过添加短语“让我们一步一步地思考。”探索了来自针对LLMs的零射链式思考的使用。尽管GPT-4V预测的步骤通常是正确的，但它们对于最后的计数并不是很有帮助，因为它仍然得出了“12个苹果”的错误答案。接下来，我们将指令修改为“让我们逐行计算苹果”，这与视觉输入更相关。虽然GPT-4V提供了正确的总计数，但它在计算第二/第三行时出错。当我们进一步扩展指令为“首先计算有多少行苹果，然后计算每行的苹果数量，最后将它们加起来得到总数”，最后的答案与正确答案（15 vs. 11）偏离得更远。最后，模仿“让我们一步一步地解决这个问题，以确保我们得到正确答案。”针对LLMs，我们设计如下提示：“你是图像中物品计数的专家。让我们逐行计算下面图像中的苹果数量，以确保我们得到正确答案。”我们提示的第一句话要求GPT-4V假定计数专家的角色，第二句话明确指示GPT-4V成功。有了这个设计，GPT-4V成功地返回了每行以及总计数的正确答案。在整篇论文中，我们在各种场景中使用这种技术以获得更好的性能。

3.2 视觉指向和视觉引用提示

指向

指向是人与人交互的基本方面。为了提供一个可比较的交互渠道，我们研究了各种形式的“指向”，以引用任意感兴趣的空间区域。

多个指向

5

框坐标

图像裁剪

箭头

方框

圆圈

手绘

图⁵：多模态交互中的“视觉指向”的不同模式。

例如，如图⁵所示，“指向”可以表示为数字空间坐标，例如框坐标和图像裁剪，或者覆盖在图像像素上的视觉标记，例如箭头、方框、圆圈和手绘。我们观察到GPT-4V在理解直接在图像上绘制的视觉指针方面特别强大。鉴于在图像上绘图的灵活性，这种能力可以作为未来在野外进行人机交互的自然方法。

为此，我们探索了一种名为视觉引用提示的新的提示方法，在这种方法中，人们编辑输入图像的像素空间以指定所需的目标，例如绘制视觉指针或手写场景文本。如下图所示，视觉引用提示通过编辑图像像素，而非传统的文本提示，来执行感兴趣的任务。例如，它可以是一个简单的有根据的描述，该描述专注于描述被指向的物体，同时保持对全局图像上下文的理解，如图（1,2）所示。视觉引用提示还启用了其他新颖的使用案例，例如将被指向的物体与场景文本中写入的索引关联起来（图3），或解决在探讨边缘或角度附近提出的数学问题（图4）。第5节将更详细地讨论视觉引用提示。

下面是图

视觉指向和视觉参照提示

描述指定事物

Prompt:

描述图像中的尖锐区域。

6

GPT-4V:

图像中的尖锐区域是一排悬挂在电线上的灯。这些灯是小而圆的，它们沿着电线均匀分布。电线被拉在两个柱子之间，位于一个带有桌子和遮阳伞的露台区域上方。这些灯看起来是装饰性的，很可能用于提供夜间环境照明。

描述表格栏列

Prompt:

描述图像中的尖锐区域。

GPT-4V:

图像中突出显示的红色区域是表格单元格，其中包含数值122.3。它位于表格的“测试集”部分，在“out”列和“GIT2”行下面。该值代表GIT2方法在测试集中“out”类别上的总体性能指标。

饮料

Prompt:

圆圈中的玻璃杯里装的是什么？是（Object 1）物品1还是（Object 2）物品2？

描述一下物品1和物品2。然后检查一下圆圈中的玻璃杯里装的是什么。

GPT-4V:

物品1是一瓶装满水的玻璃瓶。它是透明的，上面贴着一个蓝色的标签。

物品2是一瓶玻璃瓶装满Magna啤酒。它是绿色的，上面贴着一个红白相间的标签。

在圆圈形玻璃杯中，看起来是一种透明的液体，很可能是水。因此，圆圈中的液体很可能来自物品1，即水的玻璃瓶。

三角形运算

Prompt:

回答以下图中的问题。提供中间步骤。

GPT-4V:

为了找到蓝色箭头边的长度，我们可以使用勾股定理，因为我们有一个直角三角形。定理规定a² + b² = c²，其中a和b是直角三角形的两条腿，c是斜边。插入我们拥有的值，我们得到：

4² + 8² = c²

16 + 64 = c²

80 = c²

√80 = c

8.94 ≈ c

因此，蓝色箭头边的长度约为8.94。

为了找到绿色箭头的角度，我们可以使用正切函数，因为我们有角度的对边和邻边。正切函数规定tanθ = 对边/邻边。插入我们拥有的值，我们得到：

tanθ = 4/8

tanθ = 1/2

θ = tan^-1(1/2)

θ ≈ 26.57°

因此，绿色箭头的角度约为26.57°。

注释理解视觉指向

图⁶：GPT-4V展示了直接理解图像上的视觉指向的独特能力。

基于这种能力，我们探索了编辑输入图像像素（例如，绘制视觉指针和场景文本）以提示感兴趣的任务的视觉参照提示。请查阅第3.2节以获取详细讨论。

3.3 视觉+文本提示

视觉引用提示

视觉引用提示可以与其他【图像-文本提示】顺畅地一起使用，呈现出一个细致的界面，简洁地表示了感兴趣的问题。图[^7]展示了两个例子，展示了GPT-4V提示的灵活性，特别是其在整合不同输入格式以及在输入中无缝混合指令和示例方面的熟练程度。GPT-4V的通用性和灵活性导致了对多模态指令的人类般的理解和对未见任务的空前适应能力。

说明集成多模态指令

现有模型通常对交错的【图像-文本】输入的格式有隐式限制，例如，在上下文中的少样本学习需要图像-文本对与查询输入有相似的格式。相比之下，GPT-4V在处理图像、子图像、文本、场景文本和视觉指针的任意混合方面显示出通用性。

例如，为了说明图[^7]中的“添加一行”模式，人们可以像下面图（1）中那样用圆圈指向矩阵图像的第一列，或者像下面图（2）中那样内联地合并子图像。

图（1）

图（2）

同样，对于输入查询，人们可以像下面图（3）中那样呈现一个大图，问题作为场景文本，或者像图（4）中那样发送文本和子图像的混合。与GPT-4V的灵活性相比，现有的多模态模型在如何组合图像和文本以及它们可以处理的图像数量方面受到严重限制，从而对模型的能力和通用性造成了限制。

图（3）

图（4）

对比已有模型vsGPT-4V

除了支持更灵活的输入格式外，GPT-4V的通用性也开启了更有效的方式来说明要执行的任务，相比之下，这比跟随指令模式和在上下文中的少样本学习更为有效。跟随指令技术，最初是为NLP任务提出的，直观地关注纯文本格式的任务指令。文本指令与视觉查询输入关系不大，因此可能无法提供清晰的任务演示。虽然在上下文中的少样本学习提供了包含图像和文本的测试时间示例，但这些示例必须与推理查询的格式完全对齐，使得它们复杂而冗长。

此外，上下文示例通常与指令分开使用，要求模型推断任务目标，从而削弱了示例的有效性。相比之下，GPT-4V理解多模态指令的能力使任务演示能够基于相应的上下文示例，因此更有效地说明了感兴趣的任务。例如，在图[^7]中，“找到第一列的模式”的指令基于演示示例中的关键步骤（即（1）中的圆形模式和（2）中对应的子图），简化了学习过程并提高了模型的性能。这种方法也反映了人类的学习过程，该过程涉及与直观示例配对的抽象指令。

多模态示例引导的指令

图形选择题a

Prompt:

找出第一列中的模式，并用它推断出第二列中缺失的图形。

7

例如，左侧第一列中圈出的区域显示了通过其添加一条线的模式。因此，答案是一个菱形图案。

带有一条穿过它的线，看起来像是

回答以下图中的问题。

GPT-4V:

第一列的模式是在图形的中心添加一个点。因此，第二列缺失的图形将是一个中心带有一个点的星星，即选项C。

图形选择题b

Prompt:

找出第一列中的模式，并用它推断出第二列中缺失的图形。

例如，

因此，在图像2中添加一行

将会是一个有一条线穿过的菱形。

Prompt Continued

这里有三个子图像排列在一个 2x2 的矩阵中。

第三张图片和第一张图片之间的模式是什么？

下一个完成矩阵的图像会是什么？

GPT-4V:

图像3和图像1之间的模式是，图像3中心有一个点，而图像1中没有。完成矩阵的下一个图像应该是选项c，一个中心有一个点的星形。这是因为模式似乎是每隔一个图像中心有一个点，而上一个图像（图像3）中心有一个点。此外，图像在菱形和星形之间交替，因此下一个图像应该是星形。

注释应对任意提示组合

图⁷：GPT-4V擅长解释图像、子图像、文本、场景文本以及视觉指针输入的任意组合。这些元素可以作为指令、示例或输入查询，帮助GPT-4V有效地执行新的任务。请查阅第3.3节以获取详细讨论。

3.4 在上下文中的少样本学习

概述少样本学习

在上下文中的少样本学习是在语言模型（LLMs）中观察到的另一种引人入胜的新能力。也就是说，通过在推理时间前置几个上下文示例，LLMs可以在不更新参数的情况下生成所需的输出。这些示例与输入查询具有相同的格式，并作为演示来说明所需的输出。

类似的能力最近在多模式模型中被观察到，其中输入查询是格式化的图像-文本对。与指令调整相辅相成，上下文学习通过在测试时间提供相同格式的上下文示例“教导”模型执行新任务。我们通过一些引人入胜的例子展示了GPT-4V的上下文少样本学习能力。我们强调，在某些情况下，具有足够数量的示例的上下文少样本学习变得至关重要，特别是当零样本或一次性指令方法不足时。

下方的图8、图9探索了一个涉及读取速度表的挑战性场景。

在图8中，描绘了GPT-4V在从视频中获取的速度表图像的零样本性能。尽管多次尝试以零样本方式提示GPT-4V，但它仍然难以准确读取图像中显示的当前速度。它生成的预测（22/30/40 mph）与人类读取的“大约9 mph”显著偏离。

即使使用1个上下文示例（如图9所示），无论是使用不同的示例（图9a）还是相似的示例（图9b），GPT-4V仍然无法准确地定位黄色指针左右两侧的两个数字。

相反，图10证明，当提供2个上下文示例时，一个与查询图像相似，另一个不同，GPT-4V成功地预测速度读数为“大约9 mph”，因为它认识到指针接近10 mph，但还没有完全到达那里。

对于一个复杂的线图，零次推理、一次推理和两次推理的性能比较在图11——

图13中有所描绘。

我们在这里探索的例子呈现出极大的难度级别，因为它涉及到多跳推理。要回答“在图表中，哪一年的六月份的平均汽油价格最高”这个问题，需要至少经过四个步骤：（i）在x轴上定位六月份，（ii）比较六月份每条线的数据点，（iii）识别出最高值的线条的颜色，以及（iv）将颜色与图例顶部对应的年份匹配。任何一个步骤的失败都会导致预测错误。

如图11所示，即使在零次推理的情况下提示“文本指示，逐步思考”，GPT-4V也无法正确地将颜色与图例中的年份关联起来。此外，它还被图中突出显示的3.32美元的汽油价格所分散注意力。

同样，在图12中，尽管GPT-4V在阅读图例方面有所改善（与零次推理相比，纠正了2021年和2022年对应的颜色），但它仍坚持以2023年为六月份的平均汽油价格最高的年份，尽管事实上，图表只包含到2023年1月17日的数据点。

然而，如图13所示，当我们引入另一个上下文示例时，GPT-4V终于得出了正确的答案（2022年），并提供了解释其推理过程的中间步骤，类似于在上下文示例中显示的演示。

这些概念验证的例子生动地展示了上下文少样本学习在提高语言模型（LMMs）性能方面的日益重要性。这种方法作为微调的可行替代方案，类似于在语言模型（LLMs）上下文中所做的观察。尽管上下文少样本学习在提高LMMs的性能方面非常重要，但我们在这份报告中限制了其使用，以防止潜在的信息泄露或来自上下文示例的不希望的提示。我们也将少样本学习的收益的定量评估留给未来的研究。

零样本学习

Prompt:

速度表的读数是多少？

8

GPT-4V:

速度表读数约为每小时22英里（mph）。

零样本+推理

Prompt:

速度表上的读数是多少？让我们逐步思考。

（注意：与上面显示的图像相同，调整大小以节省空间。）

GPT-4V:

这个速度计有两个刻度 - 一个是英里每小时（mph），另一个是公里每小时（km/h）。

指针指在mph刻度的20和40之间，以及km/h刻度的40和60之间。

由于刻度上的数字每20递增一次，我们可以估计指针指向的大约是30 mph和50 km/h。

因此，速度计读数大约是30 mph（或50 km/h）。

零样本+文字说明

Prompt:

速度表的读数是多少？要读取这个速度表，观察指向以英里每小时表示的当前速度的刻度盘外缘上的指针。指针是黄色的。

GPT-4V:

在这个例子中，指针指向大约40英里每小时，因此当前速度大约是40英里每小时。此外，表盘的内圆显示公里每小时的速度，在这个例子中，当前速度大约是64公里/小时。

零样本+文本说明+推理

Prompt:

速度表的读数是多少？要读取这个速度表，观察指向以英里每小时表示的当前速度的刻度盘外缘上的指针。指针是黄色的。让我们逐步思考。

GPT-4V:

首先，看一下表盘的外边缘，找到代表每小时英里数的数字。
接下来，找到指向当前速度的黄色指针。
观察指针指向的位置，并读取表盘外边缘上的数字。
这个数字就是当前速度，以英里每小时为单位。

在这个例子中，指针指向大约40英里每小时，因此当前速度为40英里每小时。

注释回答错误a

图⁸：在阅读速度表的挑战性场景下的零样本性能。即使采用不同的零样本提示，GPT-4V也无法准确地读取速度表。高亮显示错误的答案。请参阅第3.4节以进行详细讨论。

给1个示例a

Prompt:

最下方图片的速度表的读数是多少？

9

上面这个图的黄色指针大致位于80和100英里每小时之间的中间位置。80和100的中间位置是90。

速度大约为91英里每小时，因为指针刚刚超过了90英里每小时。

GPT-4V:

在这张图片中，黄色的指针大约在60和80英里/小时之间的中间位置。60和80的中间位置是70。速度大约是71英里/小时，因为指针刚刚超过70英里/小时。

给1个示例b

Prompt:

最下方图片中的速度表的读数是多少？

上方这个图片中的黄色指针位于20和40英里/小时之间的长刻度之间。20和40之间的中间长刻度是30。速度大约为29英里/小时，因为指针接近30英里/小时，但还没有达到30。

GPT-4V:

黄色指针指向40和60英里每小时之间的长刻度。40和60之间的中间长刻度为50。速度大约为49英里每小时，因为指针接近50英里每小时，但还没有达到50。

注释回答错误b

图 ⁹：在具有挑战性的情况下读取速度表的一次性（或通过多模态示例指令进行提示）性能。在（例子a）不相似或（例子b）相似的一次性上下文示例中，GPT-4V 仍然失败。

光亮显示错误的答案。

请查阅第3.4节以获取详细的讨论。

给2个示例

Prompt:

最下方图片的速度表显示的是什么读数？

10

上面黄色指针大约在80和100英里/小时的中间。80和100的中间是90。

速度大约是91英里/小时，因为指针刚刚超过90英里/小时。

上面黄色的指针大约在20英里/小时和40英里/小时之间的中间。20和40的中间是30。速度大约为29英里/小时，因为指针接近30英里/小时，但还没有完全到达30。

GPT-4V:

黄色指针位于0和20英里/小时之间的长刻度之间。0和20之间的中间长刻度是10。由于指针接近10英里/小时但还没有完全到达10，因此速度大约为9英里/小时。

注释回答正确

图¹⁰：在具有挑战性的情况下读取速度表的两次性能。现在，GPT-4V 可以准确地读取速度。

零示例

Prompt:

在这张图中，六月份哪一年的平均汽油价格最高？

GPT-4V:

根据图表显示，6月份平均汽油价格最高的年份是2021年，大约为每加仑3.32美元。

零示例+思维链

Prompt:

在图表中，六月份哪一年的平均汽油价格最高？让我们逐步思考。

（与上图一样，调整大小为了节省空间）

GPT-4V:

步骤1：在x轴上找到6月份。

步骤2：查看每年6月份的数据点。

步骤3：比较数据点，看哪一年的值最高。

根据这些步骤，我们可以看到，2021年6月份的平均汽油价格最高，约为每加仑3.32美元。

零示例+指示

Prompt:

在这张图中，哪一年6月份的平均汽油价格最高？

步骤1，阅读图表的标题；

步骤2，阅读图例以了解年份和线条颜色之间的对应关系；

步骤3，在x轴上找到6月份；

步骤4，查看每条线在6月份的数据点；

步骤5，比较每条线的数据点，确定哪一条在6月份有最高的平均汽油价格；

步骤6，确定该线的颜色，并在顶部的图例中匹配年份。

GPT-4V:

根据上述步骤，我们可以看到2021年（用蓝线表示）在6月份的平均汽油价格最高，为每加仑3.32美元。

零示例+指示+思维链

Prompt:

在图表中，哪一年6月份的平均汽油价格最高？

步骤1，阅读图表的标题；

步骤2，阅读图例以了解年份和线条颜色的对应关系；

步骤3，在x轴上找到6月份；

步骤4，在6月份中查看每条线的数据点；

步骤5，比较每条线的数据点，确定哪个线条在6月份具有最高的平均汽油价格；

步骤6，确定该线的颜色，并在顶部的图例中匹配年份。

让我们一步一步地思考。

11

GPT-4V:

步骤1：图表的标题是“全国天然气价格比较/2019-2023”。这告诉我们该图表比较了2019年至2023年间美国的天然气价格。

步骤2：图表顶部的图例显示，2019年、2020年、2021年、2022年和2023年分别用不同的颜色表示：橙色、黑色、蓝色、绿色和青色。

步骤3：看一下X轴，我们可以看到6月份被表示出来了。

步骤4：在6月份，我们可以看到每条线的数据点如下：- 2019年（橙色）：约2.75美元- 2020年（黑色）：约2.25美元- 2021年（蓝色）：约3.32美元- 2022年（绿色）：约3.00美元- 2023年（青色）：约2.90美元

步骤5：比较这些数据点，我们可以看到6月份最高的平均天然气价格为3.32美元。

步骤6：表示3.32美元的线的颜色是蓝色，对应图例中的2021年。

因此，6月份平均天然气价格最高的年份是2021年。

注释需要继续尝试

图¹¹：在阅读线图的挑战情境下的零样本性能。即使使用不同的零样本提示方式，GPT-4V也无法回答问题。

高亮标记表示错误答案。

给1个样本学习

Prompt:

在最下方这张图中，哪一年六月份的平均汽油价格最高？

12

上面这个图表是从2016年到2019年2月4日的国家燃油价格比较的折线图。顶部的图例显示了每年的线条颜色，红色（2019年），蓝色（2018年），绿色（2017年）和橙色（2016年）。由于数据报告到2019年2月，只有2018年（蓝色）、2017年（绿色）和2016年（橙色）的六月份有数据点。其中，2018年的蓝线在六月份处于最高点。因此，六月份平均油价最高的年份是2022年。

GPT-4V:

这张图是从2019年到2023年1月17日的国家天然气价格比较折线图。顶部的图例显示了每年的线条颜色，红色（2023年），蓝色（2022年），绿色（2021年），黑色（2020年）和橙色（2019年）。

由于数据仅报告到2023年1月，因此只有4年在2022年6月（蓝色），2021年6月（绿色），2020年6月（黑色）和2019年6月（橙色）有数据点。其中，2023年的红线在6月份处于最高位置。因此，6月份平均天然气价格最高的年份是2023年。

注释仍然失败

图¹²：在具有挑战性的情况下，使用一次性（或通过多模态示例指令进行提示）方式读取线性图的表现。在一次性上下文示例中，GPT-4V 仍然无法成功。

光亮突出显示错误的答案。

给2个样本学习

Prompt:

在最下方这张图中，哪一年六月份的平均汽油价格最高？

13

上面这个图是从2016年到2019年2月4日的全国天然气价格比较的线性图。顶部的图例显示每年的线条颜色，红色（2019年），蓝色（2018年），绿色（2017年）和橙色（2016年）。由于数据报告到2019年2月，因此只有3年的数据点在6月，分别是2018年（蓝色），2017年（绿色）和2016年（橙色）。其中，2018年的蓝线在6月份处于顶部。因此，6月份平均天然气价格最高的年份是2022年。

上面这张图是从2015年到2018年12月10日的国家燃油价格比较折线图。顶部的图例显示了每年的线条颜色，红色（2018年），橙色（2017年），绿色（2016年）和橙色（2017年）。由于数据报告截至2018年12月，所有4年都有6月份的数据点。其中，2018年的红线在6月份处于最高点。因此，六月份平均汽油价格最高的年份是2018年。

GPT-4V:

这张图是从2019年到2023年1月17日的全国天然气价格比较线图。顶部的图例显示每年的线条颜色，红色（2023年），蓝色（2022年），绿色（2021年），橙色（2020年）和黑色（2019年）。

由于数据报告仅到2023年1月，因此仅有4年的数据点在2022年6月（蓝色），2021年（绿色），2020年（橙色）和2019年（黑色）。其中，2022年的蓝线在6月份处于最高位置。因此，6月份平均天然气价格最高的年份是2022年。

注释成功回答正确

图 ¹³：在具有挑战性的情况下，使用两次性方式读取线性图的表现。现在，GPT-4V 可以正确地回答“哪一年的6月份平均天然气价格最高？”这个问题。

4 视觉-语言能力

概述第4节介绍

理解和描述视觉信息在人类认知中起着至关重要的作用。在这一部分，我们将探讨如何利用 GPT-4V 来理解和解释视觉世界。

我们将首先检查模型生成通用视觉字幕的开放式描述的能力。

接下来，在第4.2节中，我们将探讨 GPT-4V 在更高级任务中的应用，如空间关系分析、物体定位、物体计数和密集字幕。在第4.3节中，我们将深入研究模型的多模态知识和常识推理能力，并研究模型是否能理解不同信息类型之间的上下文和关系。

此外，在第4.4节中，我们将评估模型从各种来源（包括场景文本、表格、图表和文档）提取和分析信息的能力。在第4.5节中，我们将探索 GPT-4V 在理解和生成多语言场景描述方面的能力。

最后，在第4.6节中，我们将研究模型在视觉信息编码方面的熟练程度，探索其执行选定示例任务的能力。

4.1 多样化领域的图像描述

概述评估泛化能力

我们通过提供一个“图像-文本对”作为输入来评估模型的能力和泛化性。

我们提示 GPT-4V 生成涵盖下面列出的各种主题的自然语言描述。

测试识别名人外貌

识别人的外貌是一个很大的挑战，因为每个人的外貌都会有很大的不同。为了测试 GPT-4V 是否能识别和描述名人，我们进行了一个实验，给出了一个文本提示“描述这个图像”，并输入了一个名人的照片。在图14的顶部，我们发现 GPT-4V 能准确地识别出这八位来自不同背景和领域的名人。

而且，当我们提出一个更具体的问题，“图像中的人是谁，这个人在做什么？”如图14的底部所示，GPT-4V 明白了现任美国总统正在 2023 年 G7 峰会上发表演讲。这说明模型能够处理和理解新的情况，比如 2023 年 G7 峰会，尽管这并不是它训练时的数据。

测试地标识别描述

地标的外观会因为诸如观察角度的变化、光照条件、遮挡物和季节变化等因素而有很大的差异。在这些变化下识别地标需要模型能够很好地泛化并处理大范围的视觉外观。在实验中，我们使用一个简单的文本提示，“描述图像中的地标”，来测试模型的能力。

如：图15、图16所示，GPT-4V 为每个测试图像生成了准确且开放式的描述。

例如，它准确地识别出位于华盛顿州西雅图的太空针塔，并理解到这座塔是为 1962 年世界博览会建造的，从那时起就成为了城市的象征。我们对其他测试照片也有类似的观察。生成的描述超越了简单的标签或通用短语，提供了生动详细的叙述，捕捉到了地标的本质。

测试食物识别描述

识别食物或菜肴是一个很吸引人的任务，但由于食物外观的多样性以及可能由于其他物体或重叠的食材导致的遮挡，这可能会很有挑战性。

在我们的实验中，我们使用了一个直接的文本提示，要求系统“描述菜肴的名称”，以进行测试。图17展示了 GPT-4V 对各种菜肴的准确识别。此外，GPT-4V 有效地捕捉了图像中的复杂细节，使其能够识别出菜肴中存在的特定食材、装饰或烹饪技术。

测试医学图像识别

医学图像，例如X光和CT扫描，由于患者群体和成像设备的不同，可能存在很大的变异性。

此外，解释这些图像的视觉内容需要专业知识。在图18中，我们通过提供“描述图像”的提示来访问GPT-4V的性能。结果显示，GPT-4V识别出给定X光中的牙齿和下颌骨。此外，当我们提示“这张X光图像中是否需要拔智齿？”时，GPT-4V会在视觉上下文中进行推理，并解释说下颌左右两侧的智齿没有完全长出牙龈线，这可能是拔除的原因。

我们还使用其他医学图像进行测试，如图19所示。对于这些实验，我们使用提示词如“出了什么问题？”或“看看CT扫描，告诉我出了什么问题。”观察结果表明，GPT-4V可以识别常见疾病，如Jones骨折。它还可以根据肺部CT扫描指出潜在问题。

这些实验展示了GPT-4V对医学图像的基本理解。我们在第9.3节中讨论了将GPT-4V应用于医学领域的应用。

测试 Logo识别描述

我们研究了GPT-4V在标志识别方面的能力。如图20所示，我们通过提供文本提示“描述这个图片”开始实验。GPT-4V准确地识别出了图片中描绘的三个标志。然后，我们提出了一个更具体的问题，“详细描述这些标志”，GPT-4V提供了详细的描述，包括每个标志的设计、风格和表示。

我们将评估扩展到更具挑战性的自然环境场景，如图21所示，我们试验了可能部分被遮挡、扭曲或位于杂乱背景中的标志。我们在自然环境实验中使用文本提示“详细描述图片和标志”。

如图21所示，GPT-4V在理解困难场景中的标志方面展现出强大的能力。值得注意的是，GPT-4V也可以为新的或新兴的标志和图标提供描述，例如最近发布的Microsoft 365 Copilot。

测试场景识别描述

场景理解是计算机视觉中的重要任务。

我们通过提供一个简单的提示“描述这个图片”来检查模型的能力。在图22中，GPT-4V能够描述道路以及车辆的位置和颜色。它还能读取标志并注意到这条道路的速度限制。

测试非事实例子

我们通过随机选择与事实不符的例子进行实验。在图23中，我们观察到，当面对误导性的问题或指示时，GPT-4V正确地描述了图像内容。

识别名人外貌

名人识别a

Prompt:

描述这张图片。

14

GPT-4V:

这张图片展示了来自不同领域的8位知名人士的拼贴。从左到右，顶部一排分别是歌手贾斯汀·比伯、足球运动员莱昂内尔·梅西、足球运动员克里斯蒂亚诺·罗纳尔多和企业家埃隆·马斯克。底部一排从左到右分别是模特和真人秀明星凯莉·詹娜、歌手泰勒·斯威夫特、演员小罗伯特·唐尼和演员斯嘉丽·约翰逊。所有人以不同的姿势和服装出现，背景也各不相同。

名人识别b

Prompt:

这张图片中的人是谁？这个人在做什么？

GPT-4V:

这张图片中的人是现任美国总统乔·拜登。他站在讲台上，可能正在发表演讲，位于2023年在日本广岛举行的G7峰会上。

名人识别c

Prompt:

这张图片中的人是谁？这个人在做什么？

GPT-4V:

图中的人是NVIDIA的CEO兼联合创始人Jensen Huang。他手持并展示了一款NVIDIA的产品，很可能是一款图形处理器（GPU）。

注释能识别名人

图¹⁴：名人识别和描述的结果。GPT-4V可以识别各种名人，并详细描述其职业、动作、背景和事件的视觉信息。

地标识别和描述

地标识别a

Prompt:

15

描述图片中的地标。

GPT-4V:

这张图片中的地标是太空针塔，位于华盛顿州西雅图市，高605英尺，可以俯瞰城市和周边地区的全景。该塔建于1962年世界博览会期间，如今已成为西雅图的象征和热门旅游景点。该塔拥有未来主义设计，顶部有一个大型圆形观景台和一个可旋转360度的餐厅。塔底周围有一片树木和绿地的公园。

地标识别b

Prompt:**

描述图像中的地标。

GPT-4V:

这张图片展示了位于日本京都的金阁寺，也被称为黄金阁。这座寺庙是一座三层的佛教寺庙，被金箔覆盖，并坐落在一个池塘上，在水面上呈现出令人惊叹的倒影。周围的景观充满了树木和岩石，营造出宁静祥和的氛围。这是一个受欢迎的旅游胜地，也是一个指定的国家特别历史遗址。

地标识别c

Prompt:**

描述图像中的地标。

GPT-4V:

图中的地标是乔治·M·科汉在纽约时代广场的雕像。它是一座铜像，矗立在杜菲广场的花岗岩基座上，杜菲广场是时代广场的北部。这座雕像是对乔治·M·科汉的致敬，他是一位美国娱乐家、剧作家、作曲家和制片人，被认为是美国音乐喜剧之父。这座雕像于1959年揭幕，并成为时代广场的热门旅游景点。

地标识别d

Prompt:****

描述图像中的地标。

GPT-4V:

图像中的地标是加利福尼亚州旧金山著名的兰巴街，以其陡峭的鱼钩拐弯而闻名。街道两侧种满了色彩缤纷的花卉和灌木，两旁有房屋和建筑物。在背景中，可以看到城市天际线和电报山上的科伊塔塔。这条街是一个受欢迎的旅游景点，通常被认为是世界上最弯曲的街道之一。

注释能识别地标

图¹⁵：地标识别和描述的结果。GPT-4V准确地识别了测试图像中的地标。它还生成了生动详细的叙述，捕捉了地标的本质。

地标识别e

Prompt:

16

描述图片中的地标。

GPT-4V:

这张图片中的地标建筑是位于台湾台北的台北101大楼。该建筑高508米（1667英尺），曾在2004年至2010年间是世界上最高的建筑。它有101层地面和5层地下，是台北的热门旅游景点。该建筑的设计类似于竹子，象征着力量和韧性。

地标识别f

Prompt:

描述图像中的地标。

GPT-4V:

这张图片中的地标是曼哈顿大桥，从布鲁克林的DUMBO社区看去。这座跨越东河的桥连接着曼哈顿下城和布鲁克林。它是一座悬索桥，有两个大塔，完成于1909年。在图片中，这座桥被两座砖建筑所包围，创造出了一个独特的地标视野。

地标识别g

Prompt:

描述图片中的地标。

GPT-4V:

图片中的地标是纽约市的特朗普大厦内部。焦点是特朗普烤肉店，它是塔楼底层的一家餐厅。室内装饰着红色和金色装饰，大理石墙壁和柱子，还有一个节日气氛的展示，有一棵圣诞树和一些一品红。这个空间奢华豪华，典型的特朗普品牌。

地标识别h

Prompt:

描述图片中的地标。

GPT-4V:

这张图片中的地标是日本京都的伏见稻荷大社。它以其成千上万个绯红色鸟居而闻名，这些鸟居排列在通往神社的路径两旁。这些鸟居代表着世俗世界和神圣世界之间的界限，由个人和企业捐赠以表达他们对稻荷神的虔诚。图中显示了一条被这些鸟居环绕的路径通向神社，中间铺设着石阶。

注释捕捉地标本质

图¹⁶：地标识别和描述的结果。GPT-4V准确地识别了测试图像中的地标。它还生成了生动而详细的叙述，捕捉了地标的本质。

食品识别和描述

菜品识别a

Prompt:

17

描述这道菜的名称。

GPT-4V:

图片中的菜肴是一碗麻婆豆腐，它是来自四川省的一道流行的中国菜。它由软豆腐块和由辣椒、豆瓣酱和四川花椒制成的浓郁辣味酱汁组成。这道菜上面还装饰着薄薄的青葱片。

菜品识别b

Prompt:

描述这道菜的名称。

GPT-4V:

鳗鱼丼是源自日本的一道菜品。在日本料理中，它是一种通常在深碗中上菜的米饭碗菜。“Unagi”这个词在日语中意为淡水鳗鱼，“donburi”则指配有米饭和其他配料的大碗。鳗鱼丼是一道以烤鳗鱼和一种甜味咸味酱料“鳗鱼酱”为主料的菜品，上面盖着白米饭。通常配有腌制蔬菜、芝麻、青葱和海苔。

菜品识别c

Prompt:

描述这道菜的名字。

GPT-4V:

这道菜叫做卡津样品拼盘。它是由四个小碗传统的卡津菜肴组成 - 肉汤、香辣饭、红豆和米饭以及龙虾煮。这些碗配有一份切片面包作为蘸料。每个碗里都有白米饭，上面放着青葱。这是路易斯安那州的一道受欢迎的菜肴，也是尝试各种卡津风味的好方法。

菜品识别d

Prompt:

描述这道菜的名称。

GPT-4V:

这道菜叫做烤牛仔骨配奇米乔里酱。

它采用了嫩滑的牛仔骨，经过缓慢的烹饪直至变得柔软，再加上美味的奇米乔里酱。它还配有烤蔬菜，成为一道完整的餐点。

注释能识别食物

图¹⁷：食物识别与描述结果。GPT-4V可以识别各种菜肴。它还可以确定菜品图像中存在的特定配料、装饰或烹饪技巧。

医学图像a

Prompt:

18

描述这张图片。

GPT-4V:

这张图片是一张黑白的人类颅骨X光片，从正面视角观察。颅骨的顶部和底部都可见。牙齿和下颌骨清晰可见。鼻腔和眼眶也可见，但不如其他部位清晰。图片右下角标有“L”，表示这是颅骨的左侧。

医学图像b

Prompt:

（图片同上）

这张X光片上是否有需要拔除的智齿？

GPT-4V:

很难确定这张X光片上的智齿是否需要拔除，因为还有其他因素需要考虑，比如患者的年龄和牙齿的位置。然而，似乎下颌左右两侧的智齿部分受阻，也就是说它们没有完全长出牙龈。这可能是拔牙的原因，因为受阻的智齿可能会引起疼痛、感染和其他问题。

医学图像c

Prompt:

（图片同上）

哪颗智齿最难拔出？

GPT-4V:

下颌智齿，特别是那些受到影响的智齿，通常被认为是最难拔除的。这是因为下颌骨比上颌骨更密实，而受影响的智齿可能更难接触。此外，下颌智齿的根通常比上颌智齿更长、更弯曲，使它们更具挑战性。

注释理解医学图像

图¹⁸：医学图像理解结果。GPT-4V能够识别出给定X光线中的牙齿和颌骨，并解释说下颌左右两侧部分长出的智齿可能需要拔除。

医学图像d

Prompt:

19

什么问题？

GPT-4V:

似乎第五跖骨（连接小脚趾的脚外侧骨头）有裂纹或骨折。这通常被称为“Jones骨折”。

医学图像e

Prompt:

看一下下面的肺部CT扫描图像，告诉我有什么问题。

GPT-4V:

双肺出现多个实变影和地玻璃样阴影，可能表明存在肺部感染或炎症。右上叶可能存在肿块或结节。需要进一步评估和临床相关性以确定确切的诊断。

注释识别常见病症

图¹⁹：医学图像理解的结果。GPT-4V能够识别常见病症，如Jones骨折。它还可以根据肺部CT扫描指出潜在问题。这些医学图像来自互联网。

Logo识别和描述

Logo识别a

Prompt:

20

描述这张图片。

GPT-4V:

这张图片由三个不同的图标水平排列组成，每个图标之间有一条细的垂直线分隔。

左边是一个类似字母“O”的图标，中间有一条蓝色的横线穿过。这是汽车品牌宝马的标志。

中间是由两个重叠的三角形组成的图标，三角形的顶点朝上。这是汽车品牌英菲尼迪的标志。

右边是由一个类似盾牌形状的图标组成，上面有三个指向上方的箭头。这是汽车品牌玛莎拉蒂的标志。

Logo识别b

Prompt:

（图片同上）

详细描述这些标志。

GPT-4V:

最左边的标志是宝马的标志。它是一个填充有黑色的圆形图标。在圆形内部，有一条蓝色的水平线穿过中间。蓝线上面的区域是白色的，下面的区域是浅蓝色的。这个标志代表着飞机旋转的螺旋桨，这是向公司在航空领域的历史致敬。

中间的标志是英菲尼迪的标志。它由两个重叠的三角形组成，顶点向上。三角形填充有黑色。这个标志代表着一座山或一条路，这是向公司力量、实力和性能的理念致敬。

最右边的标志是玛莎拉蒂的标志。它由一个盾形图案组成，有三个红色箭头向上指。盾形图案填充了淡白色，箭头之间的区域是黑色的。这个标志向公司在赛车领域的历史致敬，箭头代表公司的胜利。

注释正确识别Logo

图²⁰：标志识别结果。

GPT-4V正确识别标志，并提供详细描述，包括其设计、颜色、形状和符号。

场景识别描述

场景识别a

Prompt:

21

请描述图片和标志的细节。

GPT-4V:

这张图片是一个麦当劳的薯条盒，里面装满了金黄色的薯条。盒子是红色的，上面有麦当劳标志性的“M”字标志。背景是明亮的黄色，让红色的盒子和薯条更加突出。

标志是麦当劳的“M”字标志，是一个大金色拱门，形成了“M”字母，代表麦当劳。它是世界上最广为人知的标志之一，常常与快餐连锁店联系在一起。

场景识别b

Prompt:

描述图片和标志的细节。

GPT-4V:

图片展示了两个星巴克杯子，一个是带盖子和吸管的透明塑料杯，另一个是带盖子的白色纸杯。透明塑料杯里装着一杯带冰块和奶油的冷饮，而白色纸杯里则是一杯热饮。这些杯子放在一张木质桌子上，背景是星巴克店的模糊图像。杯子上的标志是星巴克标志，一个绿色圆圈，中间有一个白色的美人鱼或海怪。

场景识别c

Prompt:

描述图片和标志的细节。

GPT-4V:

这张图片展示了一位身穿传统日本服装的女性站在奥林匹克五环标志前。这位女性穿着一件紫色带有花纹的和服，搭配一条红色的腰带。她微笑着并摆出照相姿势。

奥林匹克五环标志由五个不同颜色的相互交错的环组成：蓝、黄、黑、绿和红。这些环排列成一个像花一样的形状。标志展示在一个有树的草坪上。

场景识别d

Prompt:

详细描述图像和标志。

GPT-4V:

图片展示了两个可口可乐瓶躺在一床冰块上。

瓶子是湿的，表明它们已经冷却好了，可以喝了。

左边的瓶子是一个新的握把瓶，如标签所示。

右边的瓶子是一个普通的可口可乐瓶。两个瓶子上都有标志性的可口可乐标志。

标志是用白色草书字体写成的，红色背景。Coca中的第一个“C”比其他字母大，Cola中的“o”被拉长。标志是瞬间可识别的，是品牌的代名词。

场景识别e

Prompt:

请描述图片和标志的细节。

GPT-4V:

图片展示了一个人穿着白色Nike Air Force 1运动鞋的近景。这款运动鞋是低帮款式，有白色橡胶鞋底和白色鞋带。鞋面采用纹理白色皮革制成，看起来非常高档。

鞋子上展示的标志是标志性的Nike Swoosh。它以银色显示在鞋子的侧面。Swoosh是一个弯曲的、拉长的勾号形状，末端有一个尖头。它代表速度和运动，体现了品牌的运动和运动风格。

场景识别f

Prompt:

描述图片和标志的细节。

GPT-4V:

这张图片是来自关于Microsoft 365 Copilot的演示的截屏。图片展示了一个穿着蓝色毛衣的男人站在一个带有Microsoft 365 Copilot标志和一些文字的大屏幕前，他正在用手势讲话。背景是一个现代化的设置，有一棵绿色植物和一面灰色的墙。

Microsoft 365 Copilot的标志是一个带有圆角的正方形。标志的背景是白色的，"Microsoft 365 Copilot"的文字是黑色的。在标志的中心，有一个彩色的形状，类似于一个三个面可见的立方体。形状的颜色是蓝色、紫色和粉色，形状稍微向右倾斜。标志简单而现代化，具有干净和专业的外观。

注释理解许多场景

图²¹：在野外标志识别和描述方面的结果。GPT-4V展示了在许多场景中理解标志的强大能力，包括遮挡、光照条件和方向。GPT-4V还可以描述新的图标，例如最近发布的Microsoft 365 Copilot。

场景理解a

Prompt:

22

描述这张图片。

GPT-4V:

这张图片是从车内拍摄的仪表盘摄像头截图，显示前方道路的景象。

汽车正在行驶在一条双车道公路上，右侧可见限速标志为35英里每小时。

道路两侧有树木，天空布满了乌云，预示着可能会下雨。

左侧可见橙色锥形标志，表明这是一个施工区。在远处，有一座桥梁高架。

场景理解b

Prompt:

描述这张图片。

GPT-4V:

这张图片是从车内仪表盘摄像头的视角看到的道路景象。道路有两条车道，车子在右侧车道跟在一辆银色车辆后面。路边有两个黄色的标志，警示驾驶员即将到达人行横道和向左的曲线。天空阴沉灰暗，路两侧有树木和灌木。

注释提供场景细节

图²²：场景理解结果。GPT-4V能够提供关于场景和物体的详细描述。

非事实描述的识别

描述事实a

Prompt:

23

你能在图片中找到灰色猫旁边的红球吗？

GPT-4V:

抱歉，由于图像中没有红色球可见，我无法回答这个问题。

描述事实b

Prompt:

你能看到鸟翅膀上明亮的蓝色羽毛吗？

GPT-4V:

不，我看不到鸟翅膀上的明亮蓝色羽毛。它似乎有棕色和白色的羽毛。

描述事实c

Prompt:

你能看到在角落里玩耍的粉色大象吗？

GPT-4V:

抱歉，我不能这样做，因为这张图片的角落里没有粉色的大象。只有一个穿着橙色衬衫的孩子和一个背景中的熊。

描述事实d

Prompt:

你能找到穿蓝色衬衫的棒球运动员吗？

GPT-4V:

不，我在这张图片中找不到穿蓝色衬衫的棒球运动员。所有的运动员似乎都穿着黑色的衬衫。

描述事实e

Prompt:

尝试在树后面找到一个大瀑布。

GPT-4V:

抱歉，我无法完成这个任务，因为给定的图像中没有瀑布。

描述事实f

Prompt:

你能找到安装在天花板上的蓝色照明装置吗？

GPT-4V:

抱歉，我在这张图片中找不到一个安装在天花板上的蓝色灯具。我只看到一个黑色铁艺吊灯，带有白色玻璃灯罩。

注释准确描述事实

图²³：对反事实例子的结果。GPT-4V能够提供有关图像中场景和物体的事实描述。

讨论

随记

探索（1-4.1）

探索（1-4.1）

探索（1-4.1）

LMM的黎明：使用GPT-4V(ision)进行初步探索。

1 介绍

1.1 动机和概述

1.2 探索GPT-4V的方法

1.3 如何阅读此报告？

2 GPT-4V的输入模式

交错的图像-文本输入

3 GPT-4V的工作模式和提示技术

3.1 遵循文本指示

遵循文本指示

限制性的提示

基于良好表现的条件

3.2 视觉指向和视觉引用提示

视觉指向和视觉参照提示

3.3 视觉+文本提示

多模态示例引导的指令

3.4 在上下文中的少样本学习

4 视觉-语言能力

4.1 多样化领域的图像描述

识别名人外貌

地标识别和描述

食品识别和描述

Logo识别和描述

场景识别描述

非事实描述的识别

视觉-语言能力（4）

新兴应用的亮点（9.7-11）

视觉参考提示(5-6)

抽象视觉推理和智商测试（7-9.6）

明确指示+拉长过程

推断

42（动画版）背单词拆解：大脑究竟在完成什么任务

万字科普ChatGPT-4为何会颠覆人类社会

文章

讨论

随记