CtrlK

视觉参考提示(5-6)

5 与人类互动：视觉参考提示

第5节介绍

5.1 理解指向输入

理解图上标记

文本vs视觉指针

锚定描述（叠加的视觉指针）

叠加视觉指针a

叠加视觉指针b

叠加视觉指针c

叠加视觉指针d

叠加视觉指针e

叠加视觉指针f

理解视觉指针

锚定描述（文本格式区域坐标）

数字文本坐标a

数字文本坐标b

数字文本坐标c

数字文本坐标d

视觉指针更好

5.2 视觉指向提示

视觉提示概述

视觉指示提示

视觉指示a

视觉指示b

视觉指示c

视觉指示d

交互更加高效

视觉提示a

视觉提示b

视觉提示c

视觉提示d

增强人机互动

5.3 生成指向输出

生成指向输出

生成视觉指向a

生成视觉指向b

定位描述

利用生成指向a

利用生成指向b

视觉指向循环

6 时间和视频理解

第6节介绍

6.1 多图像序列

视频序列分析

动作识别

视频帧序列理解

6.2 视频理解

时间排序

时间预测

时间定位和推理

长时间排序

长时间排序a

识别正确时序

短时间排序

短时间排序a

短时间排序b

识别动作顺序

时间预测

点球预测

寿司步骤预测

理解时间结构

时间定位和推理

踢球推理

能够定位时间

6.3 视觉引用提示用于基础时间性理解

测试时间理解

基础时间性理解

假装打人

整理衣服

时间性的理解

视觉参考提示(5-6)

2023-10-28

88 次观看

无畏者-乔

粉丝：347

主题：16

描述：2

例子：31

其他：21

段落：54

字数：10535

视觉参考提示(5-6)

2023-10-28

88 次观看

无畏者-乔

粉丝：347

无畏者-乔

粉丝：347

主题：16

描述：2

例子：31

其他：21

段落：54

字数：10535

5 与人类互动：视觉参考提示

介绍第5节介绍

指向特定的空间位置是人机交互中与多模态系统（如进行视觉基础对话）的一个基本能力。如第5.1节中所示，GPT-4V能够很好地理解直接在图像上绘制的视觉指针。基于这一观察，我们提出了一种名为“视觉参考提示”的新型模型交互方法。核心思想是直接编辑图像像素空间以绘制视觉指针或场景文本作为人类参考指令，如图50中所突出显示的。我们在第5.2节中详细介绍了其用途和优点。最后，第5.3节探讨了让GPT-4V生成视觉指针输出以与人类互动。这些视觉指针对于人类和机器来说都是直观的，使它们成为人机交互的一个良好渠道。

5.1 理解指向输入

说明理解图上标记

如图48所示，GPT-4V可以直接理解叠加在图像上作为指针的各种类型的视觉标记，比如圆圈、框和手绘图形。这个能力帮助GPT-4V生成有根据的字幕，这是一个众所周知的难题，需要传统的视觉-语言模型生成集中在特定感兴趣区域的视觉描述。密集字幕方法使用裁剪框或遮罩区域来生成局部描述，但通常忽略全局图像背景并产生次优描述。视觉指向提供了一种自然的方式来指示感兴趣的区域，同时保持全局图像背景。例如，左上角的例子重点提供了指向的Magna啤酒的全面描述，同时还提到啤酒瓶是在桌子上的全局图像背景。

说明文本vs视觉指针

一个直观的替代方案是用数字文本格式表示的区域坐标。如图49所示，GPT-4V可以理解坐标，从而实现通过文本标记进行空间引用的能力，而无需进行额外的框标记微调，就像之前的视觉-语言模型那样。尽管有这个有希望的能力，我们注意到我们当前的提示在空间上不够精确。例如，在图49的左上角示例中，GPT-4V提到了周围的物体餐巾和水瓶，即使只有啤酒瓶在区域（0.47、0.48、0.55、0.87）内。总体而言，对于我们实验的提示，GPT-4V在用叠加的视觉指针进行提示时比使用文本坐标更可靠。这一独特的能力激励我们探索一种新的提示方法，即视觉引用提示。

锚定描述（叠加的视觉指针）

叠加视觉指针a

Prompt:

48

描述图片中指向的区域

GPT-4V:

图片中指向的区域是一个绿色的Magna啤酒玻璃瓶，有红色的标签和金色的盖子。它放在一个黑色的桌子上，周围还有其他物品，比如水瓶、餐巾和雨伞。

叠加视觉指针b

Prompt:

描述图片中指向的区域

GPT-4V:

图片中指向的区域是一个绿色的啤酒瓶，上面有一个红色的标签，标签上写着“MAGNA”。这个瓶子直立在一个黑色的桌子上，旁边还有一张白色的餐巾。

叠加视觉指针c

Prompt:

描述图片中指向的区域

GPT-4V:

图片中指向的区域包含一个白色的折叠餐巾和一个用另一张白色餐巾包裹的餐具套装，放在一个黑色的桌子上。这很可能是餐厅里用餐的桌面摆设。

叠加视觉指针d

Prompt:

描述图片中指向的区域

GPT-4V:

图片中指向的区域是一个木制栏杆的一部分，带有垂直的板条。它位于俯瞰大海的露台的边缘。栏杆似乎被涂成了白色，并且部分被遮挡了。

叠加视觉指针e

Prompt:

描述图片中指向的两个物体。

GPT-4V:

第一个被指向的物体（由黄色箭头指示）是一个白色的露台遮阳伞。它有一个尖顶，连接在一个金属杆上。这把伞是展开的，为户外座位区提供遮荫。第二个被指向的物体（由红色箭头指示）是一瓶绿色玻璃制成的Magna啤酒。这个瓶子有一个尖的瓶颈，用金色金属盖封闭。它放在一个黑色的桌子上，前面有一张白色餐巾。

叠加视觉指针f

Prompt:

描述图片中指向的区域

GPT-4V:

图片中被指向的区域是一排挂在电线上的灯。这些灯小而圆形，沿着电线均匀地排列。电线被拉伸在两根柱子之间，位于带有桌子和遮阳伞的露台区域的上方。这些灯看起来是装饰性的，很可能用于在晚上提供环境照明。

理解视觉指针

图 ⁴⁸：GPT-4V能直接理解叠加在图片上的视觉指针。在进行锚定描述时同时使用局部和全局视觉信息是一个独特的应用场景。

锚定描述（文本格式区域坐标）

数字文本坐标a

Prompt:

49

根据给定的坐标定位区域，并描述该区域内的内容。区域由（x1,y1,x2,y2）坐标表示。x1和x2是最左和最右的位置，标准化到0到1，其中0是左边，1是右边。y1和y2是最上和最下的位置，标准化到0到1，其中0是顶部，1是底部。描述图像中区域（0.47，0.48，0.55，0.87）的相对位置。描述该相对位置中的内容。无需提及图像其他部分的内容。

GPT-4V:

该区域（0.47，0.48，0.55，0.87）位于图像的中间偏右部分。它覆盖了桌子的一小部分，并延伸到图像的底部。这个区域最显眼的物体是一瓶绿色的Magna啤酒。在这个区域中还可见到一张白色餐巾和一部分水瓶。背景显示了露台和海洋的一部分。

数字文本坐标b

Prompt:

根据给定的坐标定位区域并描述该区域的内容。区域由(x1,y1,x2,y2)坐标表示。x1和x2分别是左边和右边的标准化坐标,范围是0到1,0表示最左边,1表示最右边。y1和y2分别是顶部和底部的标准化坐标,范围是0到1,0表示最顶部,1表示最底部。请描述图像中相对位置为(0.01, 0.09, 0.29, 0.21)的区域。描述该相对位置中的内容,不需要提及图像其他部分的内容。

GPT-4V:

该区域（0.01，0.09，0.29，0.21）位于图像的左上角。它大约占据了图像宽度的28%和高度的12%。在这个区域中，有一部分白色的遮阳伞和一串灯。背景显示了清澈的蓝天和一棵棕榈树。

数字文本坐标c

Prompt:

根据给定的坐标定位区域并描述该区域的内容。区域由(x1,y1,x2,y2)坐标表示。x1和x2分别是左边和右边的标准化坐标,范围是0到1,0表示最左边,1表示最右边。y1和y2分别是顶部和底部的标准化坐标,范围是0到1,0表示最顶部,1表示最底部。请描述图像中相对位置为(0.01, 0.67, 0.36, 0.91)的区域。描述该相对位置中的内容,不需要提及图像其他部分的内容。

GPT-4V:

该图像中的区域(0.01, 0.67, 0.36, 0.91)位于左下角,覆盖了图像宽度的约三分之一和高度的约四分之一。在这个区域内,有一张黑色桌子,桌上摆着一条白色餐巾、一瓶Magna啤酒和一瓶玻璃瓶装水。桌子位于前景,背景显示了部分带白色阳伞和椅子的露台。

数字文本坐标d

Prompt:

根据给定的坐标定位区域并描述该区域的内容。区域由(x1,y1,x2,y2)坐标表示。x1和x2分别是左边和右边的标准化坐标,范围是0到1,0表示最左边,1表示最右边。y1和y2分别是顶部和底部的标准化坐标,范围是0到1,0表示最顶部,1表示最底部。请描述图像中相对位置为(0.47, 0.48, 0.55, 0.87)的区域。描述该相对位置中的内容,不需要提及图像其他部分的内容。

GPT-4V:

该区域(0.47, 0.48, 0.55, 0.87)位于图像的右侧,略低于中心位置。它覆盖了桌子和背景的一小部分。在这个区域内,桌上有一瓶绿色的Magna啤酒,啤酒旁边是一个白色的餐巾。背景中有一部分阳伞和几张椅子。

注释视觉指针更好

图⁴⁹:覆盖在图像上的视觉指针的一种替代方式是以数字文本格式表示的区域坐标。GPT-4V可以理解坐标,例如,(0.47, 0.48, 0.55, 0.87)、(0.01, 0.09, 0.29, 0.21)和(0.01, 0.67, 0.36, 0.91),它们分别对应中心的啤酒瓶、左上方的灯串和左下方的桌子设置。我们观察到,与视觉指向提示中的视觉指针相比,当使用文本坐标提示GPT-4V时,其工作不太可靠。

5.2 视觉指向提示

概述视觉提示概述

受到GPT-4V强大的视觉指向理解和场景文本理解能力的启发,我们探索了一种与GPT-4V交互的新方法,即视觉指向提示。视觉指向提示与传统的仅编辑文本空间的提示技术不同,它是一种直接编辑输入图像的像素空间以实现人机交互的补充技术。这种视觉提示可以与图像进行更细微和全面的交互,潜在地释放模型更广泛的响应。例如,在图50(1)中,GPT-4V自然地将箭头指向的对象与给定的对象索引关联起来,简化了剩余的视觉推理和文本输出;在(2)中,GPT-4V理解写入图像并指向相应边缘或角度的问题,为基于视觉的对话提供了细微的接口;在(3)中,人类可以指向图中的任意区域,以帮助GPT-4V更好地理解复杂的文档和图表;在(4)中,模式可以简洁地表示为一个箭头和场景文本“+dot”,从而帮助GPT-4V预测下一张图像。与图像松散关联的文本提示相辅相成的是,视觉指向提示提供了一种新的交互方法,可以促进各种用例,图51和第9节中给出了更多演示。

视觉指示提示

视觉指示a

(1)Prompt:

50

圆圈里的玻璃杯里有什么？是物体1还是物体2？

描述一下什么是物体1和物体2。然后检查圆圈里的玻璃杯里有什么。

GPT-4V:

物体1是一个装有水的玻璃瓶。它是透明的，并且上面有一个蓝色的标签。

物体2是一个装有Magna啤酒的玻璃瓶。它是绿色的，并且上面有一个红色和白色的标签。

在圆圈里的玻璃杯中，看起来是一种透明的液体，很可能是水。所以，圆圈里的玻璃杯里的内容很可能来自物体1，即装有水的玻璃瓶。

视觉指示b

(2)Prompt:

回答下图中的问题，并提供中间步骤。

GPT-4V:

要找到蓝色箭头边的长度，我们可以使用勾股定理，因为我们有一个直角三角形。定理的表述是 a² + b² = c²，其中 a 和 b 是直角三角形的两条腿，c 是斜边。把我们已知的值代入，我们得到：

4² + 8² = c²

16 + 64 = c²

80 = c²

√80 = c

8.94 ≈ c

因此，蓝色箭头边的长度大约是 8.94。

要找到绿色箭头处的角度，我们可以使用正切函数，因为我们有该角度的对边和邻边。正切函数表述为 tanθ = 对边/邻边。把我们已知的值代入，我们得到：

tanθ = 4/8

tanθ = 1/2

θ = tan^-1(1/2)

θ ≈ 26.57°

因此，绿色箭头处的角度大约是 26.57°。

视觉指示c

(3)Prompt:

哪个圆圈内的线展示了一个不同的比较趋势？

提供中间步骤。

GPT-4V:

展示不同比较趋势的圆圈线是USNCO地方赛2022年。中间步骤：

分析表格中的数据，并寻找比较趋势中的任何不一致。
注意到，在除了USNCO地方赛2022年的所有行中，GPT-4（无视觉）列的分数都比GPT-4列的低。
这意味着，在其他所有行中，具有视觉功能的GPT-4模型表现得比没有视觉功能的GPT-4模型要好。
然而，在USNCO地方赛2022年这一行中，GPT-4（无视觉）列的分数比GPT-4列的高。
这是与其他行不同的比较趋势，表明在这个特定的考试中，没有视觉功能的GPT-4模型表现得比具有视觉功能的GPT-4模型要好。

视觉指示d

Prompt:

回答以下图形中的问题。提供中间步骤。

GPT-4V:

序列中的下一个图像将是一个中心有一个点的星形。这是因为序列似乎遵循一种模式，其中形状在菱形和星形之间交替，并且每隔一个图像在形状的中心添加一个点。中间步骤：

首先，我们可以观察到该序列在菱形和星形之间交替。
接下来，我们可以看到每隔一个图像在形状的中心都添加了一个点。
基于这种模式，我们可以预测下一个图像将是一个中心有一个点的星形。

名称交互更加高效

图⁵⁰：视觉引用提示直接编辑输入图像作为输入提示，例如绘制视觉指针和场景文本。与文本提示相辅相成，视觉引用提示提供了更为细致和自然的交互，例如，（1）用索引关联指向的对象，（2）指向图像进行提问，（3）在文档和表格中高亮显示线条，（4）在图像上绘制模式，以及许多其他新颖的使用案例。

视觉提示a

Prompt:

51

图标用于什么？

GPT-4V:

图像中圈出的图标是一个麦克风图标。它用于激活Bing的语音搜索功能。用户可以点击这个图标并通过他们设备的麦克风说出问题或搜索某个内容，而不是输入。这对于免提搜索或对于可能有输入困难的用户来说可能很有帮助。

视觉提示b

Prompt:

指向的新闻在谈论什么？

GPT-4V:

指向的新闻正在谈论ChatGPT的新功能，该功能允许用户创建个性化的指令。据说这个功能将帮助用户更好地管理他们的对话，并提高与聊天机器人的体验。

视觉提示c

Prompt:

这部分海报突出显示了什么？

GPT-4V:

这部分海报突出显示了ReCo框架，这是研究的主要贡献。它解释了该框架是如何工作和它能做什么。ReCo框架是一个区域控制的文本到图像生成模型，可以根据文本描述生成高质量的图像。它还展示了框架的不同组成部分以及它们如何相互交互。

ReCo框架旨在灵活易于扩展，并且已被证明与其他文本到图像生成方法相比，能够提高图像生成质量并实现更好的语义一致性。

视觉提示d

Prompt:

这两个实验在幻灯片中有什么不同？

GPT-4V:

两个实验之间有几个关键的不同：

任务：第一个实验（在左边）专注于视觉定位的任务，模型被训练来识别和定位图像中的对象。第二个实验（在右边）专注于图像字幕生成的任务，模型被训练来为图像生成一个描述性的字幕。
数据集：第一个实验使用Flickr30k Entities数据集，该数据集包含有带有标注对象边界框的图像。第二个实验使用MSCOCO和VQA2数据集，这些数据集包含有相关字幕的图像。
评价指标：第一个实验使用平均精度（mean Average Precision）指标来评估模型在视觉定位任务上的表现。第二个实验使用BLEU和CIDEr指标来评估模型在图像字幕生成任务上的表现。

总体而言，这两个实验旨在评估UniTAB模型在不同任务和数据集上的表现，并展示其使用单一模型处理多个任务的能力。

注释增强人机互动

图⁵¹：视觉引用提示增强了人类与计算机之间的无缝互动。这在与计算机和移动图形用户界面（GUIs）的集成，以及在理解文档和幻灯片方面提供的支持中都得到了体现。

5.3 生成指向输出

概述生成指向输出

第5.1节讨论了GPT-4V理解人类生成的视觉指向的能力。一个自然的问题是：GPT-4V能否生成自己的指向输出，从而促进人机互动中的闭环交互过程？

第52图探讨了通过让GPT-4V预测文本格式中的区域坐标来生成视觉指向输出。我们提示GPT-4V找出文本（例如，“蓝色的Subaru SUV”）或参考图像（例如，“黑色的Audi轿车”）所指的对象。与让GPT-4V理解坐标输入的观察类似，该模型对空间位置有一个粗略的理解，但对于实验中使用的提示并不准确。例如，在第52图的“绘图可视化”中，GPT-4V可以大致识别查询中提到的蓝色SUV和黑色轿车，但它难以创建一个紧密贴合的边界框。我们观察到，在提示中包括示例锚定的说明有助于GPT-4V理解坐标的定义，并随后生成更好的指向输出。

虽然生成的指向输出可能并不完全覆盖查询的区域，但它们仍然是模型交互、解释和帮助多步视觉推理的有价值的工具。

具体来说，这些指向输出可以由人类解释，以更好地理解GPT-4V的引用，或者由GPT-4V本身解释，以便根据先前的输出进行进一步的推理。如第52图底部所示，GPT-4V能够解释它生成的指针，并根据第48图中的提示提供锚定的描述。此外，GPT-4V本身对指向生成和理解的迭代可以帮助解决复杂的多跳锚定视觉推理任务。GPT-4V能够解构问题，生成不同的视觉标记以迭代地关注每个子步骤的不同图像区域，最终整合信息以形成最终答案。

生成视觉指向a

Prompt:

52

找到被引用的对象并表示该区域的位置。区域由（x1,y1,x2,y2）坐标表示。x1和x2是最左和最右的位置，标准化为0到1，其中0是左边，1是右边。y1和y2是最上和最下的位置，标准化为0到1，其中0是顶部，1是底部。例如，带有啤酒瓶的区域的（x1,y1,x2,y2）坐标是（0.47，0.48，0.55，0.87）。

对于下面的图像，蓝色Subaru SUV的区域的（x1,y1,x2,y2）坐标是什么

GPT-4V:

蓝色Subaru SUV区域的（x1,y1,x2,y2）坐标将是（0.68，0.57，0.95，0.95）。

绘制可视化图：

请参考下面的查询图像。

生成视觉指向b

Prompt:

对于下面的图像，对象区域的（x1,y1,x2,y2）坐标是什么？

GPT-4V:

带有黑色Audi汽车的区域的（x1,y1,x2,y2）坐标大约是（0.35，0.55，0.55，0.85）。这是基于汽车最左和最右的位置分别约占图像宽度的35%和55%，最上和最下的位置分别约占图像高度的55%和85%。

绘制可视化图：

请参考下面的查询图像。

定位描述

利用生成指向a 生成视觉指向a

Prompt:

描述图像中被指向的区域。

GPT-4V:

红色指向的区域是建筑物侧面更大壁画的一部分。这个特定区域的内容似乎是一辆蓝色的汽车，可能是一辆SUV，停在停车场里。汽车面向图像的右侧，似乎停在左侧有白线的停车位里。

利用生成指向b 生成视觉指向b

Prompt:

描述图像中被指向的区域。

GPT-4V:

红色指向的区域中的对象是一辆黑色汽车，具体来说是一辆停在停车场里的轿车。它看起来是较新的型号，外观光亮，窗户有色。

注释视觉指向循环

图⁵²：GPT-4V可以使用其对坐标的理解来生成视觉指向输出，从而将文本或视觉查询的对象定位在地面上。使用以示例为基础的指令可以帮助GPT-4V理解坐标定义，从而生成更好的指向。虽然输出的空间区域不是很精确，但该方法使“理解（即，定位描述）和生成”视觉指向的循环成为可能，成为人机交互的有效方式。

6 时间和视频理解

概述第6节介绍

在这一部分中，我们讨论时间和视频理解能力。尽管GPT-4V主要是以图像作为输入，但评估其对时间序列和视频内容的理解仍然是其整体评估的重要方面。这是因为现实世界的事件是随着时间的推移而展开的，一个AI系统理解这些动态过程的能力在现实世界应用中是非常关键的。像时间预测、时间排序、时间定位、时间推理和基于时间的理解等能力有助于评估模型在理解事件序列、预测未来发生的事情以及在一系列静态图像内随时间推移进行情境分析的能力。尽管其重点是图像，GPT-4V能够以与人类类似的方式理解视频和时间序列。为了增强像GPT-4V这样复杂的AI模型的多功能性和适用性，这一方面的测试对其的开发和改进至关重要。在这一部分即将进行的实验中，我们将使用多个选定的视频帧作为输入来测试模型在理解时间序列和视频内容方面的能力。

6.1 多图像序列

视频序列分析

在这个小节中，我们展示了GPT-4V能准确地理解和分析视频帧的序列。在逐帧分析中，GPT-4V识别了活动发生的场景，提供了更深层次的情境理解。如图53所示，该模型不仅局限于识别环境，而且准确地解释了视频中个体正在执行的动作。GPT-4V理解了各种人体姿势的序列和上下文，并且聪明地将它们与正在进行的活动联系起来。通过理解超过仅仅识别的姿势变化，GPT-4V可以从人的动作和移动的微妙之处中获取含义。由于这种详细理解的水平，GPT-4V可以捕捉到视频中正在发生的事情的本质，提供超过仅仅识别对象和场景的丰富和细腻的见解。

动作识别

Prompt:

53

解释图片以及人正在进行的动作。

GPT-4V:

这些图片显示了一个人穿着动作捕捉服，在一个有多个摄像头和传感器的工作室里。这个人正在做俯卧撑运动。在第一张图片中，这个人处于起始位置，双臂伸直，身体呈一条直线。在第二张图片中，这个人正在将身体向地面降低。在第三张图片中，这个人在俯卧撑的底部，胸部靠近地面。在第四张图片中，这个人正在将身体推回到起始位置。

注释视频帧序列理解

图⁵³：解释人体姿势并从视频序列中获取相关洞见。

6.2 视频理解

说明时间排序

时间排序是时间常识的一个关键元素，也是GPT-4V能力评估的一个重要部分。这涉及向模型提供一系列乱序的图像，并衡量其识别因果关系以及时间进展的能力。理解这种关系需要能够以逻辑连贯和时间准确的方式重新排序序列。图54举例说明了长期时间排序，其中GPT-4V面对一系列描述寿司制作事件的乱序图像帧。尽管有混乱，GPT-4V有效地识别了事件，并确定了寿司制作过程的适当时间序列。此外，图55提供了短期时间排序的示例。给定一个指定的动作，例如开门或关门，GPT-4V展示了其理解图像内容并确定事件正确顺序的能力。这些例子突出了GPT-4V在时间常识方面的能力，加强了其准确理解长期和短期序列的能力。

说明时间预测

我们展示了GPT-4V根据一组初始帧预测未来事件的能力。长期和短期的例子被用来验证这种预测未来事件的能力。图56的右侧说明了GPT-4V预测短期事件的能力，以足球点球为例。给定前几帧，它准确地预见了踢球者和守门员的典型下一步行动，这是由于其对游戏固有结构和规则的理解。此外，如图56左侧所示，寿司准备序列展示了GPT-4V的长期预测能力。通过基于视觉线索理解活动，GPT-4V不仅识别了寿司准备的当前进展，还准确预见了后续步骤，展示了其解释和预测复杂、多步骤过程在扩展期内的能力。这种短期和长期时间预测的结合使GPT-4V能够捕捉和理解具有不同时间结构和复杂性的活动。

说明时间定位和推理

图57说明了GPT-4V在时间定位和推理方面的能力。它准确地识别了球员击球的确切时刻。此外，GPT-4V通过从守门员和球之间的关系中推断，展示了其对因果关系的理解，以确定守门员是否成功地挡住了球。在给定示例的上下文中，理解守门员是否能挡住球不仅涉及到识别守门员和球的空间位置，还涉及理解它们之间互动的动态性，并预测这些动态性的结果。这显示了模型推理能力相当高的复杂性水平。