CtrlK

社群论坛拆分

创作

抽象视觉推理和智商测试（7-9.6）

共 28 节

7 抽象视觉推理和智商测试

本节内容介绍

7.1 抽象视觉刺激

抽象视觉推断

七巧板

南方公园

理解抽象视觉

7.2 部件和对象的关联

关联物体测试

发现与关联a

定位视觉问答

发现与关联b

图像关联

7.3 韦氏成年智力量表

抽象推理前景

智力测试a

智力测试b

智力测试c

智力测试d

示例来源a

7.4 雷文推理矩阵

雷文推理表现

整页问题a

整页问题b

示例来源b

处理过的子图形

子图例子说明

8 情商测试

8.1 从面部表情中识别情感

表情识别a

表情识别b

表情识别c

表情识别d

识别阅读情感

8.2 如何通过视觉内容激发情感

感受与反应a

感受与反应b

感受与反应c

感受与反应d

懂得激发情感

激发情感分析

图像美学

图像美学比较a

图像美学比较b

美学判断对齐

8.3 基于情感调控的输出

幽默情绪

不安情绪

低欲望情绪

放松情绪

根据情绪生文

期望情绪输出

9 新兴应用亮点

第9节介绍

9.1 找不同

差异识别

找不同a

找不同b

注释a

找不同c

找不同d

注释b

9.2 产业

缺陷检测

物体缺陷a

物体缺陷b

物体缺陷c

物体缺陷d

物体缺陷e

物体缺陷f

字体加粗说明

缺陷检测a

缺陷检测b

缺陷检测c

检测失败示例

问题检查a

问题检查b

问题检查c

根据参考检测

安全检查

检查安全帽a

检查安全帽b

剪裁成功识别

超市结账

超市结账a

超市结账b

参考增加成功

9.3 医疗

医疗方面潜力

放射科报告生成

放射科报告a

放射科报告b

报告分析正确

放射科报告c

放射科报告d

没完全正确

放射科报告e

放射科报告f

会有幻觉可能

放射报告生成带诊断历史

放射报告诊断a

放射报告诊断b

结合诊断历史

9.4 汽车保险

汽车保险应用

损伤评估

车损评估a

车损评估b

车损评估c

车损评估d

车损评估过渡

保险报告

保险报告a

保险报告b

例子注释

9.5 自定义字幕生成器

照片组织

家庭合照a

生成照片字幕

家庭合照b

名字有误

密集标注带分割

带分割密集字幕

对象逐一描述a

过渡

9.6 图像生成

本节内容

生成图像评估

增强图像编辑

生成图像的评估(提示-图像符合度)

图像评估a

图像评估b

图像评估c

图像评估d

图像评估e

得分相似度

图像评估f

图像评估g

图像评估h

图像评估i

错误内容说明

图像编辑的提示生成

图像编辑a

改进图像编辑

图像编辑b

循环改进

抽象视觉推理和智商测试（7-9.6）

2023-10-28

125 次观看

无畏者-乔

粉丝：410

主题：28

例子：74

其他：50

段落：124

字数：21534

抽象视觉推理和智商测试（7-9.6）

2023-10-28

125 次观看

无畏者-乔

粉丝：410

无畏者-乔

粉丝：410

主题：28

例子：74

其他：50

段落：124

字数：21534

7 抽象视觉推理和智商测试

概述本节内容介绍

理解和推理抽象视觉刺激和符号是人类智力的基础能力之一。这一部分检查GPT-4V是否能从视觉信号中抽象出语义，并能进行不同类型的人类智商（IQ）测试。

7.1 抽象视觉刺激

概述抽象视觉推断

人们可以从抽象和通常模糊不清的视觉刺激中推断出语义。图59探讨了让GPT-4V解释七巧板。七巧板是一种传统的几何拼图，由七个平坦的部分组成，这些部分被称为“tan”，它们被放在一起形成形状，而不重叠。例如，GPT-4V解释说图59中的子图7最能说明是一只飞翔的鹅，并为其他子图提供推理描述，例如，4.人或机器人，9.船或帽子，以及10.狗或狐狸。GPT-4V还有能力理解其他格式的抽象视觉图，比如图59中的ASCII文字艺术的卡通人物和图61-62中的符号输入。

七巧板

Prompt:

59

七巧板是一种几何拼图，由七个平面部件组成以形成各种图形。这里有十个抽象的七巧板。哪一个最能说明是一只飞翔的鹅？其他的图形看起来像什么？

Prompt Continue

GPT-4V:

最能说明是一只飞翔的鹅的七巧板是编号7。它具有鹅身体和翅膀的三角形，顶部较小的三角形可以代表头和脖子。
其他的图形可以代表各种事物：

一枚火箭或一个塔
一只蝴蝶或一只蝙蝠
一个问号或一条蛇
一个人或一个机器人
一座山脉或一个皇冠
一座房子或一个庙宇
一只飞翔的鹅（如上所述）
一只鸟或一条鱼
一艘船或一顶帽子
一只狗或一只狐狸。

南方公园

Prompt:

这里有一个抽象图形。你能识别出有多少个角色，以及他们来自哪部卡通吗？

GPT-4V:

这个抽象图形中有四个角色。他们来自“南方公园”这部卡通。这些角色是艾瑞克·卡特曼、凯尔·布罗夫洛夫斯基、斯坦·马什和肯尼·麦科尔米克。

注释理解抽象视觉

图⁵⁹：理解如七巧板和ASCII文本艺术等抽象视觉刺激。

7.2 部件和对象的关联

概述关联物体测试

发现和关联物体部分是另一个重要的抽象视觉推理能力。人们可以轻易地发现物体部分如何组成一个语义上有意义的物体。图60设计了一些例子来探测GPT-4V在关联物体部分方面的能力。在左侧的例子中，我们要求GPT-4V根据其语义含义来定位一个物体部分。在右侧的例子中，GPT-4V被要求关联由SAM分割的物体部分。GPT-4V可以处理所有物体部分的图像，并以语义上有意义的方式将它们关联起来，形成底部右侧可视化的男孩。

发现与关联a

Prompt:

60

七巧板是一种几何拼图，由七个平面部件组成以形成图形。找到被提及的物体并标出该区域的位置。区域用（x1，y1，x2，y2）坐标来表示。x1和x2是最左和最右的位置，标准化为0到1，其中0是左边，1是右边。y1和y2是最上和最下的位置，标准化为0到1，其中0是顶部，1是底部。例如，带有啤酒瓶的那个区域的（x1，y1，x2，y2）坐标是（0.47，0.48，0.55，0.87）。

下面的图像显示了一只飞翔的鹅。哪个部分代表鸟的头？

鸟头的（x1，y1，x2，y2）坐标是什么？

GPT-4V:

鸟的头由图像顶部的小三角形表示。与鸟头有关的区域的（x1，y1，x2，y2）坐标大约是（0.42，0.15，0.58，0.35）。

图像可视化：

请参考下面的查询图像。

定位视觉问答

Prompt:

突出显示的部分是什么？

GPT-4V:

突出显示的部分是鹅的头。

发现与关联b

Prompt:

这些视觉部分是如何相关的，它们能否组合成一个单一的对象，比如一个男孩？如果可以，应该如何排列它们？

GPT-4V:

这三个视觉部分是相关的，因为它们都是可以用来创建一个单一对象的组件。在这种情况下，这个对象是一个男孩。要组合这些部分以形成一个男孩，我们可以按照以下方式排列它们：

第一张图像（带有橙色和绿色形状的纸板）可以用作男孩的身体。
第二张图像（一条牛仔裤）可以用作男孩的腿。
第三张图像（带有黄色、红色和蓝色形状的纸板）可以用作男孩的头。通过以这种方式排列这些部分，我们可以创建一个类似于男孩的单一对象。

图形可视化：

注释图像关联

图 ⁶⁰：理解抽象和自然图像中部分-对象的关联。

7.3 韦氏成年智力量表

说明抽象推理前景

第7.1节展示了GPT-4V在抽象视觉理解方面的能力。作为进一步的挑战，GPT-4V被要求执行不同的抽象推理任务，这些任务来源于人类的智商（IQ）测试。韦氏成年智力量表被认为是“黄金标准的IQ测试”之一，旨在通过一系列子测试来全面衡量个体的认知能力。图61展示了每个子测试类别的代表性问题和GPT-4V的输出。GPT-4V在抽象推理方面表现出前景，回答只有文本、符号视觉输入和自然图像的问题。例如，右下角的样本显示GPT-4V可以解释类比问题，并找到鞋子的最佳比较。

智力测试a

Prompt:

61

以下五个选项中，哪一个与其他四个最不相似？

a. 胡萝卜
b. 土豆
c. 玉米
d. 苹果
e. 豆子

GPT-4V:

d. 苹果

解释：胡萝卜、土豆、玉米和豆子都是蔬菜，而苹果是水果。

智力测试b

Prompt:

12岁的汤姆年龄是他妹妹的三倍。当汤姆的年龄是他妹妹的两倍时，他多大？

a. 18

b. 21

c. 16

d. 20

e. 15

GPT-4V:

如果汤姆年龄是他妹妹的三倍，那么他妹妹的年龄就是他年龄的三分之一。所以，他妹妹是4岁。现在，我们需要找出汤姆什么时候会是他妹妹年龄的两倍。这意味着他妹妹的年龄会是他年龄的一半。因此，我们需要找到一个数字，它是4的两倍。答案是8。所以，当汤姆年龄是他妹妹的两倍时，他将会是16岁。正确答案是：c. 16。

智力测试c

Prompt:

五个选项中哪一个与其他四个最不像？

GPT-4V:

答案：d. 最不像其他四个，因为它是唯一一个没有中心点连接所有其他点的。

智力测试d

Prompt:

五个设计中哪一个是最好的比较？

GPT-4V:

答案：c. 黑色正装鞋

解释：这个类比是比较手和手套，脚和鞋。最好的比较会是黑色正装鞋，因为它是穿在脚上的衣物，就像手套是穿在手上的。

来源示例来源a

图⁶¹：来自Wechsler成人智力量表（WAIS）的示例问题。

7.4 雷文推理矩阵

说明雷文推理表现

雷文推理矩阵（RPM）是另一个著名的非语言智力测试，旨在衡量抽象推理和问题解决能力。该测试旨在最小化语言、文化和正式教育对测试性能的影响，因此适用于测试AI模型。每个测试样本包含三个或八个图像，排列在2乘2或3乘3的矩阵中，其中一个图像缺失。目标是通过识别提供样本中的模式从多个候选图像中选择下一个图像。在我们的方法中，我们通过将整个问题页面作为单个图像发送来挑战GPT-4V，而不是将其转换为交错的图像-文本对，类似于人类进行IQ测试的方法。如图62所示，GPT-4V可以在没有处理过的文本描述或子图的情况下生成合理的答案。然而，我们也注意到，将整个问题图像分解为交错的文本和子图，如图63中那样，确实简化了任务，并让GPT-4V产生更可靠的答案。

整页问题a

Prompt:

62

找出第一列中的图案，并用它来推断第二列中缺失的图形。

GPT-4V:

填补空白位置的正确图形是倒置的三角形。这是因为网格中的图案是每一行和每一列都有一个不同方向的各种形状。

整页问题b

Prompt:

找出前两行中的规律，并用它来推断第三行中缺失的图形。

GPT-4V:

前两行的规律是，图形在每个后续单元格中都顺时针旋转了90度。因此，第三行中缺失的图形应该是前一个单元格中图形的旋转版本。看一下选项，正确答案是OC，因为它是前一个单元格中图形顺时针旋转90度后的图形。

来源示例来源b

图⁶²：来自Raven’s Progressive Matrices的示例问题。我们通过将整个问题页面作为单个图像发送给GPT-4V，模仿人们如何查看智商测试。

处理过的子图形

Prompt:

63

这里有三个子图像排列成一个2乘2的矩阵。找出a到f中哪个图形应该逻辑地替换缺失的图形。下一个完成矩阵的图像是什么？

第一列的第一个图像，图像1，是一个三角形。第二列的第一个图像，图像3，是一个带有一条线的三角形。第一列的第二个图像，图像2，是一个菱形。因此，第二列的第二个图像，图像4，应该延续这一模式，并且是一个带有一条线的菱形。选项b是唯一符合这一模式的图像，因为它是一个带有一条线的菱形。因此，正确答案是b。

Prompt Continued:

这里有三个子图像，排列在一个2x2的矩阵中。请找出a到f中哪个图形应该逻辑地替换缺失的图形。下一个用来完成矩阵的图像是什么？

GPT-4V:

第一列的第一个图像，图像1，是一个菱形。第二列的第一个图像，图像3，是一个中间有点的菱形。第一列的第二个图像，图像2，是一个星形。因此，第二列的第二个图像，图像4，应该延续这个模式，是一个中间有点的星形。选项c是唯一符合这个模式的图像，因为它是一个中间有点的星形。所以，正确答案是c。

注释子图例子说明处理过的子图形

图⁶³：我们也可以不将整个问题页面作为单一图像发送，而是将图像处理成多个子图，并可选择性地提供详细的说明和示例以进一步提高答案的准确性。

8 情商测试

8.1 从面部表情中识别情感

表情识别a

Prompt:

64

从下面显示的图片中识别并阅读人们的情感。

GPT-4V:

图片中的人似乎显示了多种情感。皱眉和嘴角向下可能表明愤怒或挫败感，紧绷的下巴和狭窄的眼睛可能表示厌恶或轻蔑。总体来说，这个人似乎正在经历消极的情感，可能是不高兴或不满。

表情识别b

Prompt:

从下面显示的图片中识别并阅读人们的情感。

GPT-4V:

图片中显示的情感是恐惧或焦虑。这个人的眼睛睁得很大，嘴巴微微张开，显示出一种震惊或惊讶的感觉。他们的手捂住了嘴巴，这可能意味着他们正在试图抑制尖叫或喘气。

表情识别c

Prompt:

从下面显示的图片中识别并阅读人们的情感。

GPT-4V:

图片中的人显示出快乐的情感。这可以从他们的灿烂笑容和眼角的皱纹中看出。

表情识别d

Prompt:

从下面显示的图片中识别并阅读人们的情感。

GPT-4V:

图片中的人似乎正在经历一种负面情感，很可能是挫败或失望。这从他们的皱眉、向下的目光和手放在前额上可以明显看出。

注释识别阅读情感

图 ⁶⁴：GPT-4V 可以可靠地从他们的面部表情中识别并阅读人们的情感。它还为观察到的视觉线索提供了合理的解释，以进行情感解释，表明了对面部情感的良好理解。

在与人类互动时，重要的是 GPT-4V 具有同情心和情商（EQ），以理解和分享人类的感受。受到人类 EQ 测试定义的启发，我们检查 GPT-4V 在（1）从他们的面部表情中识别并阅读人类情感，（2）理解不同视觉内容如何引发情感，以及（3）在期望的情感和情绪上生成适当的文本输出的能力。

8.2 如何通过视觉内容激发情感

感受与反应a

Prompt:

65

看到下面的图像后,人们可能会有什么样的情感感受和反应?

GPT-4V:

人们在看到这张图片时可能会感到快乐、满足和放松。他们可能会微笑，或者感到温暖和舒适。这张图片似乎是在音乐节上的一对情侣，所以人们也可能会感到兴奋和对音乐和表演的期待。

感受与反应b

Prompt:

看到下面的图像后,人们可能会有什么样的情感感受和反应?

GPT-4V:

看到这个图像后,人们可能会感到愤怒、沮丧或不安。他们可能会感到一种不公正感,或想要采取行动来支持图像中的那个男人。一些人也可能会对这种情况和警察的存在感到恐惧或焦虑。

感受与反应c

Prompt:

看到下面的图像后,人们可能会有什么样的情感感受和反应?

GPT-4V:

人们可能会对日落的美景和天空中的颜色感到敬畏和惊叹。他们可能会感到平静和宁静,甚至受到启发。有些人可能会感激能够目睹这样美丽的自然时刻。其他人可能会渴望置身于这样的地方,或渴望旅行看到更多世界之美。

感受与反应d

Prompt:

看到下面的图像后,人们可能会有什么样的情感感受和反应?

GPT-4V:

看到这个图像后,人们可能会感到害怕、焦虑或不安。阴暗的色调和阴影营造出一种神秘和不安的氛围,楼梯上的人形剪影也可能被解释为凶兆或威胁。一些人可能会感到恐惧或害怕,而其他人可能会对图像的背景感到好奇。

注释懂得激发情感

图 ⁶⁵：GPT-4V理解不同的视觉内容如何激发人类情感。

分析激发情感分析

接下来,我们分析GPT-4V在视觉情感分析方面的能力,即理解人们看到视觉内容后产生的情绪反应。这种能力对于GPT-4V预测视觉内容可能激发人类情绪并做出适当反应至关重要。如图⁶⁵所示,GPT-4V可以根据语义内容和图像风格解释视觉情感,如满足、愤怒、敬畏和恐惧等。这些能力在家用机器人等使用案例中至关重要。

图像美学

图像美学比较a

Prompt:

66

美学反映了人类对物体、设计或艺术品的感知美或视觉吸引力。在下面提供的图像中,根据社会标准和规范,哪一个图像会有更多人认为具有更高的美学?

GPT-4V:

根据社会标准和规范,更多人可能会认为第二个图像(彩色房屋)具有更高的美学。这是因为该图像在视觉上更有吸引力,给人一种更具艺术性和创造性的感觉。第一个图像(房屋)更简单和普通,虽然在某些人眼中可能被认为在美学上令人满意,但它没有第二个图像那么引人注目或抓眼球。

图像美学比较b

Prompt:

美学反映了人类对物体、设计或艺术品的感知美或视觉吸引力。在下面提供的图像中,根据社会标准和规范,哪一个图像会有更多人认为具有更高的美学?

GPT-4V:

大多数人可能会认为第一个图像具有更高的美学价值。这是因为该图像在视觉上更有吸引力,有各种颜色、建筑和绿化。第二个图像的视觉吸引力较低,色调更单一,建筑和景观的变化也较少。此外,第一个图像是更具标志性和可识别性的地点(纽约市),这也可能有助于它感知的美学价值。

注释美学判断对齐

图⁶⁶:GPT-4V 根据社会标准和规范判断图像美学。

8.3 基于情感调控的输出

幽默情绪

Prompt:

67

用幽默的方式描述这张图片。

GPT-4V:

看起来太阳正试图躲在地平线后面,但效果并不太好。它就像在和我们玩捉迷藏。而海藻就那么悠闲地摊在那里,好像在说“嘿,别在意我们,我们就在这里闲逛。”岩石可能觉得被忽视了,它们好像在说“嘿,我们怎么样?我们也是这片海滩的一部分!”

不安情绪

Prompt:

描述这张图片,让人感到不安和焦虑。

GPT-4V:

图片中的是一段昏暗、阴霾的楼梯。唯一的光线来自一个孤单、暗淡的灯泡,在墙上投下诡异的阴影。扶手老旧生锈,油漆剥落,边缘参差不齐。楼梯本身歪歪斜斜,脚步声吱吱呀呀。空气浑浊潮湿,让人感到不安,仿佛有人正藏身阴影之中。寂静得可怕,每一个楼梯的吱吱呀呀都在空旷的空间回响。

低欲望情绪

Prompt:

描述这张图片,减少某人访问的欲望。

GPT-4V:

图片显示的是日落时分多岩石的海滩,地面上满是海藻和藻类。水体浑浊,没有明显的区域可供游泳或放松。岩石又锋利又滑,使行走或探索都很困难。日落被云遮挡了一部分。这似乎是一个艰难而令人不快的地方。

放松情绪

Prompt:

描述这张图片,让人感到放松和舒心。

GPT-4V:

图片中的是一段柔和灯光照明的楼梯,扶手精美典雅。光线柔和,营造出宁静的氛围。墙上的阴影为图像增加了层次和质感,使其感觉舒适宜人。图片的整体气氛平和安详,使其成为放松和解压的完美场所。

注释根据情绪生文

图⁶⁷:GPT-4V根据感知或期望的情绪生成适当的文本,使其与人类的交流舒心有效。

注释期望情绪输出

根据感知到的情绪,GPT-4V可以有效地生成符合期望情绪的文本输出。例如,在图⁶⁷中,GPT-4V可以按照提示,以让右侧可怕图像变得更恐怖或舒缓的方式来描述它。这展示了GPT-4V在实现情感意识的人机交流中的潜力。

9 新兴应用亮点

概述第9节介绍

在这一部分,我们展示了大量高价值的应用场景和新用例,这些场景和用例可能会受益于GPT-4V卓越的能力。尽管通过精心整理训练数据进行微调以实现某些应用场景是可行的,但我们要强调GPT-4V真正的力量在于它开箱即用的能力。此外,我们展示了GPT-4V如何无缝集成外部工具和插件,从而进一步拓展其应用潜力,支持更多创新和协作的应用。

9.1 找不同

概述差异识别

我们首先从一个类似找不同益智游戏的通用用例开始。在图68-69中,我们向GPT-4V提供了两个视觉上相似但在某些区域存在细微差异的图像。给GPT-4V的任务是识别两张图像之间的所有差异。在四个例子中,GPT-4V成功识别了图像中不同的区域或组件。但是,它在为每个图像所描绘的内容提供准确的解释方面存在不足。为了深入了解GPT-4V的能力,让我们关注图68中展示的第一个例子。尽管GPT-4V没有识别出差异在发带的切口数量而不是发色阴影上,但它正确识别了两张图像中的皇冠、裙子的蝴蝶结和头发存在差异。虽然GPT-4V在“找不同”游戏中预测不完美,但它比较两张图像内容的能力在真实应用场景中非常有价值,比如缺陷检测,我们将在下面的子部分中探讨。

找不同a 差异识别

Prompt:

68

比较图片1和图片2,告诉我图片1和图片2之间的区别。

图片1

图片2

GPT-4V:

图片1和图片2之间有一些区别:

皇冠:在图片1中,皇冠是粉色的,中间有一个蓝宝石。在图片2中,皇冠是金色的,上面有红宝石和一个十字。
裙子:在图片1中裙子中间有一个红色蝴蝶结。在图片2中,蝴蝶结消失了。
头发:在图片1中,头发比图片2中的颜色浅了一些棕色。

找不同b 差异识别

Prompt:

比较图片1和图片2,告诉我图片1和图片2之间的3个区别。

图片1

图片2

GPT-4V:

在图片1中,有两处蓝色珊瑚礁,而在图片2中,只有一处蓝色珊瑚礁。
在图片2中,有一株额外的绿色植物,在图片1中没有。
在图片1中,乌龟的头朝下wards。在图片2中,乌龟的头朝上。

注释注释a

图⁶⁸:找不同处。高亮标注了关于区别的不准确描述。

找不同c 差异识别

Prompt:

69

比较图片1和图片2,告诉我图片1和图片2之间的3个区别。

图像1

图像2

GPT-4V:

在图片1中,背景中没有太阳,而在图片2中,左上角有一个太阳。
在图片1中,地上有一片竹叶,而在图片2中,地上有一堆竹叶。
在图片1中,熊猫手里拿着一根竹竿,而在图片2中,熊猫手里拿着多根竹竿。

找不同d 差异识别

Prompt:

比较图片1和图片2,告诉我图片1和图片2之间的3个区别。

图像1

图像2

GPT-4V:

图片1背上有尖刺,而图片2没有。
图片2有尾巴,而图片1没有。
图片2有带牙齿的嘴,而图片1没有嘴。

过渡注释b

图⁶⁹:找不同处。高亮标注了关于区别的不准确描述。

9.2 产业

缺陷检测

概述缺陷检测

在制造业的历史长河中,计算机视觉技术一直扮演着关键角色。一个具体的应用场景就是缺陷检测,这是制造过程中确保产品质量的必要步骤。及时检测故障或缺陷并采取适当的行动对于最大限度地减少运营和质量相关的成本至关重要。

在这个场景中,我们通过在图70-71中呈现有缺陷产品的图像来展示GPT-4V的缺陷检测能力。对于现实生活中的常见产品(例如,榛果、织物、螺丝和汽车保险杠在图70中),GPT-4V自信地识别出缺陷,如榛果/织物中的小孔,螺丝的剥离头和汽车保险杠中的凹痕。但是,当涉及到不常见的产品图像(例如图70-71中的金属部件)或外观有变化的产品(例如图71中的药片)时,GPT-4V可能会犹豫甚至拒绝进行预测。图71中的一个有趣的例子涉及一个汽车轮胎,其中图像中可以观察到多个缺陷,包括车轮上的污垢、轮圈外缘的损坏以及轮胎上的磨损迹象。GPT-4V仅关注较小的缺陷(车轮上的污垢),而未提及需要维修的主要缺陷(轮圈外缘的损坏)。

鉴于GPT-4V在第9.1节所示的“找不同”场景中的成功,我们探索了结合参考图像的想法,以阐明无缺陷产品的样子,目的是改善图71中所描绘的失败案例。这种方法的结果在图72中呈现。通过包括参考图像和精炼提示,GPT-4V在单图像缺陷检测的所有三个失败案例中成功识别出缺陷。这些有希望的发现突出了GPT-4V在制造业缺陷检测中的潜在高价值应用。

物体缺陷a

Prompt:

70

图片中的物体有什么问题?

GPT-4V:

对象中有一个小孔,看起来像是榛果。这可能是昆虫损害或腐烂的迹象。

物体缺陷b

Prompt:

图像中的对象出了什么问题?

GPT-4V:

织物上有一个小撕裂或孔洞。

物体缺陷c

Prompt:

图像中的对象出了什么问题?

GPT-4V:

图像中的对象看起来是一个螺丝或螺栓,其头部受损或剥落。头部的螺旋槽本来应该允许扳手或扳钳抓住并拧转螺丝,但现在磨损脱落,功能失效了。

物体缺陷d

Prompt:

图像中的对象出了什么问题?

GPT-4V:

很难确切判断图像中的对象是什么,但它看起来是一个汽车保险杠或挡泥板,上面有一个大凹痕。这个对象的问题是它受损并有凹痕,这可能会影响汽车的外观和功能。

物体缺陷e

Prompt:

图像中的对象出了什么问题?

GPT-4V:

很难确定图像中的对象出了什么问题,因为没有上下文或关于该对象是什么或本应具有什么外观的信息。然而,看起来蓝色和棕色部分的铜线起球并排列不整齐,这可能表示损坏或质量差。

物体缺陷f

Prompt:

图像中的对象出了什么问题?

GPT-4V:

很难确定图像中的对象出了什么问题,因为没有上下文或关于该对象是什么或本应具有什么外观的信息。然而,看起来对象的一个边缘上可能有裂缝。

注释字体加粗说明

图⁷⁰:使用单张图像进行缺陷检测。加粗标注了GPT-4V在进行预测时犹豫的情况。

缺陷检测a

Prompt:

71

图像中的对象出了什么问题?

GPT-4V:

没有提供足够的信息来判断图像中的对象是否有任何问题。它看起来是一个药胶囊,上面印着数字500,但没有进一步的上下文,无法知道它是否有任何问题。

缺陷检测b

Prompt:

图像中的对象出了什么问题?

GPT-4V:

对不起,我无法回答这个问题,因为没有上下文或关于该对象是什么或本应具有什么外观的信息。

缺陷检测c

Prompt:

图像中的对象出了什么问题?

GPT-4V:

车轮轮辋上有大量的刹车片。这通常是由于刹车片磨损并在接触转子时产生粉尘造成的。此外,轮胎的气压似乎太低,这会影响汽车的操控性和油耗。

注释检测失败示例

图⁷¹:使用单张图像进行缺陷检测的失败示例。高亮标注了GPT-4V失败的情况。

问题检查a

Prompt:

72

根据给定的图片1,告诉我图片2中出了什么问题。

图片1

图片2

GPT-4V:

在图片2中,药丸的橙色部分有一个小白点。这可能是药丸的缺陷或损坏。

问题检查b

Prompt:

根据给定的图片1,告诉我图片2中出了什么问题。

图片1

图片2

GPT-4V:

在图片2中,内圆的左下方有一个小白点。这可能是对象表面上的缺陷或损坏。

问题检查c

Prompt:

根据给定图片1,告诉我图片2中的对象是否有任何可见缺陷?

图片1

图片2

GPT-4V:

是的,图片2中的对象有一些可见缺陷:

车轮上有大量的污垢,这在图片1中没有。
图片2中的车轮中间的盖帽不见了。
轮辋的外缘似乎有些损坏,这在图片1中没有。
图片2中的轮胎花纹比图片1中的轮胎花纹磨损更严重。

名称根据参考检测

图⁷²:在参考图像的帮助下进行缺陷检测。高亮标出了不准确的描述。

安全检查

概述安全检查

图73展示了个人防护设备(PPE)计数的安全检查探索。在施工现场等工作环境中,未能正确使用或未穿戴头盔、安全带和手套等个人防护设备(PPE)极大地增加了与工作活动相关的风险水平。为有效解决这个问题,计算机视觉技术已被用作监控PPE合规性并及时识别任何违反安全规定的行为。以头盔为例,安全检查系统必须准确检测和报告未戴头盔的员工人数。

在图73a中,我们通过直接指示GPT-4V统计佩戴头盔的人数来评估其性能。GPT-4V给出了“8人戴着头盔”的回应,这与图像中显示的人数总数相匹配,表明不存在报警安全违规的情况。显然,GPT-4V未能检测到3个未戴头盔的人,从而危及了他们的人身安全。这个任务对GPT-4V构成了相当大的挑战,因为它涉及检测图像中的人员,确定他们是否戴着头盔,并计算最终未戴头盔的人数。

在图73b中,我们没有向GPT-4V提供包含所有8个人的原始图像,而是提供了使用外部人员检测器检测到的人员的裁剪区域。这种方法将PPE计数工作负载分为两步:依靠现成的人员检测器进行人员检测,并利用GPT-4V强大的视觉推理能力以及处理交织图像文本输入的能力来识别安全问题。我们可以看到,GPT-4V可以正确统计未戴头盔的人数,这也证明了工具使用和分治法的好处。

检查安全帽a

Prompt:

有多少人戴着安全帽?

GPT-4V:

图像中有8个人戴着安全帽。

检查安全帽b

Prompt:

73

请判断图像中的人是否戴安全帽。并总结有多少人戴了安全帽。

图像1

图像2

图像3

图像4

Prompt Continued

图像5

图像6

图像7

图像8

GPT-4V:

图片1: 没有戴安全帽

图片2: 没有戴安全帽

图片3: 戴着安全帽

图片4: 戴着安全帽

图片5: 戴着安全帽

图片6: 戴着安全帽

图片7: 戴着安全帽

图片8: 没有戴安全帽

总结: 在8个人中,5个戴着安全帽,3个没有戴安全帽。

注释剪裁成功识别

图⁷³:安全检查应用亮点:个人防护设备(PPE)统计。GPT-4V在(a)中零样本提示失败,而在(b)中单人裁剪成功。高亮标出错误答案。

超市结账

概述超市结账

自助结账机已经在沃尔玛、塔吉特和CVS等大型零售商中越来越受欢迎,以加快客户的结账过程并减少员工的工作量。然而,使用自助结账机的实际体验对客户来说可能很沮丧。用户仍然需要搜索产品条码或手动输入像苹果这样的新鲜物品的编码,这可能很耗时,特别是对不熟悉该系统的人来说。在图74中,我们提供了一个简化的原型,以展示GPT-4V在实现自动自助结账系统方面的潜力,该系统可以在不需要用户干预的情况下识别和结算商品。

当向其呈现一个包含5种杂货商品的购物篮照片时,如图74a所示,GPT-4V未能准确识别篮子中的产品。它错误地将草莓识别为树莓,蟹肉蘸酱误认为希腊酸奶,还包括篮子中根本不存在的三文鱼片。然而,在图74b中,我们通过检索零售网站中的杂货产品目录图像来增强提示,从而改进了提示。因此,GPT-4V成功识别了篮子中的所有5件商品。这个成功的演示允许自助结账系统继续从数据库中检索每个已识别产品的价格。虽然这是一个简单的例子,但它代表了一个重大的进步,朝着自动化自助结账系统迈进。进一步的研究和开发可以探索更复杂和更真实的场景,以完全自动化自助结账过程,使其对客户更加高效和方便。

超市结账a

Prompt:

对于下面的图像,找出篮子里呈现了哪些产品。尽量准确。

GPT-4V:

粉色郁金香,三文鱼片,草莓,苹果,希腊酸奶,火腿片,树莓

超市结账b

Prompt:

74

这是一组参考图片:

虾

蟹肉酱

熏火腿

香蕉

苹果

面包

芝士

草莓

粉色郁金香

对于下面的图片，请找出篮子中展示的产品。

根据上面的参考图片，只告诉我与参考图片完全相同类型的产品。

GPT-4V:

篮子里有5种产品与参考图片完全相同:

烟熏火腿
苹果
粉色郁金香
蟹肉蘸酱
草莓

名称参考增加成功

图⁷⁴: 超市结账应用亮点。GPT-4V在(a)中零样本提示失败,而在(b)中使用参考产品图像提示则成功。高亮标出篮子里没有的产品。

9.3 医疗

说明医疗方面潜力

在第4.1节中,通过图18-19展示了GPT-4V在医学图像理解中的有效性。此外,我们还对GPT-4V在放射科报告生成中的应用进行了详细的研究,如图75-78所示。在这种场景中,我们向GPT-4V提供了各种医学图像,并要求它生成完整的放射科报告。由于评估生成报告的准确性需要专业知识,我们寻求医学专业人士的评估。

图75展示了两个准确的例子:一个涉及腹部X射线图像,另一个特征右膝MRI。在这两种情况下,GPT-4V都正确识别了研究并提供了准确的诊断。继续观察图76,我们观察到GPT-4V对手腕X射线图像生成的放射科报告。虽然GPT-4V成功根据第一张X射线图像诊断出推荐的处理,但它错过了第二张X射线图像中明显的远端桡骨骨折。尽管如此,生成的报告保持高质量的格式,可以作为模板,从而减少医学专业人员起草报告的工作量。

在图77中,我们探讨了另外两个涉及胸部CT和头部MRI的例子。在胸部CT的例子中,GPT-4V错误地将提到的结节识别在左侧而不是右侧,它也幻想了测量值。处理交织图像文本对的能力也允许GPT-4V引用先前的医学扫描和诊断历史,这被证明是医学专业人员诊断过程中至关重要的。图78显示了从多个胸部X射线扫描中了解症状进展的示例。这些说明突出了GPT-4V作为放射科报告生成的AI助手的潜力。但是,必须由医学专业人员评估生成的报告,以确保其正确性和准确性。

放射科报告生成

放射科报告a

Prompt:

75

为该图像编写放射科报告,作为专家放射科医生。

GPT-4V:

放射科报告

日期:2021年3月23日

检查:腹部X线

病史:患者出现腹痛和腹胀

发现:腹部X线显示胃和小肠扩张,提示部分小肠梗阻。直肠内也见少量气体。未见自由腹腔气体或气腹。肝脏、脾脏和肾脏似乎正常。

印象:发现提示部分小肠梗阻。建议进一步影像学检查和临床相关。

专业人士评价:

正确的研究识别,正确的诊断

放射科报告b

Prompt:

作为专家放射科医生,请为以下病例编写放射科报告。

GPT-4V:

报告: 右膝MRI显示髌上囊明显积液,尤其以上髌囊区最明显。内侧半月板也有撕裂迹象,以及轻度的关节软骨退变性改变。前十字韧带和后十字韧带完整。伸肌机制也完整。未见其他明显异常。印象:右膝大量积液和内侧半月板撕裂,伴有轻度的关节软骨退变性改变。

专业人士评价:

正确的研究识别,正确的诊断(积液和半月板撕裂)

名称报告分析正确

图⁷⁵:放射科报告生成的应用亮点。生成的报告由医学专业人员审查,以评估其正确性。医学专业人员已确认报告描述的该部分内容正确。医学图像来源于互联网。

放射科报告c

Prompt:

76

作为专家放射科医生,请为以下病例编写放射学报告:

病例: 一位32岁的女性因右腕疼痛就诊。患者报告说,她在打篮球时伸手着地跌倒。进行了右腕X线检查。

GPT-4V:

放射学报告: 日期: 2021年1月1日

检查: 右腕X线检查

指征: 在打篮球时伸手着地跌倒后右腕疼痛

发现: 远端桡骨存在横向骨折,略为背凸。未见其他骨折或脱位。腕骨保持正常对齐。未见明显软组织肿胀。

印象: 远端桡骨存在轻度背凸的横向骨折。未见其他骨折或脱位。

建议: 请骨科会诊,治疗该骨折。

专业人士评价:

正确的诊断和处理

放射科报告d

Prompt:

作为专家放射科医生,请为该图像编写放射学报告。

GPT-4V:

报告: 日期:2021年1月1日

检查:右手和腕骨X线

技术:获得正面和侧面视图发

现:右手和腕骨骨头完整,对齐正常。无骨折或脱位迹象。关节间隙保持良好,无退变性改变迹象。未见软组织异常。

印象:右手和腕骨X线正常。

专业人士评价:

错过了明显的远端桡骨骨折，正确识别了研究类型。

注释没完全正确

图⁷⁶:放射科报告生成的应用亮点。生成的报告由医学专业人员审查,以评估其正确性。医学专业人员已确认报告描述的该部分内容正确(不正确)。医学图像来源于互联网。

放射科报告e

Prompt:

77

作为专家放射科医生,请为该图像编写放射学报告。

GPT-4V:

报告: 日期:2021年6月25日研究类型:胸部CT

受试者:42岁男性

发现:胸部CT图像显示左上叶结节样opacity,直径约1.3 cm。

该opacity边缘呈放射状,位于胸膜旁。无纵隔或支气管淋巴结肿大征象。

印象:发现令人关注的是原发性肺恶性肿瘤。建议进行活检进一步评估以确认诊断。

专业人士评价:

正确的研究类型和鉴定

提到结节但在左侧而不是右侧

给出测量值(幻觉)

放射科报告f

Prompt:

作为专家放射科医生,请为以下病例编写放射学报告。

GPT-4V:

报告: 日期:2021年1月1日

检查方式:磁共振成像(MRI)

体部位:大脑

技术:轴向T1加权

发现:脑MRI显示左顶叶存在一个大的轴向肿块,周围有水肿。该肿块信号强度不均匀,有高信号和低信号区。明显的质量效应,中线右移。脑室似乎受压,脑积水迹象。未见其他明显异常。

印象:左顶叶存在一个较大的轴向肿块,周围水肿,明显的质量效应。可能是高级别胶质瘤。建议进一步影像学检查和临床相关。

专业人士评价:

正确的研究识别,正确的肿块描述和定位,正确的诊断

名称会有幻觉可能

图⁷⁷:放射科报告生成的应用亮点。生成的报告由医学专业人员审查,以评估其正确性。医学专业人员已确认报告描述的该部分内容正确(不正确)以及模型出现幻觉。医学图像来源于互联网。

放射报告生成带诊断历史

放射报告诊断a

Prompt:

78

第一张图像是患者上次做的胸部X线扫描。之前的诊断提到胸膜腔积液。

第二张图像是患者这次做的胸部X线扫描。

作为专家放射科医生,根据症状和变化,写一份放射学报告。

GPT-4V:

GPT-4V:

放射报告

日期:01/01/2021

患者:John Doe

检查:胸部X线

发现:与上次扫描相比,本次胸部X线扫描显示患者的状况有显著改善。上次扫描显示有胸膜腔积液,即肺与胸壁之间空间内的积液。然而,当前扫描显示胸膜腔积液已消失。肺部或胸壁没有任何新异常迹象。肺部似乎扩张良好,心脏大小正常。纵隔,即肺之间的空间,也在正常范围内。

结论:与上次胸部X线扫描相比,患者的状况有所改善,之前注意到的胸膜腔积液已消失。未见新异常。

专业人士注解:

胸膜腔积液改善

放射报告诊断b

Prompt:

第一张图像是患者上次做的胸部X线扫描。之前的诊断提到胸膜腔积液。

第二张图像是患者这次做的胸部X线扫描。

作为专家放射科医生,根据症状和变化,写一份放射学报告。

GPT-4V:

放射报告

日期:12/12/2021

患者:Jane Doe

检查:胸部X线

发现:与上次扫描相比,本次胸部X线扫描显示患者的胸膜腔积液显著加重。与上次扫描相比,胸膜腔内的积液更为明显。肺野也更浑浊充血,提示可能有感染或炎症。心脏和纵隔轮廓被积液模糊,难以评估其大小和形状。

印象:患者的胸膜腔积液加重,可能有潜在的感染或炎症。建议进一步评估和处理。

专业人士注解:

胸膜腔积液加重

名称结合诊断历史

图⁷⁸:放射报告生成带诊断历史的应用亮点。医学图像来自MIMIC数据集。

9.4 汽车保险

概述汽车保险应用

在本节中,我们探索了GPT-4V在汽车保险领域的另一个实际应用,具体集中在车祸报告方面。在此背景下,我们可以进一步细分两个不同的子类别:(i)损伤评估和(ii)保险报告。前者涉及准确识别和评估车辆所受损伤程度的关键任务,而后者不仅包括损伤识别,还包括识别图像中所描绘的特定车辆信息,如制造商、型号、车牌号等相关细节。通过处理这两方面,我们旨在展示GPT-4V在汽车保险领域的全面能力。

损伤评估

概述损伤评估

我们向GPT-4V呈现一张车辆损伤图片,并提示它“想象你是汽车保险报告中的车辆损伤评估专家。请评估下图中看到的损伤。” 如图79所示。GPT-4V在准确识别和精确定位所有四张图片中描绘的损伤方面表现出了显著的专业能力。此外,它能够提供每一个具体损伤实例的详细描述给人留下深刻印象。在某些情况下,GPT-4V甚至努力估计潜在的维修成本。

车损评估a

Prompt:

79

想象你是汽车保险报告中的车辆损伤评估专家。请评估下图中看到的损伤。

GPT-4V:

根据图片,这辆车的前乘客侧保险杠出现损伤。损伤表现为刮痕和划痕,油漆有些区域脱落。损伤似乎仅为表面损伤,未影响保险杠或车辆的结构完整性。但是,重要的是要注意,图片仅显示车辆的一个角度,没有提供损伤的整体视图。需要对车辆进行更全面的检查,以完全评估损伤程度,并确定图像中未显示的是否存在任何潜在问题。

车损评估b

Prompt:

想象你是汽车保险报告中的车辆损伤评估专家。请评估下图中看到的损伤。

GPT-4V:

根据图片,这辆车的前端损伤严重。引擎盖皱缩,前保险杠部分脱落。大灯也似乎受损。车辆可能遭遇了正面碰撞。损伤看似主要为表面损伤,但车架或发动机可能存在潜在的结构性损伤。需要进一步检查以评估损伤的全貌。在维修费用方面,需要更换引擎盖和保险杠,大灯也可能需要更换或维修。维修费用取决于车辆的品牌和型号,但至少需要数千美元。

车损评估c

Prompt:

想象你是汽车保险报告中的车辆损伤评估专家。请评估下图中看到的损伤。

GPT-4V:

根据图片,这辆车的左侧后保险杠和后翼板受损。保险杠似乎有凹痕和刮花,后翼板有一个大凹痕和些许划痕。车辆可能是侧面遭到撞击,导致后翼板和保险杠受损。在维修费用方面,保险杠可能通过一些轻微的车身修复和重新喷漆就可以修复。然而,后翼板可能需要更广泛的维修甚至更换,费用会更高。总体来说,我估计损伤程度在中等至严重范围,维修费用可能在数千美元。

车损评估d

Prompt:

想象你是汽车保险报告中的车辆损伤评估专家。请评估下图中看到的损伤。

GPT-4V:

根据图片,这辆车的前端损伤非常严重。引擎盖严重皱缩,前保险杠完全与车身脱离。大灯和格栅也损坏,发动机外露。另外,驾驶员侧的前翼板和车门也有损伤。考虑到损伤程度,车辆可能遭遇了高速碰撞或正面碰撞。这辆车的维修费用可能非常高,保险公司可能会判定它为全损。

过渡车损评估过渡

图⁷⁹:汽车损伤评估应用亮点。

保险报告

概述保险报告

在损伤评估获得成功的基础上,我们修改提示,要求GPT-4V识别图像中所描绘的车辆的制造商、型号和车牌号,并以JSON格式返回获得的信息。图80中的示例展示了这种能力。在两种情况下,GPT-4V都试图从图像中提取所有请求的细节。但是,应该注意,某些信息可能不可用,例如维修费用估计,或者由于遮挡而难以辨认,正如在第二张图像中的车牌号。重要的是要注意,现实生活中的保险报告通常涉及从各个角度拍摄汽车的多张图像,这种情况在互联网上通常不公开可用。尽管如此,图79-80中的示例生动地说明了GPT-4V在车祸保险报告流程自动化中的潜力。

保险报告a

Prompt:

80

想象你是汽车保险报告中的车辆损伤评估专家。请用以下JSON格式填写下图所示事故的事故报告(注:xxx是占位符,如果您无法根据图片确定,请改为“N/A”)。{"制造商": xxx, "型号": xxx, "牌照": xxx, "损伤描述": xxx, "维修费用估计": xxx}

GPT-4V:

{"制造商": "马鲁蒂铃木", "型号": "Celerio", "牌照": "KL 52 N 5305", "损伤描述": "前保险杠、引擎盖和挡风玻璃受损。安全气囊弹出。", "维修费用估计": "N/A"}

保险报告b

Prompt:

想象你是汽车保险报告中的车辆损伤评估专家。请评估下图中看到的损伤。为填写事故报告,请遵循以下JSON格式(注:xxx是占位符,如果图片中没有该信息,请写“N/A”)。{"制造商": xxx, "型号": xxx, "牌照": xxx, "损伤描述": xxx, "维修费用估计": xxx}

GPT-4V:

{"制造商": "丰田", "型号": "卡罗拉", "牌照": "N/A", "损伤描述": "前保险杠和引擎盖损伤,驾驶员侧前翼板损伤,驾驶员侧大灯损伤", "维修费用估计": "2,500美元-3,500美元"}

注释例子注释

图⁸⁰:保险报告应用亮点。对于高亮文本,GPT-4V未能识读车牌,可能是因为遮挡。

9.5 自定义字幕生成器

照片组织

概述照片组织

在这种场景下,让我们想象我们有一个家庭相册。我们演示了GPT-4V如何通过生成明确提到照片中显示的每个家庭成员的姓名的字幕来增强相册。这种个性化的方法可以实现更精确和定制的照片组织,如图81-82所示。通过为每个家庭成员提供GPT-4V视觉提示以及相应的姓名,GPT-4V可以准确识别家庭成员(包括人、猫和狗),以生成详细和定制的字幕。为家庭相册中的所有图像存储此类字幕,有可能实现高度个性化的图像搜索。例如,用户可以搜索“Linda、Cotton、Max、Sam和Emma的家庭照片”,并轻松找到图81中显示的相应家庭照片,或搜索“Max躺在Sam和Emma之间”,并找到图82中的家庭照片。

家庭合照a

Prompt:

81

这是我家庭成员的照片。

Linda

Cotton

Max

Sam

Emma

请尽可能详细地描述这张图片,使用我家庭成员的名字。

GPT-4V:

这是Linda和她的孩子Emma、Sam以及他们的宠物Max(狗)和Cotton(猫)的全家福照片。一家人坐在客厅里,Linda坐在沙发上,Emma和Sam坐在地板上。Max坐在Linda和Emma中间,伸出舌头,而Cotton栖息在Linda的肩上。所有家庭成员都面带微笑,看着相机。房间明亮通风,咖啡桌上有一瓶黄花,背景是白色书架。

注释生成照片字幕

图⁸¹:用于照片组织的自定义字幕生成器(参考图片裁剪自查询图片)。

家庭合照b

Prompt:

82

这是我家庭成员的照片:

Linda

Cotton

Max

Sam

Emma

请尽可能详细地描述这张图片,使用我家庭成员的名字。

GPT-4V:

这张图片显示了我家庭的三位成员——我的兄弟Sam,我们的狗Max,和我本人、Emma。我们躺在草地上,背景是碧蓝的天空。Sam和我搁着头躺在地上对着相机微笑,Max则躺在我们中间吐着舌头。我们都在享受美好的天气,一起度过家庭时光。

注释名字有误

图⁸²:用于照片组织的自定义字幕生成器(参考图片裁剪自不同于查询图片的图像)。高亮表示有误。

密集标注带分割

概述带分割密集字幕

我们通过利用强大的分割模型来展示GPT-4V在密集字幕方面的增强性能。图83说明了通过将SAM生成的对象剪切体并入提示来提取每个感兴趣对象的更详细字幕的密集字幕结果。此外,我们向GPT-4V提供原始图像作为全局上下文,并要求其尽可能详细地描述四个对象剪切体,并参考上下文图像。

结果表明,GPT-4V可以为每个对象生成高度复杂的密集字幕,其中一些字幕附有与上下文图像相关的引用。例如,在描述对象3(青蛙)时,密集字幕提到了青蛙特写,而蜗牛则栖息在其头上,尽管对象3的相应剪切体中没有蜗牛。类似地,当提到对象4(乌龟)时,GPT-4V从上下文图像中识别出乌龟漂浮在水中,从而进一步丰富了生成的字幕。

对象逐一描述a

Prompt:

83

尽可能详细地描述下面的对象,参考上下文图像中的内容,但着重描述每个对象。

对象1

对象2

对象3

对象4

上下文图像

GPT-4V:

对象1是蜗牛壳的特写。壳呈浅米色,顶部有螺旋状花纹。壳似乎略有风化,边缘可见细小的碎屑和裂缝。背景为白色,使壳成为图像的焦点。壳以略为倾斜的角度放置,顶部的螺旋花纹朝向图像的右侧。

对象2是蜗牛的特写。蜗牛的壳呈浅橙色,带有螺旋花纹。蜗牛的身体是较深的橙色,皮肤上有小凸起。蜗牛的头部向前伸出,触角可见。图像背景为白色,使蜗牛成为图像的焦点。

对象3是一只头上栖息着蜗牛的青蛙特写。青蛙呈浅绿色,下侧略带粉红。它有大大的、凸出的黑白相间的眼睛。蜗牛是橙色的,栖息在青蛙头上。青蛙坐在岩石或其他平坦表面上,两腿缩在身下。背景为白色,使青蛙和蜗牛突显出来。

对象4显示了乌龟的头部和颈部特写,部分身体可见。乌龟似乎漂浮在水中,头颈向上伸出。乌龟皮肤是绿色的,壳是灰色的并有黑色条纹。壳似乎受损,顶部缺失了一大块。乌龟闭着眼睛,嘴巴微张。

过渡过渡

图⁸³: 带分割的密集字幕,使用来自SAM的分割切片。高亮显示了对上下文图像的引用。

9.6 图像生成

概述本节内容

在本节中,我们与另一个突出的多模态研究领域建立联系:视觉合成。通过深入图像生成领域,我们探索了GPT-4V如何通过各种途径为此领域做出贡献,包括评估和提示。

概述生成图像评估

第8.2节中的图66展示了GPT-4V在评估图像美学方面的能力。这里,我们展示了如何利用GPT-4V根据给定的文本到图像生成提示来评估生成的图像,灵感来自于RL-Diffusion 。RL-Diffusion利用VL模型LLAVA来描述生成的图像,然后使用BERT在提示和图像描述之间计算文本相似度。结果的文本相似度得分作为通过强化学习训练扩散模型的反馈信号。显著的是,图84-85展示了GPT-4V作为单一模型可以有效地评定生成图像与提示之间的相似度。此外,GPT-4V为相似度得分的演绎提供解释,这可能被用作改进图像生成的反馈。

在图84中,我们使用提示“图像中发生了什么? 从1到10评价图像与文本提示'鹦鹉驾驶汽车'的相似度。”来评估图像相似度。GPT-4V为与提示最不相关的图像(海豚跃过水面)给出1分,而为底部最相关的图像给出9分。值得注意的是,图84中的最后三张图像在RL-Diffusion中被显示为文本提示“鹦鹉驾驶汽车”的逐步改进的生成结果。GPT-4V对这三张图像的评分(4 → 8 → 9)与优化过程一致。

图85展示了涉及在蛋糕上渲染文本的图像生成结果的评估。利用其强大的光学字符识别(OCR)能力,GPT-4V准确识别生成图像中的渲染文本,如“Azuze Research”、“ARAUIE”和“Azure Azure”,并将它们与文本提示要求“Azure Research”进行比较。

概述增强图像编辑

除了评估生成图像的卓越能力之外,GPT-4V还提供了一个非常有价值的功能,可以极大地增强图像编辑。通过生成或重写用于编辑的文本提示,GPT-4V可以优化编辑后的图像,使其更具视觉吸引力。图86展示了如何利用GPT-4V的强大功能来生成专门用于图像编辑的文本提示。通过提供原始图像和描述所需编辑的文本要求,GPT-4V会产生适用于当前任务的优化提示。这个优化后的提示会考虑图像的独特特征,以确保后续的编辑过程是知情且有效的。

此外,图87展示了GPT-4V通过重写编辑提示来改进图像编辑的另一个用例。通过考虑原始图像、初始提示和编辑后的图像,GPT-4V可以生成改进后的提示,其中融入了之前编辑过程所做的更改。可以交替执行图86-87所示的过程,允许用户反复优化编辑,直到达到满意的结果。因此,这种迭代过程有可能显著提高编辑图像的整体质量,为用户在图像编辑工作中提供更多控制权和创造自由度。

生成图像的评估(提示-图像符合度)

图像评估a

Prompt:

84

图像中发生了什么? 从1到10评价图像与文本提示“一只鹦鹉开车”的相似度。

GPT-4V:

图像中有一头海豚从水中跳出。按1到10的评分标准,我会给这张图像相似度1分,因为图像中没有鹦鹉或汽车,与文本提示“一只鹦鹉开车”完全不相似。

图像评估b

Prompt:

图像中发生了什么?从1到10评价图像与文本提示“一只鹦鹉开车”的相似度。

GPT-4V:

图像中有一只鹦鹉在天空中飞翔,背景是树木和云朵。我会给这张图像相似度2分,因为图像中有鹦鹉,但它没有开车,与文本提示“一只鹦鹉开车”的相似度不高。

图像评估c

Prompt:

图像中发生了什么?从1到10评价图像与文本提示“一只鹦鹉开车”的相似度。

GPT-4V:

图像中有一只鹦鹉栖息在汽车侧面。它没有开车,但它在汽车上。我会给这张图像与文本提示“一只鹦鹉开车”的相似度4分,因为图像中有鹦鹉和汽车,但鹦鹉没有开车。

图像评估d

Prompt:

图像中发生了什么?从1到10评价图像与文本提示“一只鹦鹉开车”的相似度。

GPT-4V:

图像中有一只鹦鹉的头部叠加在行驶在道路上的汽车上。鹦鹉的头在司机座位,汽车似乎在运动。按1到10的评分标准,我会给这张图像与文本提示“一只鹦鹉开车”的相似度8分。图像明确显示鹦鹉在汽车司机座位上,但鹦鹉的身体不可见,汽车也不太清楚是“汽车”,更像是模糊图像。

图像评估e

Prompt:

图像中发生了什么?从1到10评价图像与文本提示“一只鹦鹉开车”的相似度。

GPT-4V:

图像中有两只鹦鹉,一只红色一只黄色,在汽车顶部。黄色鹦鹉握着方向盘,似乎在开车。按1到10的评分标准,我会给这张图像与文本提示“一只鹦鹉开车”的相似度9分。不是完美的10分仅仅是因为图像中有两只鹦鹉,而不是提示中的一只。

名称得分相似度

图⁸⁴:提示GPT-4V按1到10给出生成图像与提示的相似度得分。最后三张图像来自RL-Diffusion。

图像评估f

Prompt:

85

图像中发生了什么? 从1到10评价图像与文本提示“一个桌上的蛋糕,上面写着'Azure Research'”的相似度。

GPT-4V:

图像中有一个桌上的蛋糕,上面写着“Azuze Research”。我会给这张图像与文本提示“一个桌上的蛋糕,上面写着'Azure Research'”的相似度8分,因为唯一的不同就是“Azure”拼写错误成了“Azuze”。

图像评估g

Prompt:

图像中发生了什么?从1到10评价图像与文本提示“一个桌上的蛋糕,上面写着'Azure Research'”的相似度。

GPT-4V:

图像中有一个蓝色蛋糕放在桌子上,上面写着“ARAUIE”。按1到10的标准,我会给这张图像与文本提示“一个桌上的蛋糕,上面写着'Azure Research'”的相似度评为6分。图像的确显示了一个桌上的蛋糕,但蛋糕上的文字与文本提示不完全匹配。蛋糕的蓝色也可以看作与提示中的“Azure”有点相似。

图像评估h

Prompt:

图像中发生了什么?从1到10评价图像与文本提示“一个桌上的蛋糕,上面写着'Azure Research'”的相似度。