理解人与图像中物体的空间关系是视觉智能的重要方面。在图24中,GPT-4V展示了在这方面的出色能力。它可以识别飞盘和图像中的男子之间的空间关系。它还可以识别男子和图像中的汽车之间的空间关系,并指出相机视角可能会影响他们的感知大小。
图25突出显示了我们对GPT-4V在物体计数能力的探索。在我们的实验中,我们使用文本提示“计算图像中X的数量”来评估其性能。结果表明,GPT-4V可以成功地计算出图像中存在的物体数量,如苹果,橙子和人。然而,当物体被遮挡,或者场景杂乱无章时,就会出现挑战,这可能导致计数过程中的错误。在图25的左下角,GPT-4V识别出12个人,但正确答案应该是11。这可能是由于我们在这个实验中使用的文本提示有限,需要进一步研究提示技术。
物体定位是计算机视觉领域的一个基本挑战。在我们的初步实验中,我们通过使用简单的文本提示来解决这个任务,“使用边界框定位图像中的每个人。” 我们的物体定位实验的初步结果在图26中显示。研究结果表明,GPT-4V展示了以文本格式生成边界框坐标的能力。然而,需要注意的是,生成的边界框坐标并不准确。当场景或背景相对简单且较少杂乱时,观察到了有希望的定位结果。需要进一步的提示技术来提高在更复杂和拥挤的环境中的物体定位性能。
密集标注涉及为给定图像中的每个感兴趣区域生成详细的描述。这个在视觉-语言领域的高级任务通常需要一个集成多个专家的复杂系统,如物体检测器,名人识别模型和图像标注模型。为了探索GPT-4V在密集标注的能力,我们使用了一个指导性的提示,如图27所示。结果非常令人鼓舞,因为GPT-4V成功地定位并识别了图像中的个体,然后为每个科学家提供了简洁的描述。
Prompt:
飞盘和人之间的空间关系是什么?
GPT-4V:
根据提供的图像,飞盘与男人的空间关系是飞盘在男人上方并略微向前。它似乎正在远离男人,就像被他扔出或释放出来一样。
Prompt:
这个人比这辆车大吗?
GPT-4V:
不,这张图片中的汽车似乎比人要大。然而,照片中物体的透视和距离可能会影响它们的视觉大小。
图24:空间关系理解结果。GPT-4V能够识别图像中物体之间的空间关系。
Prompt:
数一下图片中有多少个苹果。
GPT-4V:
这张图片里有7个苹果。
Prompt:
数一下图片中的苹果数量。
GPT-4V:
这张图片中有16个苹果。
Prompt:
数一下图片中橙子的数量。
GPT-4V:
这张图片中有3个橙子。
Prompt:
计算图像中的人数。
GPT-4V:
这张图片中有3个人。
Prompt:
统计图像中的人数。
GPT-4V:
这张图片中有4个人。
Prompt:
计算图像中的人数。
GPT-4V:
这张图片中有12
个人。
图25:物体计数结果。GPT-4V能够确定图像中指定物体的数量。高亮
表示错误答案。
Prompt:
使用边界框对图像中的每个人进行定位。图像大小为(宽度,高度)=(998,786)。
GPT-4V:
这张图片中只有一个人,所以这个人的边界框应该是:
左上角:(254, 118)
右下角:(731, 693)
解释:边界框的左上角点是 (x, y) = (254, 118),即该人物的左上角。边界框的右下角点是 (x, y) = (731, 693),即该人物的右下角。这个边界框包含了整个人物。
检测到边界框的可视化:
Prompt:
使用边界框定位图像中的每辆汽车。
输入图像的尺寸是多少?
GPT-4V:
输入图像的图像大小为500 x 281像素。
黑色汽车的边界框:
左上角:(63,114)
右下角:(196,220)
白色汽车的边界框:
左上角:(287,96)
右下角:(474,220)
检测到边界框的可视化:
Prompt:
使用边界框将图像中的每个人定位。输入图像的尺寸是多少?
GPT-4V:
输入图像的尺寸为1000 x 333像素。
每个人的边界框:
第1个人(最左边):(x1,y1) = (22,108),(x2,y2) =(170,300)
第2个人:(x1,y1) =(200,80),(x2,y2) =(290,270)
第3个人:(x1,y1) =(350,70),(x2,y2) =(460,280)
第4个人:(x1,y1) =(540,80),(x2,y2) =(640,270)
第5个人(最右边):(x1,y1) =(760,100),(x2,y2) =(920,290)
注意:这些边界框坐标是近似值,可能不是精确的。
检测到边界框的可视化:
图26:物体定位结果。GPT-4V能够为图像中指定的物体生成和近似边界框坐标。当仅提供简单的文本提示时,模型可能在处理更复杂的场景,如物体遮挡和杂乱场景时遇到挑战。
Prompt:
请按照以下指示操作:
告诉我输入图像的尺寸;
使用边界框定位图像中的每个人;
识别每个人;
为每个边界框生成详细的说明。
GPT-4V:
输入图像的尺寸为1600 x 1067像素。
边界框1:(x1,y1) = (120,250),(x2,y2) = (420,950) - 人物1
边界框2:(x1,y1) = (500,240),(x2,y2) = (800,940) - 人物2
边界框3:(x1,y1) = (880,230),(x2,y2) = (1180,930) - 人物3
边界框4:(x1,y1) = (1260,220),(x2,y2) = (1560,920) - 人物4
人物1:Yann LeCun
人物2:Geoffrey Hinton
人物3:Yoshua Bengio
人物4:Andrew Ng
边界框1的标题:Yann LeCun,计算机科学家和人工智能的创始人之一。
边界框2的标题:Geoffrey Hinton,计算机科学家和认知心理学家,以其在人工神经网络方面的工作而闻名。
边界框3的标题:Yoshua Bengio,计算机科学家和蒙特利尔机器学习算法研究所的联合创始人。
边界框4的标题:Andrew Ng,计算机科学家和企业家,以其在深度学习和人工智能方面的工作而闻名。
密集标注的可视化:
图27:密集标注的结果。GPT-4V遵循文本提示,成功为输入图像生成密集标注。
笑话和梗图通常会引用特定的事件、流行文化或互联网趋势。理解这些引用需要熟悉相关的背景和文化知识。把握视觉元素,它们与文本的关系,以及预期的幽默效果可能是一个复杂的任务。此外,梗图通常由用户生成,使得它们具有高度的多样性并且不断扩展。为了评估GPT-4V在这一领域的能力,我们向GPT-4V输入了一对梗图和文本提示。示例文本提示包括“你能解释这个梗图吗?”和“这个图片有什么好笑的?”图28展示了示例结果。我们观察到,GPT-4V在从视觉和文本模态收集信息,然后理解梗图中嵌入的幽默方面有着显著的能力。
我们进一步研究了GPT-4V在需要利用科学知识进行推理的任务中的能力。我们通过提供一个文本提示问题和一个对应的图像来进行实验。这些问题涵盖了广泛的主题,包括地理、物理、生物和地球科学。在图29-31中,我们观察到GPT-4V能够根据视觉上下文正确地回答科学问题。
例如,在图29的底部行,GPT-4V识别出了样本A和样本B的平均粒子速度。通过考虑粒子速度、动能和温度之间的关系,GPT-4V正确地回答了问题。
再举一个例子,如图30底部行所示,GPT-4V考虑到图中呈现的视觉箭头,来识别特定食物网中的生产者。
此外,如图31所示,当我们提供更具体的提示,如“假设你是一名老师,请用图解释X”,我们观察到生成的答案采用了教程格式,并逐步解释主题。
在图32中,我们评估了GPT-4V在多模态常识推理方面的能力。在我们的实验中,我们观察到GPT-4V有效地利用图像中呈现的边界框作为视觉提示(例如,
Prompt:
你能解释一下这个梗吗?
GPT-4V:
这个梗调侃了拖延的概念,以及一个人可能会推迟做某件任务直到特定的时间,但如果他们错过了那个时间,他们会进一步推迟。在这种情况下,梗图中的人计划在8点做某事,但由于现在已经是8点05分,他们决定等到9点再做。青蛙 Kermit 躺在床上的形象代表了这个人想拖延和避免任务的愿望。
Prompt:
你能解释一下这个梗吗?
GPT-4V:
这个梗图强调了一个人在考试中笔迹的恶化。前两页显示了整洁且清晰的笔迹,中间的一页显示了稍微凌乱的笔迹,最后两页显示了几乎无法辨认的笔迹。
这个梗图在讽刺一个现象,即随着考试的进行,一个人的笔迹往往会变得越来越差,因为他们变得越来越疲惫,并且急于完成考试。它也暗示了这个人的注意力和对细节的关注在考试结束时会减少。
Prompt:
这张图片有什么有趣的地方?
GPT-4V:
这张图片有几个让人觉得有趣的地方:
它是一张犀牛绘画的卡通图片,本身就是一个出乎意料的愚蠢概念。
犀牛正在画一幅自画像,这增加了一层幽默感。
标题“你看待世界的方式取决于你自己!”是一个关于我们每个人都有自己独特的观点并且有时会有点自我中心的笑话。
Prompt:
这张图片有什么有趣的地方?
GPT-4V:
这个图片有几个原因使人觉得好笑。首先,它是一个在互联网上被广泛使用和认可的梗图模板。图片的左侧是来自真人秀电视节目 "贝弗利山庄的真实主妇" 的一个截图,其中一位演员正在愤怒地指着并大喊。图片的右侧是一只猫坐在餐桌前,面前有一盘食物,看起来毫不在意。这个图片的幽默之处来自于两边的对比 - 左边愤怒、戏剧性的喊叫和右边漠不关心的猫。它也玩弄了猫行为像人和对我们的行为不以为然的想法。
总的来说,这个图片创造了一个有趣而荒谬的情境,让人发笑。
图28:关于笑话和表情包理解的结果。GPT-4V展示了强大的能力来理解表情包中所包含的幽默。
Prompt:
这个本初子午线穿过哪个海洋?
GPT-4V:
本初子午线与以下海洋相交:
大西洋
南极洋
北冰洋
Prompt:
比较每个样品中粒子的平均动能。下面的图表显示了两个纯净的气体样品,它们位于相同的封闭刚性容器中。每个彩色球代表一个气体粒子。两个样品具有相同数量的粒子。样品A或样品B哪个温度更高?
GPT-4V:
由于样本A中的平均粒子速度高于样本B(600 m/s vs. 540 m/s),因此样本A中的粒子具有更高的平均动能。因此,样本A的温度比样本B高。
图29: 关于回答科学问题的结果。GPT-4V可以从文本和视觉上理解问题,并收集必要的信息来回答问题。
Prompt:
这些州中哪一个位于最北端?
GPT-4V:
在地图上展示的三个州中,特拉华州是最北面的。
Prompt:
在这个食物网中,哪个生物是生产者?
GPT-4V:
这个食物网中的生产者是浆果和花朵、草和种子。它们是通过光合作用利用太阳能量来生产自己的食物的生物。
图30:回答科学问题的结果。 GPT-4V可以在文本和视觉上理解问题,并收集必要的信息来回答问题。
Prompt:
假设你是一名教师,请使用图示来解释蒸发和蒸腾的区别。
GPT-4V:
同学们,今天我们要学习蒸发和蒸腾的区别。让我们看一下这张图。
首先,我们来理解什么是蒸发。蒸发是液态水变为气态水的过程。这通常发生在如海洋或湖泊等液体表面,当水分子获得足够的能量脱离液体并形成水蒸气时。所以在这张图里,我们可以看到湖泊和水坝中的水正在蒸发成为水蒸气。
现在,我们来看看蒸腾。蒸腾是两种过程的组合——蒸发和植物散发。植物散发是植物通过叶子释放水蒸气的过程。所以在这张图里,我们可以看到树木和植被正在向空气中释放水蒸气,这就是蒸腾过程中的植物散发部分。与此同时,土壤表面和水分也在蒸发。蒸发和植物散发的结合就是我们所说的蒸腾过程。
总结一下,蒸发是液态水变为气态水的过程,而蒸腾是蒸发和植物散发的结合。这两种过程都为水循环做出了贡献,对维持我们环境中的水平衡非常重要。
图31:回答科学问题的结果。当我们使用更具体的文本提示,如“假设您是一位老师,请使用该图来解释X”,我们观察到GPT-4V可以生成一个简短的教程来解释这个主题。
Prompt:
GPT-4V:
Prompt:
GPT-4V:
Prompt:
假设你是一名侦探,从图像中的视觉线索中你能推断出什么?
GPT-4V:
从图像中的视觉线索,我可以推断出:
房间属于一个可能是年轻成年人或青少年的人,这可以从休闲服装和带有电脑的桌子看出。
这个人很可能是学生或在家工作的人,这可以从桌子和电脑看出。
这个人很可能注重时尚,这可以从多件夹克和鞋子看出。
房间很可能位于寒冷的气候区,这可以从夹克和靴子看出。
这个人很可能不太整洁,这可以从杂乱的桌子和挂在门上的衣服看出。
房间很可能位于一个更老旧或更乡村的建筑中,这可以从裸露的管道和看起来磨损的墙壁看出。
图32:多模态常识推理的结果。
读取和理解图像中的场景文本是视觉语言中的一个重要任。在我们的实验中,我们研究了GPT-4V通过使用“图像中的所有场景文本是什么?”的输入提示来识别场景文本的能力。图33显示了示例结果。我们观察到,GPT-4V可以准确识别各种场景中的场景文本,包括手写体和印刷体文本。在第4.5节中,我们将进一步呈现多模态场景的结果。
在图34中,GPT-4V展示了它在解决视觉数学问题方面的能力。在我们的实验中,我们观察到GPT-4V能够从图像中提取必要的信息。例如,在图34中,GPT-4V正确识别出了直角三角形的存在,并确定AB为4个单位,BC为3个单位。此外,我们注意到GPT-4V倾向以逐步解决问题的方式呈现解决方案,从而展示了它提供清晰解释的能力。
我们进一步研究了GPT-4V在图表理解和推理方面的能力。图35-37展示了示例结果。在我们初步的探索中,GPT-4V展示出提供图表详细描述的能力。例如,在图35中,该模型正确地从开始到结束解释了提案过程。在图36中,该模型不仅理解了给定流程图中的程序,还将细节翻译成了python代码。在图37底行中,GPT-4V清楚地理解了x轴和y轴,并解释了图表呈现的关键见解。此外,在我们的实验中,我们观察到GPT-4V可以根据图表回答问题。在图37顶行中,GPT-4V正确计算了除福特F150之外的平均总加油成本。
在图38中,我们初步研究了表格理解和推理。与图表实验的发现相似,GPT-4V在理解表格中的细节以及进行推理和准确回答相关问题方面展示了非常有希望的结果。
图39显示了各种类型文档的结果,如楼层平面图、海报和考卷。我们观察到GPT-4V展示出对这些文档的理解能力,并提供合理的响应。例如,它准确识别了第二个卧室浴室的位置。它还识别了中国菜“热干面”,并通过场景文本将其与武汉市联系起来。此外,GPT-4V有能力阅读考卷。它准确地用Markdown重建表格,然后用正确的答案填充表格。我们在第4.6节中进一步探索了它的编程能力。
在图40中,我们通过提供包含多页的技术报告来探索一个更具挑战性的案例。在我们有限的探索中,GPT-4V展示了令人印象深刻的结果。它通过考虑跨多页的上下文,正确描述了主要思想及其提出的方法。然而,它可能偶尔会遗漏一些实现细节。请注意,数据集应该包含1196+665=1861个示例,提取的特征应该包括定向梯度直方图(HOG)。与一次向模型提示所有页面相比,我们认为探索更高级的提示技术,如逐步思考或采用上下文少样本方法,可能会潜在地增强模型的性能。
Prompt:
这张图片中的所有场景文字是什么?
GPT-4V:
图像中的场景文字是“3,642,039,031,055”。
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
图像中的场景文字为:
(NVDA)
NVIDIA
356.85
+51.47
+16.85%
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
图像中的场景文字是:
"Royal"
"London"
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
图片中唯一的场景文字是:“TheEarth without art is just 'eh(没有艺术的地球只是‘嗯)’”。
Prompt:
这张图片中的所有场景文字是什么?
GPT-4V:
图像中的场景文字是:“The Roadto Hollywood: how some of us got here”
Prompt:
这张图片中的所有场景文字是什么?
GPT-4V:
图片中的场景文字为:
"Westfield"
"westfield.com.au"
Prompt:
这张图片中的所有场景文字是什么?
GPT-4V:
图片中有三段文字:
1)“COVID-19 TESTING”——“COVID-19 检测”
2)“PLEASE HAVE ID & INSURANCE CARD READY”——“请准备好身份证和保险卡”
3)“W @UW Medicine” (this is the logo/branding for the University of Washington Medicine——“W @UW 医学”(这是华盛顿大学医学的标志/品牌)
Prompt:
图像中的所有场景文本是什么?
GPT-4V:
图片中的场景文字包括:
Vacation(假期)
Beach(海滩)
Smile(微笑)
Summer(夏天)
Watermelon(西瓜)
Flip flops(人字拖鞋)
Lemonade(柠檬水)
Prompt:
这张图片中的所有场景文字是什么?
GPT-4V:
图像中的场景文字包括:
Malayan Tapir(马来亚貘)
Tapirus indicus(印度貘)
LOCATION: Malay Peninsula and Sumatra, near water(地点:马来半岛和苏门答腊,靠近水源)
RELATIVES: There are only five species of tapirs. They are most closely related to horses and rhinos.(亲戚:只有五种貘。它们与马和犀牛最为接近。)
VANISHING? The forest provides tapirs with shelter, food, and water, but forests are rapidly disappearing in Malaysia and Sumatra.(消失?森林为貘提供了庇护、食物和水源,但是马来西亚和苏门答腊的森林正在迅速消失。)
图33:场景文本识别结果。GPT-4V可以在许多具有挑战性的场景中识别场景文本。
Prompt:
这个方程中的 x 是什么?
GPT-4V:
在没有任何上下文或关于这个方程表示什么的信息的情况下,我们只能假设"x"是方程中的一个变量或未知值。
在这个方程中,(x + 3)被平方,等于4。为了求解x,我们可以对方程的两边都取平方根,以消除左边的指数。这将给我们:
√((x + 3)²) = √4
x + 3 = ±2
从这里,我们可以通过从两边都减去3来求解x。这将给我们:
x = -1 或者 x = 5
所以,在这个方程中,x可以是-1或者5。
Prompt:
最后一个方程中的d的值是多少?
GPT-4V:
为了求解第一个方程,我们需要将x变量移到方程的一边,常数移到另一边。我们可以先从两边都减去4x,以消除方程右边的x项。这给我们:
4x + 11 = 14
接下来,我们可以从两边都减去11,以消除方程左边的常数项。这给我们:
4x = 3
最后,我们可以将两边都除以4,以将x变量移到方程左边。这给我们:
x = 3/4
为了求解第二个方程,我们可以先从两边都减去7d,以消除方程左边的d项。这给我们:
-4 = 4d - 9
接下来,我们可以在两边都加上9,以消除方程右边的常数项。这给我们:
5 = 4d
最后,我们可以将两边都除以4,以将d变量移到方程右边。这给我们:
d = 5/4
所以,最后一个方程中d的值是5/4。
Prompt:
这张图片中x的值是多少?
GPT-4V:
图片中的x的值可以使用毕达哥拉斯定理来找到,该定理指出在一个直角三角形中,斜边(最长的一边,与直角相对的一边)的平方等于另外两边平方和。
在这个例子中,斜边是边AC,另外两边是AB和BC。我们知道AB是4,BC是3,所以我们可以将这些值代入方程:
a² + b² = c²
3² + 4² = c²
9 + 16 = c²
25 = c²
因此,c(斜边的长度)是5。由于x是斜边的长度,所以x等于5。
图34: 视觉数学推理结果。GPT-4V能够理解和解决具有良好结构解的视觉数学问题。
Prompt:
解释这个图。
GPT-4V:
这个图表代表了一个团队的提案流程。流程开始于团队成员在会议上提出一个项目。团队然后讨论这是否是一个好主意。如果这个想法被认为不是一个好主意,团队会拒绝它,流程结束。
如果团队认为这可能是一个好主意,但需要更多信息,一个团队成员进行进一步研究并将想法细化为提案。团队然后审查提案并提供反馈。如果提案不可以,那么团队成员修改它,团队再次审查。
如果提案可以,团队将其发送到最终决策流程。如果提案被批准,那么团队继续实施该项目。这是提案流程的结束。
图35:流程图理解结果。GPT-4V正确描述了提案流程。
Prompt:
你能将这个流程图翻译成Python代码吗?
GPT-4V:
好的,这里是Python代码:
num1 = input("输入第一个数字:")
num2 = input("输入第二个数字:")
if num1 > num2:
print(num1)
else:
print(num2)
解释:
前两行代码对应流程图中的“输入num1”和“输入num2”块,提示用户输入两个数字。
接下来两行代码对应“num1 > num2?”块,使用条件语句检查第一个数字是否大于第二个数字。
如果条件为真,执行下一行代码("显示num1"),并在屏幕上打印第一个数字。
如果条件为假,执行else语句,并在屏幕上打印第二个数字("显示num2")。
代码然后停止,对应流程图中的“停止”块。
图36:对流程图理解的结果。GPT-4V能够将流程图翻译成Python代码。
Prompt:
除了福特F150之外,平均总加油费用是多少?
GPT-4V:
要找到不包括福特F150的平均总加油费用,我们需要将丰田RAV4和本田思域的总加油费用相加,然后除以2(因为计算中有2辆车)。
(82.56 + 70.55)÷ 2 = 76.55
因此,不包括福特F150的平均总加油费用为76.55美元。
Prompt:
解释这个图表。
GPT-4V:
这个图表展示了论文质量与其对一个人职业生涯的影响之间的关系。横坐标代表论文质量,范围从差到有创意和原创的。纵坐标代表论文对一个人职业生涯的影响,范围从无影响到很大影响。
图表显示差的论文对一个人的职业生涯影响很小或没有影响,而有创意和原创的论文对一个人的职业生涯有重大影响。随着论文质量的提高,论文对一个人职业生涯的影响也在增加。这表明一个人工作质量是决定其职业成功的一个重要因素。
图37:GPT-4V在理解图表细节方面表现出有希望的结果,同时在推理和准确回答相关问题方面也表现出良好的能力。
Prompt:
有多少个家庭的收入超过13000,并拥有超过2辆车?
GPT-4V:
从给定的表格中,我们可以清楚地看到,共有113个家庭的收入超过13000卢比,并拥有超过2辆汽车(13000-16000范围内有25个家庭,16000或更多范围内有88个家庭)。
Prompt:
哪个国家的利润率最高?
GPT-4V:
根据提供的数据,利润率最高的国家是澳大利亚,利润率为19.4%。然而,前三个国家(美国、中国和澳大利亚)之间的差距很小,利润率相差不到0.3%。
图38:我们观察到GPT-4V可以理解表格中的细节,并回答相关问题。
Prompt:
描述这张图片。
GPT-4V:
这张图片是一套公寓或公寓的平面图。它展示了房间的布局和尺寸。有一个露台、餐厅、客厅、门厅、两个卧室、一个主卫生间和一个客人卫生间。这个平面图是黑白的,是一个二维图纸。
Prompt:
第二个卧室的浴室在哪里?
GPT-4V:
根据这个平面图,第二个卧室的浴室似乎直接毗邻卧室。它标有“WC”,是一个尺寸为5'2" x 5'2"的小房间。
Prompt:
回答图片中的问题。
GPT-4V:
图1上的数字对应的层次是:
外核 | 3
地幔 | 2
地壳 | 1
内核 | 4
生成结果的可视化:
Prompt:
描述这张海报。这道菜来自哪个城市?
GPT-4V:
这张海报是一则广告,宣传一道名为“热干面”的中国美食。海报的背景是红色的,顶部有白色的中文字符,写着“热干面,中国的味道”。在文本下方是一张这道美食的照片,由面条、肉和蔬菜组成。这道菜盛在一个绿色的碗里,旁边有红辣椒。海报底部的文本是中文的,描述这道菜是辣、香、美味的。
这道菜来自中国湖北省的武汉市。它是该市流行的街头美食之一,被认为是中国“十大早餐”之一。
图39:文档理解方面的结果。GPT-4V能够识别三种不同类型的文档并正确回答问题。
Prompt:
这是一篇名为“纸张格式塔”的论文。
详细描述了这篇论文中的纸张,并强调了它们的贡献。
Page 1
Page 2
Page 3
Prompt Continued:
Page 4
Page 5
GPT-4V:
"论文形态"这篇研究论文是凤凰城大学计算机科学系的Carven von Bearnensquash撰写的。本文讨论了计算机科学研究论文的视觉质量以及它如何影响论文的整体印象。
本文首先介绍了论文形态的概念,即论文的整体印象。作者认为论文的视觉质量是营造良好印象的一个重要因素。然后本文讨论了这一领域的以往研究,并强调本文的贡献是利用监督学习算法来评估论文的视觉质量。
然后,论文提出了方法和实验结果。作者收集了1196
篇计算机科学研究论文的数据集,并使用监督学习算法来评估这些论文的视觉质量。该算法在从论文中提取的一组特征上进行训练,例如图的数量、公式的数量和参考文献的数量
。结果表明,该算法能够以高度准确率准确预测论文的视觉质量。
论文以对结果和未来工作的讨论结束。作者建议未来的工作可以通过融入更多特征和在更大的数据集上训练,来专注于改进该算法。论文还建议,该算法可以被用来评估其他类型文档的视觉质量,例如技术报告和论文。
总体而言,本文的贡献是利用监督学习算法来评估计算机科学研究论文的视觉质量。这是一种新颖的方法,可以帮助研究人员提高论文的视觉质量,并对读者产生更好的印象。
图40:文档理解结果。GPT-4V阅读了一份多页技术报告,理解了每个部分的内容,并总结了该技术报告的贡献。高亮
显示了错误答案。
我们评估GPT-4V在理解多种语言和多种模式方面的能力。首先,我们通过评估没有场景文本的自然图像来探究这一能力,如图41所示。在图的第一行,我们分别用中文、法文和捷克文提供了输入文本提示“描述图片”。GPT-4V识别不同语言的输入文本提示,并生成相应语言的正确图片描述。在图41的第二行,我们用英语提供输入文本提示,并指定输出语言。GPT-4V按照指令生成所需语言的正确描述。在图41的底行,我们用西班牙语提供一个输入提示,并要求GPT-4V用20种不同的语言生成图片描述。我们观察到,GPT-4V可以处理不同语言的输入和输出文本。
此外,我们还探索了一个涉及多语种场景文本识别的情境,其中输入图像可能包含各种语言的场景文本。如图42所示,GPT-4V正确地识别并理解了来自不同场景的文本。如图43的前两行所示,我们观察到GPT-4V能够识别场景文本,并将其翻译成不同的语言。在图43的底行,我们提供了一个用加泰罗尼亚语编写的维基百科网站的截图,并指导GPT-4V用20种不同的语言对信息进行总结。GPT-4V不仅识别出加泰罗尼亚语的文本,还生成了精确的摘要,并将它们翻译成不同的语言。这展示了GPT-4V在理解和翻译多语种场景文本方面的能力。
我们还探索了多文化理解的能力。图44显示了这种情境下的示例结果。我们观察到,GPT-4V能够理解文化细微差别,并为给定的婚礼图片生成合理的多语种描述。
在我们的探索中,我们发现GPT-4V能够无缝地理解并正确生成不同语言的描述,突出了其在处理多样语言环境中的多功能性。
Prompt:
描述這張圖片
GPT-4V:
這張圖片是一隻小貓在草地上走路的畫面。
小貓是橘色的,有藍色的眼睛,看起來很可愛。
它的身體很小,四肢纖細,正在小心翼翼地在草地上行走。
Prompt:
Décrire l’image
GPT-4V:
Il s’agit d’une photo d’un chaton roux marchant sur l’herbe verte.
Le chaton a les yeux bleus et semble être en train de marcher avec prudence.
Il est entouré d’herbe et on peut voir une partie d’un autre chat en arrière-plan
Prompt:
Popište obrázek
GPT-4V:
Na obrázku je malé oranžové kotě smodrýma očima.
Kotě stojí na zelené trávě a směřuje dopředu.
Jeho tělo je vpohybu a vypadá, že právě běží. Napozadí je vidět další část trávy a nejasně idalší kočka
Prompt:
Describe the image in Chinese
GPT-4V:
这是一只小柯基犬,它在草地上走着,嘴巴张开,舌头伸出来,好像很开心的 样子。
它的身上有一条 项圈,上面挂着一个骨 头形状的牌子。
Prompt:
Describe the image in French
GPT-4V:
C'est une image d'un petit chien de race Corgi.
Il est de couleur marron et blanc et porte un collier avec une médaille en forme d'os.
Il est en train de marcher sur l'herbe verte avec la langue pendante
Prompt:
Describe the image in Czech
GPT-4V:
Na obrázku je malý hnědý pes s bílým límcem a kostičkou na obojku.
Pes je na zelené trávě a má otevřenou tlamu.
Vypadá, že se baví.
Prompt:
将图像描述成20种不同语言。
GPT-4V:
Inglés: This is a beautiful view of Machu Picchu in Peru.
Español: Esta es una hermosa vista de Machu Picchu en Perú.
Francés: C'est une belle vue de Machu Picchu au Pérou.
Alemán: Dies ist eine schöne Aussicht auf Machu Picchu in Peru.
Italiano: Questa è una bella vista di Machu Picchu in Perù.
Portugués: Esta é uma bela vista de Machu Picchu no Peru.
Ruso: Это красивый вид на Мачу-Пикчу в Перу.
Chino: 这是秘鲁马丘比丘的美丽景色。
Japonés: これはペルーのマチュピチュの美しい景色です。
Coreano: 이것은 페루의 마추 피추의 아름다운 경치입니다.
Hindi: यह पेǾ के माचू ͪ पÍचू का सुंदर Ǻæय है।
Arabé :.بیرو في بیتشو ماشو لجمرنم یلمج نرظم من زیلنم
Turco: Bu, Peru'daki Machu Picchu'nun güzel bir manzarasıdır.
Griego: Αυτή είναι μια όμορφη θέα του Μάτσου Πίτσου στο Περού.
15.Hebreo:זהו נוף יפה של מאצ'ו פיצ'ו בפרו.
Sueco: Det här är en vacker vy av Machu Picchu i Peru.
Noruego: Dette er en vakker utsikt over Machu Picchu i Peru.
Danés: Dette er en smuk udsigt over Machu Picchu i Peru.
Holandés: Dit is een prachtig uitzicht op Machu Picchu in Peru.
Polaco: To piękny widok na Machu Picchu w Peru
图41:多语种图像描述的结果。GPT-4V能够用不同的语言生成图像描述。
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
图像中的场景文字是阿拉伯语。
“Bismillah(“ بسم ﷲ الرحمن الرحیم”短语al-Rahman al-Rahim)。
它的翻译是“以真主的名义,最仁慈的,最有同情心的”。
这个短语通常由穆斯林在任何行动或演讲开始时使用,作为一种向上帝祈求祝福和指引的方式。
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
这幅图像中的场景文字是"MUSEE DU LOUVRE",这是法国巴黎著名的艺术博物馆的名称。
Prompt:
这张图片中的所有场景文字是什么?
GPT-4V:
图片中的场景文字包括:
"尖沙咀"(中文字符)
"Tsim Sha Tsui"(英文文本)
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
图像中的场景文字为:
WELCOME(英语)
bienvenida(西班牙语)
Bienvenue(法语)
Willkommen(德语)
benvenuto(意大利语)
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
图像中有两个场景文本:
1)“SUPER NINTENDO WORLD”
2)“スーパーニンテンドーワールド”(这是“Super Nintendo World”的日本版本)
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
图像中的场景文字为:
G.P. FIM DA EUROPA
ATLETISMO
António Agostinho 1987
Fernando Domingos 1988
Prompt:
这张图片中所有的场景文字是什么?
GPT-4V:
这张图片中的场景文字包括:
ΑΘΗΝΑΙ-ΡΩΜΗ-ΡΙΟΝ ΙΑΠΕΤΡΟΝ(雅典-罗马-里翁·雅佩特隆)
29 ΜΑΪΟΥ 1933(1933年5月29日)
ΔΡΑΧ(德拉克马)
ΕΛΛΑΣ(希腊)
ΣΠΑΕΡ. ΤΑΧΥΔΡ. ΣΥΓΚΟΙΝ. ΙΤΑΛΙΑ-ΕΛΛΑΔΟΣ-ΤΟΥΡΚΙΑ
(航空邮件。快递。通讯。意大利-希腊-土耳其)
120(邮票的德拉克马价值)
Prompt:
这张图片中的所有场景文字是什么?
GPT-4V:
这段文字的意思是:“这张图片中的场景文字是‘não é normal ter medo de andar sozinho na rua!!’,它是葡萄牙语,翻译成英语为‘It is not normal to be afraid to walk alone on the street’。”
图42:多语言场景文本识别结果。GPT-4V可以识别不同语言的场景文本。
Prompt:
如果图像呈现的是非中文语言,请将内容翻译成中文。
GPT-4V:
这段文字的翻译为:“早上好,祝你有美好的一天。”
Prompt:
如果图像呈现的语言不是中文,请将内容翻译成中文。
GPT-4V:
图像中的文本是中文,翻译成中文是“麻婆豆腐”。麻婆豆腐是一道用豆腐和剁碎的肉制成的,配有辣酱的受欢迎的中式菜肴。
Prompt:
如果图像以非中文语言呈现,请将内容翻译成中文。
GPT-4V:
图像中的文本是韩语,翻译成中文是“美味的食物”。
Prompt:
如果图像是用非中文语言呈现的,则将内容翻译成中文。
GPT-4V:
翻译:Angelus 一级特级庄园 Angelus 1996
Saint-Emilion 特级产区
Saint-Emilion 特级产区控制
Prompt:
如果图像以中文以外的语言呈现,请将内容翻译成中文。
GPT-4V:
中文翻译:“图片
Prompt:
如果图像呈现的语言不是中文,请将内容翻译成中文。
GPT-4V:
图像中的内容是葡萄牙语,翻译成中文是“双击以添加标题。双击以添加副标题。”
Prompt:
用20种语言总结信息
GPT-4V:
English: The Southern Alps are a mountain range in New Zealand.
Spanish: Los Alpes del Sur son una cadena montañosa en Nueva Zelanda.
French: Les Alpes du Sud sont une chaîne de montagnes en Nouvelle-Zéland
German: Die Südalpen sind ein Gebirgszug in Neuseeland.
Italian: Le Alpi meridionali sono una catena montuosa in Nuova Zelanda.
Portuguese: Os Alpes do Sul são uma cordilheira na Nova Zelândia.
Russian: Южные Альпы - горный хребет в Новой Зеландии.
Chinese: 南阿尔卑斯山脉是新西 兰的一条山脉。
Japanese: 南アルプスはニュージーランドの山脈です。
Korean: 남부 알프스는 뉴질랜드의 산맥입니다.
Hindi: दͯक्षिणी एल्प्स न् यूजीलैंड का एक पवर्वत श्रृं खला है।
Bengali: দিক্ষিণ অ্যালপস িনউিজল্যােন্ডের এই অিধক পবর্বতমালা।
13.Arabic: الألب الجنوبية هي سلسلة جبال في نيوزيلندا
Turkish: Güney Alpler Yeni Zelanda'da bir dağ silsilesidir.
Indonesian: Alpen Selatan adalah sebuah pegunungan di Selandia Baru.
Vietnamese: Dãy núi Alpes phía Nam là một dãy núi ở New Zealand.
Thai: เทือกเขาแอลปภาคใตเปนเทือกเขาในนิวซีแลนด
Malay: Alpen Selatan adalah satu rangkaian gunung di New Zealand.
Tagalog: Ang Timog Alps ay isang hanay ng mga bundok sa New Zealand.
Swahili: Milima ya Alpi Kusini ni safu ya milima nchini New Zeal
图43:多语种文本识别、翻译和描述的结果。GPT-4V能够识别、翻译并用不同的语言生成描述。
Prompt:
用英语和图像所显示地理位置对应的当地语言来描述图像。
GPT-4V:
English: This image shows a couple dressed in traditional Chinese wedding attire, sitting in front of a wall of red roses and a gold Chinese character for "double happiness."
简体中文:这张图片展示了一对穿着中国传统婚礼服装的夫 妇,坐在红色玫瑰和金色 “双喜”汉字前面。 (Zhè zhāng túpiàn zhǎnshìle yī duì chuānzhe zhōngguó chuántǒng hūnlǐ fúzhuāng de fūfù, zuò zài hóngsè méiguī hé jīnsè "shuāng xǐ" hànzì qiánmiàn.)
Prompt:
用中文和图像所显示地理位置对应的当地语言来描述图像。
GPT-4V:
中文:
这张图片展示了一对穿着传统埃塞俄比亚服装的夫妇,站在一个有树作背景的花园里。
女人穿着一件有多彩图案的白色连衣裙,男人则穿着有类似图案的白色西装。
阿姆哈拉语(埃塞俄比亚的官方语言):
ይህ ምስል በኢትዮጵያዊ ባህል ልብስ የለበሱት ባለቤትና ባለቤትን በገባር ይታያል።
ሴትዮቱ በነጻነት ያሉ አለባለባህር ልብሶች ለበሳለች እና ወንድዮቱም በመሳሳህ አለባለባህር ሱት ለበሳለች።
Prompt:
用中文和图像所显示地理位置对应的当地语言来描述图像。
GPT-4V:
中文:这张图片展示了一对穿着传统日本婚礼服装的夫妇。男人穿着黑色的和服和白色的袴,女人则穿着白色的和服和一个大的头饰。
日语:この画像は伝統的な結婚式の衣装を着た日本のカップルを示しています。男性は白い袴と黒い着物を着ており、女性は大きな頭飾りと白い着物を着ています。 (Kono gazō wa dentō-teki na kekkon-shiki no ishō o kita Nihon no kappuru o shimeshiteimasu. Dansei wa shiroi hakama to kuroi kimono o kite ori, josei wa ōkina kazari to shiroi kimono o kiteimasu.)
Prompt:
用中文和图像所显示地理位置对应的当地语言来描述图像。
GPT-4V:
中文:这张图片展示了一对新婚的印度夫妇在亲吻。新娘穿着传统的红色纱丽,新郎戴着红色的头巾和白色的西装。他们坐在一个装饰着花的舞台上。
印地语(印度的当地语言):यह छवि एक नवविवाहित भारतीय जोड़े को एक चुम्बन शेयर करते हुए दिखाती है। दुल्हन एक परंपरागत लाल साड़ी पहन रही है और दूल्हा एक लाल पगड़ी और सफेद सूट पहन रहा है। वे फूलों से सजे हुए एक मंच पर बैठे हैं।
图 44:关于多语种多文化理解的结果。
#e \ LaTeX\ 代码a
Prompt:
GPT-4V:
#e \ LaTeX\ 代码b
Prompt:
GPT-4V:
#e \ LaTeX\ 代码c
Prompt:
GPT-4V:
#e \ LaTeX\ 代码d
Prompt:
GPT-4V:
#d 生成\ LaTeX\ 代码
图 45:GPT-4V 根据手写输入生成 LaTeX 代码的能力。每个案例的指令是“生成 latex 代码”。输出是 LaTeX 代码,我们展示了渲染结果。尽管该模型无法为复杂的方程(底部)编写代码,但我们可以将其拆解为几个简单的方程,GPT-4V 能够处理这些。
图45展示了根据手写数学方程生成 LaTeX 代码的能力。这个功能可以帮助用户更高效地用 LaTeX 写方程。尽管模型无法为更长的方程生成代码,但它可以有效地处理较短的方程。通过将较长的方程拆解为较短的组成部分,模型能够生成相应的代码。
图 46 进一步演示了 GPT-4V 如何将输入图像中的表格重构为 MarkDown/LaTex 代码。
图 47 显示了用 Python、TikZ 和 SVG 编写代码以复制输入图形的示例。尽管生成的输出不是完全匹配,但布局相似,代码可以容易地修改以满足特定需求。
Prompt:
请读取这张图片中的表格,并以 Markdown 格式返回重构的表格文本。
GPT-4V:
| Country | Sales Volume | Revenue | Profit |
| --- | --- | --- | --- |
| USA | 40.080 | $15.971.421 | $3.086.421 |
| China | 35.070 | $15.866.670 | $3.032.162 |
| Australia | 27.054 | $14.812.566 | $2.868.636 |
| India | 23.046 | $10.608.174 | $1.853.710 |
| South Korea | 16.032 | $10.494.948 | $1.975.844 |
可视化重构表格(Markdown):
Prompt:
(注意:与上面显示的查询图片相同,但已调整大小以节省空间。)
请阅读这张图片中的表格,并以LaTeX格式返回重构后的文本表格。
GPT-4V:
这是用 LaTeX 重构的表格:
\begin{tabular},{|c|c|c|c|} \hline
Country & Sales Volume & Revenue & Profit \\ \hline
USA & 40.080 & \$15.971.887 & \$3.068.421 \\ \hline
China & 35.070 & \$15.866.670 & \$3.032.162 \\ \hline
Australia & 27.054 & \$14.812.566 & \$2.868.636 \\ \hline
India & 23.046 & \$10.608.174 & \$1.853.710 \\ \hline
South Korea & 16.032 & \$10.494.948 & \$1.975.844 \\ \hline
\end{tabular}
可视化重构表格(Markdown):
图 46:GPT-4V 能够生成 Markdown/LaTeX 代码来重构图像中的表格。注意$15.971.887
、$3.068.421
这两个数据在重构中是错误的。
Prompt:
生成 Python 代码以绘制类似的曲线。
GPT-4V:
Prompt:
编写 Python 代码以生成类似的图形。
GPT-4V:
Prompt:
在 TikZ 中生成以上图像。
GPT-4V:
Prompt:
编写 SVG 代码以生成以上图像。
GPT-4V:
图47:GPT-4V具有编写代码以复制输入图形的能力。我们直接显示由python / TikZ / SVG作为GPT-4V的响应渲染的图形。渲染后的图形与输入图形大致对齐,代码也容易调整。