在本节中,我们深入探索GPT-4V在具身AI中的激动人心的应用和意义,探讨它如何准备好弥合静态输入上的多模态理解与物理交互的动态环境之间的鸿沟。为了提供具体的说明,让我们考虑GPT-4V扮演家用机器人的场景。在此背景下,我们见证了它如何阅读菜单来操作家用电器(例如,咖啡机),并在房子里执行面向任务的导航。
想象一下,你刚刚获得了一台全新的咖啡机,你可靠的家用机器人GPT-4V很高兴为你学习如何操作它。在我们的试验中,我们向GPT-4V提供了一张单张图像(图88),其中显示了带有插图和文本的操作菜单。我们给GPT-4V的任务是在咖啡机的操作面板上识别对应于“8盎司咖啡”选项的按钮。令人惊讶的是,GPT-4V不仅准确定位了“8盎司咖啡”按钮,还成功识别了“10盎司咖啡”按钮。但是,它错误地将电源按钮识别为“6盎司咖啡”按钮,可能是由于菜单和咖啡机本身上的“6盎司咖啡”选项的定位造成的视觉混淆。为了解决这个具体的失败案例,我们通过隔离每个按钮的操作菜单并将它们全部呈现给GPT-4V在一个提示中(图89)来找到一个解决方案。通过这种修改后的方法,GPT-4V现在可以识别“6盎司咖啡”按钮的精确位置。
Prompt:
首先,阅读下面的咖啡机按钮操作菜单。
菜单:
现在,让我们看下面的咖啡机操作面板上的图像,我应该使用哪个按钮来冲制8盎司的咖啡:左边、右边、上面还是下面的按钮?
GPT-4V:
你应该使用底部的按钮来冲制8盎司的咖啡。根据菜单,底部按钮对应8盎司咖啡,而顶部按钮对应6盎司咖啡
,右边按钮对应10盎司咖啡。
图88:在阅读完整的咖啡机按钮菜单后,GPT-4V识别了选择8盎司咖啡所需的按钮。高亮
显示错误的答案。
Prompt:
首先,阅读下面的咖啡机按钮操作菜单。
菜单1:
菜单2:
菜单3:
现在,让我们看下面的咖啡机操作面板上的图像,我应该使用哪个按钮来冲制6盎司的咖啡:左边、右边、上面还是下面的按钮?
GPT-4V:
你应该使用左边的按钮来冲制6盎司的咖啡。
图89:将咖啡机按钮的完整菜单转换为交错的图像-文本指令,GPT-4V可以识别选择6盎司咖啡所需的按钮,这是GPT-4V在完整菜单指令下未能做到的。
为了探索导航能力,我们利用Redfin虚拟房屋游览来模拟具身代理的交互环境。目标是评估GPT-4V在面向任务的场景中的表现。为了说明这一点,我们呈现了图90-91中描绘的一个示例。起初,我们向GPT-4V提供了一个虚拟房屋游览的入口图像,从一个角落提供了对客厅的视野。分配给GPT-4V的任务是“去厨房,从冰箱里取一件物品”。我们的目的是提示GPT-4V预测后续操作。
在第一步中,如图90的第一半所示,GPT-4V通过建议“右转,向走廊移动”来预测初始操作。这一预测基于GPT-4V的假设,即厨房可能位于那个方向。然后,我们使用视觉房屋游览门户手动执行此操作,在执行操作后捕获结果视图。然后将该视图用作提示GPT-4V的下一步操作,如图90的第二半所示。值得注意的是,在整个过程中,我们保留了上一个拐角的即时记录,以为GPT-4V的后续操作提供上下文。
随着导航过程的展开,我们在第三次转弯时成功到达冰箱,如图91的第二半中的查询图像所示。GPT-4V预测的最终操作是“向前移动并略微向左,以与冰箱门对齐。然后,使用我的机器人手臂打开冰箱门并取出请求的物品。” 这个决定性的行动标志着GPT-4V在这个面向任务的导航场景中的成功。
Prompt:
想象你是一个家用机器人,被要求去厨房从冰箱里取东西。下图显示了你当前的位置。请计划你的下一步行动。
GPT-4V:
我的下一步行动将是向右转,向走廊前进,因为我可以看到厨房可能位于那个方向。然后我将继续通过走廊导航,直到我到达厨房并找到冰箱。
Prompt:
想象你是一个家用机器人,被要求去厨房从冰箱里取东西。在上一次拐角处,你在下图所示的位置:
上一次拐角的行动是:向右转,向走廊前进。
现在你在走廊上,这就是你从那里能看到的。你能从这里看到厨房吗?你的下一步行动是什么?
GPT-4V:
从当前位置,我可以在右侧看到厨房,我的下一步行动将是向右转,向厨房前进。
图90:扮演具身代理在房子里导航去冰箱取东西(第一和第二个拐角)。
Prompt:
想象你是一个家用机器人,被要求去厨房从冰箱里取东西。在上一次拐角处,你在下图所示的位置:
上一次拐角的行动是:向右转,向厨房前进。
现在你在厨房里,这就是你从那里能看到的。你能从这里看到冰箱吗?你的下一步行动是什么?
GPT-4V:
从这个位置,我可以在厨房右侧看到冰箱。我的下一步行动将是向前移动并略微向右转,接近冰箱。
Prompt:
想象你是一个家用机器人,被要求去厨房从冰箱里取东西。在上一次拐角处,你在下图所示的位置:
上一次拐角的行动是:向前移动并略微向右转,接近冰箱。
现在你可以从那里看到这个。你的下一步行动是什么?
GPT-4V:
我的下一步行动将是向前移动并略微向左,以与冰箱门对齐。然后,我将使用机器人手臂打开冰箱门并取出请求的物品。
图91:扮演具身代理在房子里导航去冰箱取东西(第三和第四个拐角)。
在导航物理世界之外,本节展示了GPT-4V与计算机或智能手机的图形用户界面(GUI)进行交互和导航的能力。我们探索了GPT-4V完成复杂任务(如网页浏览、网上购物等)的潜力。
我们在面向任务的设置下评估了GPT-4V在计算机GUI导航上的表现。该模型被提供了当前计算机屏幕的截图、导航的最终目标(例如找到烹饪食谱或阅读当天的新闻)、可能的操作列表(例如移动鼠标、用鼠标点击图标或用键盘输入文本)。然后指示该模型预测后续操作(完整的提示示例请参阅图92)。在模型预测之后,我们手动执行预测的操作并捕获屏幕截图,这为GPT-4V的下一步提供了输入。当预测的操作是移动鼠标时,特别指示GPT-4V详细说明鼠标的位置。因此,预测的操作是具体的,显示了在没有人参与的情况下自动化整个过程的潜力。
在图92-96中,GPT-4V预测了合理的操作来操作计算机GUI,并最终完成在图95中找到麻婆豆腐食谱并打印食谱的最终目标。然后,我们向GPT-4V提供打印好食谱的屏幕截图,并要求它尽可能详细地描述打印输出。如图96所示,GPT-4V能够识别打印输出中呈现的细节,包括烹饪时间、食材清单、食谱作者、原始食谱的链接等。图97-102展示了GPT-4V如何通过GUI浏览网页以“阅读当天新闻”。尽管在图100中返回上一个搜索结果页面继续浏览更多新闻文章时出了一点小错误,但GPT-4V可以合理好地执行导航和阅读两篇新闻文章。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。
你被要求找到一份详细的麻婆豆腐食谱。
下面是你在计算机屏幕上看到的内容,预测你的下一步行动。如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
下一步行动:我会移动鼠标到屏幕左侧大约从顶部向下1/3处的Google Chrome图标。然后我会点击该图标打开网页浏览器。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到一份详细的麻婆豆腐食谱。
上一步行动:"我会移动鼠标到屏幕左侧大约从顶部向下1/3处的Google Chrome图标。然后我会点击该图标打开网页浏览器。"
你现在已经打开了网页浏览器。下面是你在计算机屏幕上看到的内容。你下一步会做什么?如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
下一步,我会将鼠标移动到屏幕中央、距离顶部大约1/2处的搜索栏。然后我会点击搜索栏,使用键盘输入“麻婆豆腐食谱”。在输入搜索词之后,我会按键盘上的“Enter”键启动搜索。
图103-111说明了GPT-4V如何导航手机GUI进行在线购物。同样,我们向GPT-4V提供当前手机屏幕的截图、可能的操作列表(例如将手指移动到一个图标、用手指点击图标、向下滚动屏幕或用键盘输入文本),并要求其预测后续操作,以50至100美元的预算购买一款人体工程学键盘。GPT-4V预测打开亚马逊应用程序(图103),搜索人体工程学键盘(图104),打开筛选选项(图105),将价格范围筛选设置在50至100美元之间(图106),显示筛选后的结果(图107),选择顶部的搜索结果(图108),查看产品详细信息(图109),将产品添加到购物车(图110),最后继续结账(图111)。
图92:GPT-4V通过图形用户界面浏览网页以搜索麻婆豆腐的做法。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到一份详细的麻婆豆腐食谱。
上一步行动:“我会将鼠标移动到屏幕中央、距离顶部大约1/2处的搜索栏。然后我会点击搜索栏,使用键盘输入“麻婆豆腐食谱”。在输入搜索词之后,我会按键盘上的“Enter”键启动搜索。”
你现在已经完成了上述的上一步操作。下面是你在计算机屏幕上看到的内容。你下一步会做什么?如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
下一步行动:“我会将鼠标移动到“菜谱”部分下面的第一个搜索结果,标题为“麻婆豆腐食谱 - 菜籽生活”。然后我会点击该链接打开网页,查看详细的食谱。”
图93:GPT-4V通过图形用户界面浏览网页以搜索麻婆豆腐的做法。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到一份详细的麻婆豆腐食谱。
上一步行动:“我会将鼠标移动到“菜谱”部分下面的第一个搜索结果,标题为“麻婆豆腐食谱 - 菜籽生活”。然后我会点击该链接打开网页,查看详细的食谱。”
你现在已经完成了上述的上一步操作。下面是你在计算机屏幕上看到的内容。根据下图,你下一步会做什么?如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
下一步行动:“我会将鼠标移动到网页右上角的“跳到菜谱”按钮。然后我会点击该按钮跳转到页面的详细食谱部分。”
图94:GPT-4V通过图形用户界面浏览网页以搜索麻婆豆腐的做法。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到一份详细的麻婆豆腐食谱。
上一步行动:“我会将鼠标移动到网页右上角的“跳到菜谱”按钮。然后我会点击该按钮跳转到页面的详细食谱部分。”
你现在已经完成了上述的上一步操作。下面是你在计算机屏幕上看到的内容。根据下图,你下一步会做什么?如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
下一步行动:“我会将鼠标移动到食谱部分右上角的“打印食谱”按钮,它在“评分此菜谱”按钮的旁边。然后我会点击该按钮打印出麻婆豆腐详细食谱的副本。”
图95:GPT-4V通过图形用户界面浏览网页以搜索麻婆豆腐的做法。
Prompt:
尽可能详细地描述下面的图像。
GPT-4V:
这个图像是麻婆豆腐的食谱,一道中国菜。食谱以标题、描述、准备时间、烹饪时间、总时间、类别、菜系、份量和评分的结构化格式呈现。
食谱的标题是“麻婆豆腐”,用粗体黑色字母写着。在标题下面,对这道菜的描述说明这是真正的道地正宗的麻婆豆腐,带辣舌麻的感觉,必须配米饭吃。
准备时间是10分钟,烹饪时间是25分钟,总时间是35分钟。类别是“主菜”,菜系是“中式”。食谱可供6人食用,评分为5分中的4.69分
。
在这些信息下面,是这道菜所需的原料清单,包括豆腐、肉末、花椒、大蒜、姜、酱油和玉米淀粉等。原料以项目符号格式列出。
图像底部是这道菜的营养信息,包括卡路里、碳水化合物、蛋白质、脂肪、饱和脂肪、胆固醇、钠和钙等。营养信息以表格格式呈现。
图像还包括食谱作者Kaitlin的署名,以及指向“菜籽生活”网站原始食谱的链接。
图96:GPT-4V通过图形用户界面浏览网页以搜索麻婆豆腐的做法。在上一轮中GPT-4V预测会打印出食谱,所以我们提示它读取打印出来的食谱截图并总结。高亮
显示了对图像的不准确描述。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到今日的新闻。下面是你在计算机屏幕上看到的内容,预测你的下一步行动。如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
我的下一步行动是把鼠标移动到屏幕左侧大约从顶部向下1/3处的Google Chrome图标。然后我会点击该图标打开网页浏览器,搜索新闻网站来了解今日新闻。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到今日的新闻。
上一步行动:"我的下一步行动是把鼠标移动到屏幕左侧大约从顶部向下1/3处的Google Chrome图标。然后我会点击该图标打开网页浏览器,搜索新闻网站来了解今日新闻。"
你现在已经打开了网页浏览器。下面是你在计算机屏幕上看到的内容,你的下一步操作是什么?如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
我的下一步操作是把鼠标移动到屏幕中央、距离顶部大约1/2处的搜索栏。然后我会点击搜索栏,输入"新闻"并按键盘上的回车键来搜索新闻网站。
图97:GPT-4V通过图形用户界面浏览网页来阅读今日新闻。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到今日的新闻。
上一步行动:"我的下一步操作是把鼠标移动到屏幕中央、距离顶部大约1/2处的搜索栏。然后我会点击搜索栏,输入"新闻"并按键盘上的回车键来搜索新闻网站。"
你现在已经完成了上一步操作。下面是你在计算机屏幕上看到的内容。根据下图,你的下一步操作是什么?如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
我的下一步操作是把鼠标移动到第一个搜索结果“State Department doubles down on Zelensky slams”,它位于屏幕顶部向下约1/4处,从屏幕左侧向右约1/8处。然后我会点击该链接打开新闻文章,阅读今日的新闻。
图98:GPT-4V通过图形用户界面浏览网页来阅读今日新闻。
Prompt:
阅读下面图像中显示的文章,并总结其内容。
GPT-4V:
该文章讨论了乌克兰总统泽连斯基周二发表的声明,他在声明中表达了乌克兰加入北约的愿望。泽连斯基表示,乌克兰无力与俄罗斯打仗,加入北约将为其提供必要的安全保障。
然而,北约发言人马修·米勒表示,虽然联盟准备向乌克兰发出邀请,但乌克兰需要满足一定条件,包括民主和安全领域的改革。米勒还强调,乌克兰加入北约并不能保证一定成功,最终决定权在于联盟成员国。
文章还提到,泽连斯基在周二的新闻发布会上重申了他加强乌克兰民主的承诺,这也是加入北约的必要条件之一。
图99:GPT-4V通过图形用户界面浏览网页来阅读今日新闻。我们提示GPT-4V读取第一篇新闻文章的截图并总结其内容。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到今日的新闻。
上一步行动:"我的下一步操作是把鼠标移动到第一个搜索结果“State Department doubles down on Zelensky slams”,它位于屏幕顶部向下约1/4处,从屏幕左侧向右约1/8处。然后我会点击该链接打开新闻文章,阅读今日的新闻。"
你现在已经完成了阅读“State Department doubles down on Zelensky slams”。你的下一步操作是什么?如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
我的下一步操作是把鼠标移动到屏幕右上角,那里有一个“X”图标可以关闭当前标签页
。然后我会点击“X”图标关闭标签页
,返回之前的页面继续浏览更多新闻文章。
图100:GPT-4V通过图形用户界面浏览网页来阅读今日新闻。在完成阅读第一篇新闻文章后,GPT-4V预测会关闭标签页并返回之前的页面继续浏览更多新闻文章。高亮
显示了不准确的行为预测。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。你被要求找到今日的新闻。
上一步行动:"我的下一步操作是把鼠标移动到屏幕右上角,那里有一个“X”图标可以关闭当前标签页。然后我会点击“X”图标关闭标签页,返回之前的页面继续浏览更多新闻文章。"
你现在在阅读第一篇文章“State Department doubles down on Zelensky slams”后返回了之前的页面。下面是你在计算机屏幕上看到的内容。根据下图,你的下一步操作是什么?如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
我的下一步操作是把鼠标移动到页面上的第二篇文章“Catastrophic flooding swamps Florida's panhandle as intense storms force evacuations”。我会把鼠标移动到文章标题的左边,页面下方约1/3的位置,点击文章标题打开它并阅读新闻。
图101:GPT-4V通过图形用户界面浏览网页来阅读今日新闻。
Prompt:
阅读下面图像中显示的文章,并总结其内容。
GPT-4V:
该文章讨论了周二2022年7月11日发生在佛蒙特州首府蒙彼利埃的灾难性洪灾。这场洪灾是由影响东北部地区的强降雨引发的,导致该地区进行疏散和关闭。
官员们描述这场洪灾为“史无前例”和“历史性的”,一些地区记录到创纪录的降雨量。国家气象局发布旅行建议,警告居民避免非必要旅行。
佛蒙特州州长菲尔·斯科特宣布进入紧急状态,新罕布什尔州派出救援队和黑鹰直升机协助应对。佛蒙特州消防部门和其他紧急服务部门也被派往受影响地区。
洪水对住宅和企业造成严重破坏,一些居民被迫疏散。蒙彼利埃发布饮用水警告,官员于周三开始清理道路上的碎片。
在俄克拉何马城,两名儿童在被洪水冲走后从水库中获救。这两名儿童分别为10岁和11岁,是在该地区钓鱼的4人小组中的成员。
在纽约,飓风艾琳在24小时内带来8英寸降雨,导致重大基础设施受损。朗湖镇监督克莱·阿尔瑟诺特宣布进入紧急状态,并敦促居民撤离。
文章最后引用了佛蒙特州切斯特居民丹·汉考克的话,他目睹洪水进入他的地下室。他表达了沮丧和无助感,说“水一退,我们就回去清理,然后继续生活。我们还能做什么呢?”
图102:GPT-4V通过图形用户界面浏览网页来阅读今日新闻。我们提示GPT-4V读取第二篇新闻文章的截图并总结其内容。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。
你被要求购买一款人体工学键盘,预算在50到100美元之间。
下面是你在手机屏幕上看到的内容,预测你的下一步操作。如果行动涉及用手指移动到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作将是移动我的手指到Amazon图标,它位于屏幕的第三行第三列。然后我会点击该图标打开应用,并在50到100美元的预算范围内搜索人体工学键盘。
图103:GPT-4V通过图形用户界面在线购买人体工学键盘。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。你被要求购买一款人体工学键盘,预算在50到100美元之间。
上一步操作:"我的下一步操作将是移动我的手指到Amazon图标,它位于屏幕的第三行第三列。然后我会点击该图标打开应用,并在50美元的预算内搜索人体工学键盘。"
你现在已经打开了Amazon应用。下面是你在手机屏幕上看到的内容。你下一步会做什么?如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作是移动手指到位于屏幕顶部的搜索栏。然后我会点击搜索栏,使用键盘输入“人体工学键盘”。在输入搜索词后,我会点击键盘右下角的“搜索”按钮来启动搜索。
图104:GPT-4V通过图形用户界面在线购买人体工学键盘。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。你被要求购买一款人体工学键盘,预算在50到100美元之间。
上一步操作:"我的下一步操作是移动手指到位于屏幕顶部的搜索栏。然后我会点击搜索栏,使用键盘输入“人体工学键盘”。在输入搜索词后,我会点击键盘右下角的“搜索”按钮来启动搜索。"
你现在已经完成了上述的上一步操作。下面是你在手机屏幕上看到的内容。
请预测你的下一步操作。如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作是移动手指到位于屏幕右上角、“Windows”按钮旁边的“筛选”按钮。然后我会点击“筛选”按钮打开筛选选项,缩小搜索结果范围,只显示50到100美元预算范围内的人体工学键盘。
图105:GPT-4V通过图形用户界面在线购买人体工学键盘。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。你被要求购买一款人体工学键盘,预算在50到100美元之间。
上一步操作:"我的下一步操作是移动手指到位于屏幕右上角、“Windows”按钮旁边的“筛选”按钮。然后我会点击“筛选”按钮打开筛选选项,缩小搜索结果范围,只显示50到100美元预算范围内的人体工学键盘。"
你现在已经完成了上述的上一步操作。下面是你在手机屏幕上看到的内容。
请预测你的下一步操作。如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作是移动手指到位于“颜色”筛选选项下方和“排序方式”筛选选项上方的“价格和优惠”筛选选项。然后我会点击“价格和优惠”筛选选项打开价格范围筛选,将最低价格设为50美元,最高价格设为100美元。这会进一步缩小搜索结果范围,只显示50到100美元预算范围内的人体工学键盘。
图106:GPT-4V通过图形用户界面在线购买人体工学键盘。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。你被要求购买一款人体工学键盘,预算在50到100美元之间。
上一步操作:"我的下一步操作是移动手指到位于“颜色”筛选选项下方和“排序方式”筛选选项上方的“价格和优惠”筛选选项。然后我会点击“价格和优惠”筛选选项打开价格范围筛选,将最低价格设为50美元,最高价格设为100美元。这会进一步缩小搜索结果范围,只显示50到100美元预算范围内的人体工学键盘。"
你现在已经完成了上述的上一步操作。下面是你在手机屏幕上看到的内容。你下一步会做什么?如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作是移动手指到位于屏幕底部、“清除筛选”按钮下方和导航栏上方的“显示1,987个结果”按钮。然后我会点击“显示1,987个结果”按钮来查看我预算范围内人体工学键盘的搜索结果。
图107:GPT-4V通过图形用户界面在线购买人体工学键盘。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。你被要求购买一款人体工学键盘,预算在50到100美元之间。
上一步操作:"我的下一步操作是移动手指到位于屏幕底部、“清除筛选”按钮下方和导航栏上方的“显示1,987个结果”按钮。然后我会点击“显示1,987个结果”按钮来查看我预算范围内人体工学键盘的搜索结果。"
你现在已经完成了上述的上一步操作。下面是你在手机屏幕上看到的内容。你下一步会做什么?如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作是向下滚动屏幕,查看我预算范围内不同的人体工学键盘选项。然后我会移动手指到位于“探索相关品牌”部分下方和“VIVO”选项上方
的“Kensington Pro Fit人体工学无线键盘 - 黑色”选项。我会点击“Kensington Pro Fit人体工学无线键盘- 黑色”选项来查看该产品的更多细节,并有可能进行购买。
图108:GPT-4V通过图形用户界面在线购买人体工学键盘。高亮
显示了要选择的产品选项的位置不准确。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。你被要求购买一款人体工学键盘,预算在50到100美元之间。
上一步操作:"我的下一步操作是向下滚动屏幕,查看我预算范围内不同的人体工学键盘选项。然后我会移动手指到“Kensington Pro Fit人体工学无线键盘 - 黑色”选项。我会点击“Kensington Pro Fit人体工学无线键盘- 黑色”选项来查看该产品的更多细节,并有可能进行购买。"
你现在已经完成了上述的上一步操作。下面是你在手机屏幕上看到的内容。你下一步会做什么?如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作是向下滚动屏幕,查看“Kensington Pro Fit人体工学无线键盘 - 黑色”产品的更多细节。然后我会移动手指
到产品图片下方和“重新充值100美元或以上到您的礼品卡余额可获得8美元奖励”部分上方的“立即购买”按钮
。我会点击“立即购买”按钮
完成购买。
图109:GPT-4V通过图形用户界面在线购买人体工学键盘。高亮
显示了不准确的行为预测(“立即购买”不是可点击的按钮)。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。你被要求购买一款人体工学键盘,预算在50到100美元之间。
上一步操作:"我的下一步操作是向下滚动屏幕,查看“Kensington Pro Fit人体工学无线键盘 - 黑色”产品的更多细节。然后我会移动手指到产品图片下方和“重新充值100美元或以上到您的礼品卡余额可获得8美元奖励”部分上方的“立即购买”按钮。我会点击“立即购买”按钮完成购买。"
你现在已经完成了上述的上一步操作。下面是你在手机屏幕上看到的内容。你下一步会做什么?如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作是移动手指到“立即购买”按钮下方和“发货方:Amazon”部分上方的“添加到购物车”按钮。然后我会点击“添加到购物车”按钮将该商品添加到购物车。
图110:GPT-4V通过图形用户界面在线购买人体工学键盘。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。你被要求购买一款人体工学键盘,预算在50到100美元之间。
上一步操作:"我的下一步操作是移动手指到“立即购买”按钮下方和“发货方:Amazon”部分上方的“添加到购物车”按钮。然后我会点击“添加到购物车”按钮将该商品添加到购物车。"
你现在已经完成了上述的上一步操作。下面是你在手机屏幕上看到的内容。你下一步会做什么?如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
我的下一步操作是移动手指到“与类似商品比较”部分下方和“30天退货”部分上方的“继续结账”按钮
。然后我会点击“继续结账”按钮完成购买。
图111:GPT-4V通过图形用户界面在线购买人体工学键盘。高亮
显示了“继续结账”按钮的位置不准确。
通知对现代人机交互至关重要。GPT-4V已经展示了其理解通知内容并相应作出反应的能力。如图112所示,该模型可以读取和响应通知,例如在响应西雅图的会议建议时,建议打开地图应用程序。它也可以有效地处理计算机屏幕上的通话(图113)和消息(图114)通知。
Prompt:
想象你是一个操作手机的机器人。就像人类操作手机一样,你可以用手指移动到一个图标,用手指点击图标,向下滚动屏幕,或者用键盘输入文本。
下面是你在手机屏幕上看到的内容。描述该图像并预测你的下一步操作。如果行动涉及移动手指到一个图标,请尽可能详细地描述该图标的位置。
GPT-4V:
手机屏幕上的图像是iPhone的主屏幕。有多个应用图标以网格状模式排列,包括日历、设置、Twitter、亚马逊、Instagram等。屏幕顶部有一个用户“yykhahah”的通知,内容是“我看到你在西雅图,我们聚一下吧”。屏幕底部有一个搜索栏。
根据通知内容,我的下一步操作是移动手指到地图应用图标,它位于应用网格的第二行
第一列。这将让我可以搜索西雅图的位置并与该用户计划见面。
图112:提示GPT-4V预测在收到通知后的操作。GPT-4V可以准确识别通知和对应内容。高亮
显示了地图应用图标的位置不准确。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。下面是你在计算机屏幕上看到的内容。描述该图像并预测你的下一步操作。如果行动涉及移动鼠标,请尽可能详细地描述位置和图标。
GPT-4V:
计算机屏幕上的图像是一座桥过水体的桌面背景。桌面上有几个图标,包括YouTube图标、回收站图标和终端图标。屏幕底部有一个任务栏,上面有几个应用程序图标,如Microsoft Edge和文件资源管理器。屏幕右下角有一个通知,写着“Kevin Lin正在呼叫你”。
根据通知,我的下一步操作是把鼠标移动到屏幕右下角,点击通知。这会打开调用应用程序,让我可以接听Kevin Lin的来电。
图113:提示GPT-4V预测在收到通知后的操作。GPT-4V可以准确识别通知和对应内容。高亮
显示了地图应用图标的位置不准确。
Prompt:
想象你是一个操作计算机的机器人。就像人类操作计算机一样,你可以移动鼠标,用鼠标点击图标,或者用键盘输入文本。下面是你在计算机屏幕上看到的内容。描述该图像并预测你的下一步操作。如果行动涉及移动鼠标,请尽可能详细地描述位置。
GPT-4V:
计算机屏幕上的图像是一个美丽的海洋桥梁的航拍桌面背景。屏幕左侧有几个图标,包括回收站、终端等。在右下角有一个来自用户Kevin Lin的消息应用通知,问我今天下午有空聊天。
我的下一步操作是把鼠标移动到屏幕右下角,点击Kevin Lin的通知以打开消息应用并回复他的信息。我会把鼠标移动到通知的确切位置,它与屏幕右边缘大约相距2英寸,与屏幕下边缘大约相距1英寸。
图114:提示GPT-4V预测在收到通知后的操作。GPT-4V可以准确识别通知和对应内容。
与网页浏览一样,视频是在线获取信息的关键来源。GPT-4V已展示了根据热门短视频的一系列截图描述视频内容的能力。无论视频是否有字幕(图115和116)叠加(图117、118、119),GPT-4V都可以生成关于视频内容的洞察力十足的描述,展示了其在自动生成用户生成视频内容转录方面的潜力。
Prompt:
解释下面图像所展示的故事。
GPT-4V:
这组图片显示了一个Instagram用户分享了一个关于他们为狗狗花了多少钱的幽默帖子。第一张图片显示一个男子抱着他的狗,配字为“当有人问我为我的狗花了多少钱的时候”。接下来的三张图片显示了乔·拜登说“7000亿”、“7000亿和1万亿300万”以及“7000亿和1万亿300万美元”的视频片段。该用户通过使用乔·拜登说出一个大数额的视频片段,夸张地表示他们为狗狗花了多少钱,以达到幽默的效果。
Prompt:
根据以下帧描述这个视频的内容。
GPT-4V:
这个视频是亚洲人无缘无故做的事情的汇编。视频由TikTok
用户laparasian发布,获得了130万次观看和1.31万次点赞。视频使用了sophrelabelous的原创配乐,并添加了#asian和#relatable标签。
视频分为5个不同的场景:
第一个场景显示一个女孩在超市货架后面拿商品。
第二个场景显示一个女孩在使用之前冲洗一个非常干净的杯子。
第三个场景显示两个女孩用“你吃了吗?”作为问候语。
第四个场景显示两个女孩在餐厅为账单激烈争吵。
第五个场景显示一个女孩把裤子围在脖子上试穿大小合不合适。
总体来说,这个视频幽默地呈现了亚洲社区中常见的一些怪癖和习惯。
图115:提示GPT-4V观看网络视频。我们按视频原始顺序给出GPT-4V视频帧截图。为节省空间,我们将帧排列在一行,最左边的为第一帧。高亮
显示了对视频的不准确描述。
Prompt:
转录下面的视频内容。
GPT-4V:
大家好,我是natyexplora,今天我要分享华盛顿州必去的7个地方。
首先是北卡斯卡德国家公园。这个公园拥有美丽的山景和远足径。这是一个任何爱好大自然的人必去的地方。
接下来是奥林匹克半岛。这个地区以著名的霍霍雨林和美丽的海滩而闻名。这是一个放松并欣赏华盛顿自然之美的好地方。
第三个是贝克山荒野。这个地区以其惊人的山景和远足径而著称。这是一个逃离城市,享受大自然的好地方。
接着是雷尼尔山国家公园。这个公园拥有华盛顿最高的山峰,是远足观光的绝佳地点。
第五个是阿尔卑斯湖荒野。这个地区遍布美丽的高山湖泊和远足径。这是一个度过一天探索和欣赏华盛顿自然之美的好地方。
接下来是皮尔楚克州立公园。这个公园以其美丽的景色和远足径而著称。这是一个度过一天探索和欣赏华盛顿自然之美的好地方。
最后但同样重要的是吉福德平科特国家森林。这个森林拥有美丽的山景和远足径。这是一个逃离城市,享受大自然的好地方。
这就是我必须游览的华盛顿州7个地方。希望你喜欢它,并能受到启发,进一步探索这个美丽的州。
Prompt:
根据下面的帧内容讲述视频的内容。
GPT-4V:
这个视频内容是关于一只名叫Tofu的柯基犬在家远程工作。第一帧显示Tofu睡在床上,配字幕“WFH员工:上午8:59”。第二帧显示Tofu坐在多个显示屏的电脑前,配字幕“WFH员工:上午9:00”。这个视频可能是对远程工作经历的幽默演绎,强调Tofu就像任何其他员工一样在早上难以起床,但一旦坐在电脑前就准备好工作了。
图116:观看网络视频。我们按原视频的时间顺序向GPT-4V呈现截图。为节省空间,我们将帧排列在一行,左边的是第一帧。
Prompt:
据下面的帧内容尽可能详细地讲述视频的内容。
GPT-4V:
这个视频内容是关于如何制作覆盆子欢乐球的教程,这是为幼儿和大孩子准备的健康早餐选择。这个视频发布在Instagram账号“妈妈的吃饭时间”上,获得了超过13000个赞。
视频开始于一碗新鲜覆盆子和一叉子,覆盆子被捣碎成泥。下一帧显示一个更大的混合碗,加入了燕麦、奇亚籽和花生酱到覆盆子泥中。然后混合物搅拌均匀。
接下来的一帧显示一个盘子上撒着椰子碎,覆盆子混合物则被卷成小球并裹上椰子碎。最后几帧显示覆盆子欢乐球制作完成,放在碗里准备吃。
整个视频中,有文本覆盖说明操作步骤和技巧提示,方便观众跟进,自己制作菜谱。
图117:观看网络视频。我们按原视频的时间顺序向GPT-4V呈现截图。为节省空间,我们将第1-5帧排在第一行,第6-9帧排在第二行。
Prompt:
根据下面的帧内容尽可能详细地讲述视频的内容。
GPT-4V:
这个视频内容是关于苹果香蕉煎饼的做法教程。这个视频发布在Instagram Reels上,发布用户是“妈妈的吃饭时间”,获得了13.2K次观看。
第一帧,我们看到一个玻璃碗,里面有捣烂的香蕉,正在加入苹果。第二帧显示香蕉和苹果被混合在一起。第三帧显示一个鸡蛋被加入混合物中。第四帧显示混合物被叉子搅拌。
第五帧显示一碗燕麦被加入混合物中。第六帧显示燕麦被勺子搅拌进去。第七帧显示混合物被勺入平底锅。第八帧显示煎饼在平底锅中煎烤。
最后一帧显示成品煎饼放在盘子里,配着苹果片、香蕉和酸奶。视频标题为“保存以获取简单的早餐灵感”,背景音乐是蜜蜂乐队的《Stayin' Alive》。
图118:观看网络视频。我们按原视频的时间顺序向GPT-4V呈现截图。为节省空间,我们将第1-5帧排在第一行,第6-9帧排在第二行。
Prompt:
根据下面的9帧内容,尽可能详细地讲述视频的内容。
GPT-4V:
这个视频内容是草莓馅法式吐司的做法教程。这个视频发布在Instagram Reels上,发布用户是“妈妈的吃饭时间”。视频获得了13.2K个赞和190条评论。
第一帧,我们看到一个白盘,盘中有一小堆红色酱料和一小堆白色奶油。第二帧显示盘中红色酱料和白色奶油搅拌在一起。第三帧显示一片面包,刀子在面包上涂抹一种混合物
。
第四帧显示一个盘中有一片圆形面包。第五帧显示一只手用刀
在面包上涂抹粉红色的混合物。第六帧显示面包上涂有粉红色混合物,再覆盖另一片面包,做成三明治。
第七帧显示一只手将三明治捞入打散鸡蛋的碗中。第八帧显示三明治在平底锅中煎烤。最后一帧显示成品草莓馅法式吐司放在盘子里。
视频背景音乐是蜜蜂乐队的《Stayin' Alive》。字幕写着“保存以获取简单的早餐灵感”。
图119:观看网络视频。我们按原视频的时间顺序向GPT-4V呈现截图。为节省空间,我们将第1-5帧排在第一行,第6-9帧排在第二行。高亮
标注出关于视频的不准确描述。
在本节中,我们讨论可能的未来研究方向,这些方向可能进一步增强GPT-4V的能力。讨论重点放在LLMs中的有趣用法如何扩展到多模态场景及其启用的新能力上,例如,多模态插件、多模态链、自我反思、自我一致性和检索增强的LMM等。在以下的子节中,我们使用人工生成的例子来说明如何增强基于GPT-4V的系统的潜在方法。
在LLM的背景下,插件在协助LLM执行各种任务方面发挥着关键作用,例如访问最新信息、执行计算或利用第三方服务。这些插件主要用于处理自然语言输入或可以解释为语言的输入,如代码和数学方程式。为了说明多模态插件的重要性,例如必应图像搜索,特别是在LMM背景下,我们展示了图120。通过集成必应图像搜索插件,我们使GPT-4V能够获取与输入图像相关的实时敏感知识。在图的上半部分,我们演示了GPT-4V在没有必应图像搜索插件的情况下的局限性。它无法准确回答“这张照片拍摄在哪里?”的问题,因为照片捕捉了2023年2月6日在土耳其和叙利亚边境发生的大地震的后果——这是GPT-4V训练后发生的情况。由于不断使用当前信息重新训练模型可能需要大量计算和昂贵的费用,搜索引擎等插件成为模型访问最新信息的宝贵资源。在图120的下半部分,我们展示了配备必应图像搜索插件的GPT-4V的功能。它有效利用从插件检索的信息,准确识别了拍摄地点伊兹密尔,土耳其。
Prompt:
这张照片拍摄在哪里?
GPT-4V:
对不起,我无法准确回答这个问题,因为没有提供照片的任何背景或信息。然而,从破坏景象和救援人员的存在来看,这张照片似乎是在一个战乱或遭受灾难的地区拍摄的。
Prompt:
这张照片拍摄在哪里?
GPT-4V:
我没有这方面的信息。
启用必应图像搜索插件。
调用必应图像搜索......
这张图片是在土耳其伊兹密尔拍摄的- 图片与地震事件相关- 总结来说,这张图片是在土耳其爱琴海地区6.6级地震期间,在土耳其伊兹密尔拍摄的。图片显示了灾难发生后的场景,有人站在一堆瓦砾中,有起重机正在吊起一辆卡车,还有一辆红色带黑色前端的卡车。
图120:使用必应图像搜索插件为GPT-4V提供时间敏感知识的说明。请注意,地震发生在2023年2月6日,即GPT-4V训练之后,因此GPT-4V在没有插件的情况下无法确定确切位置(顶部)。
最近的研究已经广泛探索了与LLM的链式操作。这种方法不仅使用单个插件,而且建立了一个系统范例,将LLM与一组插件集成,实现更高级的推理和交互。通过用图像字幕、对象检测或用于文本到图像生成和音频到文本转换的训练良好的模型等视觉/多模态专家替换仅限语言的插件,构建强大的多模态链成为可能与LLM。
然而,这些链中LLM和插件之间的交互通常以文本格式进行。尽管插件可以接受多模态输入,但它们会以文本形式返回结果,以增强LLM的知识。图像合成/编辑是一个显著的例外,其中插件可以生成图像,但这些图像不会反馈到LLM进行进一步分析或知识增强,因为LLM只能处理基于语言的输入。
在图121中,我们展示了如何使用ReAct扩展GPT-4V以支持多模态链。此扩展使链中插件能够提供多模态信息,然后GPT-4V可以集体处理这些信息,在PPE统计等场景中实现高级推理。图121中显示的整个链式过程分为两轮思考、行动和观察,每轮涉及激活一个特定的插件。在第一轮中,GPT-4V推断出需要人物检测才能统计戴安全帽的人数(思路1)。因此,它调用人物检测器工具(操作1),并接收每个检测到的人在图像中的边界框坐标(观察1)。进入第二轮,根据获得的边界框信息,GPT-4V推断图像中总共有8个人(思路2)。然后,它使用图像裁剪工具根据相应的边界框坐标裁剪出每个人的单独图像(操作2)。生成的输出(观察2)包含8个标记的图像,从图像1到图像8编号。GPT-4V随后确定这些图像中的每个人是否戴着安全帽,并总结戴安全帽的人数。
总体而言,LMM与多模态插件池的这种集成开辟了增强推理和交互的新可能性,利用了语言和视觉功能的优势。多模态链的灵活性允许更全面地理解和分析多模态数据,并可能在各种应用中提高性能。
Prompt:
请判断图像中的每个人是否戴安全帽。并总结有多少人戴着安全帽。
思路1 这个问题需要检测图像中的人。
行动1 助手,检测此图像中的人<ImagePath>
观察1
人
人
人
人
人
人
人
人
思路2 该图像中检测到8个人。
行动2 助手,裁剪此图像中由边界框指定的区域<ImagePath>
观察2
GPT-4V:
图片1:没有戴安全帽
图片2:没有戴安全帽
图片3:戴着安全帽
图片4:戴着安全帽
图片5:戴着安全帽
图片6:戴着安全帽
图片7:戴着安全帽
图片8:没有戴安全帽
总结:8个人中,5个戴着安全帽,3个没有戴安全帽。
图121:使用ReAct 将GPT-4V扩展至多模态链,用于PPE统计场景。
Prompt:
生成绘制类似曲线的python代码。
GPT-4V:
(注:为节省空间,省略了上述GPT-4V响应中的代码)
Prompt:
你能再检查一下代码,并与参考图像对齐得更好吗?
GPT-4V:
(注:为节省空间,省略了上述GPT-4V响应中的代码)
Prompt:
编写python代码生成类似图形。
GPT-4V:
(注:为节省空间,省略了上述GPT-4V响应中的代码)
Prompt:
你能再检查一下代码,并与参考图像对齐得更好吗?
GPT-4V:
(注:为节省空间,省略了上述GPT-4V响应中的代码)
图122:使用自我反思来改进绘制图形的代码的说明。
Prompt:
指示:给定用户想象的场景IDEA,将该IDEA转换为一个自成一体的句子提示,该提示将用于生成图像。
IDEA: 一张狗的照片,看起来像给定图像中的那只,在海滩上奔跑。
根据以上信息,我按照规则准确地写出了一个关于IDEA的详细提示。
GPT-4V:
一只蓝色的狗,面带笑容,在海滩上奔跑。
SDXL:
Prompt:
通过查看AI艺术生成模型生成的图像,我正在迭代地改进句子提示,并找出与给定IDEA不同的地方。IDEA是:一张狗的照片......海滩。
当前轮次生成的句子提示是:一只蓝色的狗,面带笑容,在海滩上奔跑。AI艺术生成模型生成的对应图像:
Prompt Continued:
生成的图像并不完美。请写出如何进一步改进图像的关键原因,以便更好地遵循用户对场景的想象IDEA。
GPT-4V:
生成图像中的狗看起来与给定图像中的狗不一样。给定图像中的狗是一只布偶,而生成图像中的狗是另一种品种。为了解决这个问题,我们可以修改提示明确指出狗应该是一只布偶。
Prompt:
指示:给定用户想象的场景IDEA,将该IDEA转换为一个句子提示,该提示将被用于生成图像。我正在通过查看AI艺术生成模型生成的图像来迭代地改进句子提示,并找出与给定IDEA不同的地方。IDEA是: 一张狗的照片......海滩。当前轮次生成的句子提示是:一只蓝色的......它的脸上。AI艺术生成模型生成的对应图像:
图像可以改进,因为:狗......应该是一只布偶。根据以上信息,为了改进图像,我根据规则准确地写出了一个关于IDEA的详细提示。
GPT-4V:
一只蓝色的布偶,面带笑容,在海滩上奔跑,背景是日落和棕榈树。
SDXL:
图123: 使用自我反思来改进文本到图像模型SDXL的生成文本提示的说明。GPT-4V反思了最初提示没有提及狗的品种的错误,并进行了正确的修改。
Prompt:
统计图像中船只的数量。
GPT-4V:
图像中有6艘船。
Prompt:
统计图像中的船只数量。描述它们每个的位置。
GPT-4V:
图像中共有4艘船。
1
2
3
4
Prompt:
统计图像中的船只数量。描述它们每个的位置。
GPT-4V:
图像中有4艘船。
1
2
3
4
Prompt:
统计图像中的船只数量。描述它们每个的位置。
GPT-4V:
图像中有6艘船。
艘船在图像的左侧,停靠在码头,顶部有个塔;
艘船在图像的中心,并排停靠在码头;
艘船在图像的右侧,停靠在码头,顶部有个遮盖;
艘船在图像的右侧背景中,停靠在另一个码头。
一致性:
样本2:图像中共有4艘船。1) 第一艘船在图像的左侧......
样本3:图像中有4艘船。1) 第一艘船在图像的左侧,停靠在......
样本4:图像中有6艘船。- 1艘船在图像的左侧,停靠在码头......
【排除推理路径,聚合最终答案,例如多数表决】
图124:通过自我一致性改进计数可靠性,它对同一图像进行多次计数,并聚合结果。
一致性是一种解码策略,它聚合多个采样输出以产生最终答案,例如多数表决。Thoughts-Tree 从聚合最终答案延伸到中介思想,表明一致性思想可以应用于中介思想,以改进LLM的推理性能。图124说明了一致性在GPT-4V上的计数问题的应用。我们通过要求GPT-4V对同一图像进行多次计数来采样多次计数结果,无论是进行多次运行(样本2-4)还是重新措辞输入文本指令(样本1,2)。然后,该示例使用简单的多数表决来聚合最终答案“4艘船”。我们将一致性LMM的全面探索留待未来工作。
带检索增强的LMM通过检索和整合相关信息到提示中来增强文本生成。当需要特定任务相关信息时,这种技术特别有效,比如高度专业化领域的专家知识、可能与LLM记忆不同的最新信息,以及根据用户而变化的可自定义信息。我们可以想象,检索增强将继续在LMM中发挥重要作用。图74展示了一个带检索增强的LMM帮助购物结账的例子。由于不同商店的产品图像、文本和价格三元组是不同的,从商店数据库中检索它们并给出正确的结账信息将是有益的。类似地,在图81的自定义标题场景中,我们可以想象系统可能会自动从相册中检索家庭成员的照片,并实现自定义标题。
在本报告中,我们的主要重点是在各种应用场景中探索GPT-4V。调查结果揭示了它惊人的能力,其中一些尚未在现有方法中进行研究或展示。尽管我们努力尽可能发现更多这样的能力,但我们承认,我们的呈现可能并不详尽。然而,本报告可以作为未来研究的参考,以探索GPT-4V的更多用途,深入理解LMM,并构建更强大的LMM。
GPT模型的弱点和局限性在相关报告中有广泛讨论。在本节中,我们简要介绍了我们对未来研究方向的看法。
像GPT-1、GPT-2和GPT-3这样的模型主要功能是文本到文本的系统,只能处理自然语言。GPT-4(无视觉)展示了文本理解和生成方面的空前能力,而GPT-4V也展现出强大的图像领域理解能力。
自然的发展是,LMM应能生成交织的图像文本内容,例如生成包含文本和图像的生动教程,以实现全面的多模态内容理解和生成。此外,结合其他模态,如视频、音频和其他传感器数据,扩大LMM的功能也将是有益的。
关于学习过程,当前方法主要依赖组织良好的数据,如图像标签或图像文本数据集。然而,一个更通用的模型可能能从各种源学习,包括在线网络内容甚至实际物理环境,以促进持续的自我进化。