引言

GPT-4V 是 GPT-4 的多模态版本,也就是 LMM,与GPT-4一样,GPT-4V的训练于2022年完成,其训练过程相同。预训练模型首先通过使用来自互联网以及经授权数据源的大量文本和图像数据集来预测下一个单词。然后使用强化学习(RLHF)算法进行微调,让模型输出更符合人类偏好。

在非多模态版本中,GPT-4 就表现出了惊人的多模态能力(详见前文 《GPT-4 ,通用人工智能的火花》论文内容精选与翻译 ),在多模态实装之后的 GPT-4V 里,模型的能力更是超乎想象。

GPT-4V,多模态大模型的黎明》(论文地址)。这篇论文是在国庆假期期间出来的,正好大家都在游山玩水,正好后面 ChatGPT + Dalle3 火了,所以这篇论文的关注度并不高。实际这是下半年,也是在 GPT5 出来之前,最值得关注的内容,因此在这里对论文进行一些内容精选与翻译,特别是对示例内容也加了一些翻译和说明(可能是唯一的一篇)。

图文混合理解

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

根据菜单价格,我应该为了桌上的啤酒付多少钱?

图1

这是菜单的照片

图2

GPT-4V:

根据菜单,Magna 啤酒的价格是6美金,桌上有2瓶啤酒,所以总共是12美金。

点评:

GPT-4V不仅识别出了正确的物品数量、物品的价格,还能够把啤酒和菜单上的 Magna 对应起来进行理解。

指令遵从

关于 LLM 的一个观察结果是,LLM 并不想取得成功。相反,它们希望模仿具有各种性能质量的训练集。如果用户希望在交给模型的任务中取得成功,就应该明确提出要求,事实证明这对提高 LLM 的性能很有帮助。

对于 LLM,这个观察结果一样成立。

我们从一个简单明了的提示开始:"数出图片中苹果的数量"。然而,GPT-4V 错误地数出图片中总共有 12 个苹果(标红代表错误内容)。
An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

为了提高其性能,我们尝试了多种提示方法,最终设计出了如下提示

你是计算图像中事物的专家。让我们逐行数出下图中苹果的个数,以确定我们得到了正确答案。

提示中的第一句话要求 GPT-4V 扮演数数专家的角色,而第二句话则明确指示 GPT-4V 要取得成功。通过这种设计,GPT-4V 成功地返回了每一行的正确答案以及总计数。在本文中,我们将在各种场景中采用这种技术,以获得更好的性能。

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

标注方式

GPT-4V 可以理解多种标注方式,比如框坐标、图像裁剪、箭头、方形、椭圆、手绘框等。在下方的一些内容中会使用这样的指向来进行说明。

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

通过示例学习

无示例

Prompt:

测速仪的读数是多少?

GPT-4V:

测速仪的读数约为每小时 22 英里(mph)。(错误)

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

2个示例

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

测速仪的读数是多少?

图1

黄色指针大致位于 80 和 100 mph 之间的中间位置。80 和 100 之间的中间是 90。

时速约为 91 英里/小时,因为指针刚刚超过 90 英里/小时。

图2

黄色指针大致位于 20 至 40 英里/小时的中间位置。20 和 40 之间的中间值是 30。时速约为 29 英里/小时,因为指针接近 30 英里/小时,但尚未达到 30。

GPT-4V:

黄色指针位于 O 和 20 英里/小时之间的长刻度处。O 和 20 之间中间的长刻度是 10。时速约为 9 英里/小时,因为指针接近 10 英里/小时,但尚未达到 10。

名人识别

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

图片展示了不同领域的&杰出人物&的拼贴画。上排从左到右依次是歌手贾斯汀-比伯(Justin Bieber)、足球运动员梅西(Lionel Messi)、足球运动员克里斯蒂亚诺-罗纳尔多(Cristiano Ronaldo)和企业家埃隆-马斯克(Elon Musk)。
下排从左到右依次是模特兼真人秀明星凯莉-詹娜(Kylie Jenner)、歌手泰勒-斯威夫特(Taylor Swift)、演员小罗伯特-唐尼(Robert Downey Jr)和演员斯嘉丽-约翰逊(Scarlett Johansson)。所有人物都以不同的姿势和服装示人,背景也各不相同。

地标识别

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

图1:位于华盛顿州西雅图市的尼厄尔瞭望塔(opace Neeale)是图片中的标志。它高 605 英尺,可以俯瞰城市和周边地区的全景。该塔为 1962 年世界博览会而建,自此成为西雅图的象征和著名的旅游景点。塔的设计充满未来感,塔顶有一个大型圆形观景台和一个可 360 度旋转的餐厅。塔基周围是绿树成荫的公园。

图2:这张图片显示的是位于日本京都的金阁寺,又名金阁。金阁寺
金阁寺是一座三层楼高的佛教寺庙,寺庙覆盖着金箔,坐落在池塘上,在水面上形成令人惊叹的倒影。周围的风景充满了树木和岩石,营造出宁静祥和的氛围。

食物识别

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

图1:图片中的这道菜是一碗麻婆豆腐,这是一道来自四川省的流行中国菜。它由软豆腐块和由辣椒、发酵豆瓣酱和花椒制成的浓郁辣酱组成。菜肴上还点缀着薄薄的葱片。

图2:Unagi Donburi 起源于日本。在日本料理中,它是一种盖浇饭,通常装在一个深碗中。
在日语中,"Unagi "是淡水鳗鱼的意思,而 "donburi "指的是盛有米饭和其他配料的大碗。Unagi Donburi 是一种用烤鳗鱼和一种叫做 "鳗鱼酱 "的甜味和咸味酱汁配白米饭做成的菜肴。通常还会配上腌菜、芝麻、葱和海藻。

医学图像识别

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

有什么问题?

GPT-4V:

第五跖骨(脚外侧连接小脚趾的骨头)似乎有骨折或断裂。这通常被称为 "琼斯骨折"。

标志理解

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:详细描述图像和徽标

图1: 图片是一个麦当劳薯条盒,里面装满了金黄色的薯条。容器是红色的,上面有麦当劳标志性的 "M "标志。背景是明亮的黄色,使红色容器和薯条显得格外醒目。
徽标上的麦当劳 "M "是一个巨大的金色拱门,构成了麦当劳的字母 "Me"。它是世界上最知名的徽标之一,经常与快餐连锁店联系在一起。

图2:图片展示了两个星巴克杯子,一个是带盖子和吸管的透明塑料杯,另一个是带盖子的白色纸杯。透明塑料杯里装的是冷饮,上面有冰块和鲜奶油,而白色纸杯里装的是热饮。杯子放在一张木桌上,背景是一家星巴克店的模糊画面。
杯子上的徽标是星巴克的徽标,是一个绿色的圆圈。
中间有一条白色的美人鱼或海妖

空间理解

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

飞盘和人之间的空间关系是什么?

GPT-4V:

根据所提供的图像,飞盘与该男子之间的空间关系是,飞盘位于该男子的上方并稍稍前方。飞盘似乎还在远离该男子,好像是被他抛出或释放的。

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

人比车大吗?

GPT-4V:

不,在这张照片中,汽车似乎比人要大。但是,从视角和距离来看
照片中人物的视角和距离可能会影响人们对其大小的感知

数数

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

笑话和Meme理解

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

图里搞笑的地方是什么?

GPT-4V

图1:

人们可能会觉得这张图片有几处很有趣:

  • 这是一幅犀牛画的漫画,这本身就是一个出人意料的愚蠢概念。
  • 犀牛在画自己,这又增加了一层幽默感。
  • 标题 "你看到的世界就是你自己!"是一个笑话,说的是我们每个人都有自己独特的视角,有时会有点以自我为中心。

图2:

这张图片之所以有趣,有几个原因。首先,它是一个在互联网上被广泛使用和认可的meme模板。图片左侧是真人秀节目 "比佛利山庄的主妇们"(The Real Housewives of Beverly Hills)的截图,其中一位演员愤怒地指着镜头大喊大叫。图片的右侧是一只猫坐在餐桌前,面前摆着一盘食物,一副无动于衷的样子。这幅图片的幽默感来自于两边的对比--左边是愤怒、夸张的大叫,右边是不慌不忙的猫。同时,这幅画也表达了猫咪像人类一样,对我们的行为不以为然的想法。
总之,画面营造出一种滑稽荒诞的氛围,引人发笑。

科学知识

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

在这个食物网中,哪种生物是生产者?

GPT-4V:

这个食物网中的生产者是浆果和花、草和种子。这些生物利用太阳的能量,通过光合作用生产自己的食物。

常识性内容理解

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

假设你是一名侦探,你能从图片中的视觉线索推断出什么?

GPT-4V:

从图片中的视觉线索,我可以推断出这一点:

  • 房间里的人很可能是年轻人或青少年,这一点可以从休闲装和摆放着电脑的书桌上看出。
  • 从书桌和电脑可以看出,这个人可能是学生或在家工作的人。
  • 从多件夹克和鞋子可以看出,此人很可能追求时尚。
  • 从夹克和靴子可以看出,房间的气候可能比较寒冷。
  • 从凌乱的书桌和挂在门上的衣服可以看出,此人可能不太爱整洁。
  • 从裸露的管道和破旧的墙壁可以看出,房间很可能位于一栋较老或较古朴的建筑中。

场景文字识别

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

左图 GPT-4V,右图 Mac 的 OCR 结果。

补充:如果用GPT4根据OCR结果再猜测一遍的结果,也不差。

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

多语言能力

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

识别 LaTex

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

时间排序

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

分析图片并决定正确的显示顺序。

GPT-4V:

显示图像的正确顺序应为

e - 搅拌米饭
c - 将米饭放在海苔上

b - 添加馅料

a - 切卷

d - 将完成的寿司卷放在盘子里。

抽象视觉理解

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

七巧板是一种几何拼图,由七块平面拼成图形。下面是十个抽象的七巧板。哪一个最能体现飞翔的大雁?其他图形是什么样子的?

GPT-4V:

最能说明飞鹅的七巧板是数字7。它具有鹅身体的三角形形状,并且
顶部较小的三角形可以代表头和脖子。
其他图形可以代表各种事物:
1.火箭或塔
2.蝴蝶或蝙蝠
3.问号或蛇
4.人或机器人
5.山脉或皇冠
6.房屋或寺庙
7.飞鹅(如上所述)
8.鸟或鱼
9.船或帽子
10.一只狗或一只狐狸

表情识别

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt: 如下图所示,从面部识别和解读人的情绪。

GPT-4V:

图1:图片中的人似乎表现出多种情绪。皱起的眉头和下垂的嘴角暗示着愤怒或沮丧,而紧张的下巴和眯起的眼睛则可能表示厌恶或轻蔑。总的来说,这个人似乎正在经历负面情绪,很可能感到不安或不开心。

图2:图像中显示的情绪是恐惧或焦虑。这个人的眼睛睁得大大的,嘴巴微微张开,显示出一种震惊或惊讶的感觉。他们的双手捂着嘴,这可能暗示他们正在试图压制尖叫或喘息。

图3:图像中的人表现出快乐的情绪。这可以从灿烂的笑容和眼角的皱纹中看出来。

图4:画面中的人似乎正在经历一种负面情绪,很可能是沮丧或失望。这一点从他紧皱的眉头、向下凝视的目光和放在额头上的手可以看出来。

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

看到下面的图片后,人们会有怎样的情绪感受和反应?

GPT-4V

图1:看到这幅图,人们可能会感到快乐、满足和放松。他们可能会报以微笑,或感到温暖和舒适。这幅图片似乎是一对情侣在音乐节上的情景,因此人们也可能会对音乐和表演感到兴奋和期待。

图2:人们看到这张图片后可能会感到愤怒、沮丧或不安。他们的反应可能是感到不公或想要采取行动支持画面中的男子。有些人可能还会对这种情况和警察的出现感到恐惧或焦虑。

理解视频内容

An image to describe post 《GPT-4V,多模态大模型的黎明》论文内容精选与翻译

Prompt:

请在下面的框架内向我介绍视频内容。请尽可能详细。

GPT-4V:
视频内容是如何制作覆盆子幸福球的教程,这是一款适合幼儿和大孩子的健康早餐。该视频由 Instagram 账户 "和妈妈一起吃饭 "发布,已有超过 13k 人点赞。
视频的开头是一碗新鲜覆盆子和一把叉子,然后将覆盆子捣成泥状。下一帧显示的是一个更大的搅拌碗,碗中的燕麦、奇亚籽和花生酱被加入覆盆子泥中。然后将混合物搅拌均匀。
下一帧显示的是一个放有椰丝的盘子,覆盆子混合物被搓成小球并裹上椰丝。最后一帧显示的是将制作好的覆盆子幸福球放入碗中,即可食用。
整个视频中都有文字说明和小贴士,方便观众自己动手制作。

多模态 Agents