视频链接: https://youtu.be/9knUUdoiVMQ?si=ofUgL9HFzG18mJFw
嘿,大家好,在这个视频中,你将学到所有关于推理模型的知识。大型语言模型是大型神经网络,它们学习预测句子中的下一个词。如果你看过我关于大型语言模型的视频,你会知道它们可以做一些非常惊人的事情,比如翻译语言,创建食谱,甚至生成计算机代码。
但它们擅长数学吗?并不太擅长,至少直到最近。
当我让GPT-4找零一美元时,它只给了我80美分,而且它的信心有点错位。你可能在想,但是等等,计算机不是被发明来擅长数学的吗?为什么世界上其中一个最复杂的计算机程序不能找零?
其实,真正的差距不是数学本身,而是复杂的推理能力。
那么,一个大型语言模型能否擅长数学,而不仅仅是超人类的水平?这似乎很难。人们甚至能设计出一个比构建它的人类更好的程序吗?
其实,一个例子是AlphaZero,一个击败了世界上最好的国际象棋和围棋选手的AI程序。它不依赖于人类专家的知识,AlphaZero的程序员教会它通过与自己下数百万局棋来从零开始学习自己的策略,从而变得更好。
这是它的工作原理。围棋游戏从一个空棋盘开始。黑棋先走,从左上到右下,每个可能的走法都有一个分支。白棋接着走,引入更多的分支,以此类推。每局游戏都是沿着那棵树的一条路径,最终可能导致胜利或失败。目标是学习一个生成胜利路径的策略。你可以将该策略建模为一个神经网络,它接收棋盘状态并预测下一步走法。你可以使用一个非常简单的规则来训练这个网络。每当一局游戏输了,你就调整该策略的参数,惩罚失败玩家的所有走法。当赢了时,你通过增加这些走法的概率来强化它们。这种方法被称为强化学习,如果你重复数百万次,它可以收敛到一个超人类的策略。
AlphaZero有几个优势帮助它成为超人类。首先,AlphaZero不受人类传统限制,能够开发出创新的新策略和玩法。
其次,虽然一个人一生中可能只能玩几千局游戏,AlphaZero却可以玩数百万局。它获得了更多的练习机会。很酷吧?所以我们有了一个可以击败人类围棋选手的程序。
我们能在数学上做到同样的事情吗?首先,我们需要发明一个游戏。这就是它。我会随机问你一个数学问题,然后你必须解决它。我会选择那些容易验证的问题,这样我就能确保你的答案是正确的。而且不是两个人玩,而是计算机自己和自己玩这个游戏。这就是DeepSeek用R1 Zero模型所做的。模型会被提示一个随机的数学问题,然后生成一个答案。如果答案正确,它就赢了。参数被优化以增加所有标记的概率。如果答案错了,那么这些标记的概率就会被惩罚,就像AlphaZero一样。
好的,但我们应该如何奖励或惩罚一个答案,而不是单个响应呢?在训练过程中,R1 Zero 会为每个问题生成多个可能的答案,对每个答案进行评分,并根据它与平均值的距离来加权评分。这被称为GRPO,它有助于策略收敛到一个好的解决方案。
但事实证明,仅仅鼓励正确答案是不够的。例如,如果我告诉你这个方程的解是3和-5,你可能会试图记住这个解,但如果我教你二次公式,你会更有帮助,因为你现在可以解决任何类似的问题。事实上,大型语言模型已经知道二次公式,因为它们通常是在维基百科和大量其他在线数学知识上训练的。我们只需要告诉它使用它知道的公式,换句话说,让它进行推理。
一个想法是通过在提示中给出指示来指导它分解问题,比如,首先找到正确的公式,然后应用它,最后检查你的答案。这被称为思维链提示。虽然这种方法可能有效,但很难提出适用于所有问题的指令。
于是,DeepSeek 团队尝试了一种极其简单的方法。他们只是让模型去思考。具体来说,他们定义了一个模板,并奖励遵循该模板的输出。
例如,如果提示是解这个方程,一个有效的解决方案可能是这样的:首先识别系数,然后应用公式得出两个解,验证这些解,最后报告答案。
但为什么模型不会作弊并忽略思考部分呢?因为,思考会带来更准确的答案,从而获得更高的奖励。事实上,随着训练的进行,思考部分会变得越来越长,因为模型用它来探索多个解决方案并反复检查答案。好了,它是如何工作的呢?
让我们让 R1 用至少一种每种类型的硬币来凑出一美元。正如你所见,它生成了相当多的文本,思考解决方案。让我们回到开头。它首先列出了硬币,包括半美元硬币,这是我写问题时没想到的。然后它正确地猜测我可能不想要半美元硬币,因为它太不常见了。这很聪明。它在处理一个模糊问题时做出了很好的决定。好了,现在它尝试用每种硬币各一个来凑数。这样是 0.41 美元,所以还需要 0.59 美元。于是它引入了一个方程来计算剩余的 0.59 美元,并找到一个解决方案:三个 25 美分,一个 10 美分,两个 5 美分和五个 1 美分。它可以在这里停下来,但它决定继续看看是否有其他好的答案。这是另一个答案,还有第三个。现在它意识到,根据我的提示,它必须从三个中选择一个。所以它花了很多时间试图决定选择哪一个。它再次三重检查解决方案,然后进入答案阶段。最后,它呈现了一个答案。验证并在最后简要提及了另外两个解决方案。
现在,对于一个简单的问题来说,这是一个极其冗长的回答,但你可以看到它确实全力以赴,确保答案绝对正确。这种方法居然有效,真是令人惊叹,尤其是考虑到它的方法如此简单。关键点在于,展示你的思考过程会让答案变得更好。你小学时的数学老师是对的。
R1.0 优化的是准确性,而不是人类的理解能力。它的解释可能难以理解,甚至可能在同一回答中混合使用英语和中文。因此,DeepSeek 团队引入了多项改进以提高可读性,包括对人类解释进行微调。最终得到的模型被称为 R1,这就是我刚才分享的“一美元找零”结果的生成模型。
现在,它不仅限于数学。这些推理模型可以回答各种逻辑和科学问题。GPQA 是最具挑战性的基准之一,其中的问题由生物学专家编写,物理和化学领域。我展示的第一个模型,GPT-4 的得分为 31%,这仅仅略高于随机猜测。博士水平大约是 70。R1 的得分为 72。在一年半的时间里,这是相当惊人的进步。实际上,OpenAI、Anthropic、谷歌等公司开发了许多推理模型,以及其他公司。它们是否真的超越了人类?嗯,还不完全是。但它们已经达到了博士水平专家的能力。如果你将这条曲线外推几年,结果会变得非常有趣。
虽然 AlphaZero 真正从零知识开始学习,R1 Zero 则从 Deep Seek 团队开发的预训练语言模型 V3 开始,该模型精通英语和中文。但如果它也从零知识开始呢?也许像 AlphaZero 一样,R1 可以学习一种全新的推理和证明技术,甚至可能创造一种比人类语言更高效的人工智能语言用于推理任务。我想它仍然需要学习我们的语言,以便向我们解释答案。人类朋友们,希望你们喜欢这个关于推理模型的视频。