老实说,看到整个领域自那时起取得了如此巨大的进展,真的是令人惊叹。而从像 Raymond 这样的人那里听到他们正在使用我们正在构建的技术以及其他技术来做许多美妙的事情,这确实让人感到满足。我们听到了兴奋的人的声音,也听到了担忧的人的声音,还听到了那些同时感受到这两种情绪的人的声音。老实说,这正是我们最主要的感受。现在,我们似乎正在进入一个历史性的时期,在这个时期里,我们将定义一项对我们社会非常重要的技术。
但是我们还必须进行第二步,即教 AI 如何使用这些技能。为此,我们提供反馈。我们让 AI 尝试多种可能的答案,然后人类对它们进行评估,说这一个比那一个更好。这不仅强化了 AI 说出的具体事物,而且非常重要的是,增强了 AI 用于生成答案的整个过程。这使它能够推理你的意图,并将其应用于它之前从未见过、没有接收到反馈的场景中。
教AI进行反驳
有时,我们需要教 AI 的东西可能出乎意料。例如,当我们第一次向可汗学院展示 GPT-4 时,他们说:“哇,这太棒了。我们将能够教学生很多东西。”只有一个问题,它不会检查学生的数学。如果有错误的数学公式,它会高高兴兴地假装 1+1=3,并继续执行。因此,我们不得不收集一些反馈数据。Sal con 本人非常慷慨地提供了他自己的 20 小时时间,与我们的团队一起为机器提供反馈。经过几个月的努力,我们能够教 AI 在特定情况下向人类提出反驳。