跳到主要内容

🟢 多项选择题

让我们使用 GPT 来解决一道 LSAT1 问题!

以下是一道 LSAT (法学院入学考试) 问题的例子。考虑你如何回答它以及你的推理。

英国修道士 John of Worcester 在 1128 年 12 月 8 日记录了两个异常大的太阳黑子的出现。五天后,韩国南部观察到了一个明亮的极光。太阳黑子活动通常在平均五天的时间段之后,极光出现。因此,韩国的观测有助于证实 John of Worcester 的观测。以下哪项是正确的,如果是正确的,最能加强这个观点?

a)即使在前一周没有重要的太阳黑子活动,极光也有时会发生。
b)在 John of Worcester 之前的1000多年中,中国的资料记录了太阳黑子的出现。
c)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。
d)由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。
e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。
正确答案是 ...
c)只有大规模的太阳黑子活动才能导致在韩国这样的纬度下看到的极光。
尝试将问题粘贴到下面的演示中:

为什么我的答案不同?
您的答案可能会因为以下原因而不同:

1)基础模型 GPT-3 的更新 2)文本生成过程中的随机性。我们可以通过将 temperature 设置为 0 来使输出更加一致。

模型失败了。这是否意味着该模型无法回答这种类型的问题?不一定。我们将深入探讨可以用来改进模型结果的技术。

魔法短语

上面我们使用的标准提示并没有为 GPT 的输出“推理”提供太多见解。我们可以尝试添加短语 让我们一步一步地解释,例如:

...
e)John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图。

让我们一步一步地解释

这个短语将增加模型的详细程度。您可能会得到类似这样的输出:

信息

注意,模型是如何逐步推理出答案的。

这种行为的具体术语是“思维链”1,模型按顺序生成语句以达到答案。这类似于《思考,快与慢》(from Thinking Fast and Slow) 中的系统2的思维概念;模型默认为系统1思维,但可以将系统1思维连接起来,以得出更有方法论的答案。

改进

以下是一些多项选择题的基本提示变体:

重新排列问题选项

我们可以重新排列问题中的选项

...
a) John of Worcester 的记录包括一个太阳黑子的图画,这可能是太阳黑子活动的最早插图
b) 由于在典型的日光条件下肉眼无法观察到太阳黑子,因此 John of Worcester 记录的观测必须发生在不寻常的天气条件下,如雾或薄云。
...

改写问题

再来看看原来的问题是这样的:

如果以下哪个选项为真,最能加强这个观点?

我们可以将问题改成这样:

将每个选项标记为强化、削弱或不影响论点。

这样可以进一步了解答案的选择。

添加额外上下文

以下是一个可通过使用贝叶斯定理轻松解决的问题示例:

考虑两种医学测试,A 和 B。当病毒存在时,测试 A 在识别病毒方面的有效性为 90%,但假阳性率为 5%(表明病毒存在,而实际上不是)。测试 B 在识别病毒方面的有效性为 95%,但假阳性率为 10%。这两种测试使用独立的方法来确定病毒是否存在。这种病毒由所有人中的 2% 承载。
(a) 假设只使用测试 A 对一个人进行病毒检测。如果测试 A 呈阳性,那么这个人实际上携带该病毒的概率是多少?(2 分)
(b) 假设只使用测试 B 对一个人进行病毒检测。如果测试 B 呈阳性,那么这个人实际上携带该病毒的概率是多少?(2 分)
(c) 假设使用这两个测试对一个人进行病毒检测。如果这两个测试都呈阳性,那么这个人实际上携带该病毒的概率是多少?(2 分)

让我们尝试使用 GPT:

输出是不正确!

如果我们添加一些上下文,如下所示:

...
让我们一步步解释。贝叶斯的公式为

该模型将使用正确的公式贝叶斯。

输出是 正确的!

::: 注意 GPT模型在执行算术运算方面表现不佳。你可能会注意到,虽然表达式书写正确,但计算出的数字却不正确。请尝试添加短语:将表达式作为答案,而不是数字以禁用计算。

你可能会对MRKL(https://promptdev.ai/docs/advanced_applications/mrkl)@karpas2022mrkl) 感兴趣,这是一种将GPT与计算器等外部工具结合起来解决这个问题的范例。 :::

Written by zeyuzhao.


  1. LSAT(Law School Admission Test)是美国法学院用于评估潜在学生的批判性思维和分析推理能力的标准化考试。