什么是自洽提示法?为何它能胜过思维链?
自洽提示法(Self-Consistency Prompting)是一种技术:用相同的提示在非零温度下执行多次,收集所有答案,然后选出出现次数最多的那个。你不再相信单一推理链,而是让模型自己投票。Google Research 在 2022 年的原始论文显示,这个技术在 GSM8K 数学基准上比单纯思维链提升了 17.9 个百分点,而这个优势在更新的模型上依然成立。
多数实践者听过思维链(CoT)。却很少人听过自洽提示法,尽管它就在同一个工具箱里,距离思维链只有一步,并且在任何涉及推理的任务上稳定胜出。这个落差很奇怪。CoT 拿到了营销曝光。自洽法却在做真正的工作。
上週我用同一组商业推理任务测试两者。单次 CoT 答对 10 题中的 6 题。用 5 个样本的自洽法答对 9 题。这不是小幅提升。这是从「能用的工具」变成「不能信的工具」的差距。下面这个技术解释它如何运作,以及如何不写程式码就能用上。
自洽提示法在底层是怎样运作的?
自洽法透过取样多条推理路径、再对最终答案多数投票来运作。你把同一个提示送进模型多次,温度设为大于零,模型每次会产出不同的推理链,最常出现的答案胜出。背后的原则是:正确的推理路径会收敛到同一个答案,而错误的路径会随机分散。
数学上很简单,直觉上却微妙。单一推理链的准确率大约等于模型在该任务上的底层能力。执行五条推理链再投票,会过滤掉任何单条链可能犯下的随机错误。错误不会刚好都是同一个错误答案,但正确答案会反覆出现。
原始论文严谨地做了基准测试。在 GSM8K 数学题上,单纯思维链准确率约 56%。自洽法用 40 个样本路径推到 74%。在 AQuA 算术任务上,提升幅度是 12.2 个百分点。在 StrategyQA 之类的常识推理基准上,6.4 个百分点。每一个有人测过、需要推理的基准都呈现相同模式。
更有趣的是,多数提升在早期就出现。五个样本就能拿到大约 70% 的提升。十个样本拿到 90%。边际效益递减意味着你在生产环境中其实不需要 40 个样本。对多数实践者工作而言,五个就是甜蜜点。
什么时候该用自洽法、什么时候用思维链?
当任务有单一可验证的正确答案、且答错成本很高时,用自洽法。当你只想要一个有结构的回应、速度更重要时,用单纯思维链。自洽法会把单次 CoT 呼叫的成本与延迟增加 4 至 9 倍,所以这个提升只有在准确性确实比速度重要时才划算。
自洽法明显胜出的具体情境包括:计算包含多个项目的报价,总额必须正确;从凌乱文件中抽取结构化资料,一个栏位错就会破坏下游流程;把客服工单分类到正确类别,分错就要付成本;回答模型曾经错过、你已不再信任单次回答的事实性问题。
单纯 CoT 已足够的情境:起草电邮这类有许多可接受答案的任务;想要变化的脑力激盪;摘要文件时目标是覆盖范围而非单一正确答案;任何没有「正确」输出可收敛的创意或开放式工作。
诚实的测试是问自己:如果我把这个提示跑五次,我希望看到五个相似的答案,还是五个不同的?自洽法假设你想要相似。如果你想要不同,你寻求的是多样性,不是投票。
怎样不写程式码就执行自洽法?
你可以在任何聊天介面手动执行自洽法,10 分钟内就能完成。关键是让提示在每次执行时保持完全相同,并且每次都从新对话开始。在 ChatGPT 或 Claude 中开五个分页或新对话,把同一个提示贴进每一个,然后比较答案。出现最多次的答案胜出。这是无代码路径,任何实践者都能用。
任何推理任务都能用这个提示模板:
--- 你是一个谨慎的分析师。请逐步推理解决这个问题。展示你的推理过程,然后在最后一行用「最终答案:」标示你的答案。
--- 问题:[在这里填入你的具体问题或任务]
--- 限制条件:[列出答案必须遵守的任何规则]
--- 输出格式:分步骤编号的推理,然后一行「最终答案:[你的答案]」。
在五个独立对话中各跑一次这个提示。看所有五个「最终答案:」那一行。出现至少三次的答案就是赢家。如果没有任何答案拿下多数,这本身就是资讯:模型不确定,你应该自己检查问题或修改提示。
具体例子,计算多级定价问题的折扣:
--- 问题:客户买 12 件商品,每件 850 港元。买 10 件以上享 9 折,加上首次客户定额减免 200 港元。最终总价是多少港元?
--- 跑五次,最常出现的会是 9,180 港元(这是正确答案)。偶尔会有一条链把折扣顺序搞错,给出 9,000 或 9,250 港元。投票会抓出错误。
怎样不靠工程协助也能自动化自洽法?
可以的。你能在 Zapier、Make、n8n 与 Claude Projects 等工具中自动化自洽法,完全不用写程式码。诀窍是用每个工具的「迴圈」或「迭代器」功能,把同一个提示送出多次,再用一个简单的文字比对步骤找出最常见的答案。一次设定大约 30 分钟,之后工作流会永久执行。
在 n8n 中,整个流程长这样。触发器节点,然后一个 Set 节点存放提示模板,然后一个 Loop 节点设为 5 次迭代,迴圈内放一个 OpenAI 或 Claude 节点执行提示,然后一个 Code 节点(或用简单表达式的 Function 步骤)收集答案并计算众数。把胜出的答案输出到你需要的地方:Slack 频道、试算表行、电邮草稿。
在 Claude Projects 里,你可以设定一个专案,系统提示写「当被要求时,内部执行此分析五次,然后回报多数答案」。这在 API 层面严格来说不是自洽法,但它给你一个伪版本,对许多实际情境都有效。配合 Claude 的延伸思考模式,能拿到更大的提升。
对于 Zapier 或 Make 使用者,模式相同。用「iterate」或「repeater」模组并行触发 5 次 OpenAI 呼叫,然后用 Formatter 步骤计算次数。在现代模型上,整个流程跑完大约 4 至 8 秒,足够快可以放进真实工作流。
使用自洽法时最常见的错误是什么?
第一个常见错误是用温度 0。自洽法需要推理路径的多样性。在温度 0 下,模型每次都产出相同的链,投票就失去意义。取样时把温度设在 0.7 至 1.0 之间。原始论文用 0.7。这是安全的预设值。
第二个错误是比较整段推理链而不是只比最终答案。两条都正确的链可能用完全不同的方式描述推理。投票时只有最终答案重要。强迫模型把最终答案标示在独立一行,让抽取变成机械化动作而非模糊判读。
第三个错误是样本太少。跑两次不算自洽法,那只是检查工作。三个样本可能平手。五个是稳定多数投票的实际下限。如果 5 票跑完没有多数,这本身就是讯号:模型确实不确定。
第四个错误是把自洽法用在没有单一正确答案的任务上。如果你叫模型写五次诗然后挑最常见的,你只是选了最普通的那首。自洽法是给收敛任务用的,不是发散任务。先搞清楚你在做哪一种。
怎样衡量自洽法是否值回成本?
最简单的衡量方式是在已知答案的任务组上追踪准确率。挑 20 个你已知正确答案的问题。对全部 20 题执行单纯 CoT。对全部 20 题执行 5 样本自洽法。数一下各自答对几题。如果自洽法多答对 3 题以上,这个技术就值得用。多数实践者工作流显示每 20 题会多答对 2 至 5 题。
成本面更容易算。每次自洽法执行的 token 与时间大约是单次 CoT 呼叫的 5 倍。如果你一天做 100 个推理任务、每个用 5 个样本,就是 500 次呼叫而不是 100 次。对高风险工作划算,对低风险工作就太奢侈。
多数实践者最终会选择性使用自洽法:用在 10 至 20% 真正在意准确性的任务上,而不是每个任务。这是正确做法。纪律在于提前认出哪些任务属于高风险桶,只把那些路由到自洽法。其馀可以维持单纯 CoT 或不用 CoT。
结论:投票是 AI 中最便宜的可靠性技巧
自洽法不需要新工具、新模型或新 API。它需要的是把提示跑超过一次、然后选出现最多次的答案的那种纪律。就这样。它的机械式简单,正是它被忽视的原因。人们期待 AI 技术看起来精密。这个感觉像是问五个人同一个问题、然后跟着共识走。它就是刚好有效。
持久的收穫是:AI 的可靠性很少关乎模型本身。可靠性关乎你围绕模型建立的工作流。自洽法跟所有最好的实践者技巧一样,是工作流层面的动作。任何人明天都能用。多数人不会。
懂AI的冷,更懂你的难 — UD 同行28年,让科技成为有温度的陪伴。2026 年真正能把 AI 工作做稳的团队,不是拥有最聪明模型的那群,而是拥有最乾淨工作流的那群。
准备好建立可靠的 AI 工作流?
自洽法只是一个技术。把它建进每天都会稳定执行的工作流,又是另一回事。UD 的 AI Battle Staff 平台让你用真实情境压力测试提示与 AI 员工配置,UD 团队手把手带你完成每一步,设计出能持续产出稳定结果的工作流。