自洽提示法：默默胜过思维链的进阶提示技术

自洽法把同一个提示跑多次再投票选答案。在推理任务上稳定胜过思维链。

实用攻略

2026-05-05

什么是自洽提示法？为何它能胜过思维链？

自洽提示法（Self-Consistency Prompting）是一种技术：用相同的提示在非零温度下执行多次，收集所有答案，然后选出出现次数最多的那个。你不再相信单一推理链，而是让模型自己投票。Google Research 在 2022 年的原始论文显示，这个技术在 GSM8K 数学基准上比单纯思维链提升了 17.9 个百分点，而这个优势在更新的模型上依然成立。

多数实践者听过思维链（CoT）。却很少人听过自洽提示法，尽管它就在同一个工具箱里，距离思维链只有一步，并且在任何涉及推理的任务上稳定胜出。这个落差很奇怪。CoT 拿到了营销曝光。自洽法却在做真正的工作。

上週我用同一组商业推理任务测试两者。单次 CoT 答对 10 题中的 6 题。用 5 个样本的自洽法答对 9 题。这不是小幅提升。这是从「能用的工具」变成「不能信的工具」的差距。下面这个技术解释它如何运作，以及如何不写程式码就能用上。

自洽提示法在底层是怎样运作的？

自洽法透过取样多条推理路径、再对最终答案多数投票来运作。你把同一个提示送进模型多次，温度设为大于零，模型每次会产出不同的推理链，最常出现的答案胜出。背后的原则是：正确的推理路径会收敛到同一个答案，而错误的路径会随机分散。

数学上很简单，直觉上却微妙。单一推理链的准确率大约等于模型在该任务上的底层能力。执行五条推理链再投票，会过滤掉任何单条链可能犯下的随机错误。错误不会刚好都是同一个错误答案，但正确答案会反覆出现。

原始论文严谨地做了基准测试。在 GSM8K 数学题上，单纯思维链准确率约 56%。自洽法用 40 个样本路径推到 74%。在 AQuA 算术任务上，提升幅度是 12.2 个百分点。在 StrategyQA 之类的常识推理基准上，6.4 个百分点。每一个有人测过、需要推理的基准都呈现相同模式。

更有趣的是，多数提升在早期就出现。五个样本就能拿到大约 70% 的提升。十个样本拿到 90%。边际效益递减意味着你在生产环境中其实不需要 40 个样本。对多数实践者工作而言，五个就是甜蜜点。

什么时候该用自洽法、什么时候用思维链？

当任务有单一可验证的正确答案、且答错成本很高时，用自洽法。当你只想要一个有结构的回应、速度更重要时，用单纯思维链。自洽法会把单次 CoT 呼叫的成本与延迟增加 4 至 9 倍，所以这个提升只有在准确性确实比速度重要时才划算。

自洽法明显胜出的具体情境包括：计算包含多个项目的报价，总额必须正确；从凌乱文件中抽取结构化资料，一个栏位错就会破坏下游流程；把客服工单分类到正确类别，分错就要付成本；回答模型曾经错过、你已不再信任单次回答的事实性问题。

单纯 CoT 已足够的情境：起草电邮这类有许多可接受答案的任务；想要变化的脑力激盪；摘要文件时目标是覆盖范围而非单一正确答案；任何没有「正确」输出可收敛的创意或开放式工作。

诚实的测试是问自己：如果我把这个提示跑五次，我希望看到五个相似的答案，还是五个不同的？自洽法假设你想要相似。如果你想要不同，你寻求的是多样性，不是投票。

怎样不写程式码就执行自洽法？

你可以在任何聊天介面手动执行自洽法，10 分钟内就能完成。关键是让提示在每次执行时保持完全相同，并且每次都从新对话开始。在 ChatGPT 或 Claude 中开五个分页或新对话，把同一个提示贴进每一个，然后比较答案。出现最多次的答案胜出。这是无代码路径，任何实践者都能用。

任何推理任务都能用这个提示模板：

--- 你是一个谨慎的分析师。请逐步推理解决这个问题。展示你的推理过程，然后在最后一行用「最终答案：」标示你的答案。

--- 问题：[在这里填入你的具体问题或任务]

--- 限制条件：[列出答案必须遵守的任何规则]

--- 输出格式：分步骤编号的推理，然后一行「最终答案：[你的答案]」。

在五个独立对话中各跑一次这个提示。看所有五个「最终答案：」那一行。出现至少三次的答案就是赢家。如果没有任何答案拿下多数，这本身就是资讯：模型不确定，你应该自己检查问题或修改提示。

具体例子，计算多级定价问题的折扣：

--- 问题：客户买 12 件商品，每件 850 港元。买 10 件以上享 9 折，加上首次客户定额减免 200 港元。最终总价是多少港元？

--- 跑五次，最常出现的会是 9,180 港元（这是正确答案）。偶尔会有一条链把折扣顺序搞错，给出 9,000 或 9,250 港元。投票会抓出错误。

怎样不靠工程协助也能自动化自洽法？

可以的。你能在 Zapier、Make、n8n 与 Claude Projects 等工具中自动化自洽法，完全不用写程式码。诀窍是用每个工具的「迴圈」或「迭代器」功能，把同一个提示送出多次，再用一个简单的文字比对步骤找出最常见的答案。一次设定大约 30 分钟，之后工作流会永久执行。

在 n8n 中，整个流程长这样。触发器节点，然后一个 Set 节点存放提示模板，然后一个 Loop 节点设为 5 次迭代，迴圈内放一个 OpenAI 或 Claude 节点执行提示，然后一个 Code 节点（或用简单表达式的 Function 步骤）收集答案并计算众数。把胜出的答案输出到你需要的地方：Slack 频道、试算表行、电邮草稿。

在 Claude Projects 里，你可以设定一个专案，系统提示写「当被要求时，内部执行此分析五次，然后回报多数答案」。这在 API 层面严格来说不是自洽法，但它给你一个伪版本，对许多实际情境都有效。配合 Claude 的延伸思考模式，能拿到更大的提升。

对于 Zapier 或 Make 使用者，模式相同。用「iterate」或「repeater」模组并行触发 5 次 OpenAI 呼叫，然后用 Formatter 步骤计算次数。在现代模型上，整个流程跑完大约 4 至 8 秒，足够快可以放进真实工作流。

使用自洽法时最常见的错误是什么？

第一个常见错误是用温度 0。自洽法需要推理路径的多样性。在温度 0 下，模型每次都产出相同的链，投票就失去意义。取样时把温度设在 0.7 至 1.0 之间。原始论文用 0.7。这是安全的预设值。

第二个错误是比较整段推理链而不是只比最终答案。两条都正确的链可能用完全不同的方式描述推理。投票时只有最终答案重要。强迫模型把最终答案标示在独立一行，让抽取变成机械化动作而非模糊判读。

第三个错误是样本太少。跑两次不算自洽法，那只是检查工作。三个样本可能平手。五个是稳定多数投票的实际下限。如果 5 票跑完没有多数，这本身就是讯号：模型确实不确定。

第四个错误是把自洽法用在没有单一正确答案的任务上。如果你叫模型写五次诗然后挑最常见的，你只是选了最普通的那首。自洽法是给收敛任务用的，不是发散任务。先搞清楚你在做哪一种。

怎样衡量自洽法是否值回成本？

最简单的衡量方式是在已知答案的任务组上追踪准确率。挑 20 个你已知正确答案的问题。对全部 20 题执行单纯 CoT。对全部 20 题执行 5 样本自洽法。数一下各自答对几题。如果自洽法多答对 3 题以上，这个技术就值得用。多数实践者工作流显示每 20 题会多答对 2 至 5 题。

成本面更容易算。每次自洽法执行的 token 与时间大约是单次 CoT 呼叫的 5 倍。如果你一天做 100 个推理任务、每个用 5 个样本，就是 500 次呼叫而不是 100 次。对高风险工作划算，对低风险工作就太奢侈。

多数实践者最终会选择性使用自洽法：用在 10 至 20% 真正在意准确性的任务上，而不是每个任务。这是正确做法。纪律在于提前认出哪些任务属于高风险桶，只把那些路由到自洽法。其馀可以维持单纯 CoT 或不用 CoT。

结论：投票是 AI 中最便宜的可靠性技巧

自洽法不需要新工具、新模型或新 API。它需要的是把提示跑超过一次、然后选出现最多次的答案的那种纪律。就这样。它的机械式简单，正是它被忽视的原因。人们期待 AI 技术看起来精密。这个感觉像是问五个人同一个问题、然后跟着共识走。它就是刚好有效。

持久的收穫是：AI 的可靠性很少关乎模型本身。可靠性关乎你围绕模型建立的工作流。自洽法跟所有最好的实践者技巧一样，是工作流层面的动作。任何人明天都能用。多数人不会。

懂AI的冷，更懂你的难 — UD 同行28年，让科技成为有温度的陪伴。2026 年真正能把 AI 工作做稳的团队，不是拥有最聪明模型的那群，而是拥有最乾淨工作流的那群。

准备好建立可靠的 AI 工作流？

自洽法只是一个技术。把它建进每天都会稳定执行的工作流，又是另一回事。UD 的 AI Battle Staff 平台让你用真实情境压力测试提示与 AI 员工配置，UD 团队手把手带你完成每一步，设计出能持续产出稳定结果的工作流。

立即试用 AI Battle Staff

浏览 UD AI Directory

其他人也看了

为何你的 AI 输出每次都不一样？用 JSON Schema 强制一致的实战方法 Claude Design 是什么？解构 Anthropic 全新「文字变原型」工具的实际运作方式 GPT-5.5 正式发布：实质改进是什么？以及如何善用思考程度设定 Runway Gen-4：首个让角色跨场景保持一致的 AI 视频工具全攻略什么是代理商务（Agentic Commerce）？香港零售与电商老板的入门指南

UD Blog

专业文章及见解，揭示科技领域的一切

自洽提示法：默默胜过思维链的进阶提示技术

自洽法把同一个提示跑多次再投票选答案。在推理任务上稳定胜过思维链。

什么是自洽提示法？为何它能胜过思维链？

自洽提示法在底层是怎样运作的？

什么时候该用自洽法、什么时候用思维链？

怎样不写程式码就执行自洽法？

怎样不靠工程协助也能自动化自洽法？

使用自洽法时最常见的错误是什么？

怎样衡量自洽法是否值回成本？

结论：投票是 AI 中最便宜的可靠性技巧

准备好建立可靠的 AI 工作流？

其他人也看了

UD Blockchain 通讯