為什麼 AI 輸出一開始就如此不穩定?
AI 輸出感覺不穩定,是因為大型語言模型本質上是機率式的,而非確定性的。同一個提示執行兩次,可能會產生不同的措辭、結構,甚至不同的事實。這不是需要修正的錯誤,而是需要控制的特性。四個槓桿決定輸出會偏移多少:系統提示、temperature、輸入範例、隨機種子。
好消息是,這四個槓桿並非隱藏的技術魔法。它們是你今天就能在 Claude.ai、ChatGPT、Gemini 與大多數第三方 AI 工具中調整的設定。問題在於,大多數中階使用者只調整其中一項,所以他們的輸出才會在週一還很出色、週二就變成垃圾。
本文以白話逐一解析每個槓桿、各自真正派上用場的時機,並在最後附上一份可直接複製的範本,讓 AI 在數百次輸出中維持一致的聲音。
什麼是系統提示?為何它最關鍵?
系統提示是 AI 在你每次發送訊息前都會先讀一次的指令集。它定義角色、語調、格式、規則。在 Claude.ai 中,它存放於「設定自訂指令」或某個 Project 內。在 ChatGPT 中,它存放於個人化面板或 Custom GPT 內。在 Gemini 中,它存放於「儲存的資訊」內。
單單這一項設定,就決定了實際工作流程中約七至八成的一致性。沒有系統提示,每次對話都從中性基線開始。有強而有力的系統提示,每次對話都已經與你的聲音、受眾、輸出格式對齊。
大多數人犯的錯,是寫了一份過於模糊的系統提示。「做一個有用的市場推廣助手」幾乎沒給模型任何資訊。有用的系統提示會明確指定受眾、語調、格式、限制,並至少給一個「好的輸出長什麼樣」的範例。
解方是花二十分鐘寫一份詳細的系統提示,然後一個月內不要再改它。一致性來自於穩定,不是每週二都重寫指令。
Temperature 究竟如何改變輸出?
Temperature 控制模型挑選低機率字詞的意願。在 temperature 0 時,模型每次都挑最有可能的下一個 token,產生最可預測的輸出。在 temperature 1 時,模型從寬廣的分布中自由取樣,產生有創意但較不一致的結果。
事實性工作、摘要、結構化資料抽取、任何你希望重複執行都看起來一樣的任務,將 temperature 設為 0 或 0.2。腦力激盪、小說創作、靈感生成,將 temperature 設為 0.7 或 0.9。大多數聊天介面的預設值約為 0.7,這就是為何你的「草擬一封郵件」任務每次感覺都不同。
Temperature 在 API 呼叫中可以直接設定,許多第三方平台如 Cursor、Bolt、OpenRouter 也允許調整。Claude.ai 與 ChatGPT.com 的消費級聊天介面則沒有開放此設定。你可以在提示開頭加上「以最可預測、最保守的方式回覆」來模擬低 temperature,但 API 設定才是唯一可靠的槓桿。
什麼是少樣本提示?什麼時候該用?
少樣本提示是在請求模型執行真正任務之前,先給它兩到三組完整的範例。範例透過示範教模型輸入到輸出的對應模式,而不是用描述。這一直是可靠性提升幅度最高的技術之一。
如果任務是「把客戶回饋改寫成行動項目」,就給模型兩個範例:先是客戶回饋原文,後是你會寫的行動項目。然後再交給它新的回饋。模型依照剛剛看到的模式去執行,遠比按你口頭描述的模式去執行可靠得多。
少樣本提示適用於幾乎所有結構化任務:從郵件中抽取資料、分類客服工單、撰寫產品描述、寫會議摘要、生成社群媒體變體。如果你能拿出兩個範例,第三個大概就能自動化。
它的極限是在範例變得不切實際時,例如真正的創意工作,或每次輸入都和上次截然不同的任務。這種情況下,把心力放在系統提示上,並跳過範例。
什麼是 seed?你需要關心它嗎?
Seed 是用來初始化模型隨機取樣過程的數字。如果你固定 seed 並將 temperature 設為 0,同一個提示每次執行都能得到相同的輸出。這是可重現 AI 工作流程的基礎。
Seed 在 OpenAI 的 API、Google Gemini API、以及大多數第三方編排工具中都可以設定。Anthropic 的 Claude API 在 2026 年並未開放面向使用者的 seed,但即使沒有 seed,它在 temperature 0 時的輸出也已經非常穩定。消費級聊天介面則完全沒有 seed 選項。
大多數日常工作其實不需要 seed。它真正有用的時機是當你在測試工作流程的變動,需要區分輸出差異是來自你的提示修改、還是純粹隨機。鎖定 seed、改動一處、比對結果。其他情況請放著不管,依靠另外三個槓桿就足夠。
試試這個範本:一致性優先的提示
以下是一份完整、可直接複製的系統提示範本,同時運用了四個槓桿。把它貼進 Claude Project、Custom GPT 或 Gemini「儲存的資訊」內。把它當作任何需要一致性多於新意的重複任務的起點。
試試這個提示:
角色。你是一家香港 B2B SaaS 公司的資深內容編輯。你使用英式英文書寫,採用主動語態,除非受眾明確要求,否則避免行話。
受眾。員工人數 20 至 200 人的中小企的市場推廣主管與營運主管。他們聰明、時間有限、會先快速瀏覽再細讀。
語調。直接、實用、同儕對話。永遠不要用「在當今數碼時代」。永遠不要把 leverage 當動詞用。一個形容詞夠用時不要寫五個。
格式。輸出永遠採用三種形狀之一:簡短回答(少於 80 字)、有子標題的結構化回答、編號清單。每次回應都在開頭註明你採用了哪一種形狀。
範例 1。輸入:「為新定價頁面起草一條 Slack 訊息。」輸出:「簡短回答。團隊,新定價頁面已上線:example.com/pricing。三個方案、更少功能勾選框、更清楚的文案。這週和一位潛在客戶分享,告訴我他們問了什麼。」
範例 2。輸入:「將這篇 800 字的產品更新整理成週報摘要。」輸出:「結構化回答。變動了什麼:[三點]。為何重要:[兩句]。客戶該怎麼做:[一句加連結]。」
限制。若你對某項事實沒有把握,請在旁邊寫「需要核實」。永遠不要捏造網址、價格、人名或統計數據。
遇到模糊時的行為。若我的請求不清楚,先問一個有針對性的問題再開始寫。不要先寫一份草稿然後再問。先問。
怎麼知道一致性是否真的改善了?
最簡單的測試是同一個提示在一週內執行五次,然後比較輸出。沒有系統提示、預設 temperature 的情況下,你會看到結構、長度、用字明顯波動。套用上述範本後,輸出應該看起來像同一位作者在同一天寫的。
更嚴格的測試是把提示交給同事,讓他在沒有你的情況下產出。如果你的提示真的承擔了該承擔的工作,他的輸出會與你的相符。如果他的輸出偏移,代表你的提示太依賴只活在你腦袋裡的脈絡。
一致性是工作流程的屬性,不是個人特質。把四個槓桿調對、寫下來一次,整個月你都能享受真正屬於你的輸出。懂AI的冷,更懂你的難 — UD 同行28年,讓科技成為有溫度的陪伴。
先確認你的 AI 技能實際停在哪一級
在你再花一個月與不穩定的輸出搏鬥之前,先找出真正卡住你的是哪一個槓桿。UD 的免費 AI IQ 測試只需七分鐘,會清楚分析你目前的提示能力、你還缺哪些技術、以及下一步該學的工作流程。UD 團隊手把手帶你完成每一步,從解讀測試結果、挑選合適的系統提示範本、到建立你第一個可重複的 AI 工作流程。