Gemini 3.5 Flash 不是一次普通的版本更新
一句话重点:Gemini 3.5 Flash 于 2026 年 5 月 19 日发布,每秒处理 289 个 token,速度约为 GPT-4o 的四倍。在 AI 代理任务基准测试 MCP Atlas 中以 83.6% 超越 GPT-5.5 的 75.3%,在多模态推理测试 MMMU-Pro 中取得 84.2%,是近年来 Google DeepMind 首次在所有关键维度上全面领先的模型发布。
每隔几个月就有新 AI 模型问世,营销语言总是把它说成智能的又一次革命。2026 年 5 月 19 日在 Google I/O 上发布的 Gemini 3.5 Flash 确实不同。这个不同之处足够具体,具体到能真正改变你在日常工作中选用哪个模型。
以下是你需要了解的基准数据:Gemini 3.5 Flash 在代理任务基准测试 MCP Atlas 中取得 83.6%;GPT-5.5 在同一测试中为 75.3%。这 8.3 个百分点的差距,恰好体现在 AI 进阶用户最在乎的任务上——执行多步骤工作流程、调用外部工具、在长时间对话中保持连贯。
哪里改变了:专为代理工作打造的新架构
一句话重点:Gemini 3.5 Flash 引入「思考预算」控制,让你可以指定模型在回答前投入多少推理——从零(即时简单任务)到 16,000 个 token(复杂工作流程)。它也能在同一个提示中原生处理图片、PDF、音频和文字。过去的 Flash 模型速度快但在困难任务上表现参差,这一版本同时解决了两个问题。
过去的 Gemini Flash 系列以速度著称,但在复杂推理上却有「偷懒」的口碑——在你不知情的情况下牺牲质量换取速度。Gemini 3.5 Flash 通过新的「思考预算」参数解决这个问题:你可以明确控制模型在输出前投入多少推理时间。
对于简单任务——摘要、翻译——将预算设为零,获得最高速度。分析工作分配几千个 token。涉及多个步骤和工具调用的复杂代理工作流程,可以给模型最多 16,000 个思考 token 再让它行动。每位从业者都熟悉的不一致问题——今天输出完美、明天却一塌糊涂——其根本原因正是这个:模型在你不知情的情况下偷换速度与质量的优先顺序。思考预算把这个取舍变得明确且可控。
另一个显著改变是真正在实际使用中运作的原生多模态处理。你可以在同一个提示中给 Gemini 3.5 Flash 一份 PDF、一张图表截图和一份电子表格附件,它会把三者整合成一个连贯的回答。MMMU-Pro 的 84.2% 得分,让它在 2026 年 5 月的跨模态推理公开排行榜上位居第一。
速度的规模效益:每秒 289 个 token 的实际意义
一句话重点:以每秒 289 个 token 的速度,GPT-4o 需要 15 秒完成的千字草稿,Gemini 3.5 Flash 不到 5 秒即可完成。一个过去需要 3 分钟的 10 步骤代理工作流程,现在不到一分钟就能跑完。对于执行批量处理、研究管道或自动化内容工作流程的从业者,速度差距会累积成真实可见的时间节省。
对普通用户而言,速度更快是加分;对执行复杂管道的从业者而言,速度是能力倍增器。每小时更多迭代,意味着更多提示测试、更多工作流程调整,以及更快到达可用输出的路径。
定价让这个优势更突出:每百万输入 token $1.50、每百万输出 token $9,使 Gemini 3.5 Flash 与 GPT-4o mini 的定价相当,却接近 GPT-4o 的性能水准。如果你在构建或使用需要大规模运行的 AI 工具,这是一个有意义的经济转变。
现在如何使用 Gemini 3.5 Flash
一句话重点:从 2026 年 5 月 19 日起,Gemini 3.5 Flash 可在 gemini.google.com 免费使用。API 调用使用模型名称 gemini-3.5-flash。Google AI Studio 提供免费的高限额实验环境。Google One AI Premium 付费订阅者可不受限制使用。
根据工作方式,有四种使用路径:
Gemini 网页应用(免费方案) — 前往 gemini.google.com,在模型选择器中选择 Gemini 3.5 Flash。使用量有限制,但足以评估和日常使用。
Google AI Studio(免费,更高限额) — aistudio.google.com 的免费使用量限制比消费者应用高出许多。这是大多数从业者在整合到工作流程之前构建和测试提示的地方,也直接在界面中提供思考预算控制。
API(按用量付费) — 模型名称为 gemini-3.5-flash。可直接替换任何目前调用 Gemini 1.5 Pro 或 Gemini 2.0 Flash 的工作流程,兼容 n8n、Make、Zapier 等工具链。
Google One AI Premium — 移除高频使用者的用量上限。如果 Gemini 是你工作流程的核心,这样可以消除在任务中途撞上限制的摩擦。
Gemini 3.5 Flash vs GPT-4o vs Claude Sonnet:各自的优势所在
一句话重点:Gemini 3.5 Flash 在代理任务、多模态输入和速度上领先。GPT-4o 和 Claude Sonnet 在创意写作质量和复杂指令遵从上仍更胜一筹。实用法则:数据密集、多步骤或文件处理任务选 Gemini;高要求写作和精确指令工作选 GPT-4o 或 Claude。
没有哪个模型能在所有任务上全面胜出。以下是 Gemini 3.5 Flash 在从业者实际执行的任务中的对比:
代理工作流程和工具调用:Gemini 3.5 Flash 明显胜出。MCP Atlas 83.6% vs GPT-5.5 的 75.3%,在真实代理任务性能上是显著差距。
多模态输入——PDF、图片、混合数据:Gemini 3.5 Flash 胜出。MMMU-Pro 的 84.2% 在 2026 年 5 月的跨模态推理公开排行榜上排名第一。
任意规模的速度:Gemini 3.5 Flash 胜出。目前没有其他正式量产模型在相近定价下达到每秒 289 个 token。
创意写作和风格控制:GPT-4o 和 Claude Sonnet 仍更强。当任务需要特定声音、细腻语气或高质量创意输出时,其他模型仍能生成更好的初稿。
复杂指令遵从:Claude Sonnet 4 领先。对于精确度要求高、需要完全遵从详细系统提示的任务,Claude 的一致性更可靠。
思考预算功能:如何在实际工作中运用
一句话重点:简单任务设 thinkingBudget: 0,分析任务设 2048,复杂多步骤代理任务设 8192 或更高。这能防止模型在困难问题上走捷径——大多数 AI 输出不一致的根本原因。
思考预算是 Gemini 3.5 Flash 中最被低估的功能,也正是它区分了能持续获得优质结果的从业者,和依然深陷「今天完美、明天垃圾」困境的人。
调用 Gemini API 时,在 generation config 中加入 thinkingConfig 字段:
# 简单任务:翻译或摘要
"thinkingConfig": {"thinkingBudget": 0}
# 分析任务:评估文件、比较选项
"thinkingConfig": {"thinkingBudget": 2048}
# 复杂代理任务:规划并执行多步骤工作流程
"thinkingConfig": {"thinkingBudget": 8192}
如果你通过网页应用或 AI Studio 使用,可以在提示中明确要求:「请逐步思考这个问题,在回答前先展示你的推理过程。」
现在就试:这周把一个工作流程切换到 Gemini 3.5 Flash
一句话重点:评估新模型最快的方法是直接并行测试:把一个你定期执行的工作流程,在 Gemini 3.5 Flash 和现有工具中同时运行一周。具体比较永远比阅读基准测试数字更有说服力。
选一个你定期执行的工作流程——最好是涉及多个步骤、文件输入或结构化数据的工作。在接下来五个工作日,用现有工具的同时也在 Gemini 3.5 Flash 中并行执行。以下是一个今天就可以使用的文件分析提示:
你是一位专业分析师。我将给你一份文件,你的任务是:
1. 提取三个最重要的观点或数据
2. 对每一个,说明文件中是否有支持性证据
3. 找出文件留下的一个空白或未解答问题
4. 用不超过 150 字进行摘要
文件:[在此粘贴你的内容]
在 Gemini 3.5 Flash 和你目前的模型中分别执行这个相同的提示。观察输出质量、完整性和响应速度。这个对比给你的启示,将远超任何基准测试数字。
结语
Gemini 3.5 Flash 不是一个「值得持续关注」的模型,而是一个现在就应该开始使用的模型。速度优势是真实的,代理任务性能是真实的,实际含义也很直接:如果你的工作涉及多步骤工作流程、文件输入或任何需要规模化的内容,Gemini 3.5 Flash 应该立即进入你的工具箱。
知道在什么时候选用哪个模型,本身就是一种竞争力,而且这种能力会随时间静静复利增值。懂 AI,更懂你——UD 同行 28 年,让科技成为有温度的陪伴。
想了解你目前的 AI 技能水准,以及还有哪些潜力尚未发挥?AI IQ 测试只需 5 分钟,能清晰呈现你与理想状态的差距。UD 团队手把手带你完成每一步,从评估结果到针对性的能力提升。