
在 Google I/O 2026 5月19日,Google AI Studio 发布了官方开发者指南,针对 Gemini 3.5 Flash — 现已正式发布(GA)、稳定且可用于生产环境。这仍是你熟悉的 Flash 系列,但它在编程基准测试中已经超越了 3.1 Pro,运行速度比其他前沿模型快约 4 倍,并配备了全新的默认思考强度(thinking effort)。如果你正在 Antigravity 中构建任何智能体化(agentic)应用,你的默认设置可能从今天起就需要调整。
Gemini 3.5 Flash 开发者指南已上线
@GoogleAIStudio 发布的官方公告,包含了 Gemini 3.5 Flash GA 版本的完整开发者指南。在 I/O 2026 主旨演讲后的几小时内,已获得 2.8 万次观看和 487 次点赞。
Get the latest on AI, LLMs & developer tools
New MCP servers, model updates, and guides like this one — delivered weekly.
1. 官方公告
上方的推文是 Google AI Studio 发布 Gemini 3.5 Flash 开发者指南的官方链接。发布时间为 2026年5月19日,星期二就在 Sundar Pichai 走下 I/O 演讲台大约两分钟后。到当天结束时,它已被开发者收藏了 223 次 — 这种收藏与点赞的异常比例准确地告诉了你受众是谁。
Sundar's 同天早上的同步帖子明确了定位:“Gemini 3.5 Flash 今天已在 Antigravity 以及我们的产品和 API 中面向所有人开放。与 3.1 Pro 相比,3.5 Flash 在几乎所有基准测试中表现更好,在编程方面取得了巨大进步。” 这意味着 Google 公开表示其廉价、快速的 Flash 模型现在在大多数评估中击败了之前的旗舰 Pro 模型。这重新定位了整个 Gemini 阵容。
3.5 Flash 表现出众,独树一帜
Sundar 的主题演讲后推文:3.5 Flash 在几乎所有基准测试中都击败了 3.1 Pro,编程进步巨大,运行速度比其他前沿模型快 4 倍,并且在“智能 vs 速度”图表中独占右上角。
领导 Google AI Studio 的 Logan Kilpatrick 的措辞更加直接:“Gemini 3.5 Flash 是我们迄今为止最强大的模型。它突破了智能、速度和成本的前沿,使 3.5 Flash 独树一帜。” 请注意这个词 最强大。这意味着 Google 正在宣布其 Flash 模型现在是其旗舰产品。
3.5 Flash:迄今为止最强大的模型
Logan 明确称 3.5 Flash 为 Google 最强大的模型 —— 同时突破了智能、速度和成本的前沿。
2. TL;DR
- 模型 ID:
gemini-3.5-flash - 状态: 正式发布 (GA),生产环境稳定
- 上下文窗口: 1,000,000 input tokens
- 最大输出: 65,536 tokens
- Thinking (思维能力): 支持三种强度等级(low / medium / high)
- 新的默认 Effort:
中等(原为高在 3 Flash 中) - 速度: 每秒 Token 生成速度比其他前沿模型快约 4 倍
- 编程: 在几乎所有基准测试中均超越 Gemini 3.1 Pro
- 推荐 API: Interactions API(新的标准原语)
- 仍不支持: Computer Use
- 在 Antigravity 内部: 今日已在所有层级上线
两个月来,在 Antigravity 中,当你需要深度推理时,你会选择 Gemini 3.1 Pro;而当你需要速度或节省配额时,你会选择 Flash。3.5 Flash 在编程工作负载中打破了这种权衡。我们在 3.1 Pro 与 Opus 对比 中的许多启发式方法,现在需要将 Flash 放在中间列重新审视。
3. 3.5 Flash 有哪些新变化
开发者指南用通俗易懂的语言列出了这些变化。以下是它们对 Antigravity 用户的具体影响:
- 持续的尖端性能。 Google's 的定位是,这是其最智能的 Flash 模型,针对大规模的智能体和编程任务进行了优化。解读:长会话在超过 200k+ token 时不再崩溃。
- 智能体执行。 子智能体部署、问题解决以及大规模的快速智能体循环。解读:它能经受住 Antigravity's 的 编排模式 在该模式下,你可以生成子智能体进行规划、编码和审查(参见我们的 多智能体编排指南)。
- 编码循环。 迭代编码周期、快速探索、原型设计以测试替代路径并动态探索解决方案。解读:“尝试、失败、修复、重试”循环在每次尝试中消耗的上下文更少。
- 长程任务。 大规模的多步工作流和工具使用。解读:超过 30 次的工具调用链不再出现性能退化。
- 思维保留。 中间推理过程现在会自动在多轮对话中保持 — 无需更改 API。更多信息请参阅 第 12 节。
- 新的默认 effort。
medium替换了高作为默认思考等级。更多内容请参阅 第 5 节。 - 改进的低思考等级。 该
低层级现在针对代码和步骤较少的智能体任务进行了 “显著改进” — 在更低延迟和成本下提供卓越质量。更多内容请参阅 第 6 节。 - GA 版本发布。 稳定版。不再有 “预览版” SLA 的陷阱。现在已正式支持生产环境流量。
4. 模型规格与能力
上下文窗口: 1,000,000 input tokens
最大输出: 65,536 tokens
思考能力: 支持(低 / 中 / 高)
默认强度: 中
工具: 与 Gemini 3 Flash 相同
多模态: 支持文本 + 图像 + 音频 + 视频输入
Computer Use: (尚)不支持
价格: 请参阅官方定价页面
状态: 正式发布 (GA),稳定版
工具接口与 3 Flash 保持一致,因此您现有的任何 grounding-with-google-search、 code-execution、 url-context以及 function-calling 流水线无需修改即可继续工作。 如果您遇到了 1% Claude Opus 思考预算上限 在 Antigravity 中,3.5 Flash 的新 effort 等级为您在 Gemini 侧提供了处理深度推理工作负载的可靠替代方案。
5. 默认 Effort:high → medium
这是最可能让您感到意外的变化,也是更新日志中最容易被忽略的一项。在 3 Flash 中,当您在调用 API 时未设置 effort 级别,模型默认使用 high。在 3.5 Flash 中,未设置时的默认值现在是 medium。
对于大多数工作负载来说,这是一个无成本的提升 — 3.5 Flash 上的 medium effort 大致相当于 3 Flash 上的 high effort,且延迟和成本更低。但如果您之前依赖隐式的 high 为了在困难的长周期任务中获得可靠的智能体行为,你的流量可能已经悄无声息地降级了。这种模式类似于 模型静默降级 Antigravity 在配额压力下已经表现出的行为。有两种选择:
- 审计并显式设置。 在代码库中 Grep 那些省略了
thinking_config的调用,并根据每个调用点决定你想要medium(更便宜、更快、GA 认证)或者high(旧有的隐式行为)。 - 全局设置一次 high。 如果你有一个共享的客户端封装,请设置
effort: "high"作为那里的全局默认值,稍后再重新审视每个调用的覆盖设置。
6. 'low' 模式变得更智能了
另一个宣传不足的变化是 low 层级被重写了。Google 的表述是:“low 现在针对代码和步骤较少的智能体任务进行了显著改进,在降低延迟和成本的同时,提供了极高的质量。”
翻译:你以前必须发送到 medium 才能获得可用结果的工作负载,现在可以在 low上完成。对于 Antigravity 用户来说,这意味着许多以前在 medium 档位消耗额度的清理、重命名和小型重构工作,现在可以降级到 low。请在以下场景尝试:
- 跨少量文件的变量/文件重命名
- JSDoc / docstring 生成
- 单函数单元测试存根
- 代码格式化和 lint 规则应用
- 单步工具调用(读取文件、编辑文件、运行测试)
请参阅我们的 token 节省指南 以获取关于如何将任务路由至最经济且有效的配置的深入指南。
7. 迁移到 Interactions API
开发者指南建议你安装最新的 Google Gen AI SDK,并指出所有示例都使用了新的 Interactions API,它被定位为“使用 Gemini 构建应用的新标准原语,推荐用于所有新项目”。较旧的 GenerateContent API 仍受支持,且适用相同的配置选项。
实际上,如果你正在开发一个新的智能体,请使用 Interactions。如果你已有现成的 GenerateContent 流水线,目前无需重写 — 但 API 层面正针对智能体工作流、服务端状态管理以及复杂的多模态多轮对话进行优化。这正是 Antigravity 子智能体的形态。迁移将经得起时间的考验。
8. 快速入门代码
一个通过 Interactions API 调用 3.5 Flash 的最小 Python 示例:
有三点需要注意。首先,模型 ID 是 gemini-3.5-flash — 没有 -preview 或 -latest 后缀,因为它已进入 GA 阶段。其次,尽管 medium 是默认值,但这里显式设置了 effort;这可以在 Google 再次更改默认值时保护你的代码。第三,无需手动维护线程记录 — Interactions 会处理服务端状态。
9. 3.5 Flash 对比 3.1 Pro
Google 官方在 Sundar 的文章中给出的定义是:相比 3.1 Pro,3.5 Flash “在几乎所有基准测试中表现更好,且在编程方面取得了巨大进步”,并且在智能程度与输出速度的关系图中,它独占右上角象限。以下是来自 I/O 2026 主旨演讲幻灯片的原始图表:

| 维度 | Gemini 3.1 Pro | Gemini 3.5 Flash |
|---|---|---|
| 定位 | 前沿 Pro 级别 | 最智能的 Flash 模型 |
| 上下文窗口 | 1M 输入 | 1M 输入 |
| 最大输出 | 65k tokens | 65k tokens |
| 代码基准测试 | 表现强劲 | 更好 — Sundar 称其为 “巨大进步” |
| 输出速度 | Pro 级别的延迟 | 比同类前沿模型快约 4 倍 |
| 默认推理力度 | (单次调用) | 中等 (由高调整) |
| 思维保留 | 跨轮次受限 | 自动生效,无需更改 API |
| Computer Use | 已支持 | 尚未支持 |
Computer Use 方面的差距是你仍需在工具箱中保留 3.1 Pro 的唯一原因 — 对于任何需要驱动浏览器或操作 UI 的任务,目前的 Flash 并非最佳选择。而对于编码工作流中的其他所有环节,这款更便宜、更快速的 GA 模型现在拥有更高的基准测试分数。这非同寻常。
10. Antigravity 中的 3.5 Flash
Sundar 特别点名提到了这一点:“Gemini 3.5 Flash 即日起面向 Antigravity 用户以及我们所有的产品和 API 开放。” Logan Kilpatrick 随后公布了完整的发布名单:
在 Google 的各个产品界面中尝试
3.5 Flash 在发布首日便同步推送到 Gemini API、Google AI Studio、Antigravity、AI Mode、Gemini App 以及所有其他 Gemini 产品界面 — 无需排队。
它已在模型选择器中上线 (Settings → Models),适用于 Pro 和 Ultra 层级,自 2026 年 5 月 19 日的主旨演讲起生效。一些实用说明:
- 选择器可能会显示两个 Flash 条目 在发布窗口期 — 3 Flash 和 3.5 Flash。除非有特殊原因,否则请选择 3.5。如果你只看到一个,可能需要重启客户端。
- 算力层级控制(Effort tier controls)仍在原处 — 即 Settings → Models 下的 low/medium/high 选择器。默认值现已设为 medium。
- 大多数工作负载的额度消耗应该会下降 因为 medium 比 high 更便宜,而且许多以前需要 medium 的任务现在可以在 low 下运行。请通过以下方式跟踪你的使用情况: Cockpit 监控指南.
- 浏览器子智能体集成 适用于 3.5 Flash 的读取/分析任务,但完整的 Computer Use 控制仍需 3.1 Pro。
11. Spark、Antigravity 2.0 以及为什么 Flash 至关重要
3.5 Flash GA 的发布并非孤立。同在 I/O 大会上午发布的另外两项产品解释了为什么 Google 需要 Flash 兼具智能 与 快速。
- Antigravity 2.0 — 一款重构的独立桌面应用,具备多智能体团队、定时任务、原生语音以及与其它 Google 产品的一键集成功能。定时任务和多智能体团队意味着 Google 需要一个能够持续进行智能体工作且不会导致成本失控的模型。发布公告中包含了各层面的详细拆解。
- Antigravity CLI — 全新的基于 Go 的终端智能体,取代了 Gemini CLI 成为官方支持的终端界面。开箱即默认使用 3.5 Flash。如果你习惯在终端工作,这就是 3.5 Flash 专门优化的应用场景。
- Gemini Spark — Gemini 应用内置的 24/7 个人 AI 智能体,“基于 Antigravity 构建”,运行在 Google Cloud 的专用虚拟机上,并明确由 Gemini 3.5 驱动。Spark 是 3.5 Flash 必须在今天发布 GA 版的面向消费者的原因:每个 Spark 用户的后台任务都是一次 3.5 Flash 调用。
Antigravity 2.0 与 3.5 Flash 同步发布
@antigravity 官方发布的 2.0 独立桌面应用公告 —— 多智能体团队、定时任务、原生语音、一键 Google 集成。这是 3.5 Flash 专为驱动而构建的平台。
Logan 的结语抓住了核心主线:“模型即产品。” 3.5 Flash 并非一个独立的发布版本 — 它是 Google 所需的引擎,旨在让 Spark 成本更低、Antigravity 2.0 更具智能体特性、AI Mode 响应更快,并同时实现这一切。
综合这三项发布来看,3.5 Flash 是 Google 打算让所有长时运行的智能体循环 — Antigravity 子智能体、Spark 后台作业、定时任务 — 运行的主力模型。Pro 和 Ultra Pro 则保留给那些特别需要额外推理深度或 Computer Use 的场景。
12. 跨轮次的思维保留
最不显眼但却至关重要的能力变化是思维保留。根据指南:“模型会自动在多轮对话中保持中间推理过程。无需更改 API。”
在 3 Flash 中,每一轮对话都从全新的思考过程开始。如果第一轮已经仔细推理了你的数据模型并给出了答案,第二轮仍会从头开始重新推导所需的一切。而在 3.5 Flash 中,这些中间推理轨迹会在服务端保留。模型会从上次中断的地方继续。
对 Antigravity 工作流的影响:
- 长时间的规划会话不再会在第 8 轮对话时偏离主题。
- 子智能体之间的 “handoffs”(即一个智能体将任务移交给另一个)能保留更多原始的思维链。
- 你可以使用 “OK now do the same for the other module” 这样的提示词,并确实获得相同的方法,而不是重新推导出的并行尝试。
- 唯一的 缺点:第 1 轮的错误假设可能会影响后续第 2–N 轮。如果会话偏离了预期,请开启新聊天,而不是试图通过争论让智能体摆脱其保留的推理逻辑。
13. Flash 仍然无法做到的事情
开发者指南明确指出: 目前 3.5 Flash 尚不支持 Computer Use。除此之外,3 Flash 工具层面的其他所有功能均可使用。
如果你的智能体需要控制浏览器、填写表单、导航 UI,或者截取屏幕并点击 — 即 3.1 Pro 的 Computer Use 模式所处理的那类工作 — 你要么在路由逻辑中为这些调用保留 3.1 Pro,要么等待 3.5 Pro 或 3.5 级别的 Computer Use 发布。
在 Antigravity 子智能体中处理此问题的一种简洁方法是将 coder 和 planner 角色默认设置为 3.5 Flash,并仅将 browser-driver 角色路由到 3.1 Pro。browser-driver 调用通常只占会话中极小比例的 token,因此这能让你在处理大部分工作时享受 3.5 Flash 的成本优势,同时又不完全失去 Computer Use 功能。
14. 价格与配额影响
Google 在发布公告时并未发布新的价格表 — 指南链接到了现有的定价页面。Antigravity 中实际影响的方向源于以下三个事实:
- 默认 effort 下降了一个层级 (high → medium)。在相同的调用次数下,单次调用的成本更低。
- Low 变得更智能了。 更多以前需要 medium 的调用现在可以在 low 上运行。进一步节省了成本。
- Thought preservation 减少了重复思考。 第 N 轮对话不再需要为第 1 到 N-1 轮已经得出的结论付费。
总结:在 3.5 Flash 上进行的典型 Antigravity 会话所消耗的每周配额,应明显少于在 3 Flash 上进行的相同会话。如果你之前的用量已接近上限,那么这次发布实际上为你提供了更多余量。有关完整的配额机制,请参阅 积分与定价说明 以及 每周配额冷却机制。
15. 迁移清单
如果你拥有 Antigravity 工作流或直接集成了 Gemini API,请在本周按顺序执行以下操作:
- 将模型选择器切换至
gemini-3.5-flash作为你在 Antigravity 中的默认编程模型。如果没看到该选项,请重启客户端。 - 确定你的 effort 策略。 选择一个全局默认值(medium 或 high)并记录下来。在你的客户端封装器中显式设置它,以免未来的默认值更改让你措手不及。
- 尽可能降低一个模型层级。 尝试将清理、重命名、格式化以及 simple-tool-call 任务放在
低层级优先处理。 - 为 Computer Use 保留 3.1 Pro。 明确将任何驱动浏览器的子代理路由到 3.1 Pro;3.5 Flash 无法胜任。
- 更积极地开启新会话。 Thought preservation 使得陈旧假设的代价更高 — 偏见推理会在多轮对话中持续存在。
- 将新 Agent 迁移到 Interactions API。 暂时不要重写现有的 GenerateContent 代码。只需停止在旧 API 上添加新代码即可。
- 如果你正在使用 Gemini CLI,请规划你的 CLI 迁移。 Google 将于以下日期停止面向个人 Pro / Ultra / 免费 Code Assist 用户的 Gemini CLI 服务: 2026 年 6 月 18 日。Antigravity CLI 是替代方案,且默认使用 3.5 Flash。请参阅 Gemini CLI → Antigravity CLI 迁移指南 获取详细步骤。
- 重新建立基准测试。 任何假设 Pro > Flash 的内部评估套件都需要重新运行。排名已经改变。
16. 结论
Gemini 3.5 Flash 是第一个让 “使用 Flash” 不再是编程工作负载妥协方案的 Flash 版本。在 Google 选择在 I/O 舞台上展示的几乎每一个基准测试中,它都更快、更便宜、更智能,且已达到 GA 稳定版,并已集成到 Antigravity。在默认路由中保留 3.1 Pro 的唯一合理理由是 Computer Use;对于其他所有场景,3.5 Flash 都是更好的主力选择。
如果你今天只打算做一件事:打开 Antigravity,将默认模型切换为 Gemini 3.5 Flash,并重新运行昨天最难的编码任务。其优势非常明显。