
在 Google I/O 2026 5月19日,Google AI Studio 发布了官方开发者指南,针对 Gemini 3.5 Flash — 现已正式发布(GA)、稳定且可用于生产环境。这仍是你熟悉的 Flash 系列,但它在编程基准测试中已经超越了 3.1 Pro,运行速度比其他前沿模型快约 4 倍,并配备了全新的默认思考强度(thinking effort)。如果你正在 Antigravity 中构建任何智能体化(agentic)应用,你的默认设置可能从今天起就需要调整。
Gemini 3.5 Flash 开发者指南已上线
@GoogleAIStudio 发布的官方公告,包含了 Gemini 3.5 Flash GA 版本的完整开发者指南。在 I/O 2026 主旨演讲后的几小时内,已获得 2.8 万次观看和 487 次点赞。
Get the latest on AI, LLMs & developer tools
New MCP servers, model updates, and guides like this one — delivered weekly.
1. 官方公告
上方的推文是 Google AI Studio 发布 Gemini 3.5 Flash 开发者指南的官方链接。发布时间为 2026年5月19日,星期二就在 Sundar Pichai 走下 I/O 演讲台大约两分钟后。到当天结束时,它已被开发者收藏了 223 次 — 这种收藏与点赞的异常比例准确地告诉了你受众是谁。
Sundar's 同天早上的同步帖子明确了定位:“Gemini 3.5 Flash 今天已在 Antigravity 以及我们的产品和 API 中面向所有人开放。与 3.1 Pro 相比,3.5 Flash 在几乎所有基准测试中表现更好,在编程方面取得了巨大进步。” 这意味着 Google 公开表示其廉价、快速的 Flash 模型现在在大多数评估中击败了之前的旗舰 Pro 模型。这重新定位了整个 Gemini 阵容。
Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @antigravity and across our products and APIs. Compared to 3.1 Pro, 3.5 Flash is better across almost all benchmarks with huge progress in coding. It’s also
— @sundarpichai May 19, 2026
3.5 Flash 表现出众,独树一帜
Sundar 的主题演讲后推文:3.5 Flash 在几乎所有基准测试中都击败了 3.1 Pro,编程进步巨大,运行速度比其他前沿模型快 4 倍,并且在“智能 vs 速度”图表中独占右上角。
领导 Google AI Studio 的 Logan Kilpatrick 的措辞更加直接:“Gemini 3.5 Flash 是我们迄今为止最强大的模型。它突破了智能、速度和成本的前沿,使 3.5 Flash 独树一帜。” 请注意这个词 最强大。这意味着 Google 正在宣布其 Flash 模型现在是其旗舰产品。
Welcome to Gemini 3.5 Flash, our most powerful model to date. It pushes the frontier of intelligence, speed, and cost putting 3.5 Flash in a class of its own. We spent the last 6 months making sure Flash is great for real world use cases. It's available everywhere now!
— @OfficialLoganK May 19, 2026
3.5 Flash:迄今为止最强大的模型
Logan 明确称 3.5 Flash 为 Google 最强大的模型 —— 同时突破了智能、速度和成本的前沿。
2. TL;DR
- 模型 ID:
gemini-3.5-flash - 状态: 正式发布 (GA),生产环境稳定
- 上下文窗口: 1,000,000 input tokens
- 最大输出: 65,536 tokens
- Thinking (思维能力): 支持三种强度等级(low / medium / high)
- 新的默认 Effort:
中等(原为高在 3 Flash 中) - 速度: 每秒 Token 生成速度比其他前沿模型快约 4 倍
- 编程: 在几乎所有基准测试中均超越 Gemini 3.1 Pro
- 推荐 API: Interactions API(新的标准原语)
- 仍不支持: Computer Use
- 在 Antigravity 内部: 今日已在所有层级上线
两个月来,在 Antigravity 中,当你需要深度推理时,你会选择 Gemini 3.1 Pro;而当你需要速度或节省配额时,你会选择 Flash。3.5 Flash 在编程工作负载中打破了这种权衡。我们在 3.1 Pro 与 Opus 对比 中的许多启发式方法,现在需要将 Flash 放在中间列重新审视。
3. 3.5 Flash 有哪些新变化
开发者指南用通俗易懂的语言列出了这些变化。以下是它们对 Antigravity 用户的具体影响:
- 持续的尖端性能。 Google's 的定位是,这是其最智能的 Flash 模型,针对大规模的智能体和编程任务进行了优化。解读:长会话在超过 200k+ token 时不再崩溃。
- 智能体执行。 子智能体部署、问题解决以及大规模的快速智能体循环。解读:它能经受住 Antigravity's 的 编排模式 在该模式下,你可以生成子智能体进行规划、编码和审查(参见我们的 多智能体编排指南)。
- 编码循环。 迭代编码周期、快速探索、原型设计以测试替代路径并动态探索解决方案。解读:“尝试、失败、修复、重试”循环在每次尝试中消耗的上下文更少。
- 长程任务。 大规模的多步工作流和工具使用。解读:超过 30 次的工具调用链不再出现性能退化。
- 思维保留。 中间推理过程现在会自动在多轮对话中保持 — 无需更改 API。更多信息请参阅 第 12 节。
- 新的默认 effort。
medium替换了高作为默认思考等级。更多内容请参阅 第 5 节。 - 改进的低思考等级。 该
低层级现在针对代码和步骤较少的智能体任务进行了 “显著改进” — 在更低延迟和成本下提供卓越质量。更多内容请参阅 第 6 节。 - GA 版本发布。 稳定版。不再有 “预览版” SLA 的陷阱。现在已正式支持生产环境流量。
4. 模型规格与能力
上下文窗口: 1,000,000 input tokens
最大输出: 65,536 tokens
思考能力: 支持(低 / 中 / 高)
默认强度: 中
工具: 与 Gemini 3 Flash 相同
多模态: 支持文本 + 图像 + 音频 + 视频输入
Computer Use: (尚)不支持
价格: 请参阅官方定价页面
状态: 正式发布 (GA),稳定版
工具接口与 3 Flash 保持一致,因此您现有的任何 grounding-with-google-search、 code-execution、 url-context以及 function-calling 流水线无需修改即可继续工作。 如果您遇到了 1% Claude Opus 思考预算上限 在 Antigravity 中,3.5 Flash 的新 effort 等级为您在 Gemini 侧提供了处理深度推理工作负载的可靠替代方案。
5. 默认 Effort:high → medium
这是最可能让您感到意外的变化,也是更新日志中最容易被忽略的一项。在 3 Flash 中,当您在调用 API 时未设置 effort 级别,模型默认使用 high。在 3.5 Flash 中,未设置时的默认值现在是 medium。
对于大多数工作负载来说,这是一个无成本的提升 — 3.5 Flash 上的 medium effort 大致相当于 3 Flash 上的 high effort,且延迟和成本更低。但如果您之前依赖隐式的 high 为了在困难的长周期任务中获得可靠的智能体行为,你的流量可能已经悄无声息地降级了。这种模式类似于 模型静默降级 Antigravity 在配额压力下已经表现出的行为。有两种选择:
- 审计并显式设置。 在代码库中 Grep 那些省略了
thinking_config的调用,并根据每个调用点决定你想要medium(更便宜、更快、GA 认证)或者high(旧有的隐式行为)。 - 全局设置一次 high。 如果你有一个共享的客户端封装,请设置
effort: "high"作为那里的全局默认值,稍后再重新审视每个调用的覆盖设置。
6. 'low' 模式变得更智能了
另一个宣传不足的变化是 low 层级被重写了。Google 的表述是:“low 现在针对代码和步骤较少的智能体任务进行了显著改进,在降低延迟和成本的同时,提供了极高的质量。”
翻译:你以前必须发送到 medium 才能获得可用结果的工作负载,现在可以在 low上完成。对于 Antigravity 用户来说,这意味着许多以前在 medium 档位消耗额度的清理、重命名和小型重构工作,现在可以降级到 low。请在以下场景尝试:
- 跨少量文件的变量/文件重命名
- JSDoc / docstring 生成
- 单函数单元测试存根
- 代码格式化和 lint 规则应用
- 单步工具调用(读取文件、编辑文件、运行测试)
请参阅我们的 token 节省指南 以获取关于如何将任务路由至最经济且有效的配置的深入指南。
7. 迁移到 Interactions API
开发者指南建议你安装最新的 Google Gen AI SDK,并指出所有示例都使用了新的 Interactions API,它被定位为“使用 Gemini 构建应用的新标准原语,推荐用于所有新项目”。较旧的 GenerateContent API 仍受支持,且适用相同的配置选项。
实际上,如果你正在开发一个新的智能体,请使用 Interactions。如果你已有现成的 GenerateContent 流水线,目前无需重写 — 但 API 层面正针对智能体工作流、服务端状态管理以及复杂的多模态多轮对话进行优化。这正是 Antigravity 子智能体的形态。迁移将经得起时间的考验。
8. 快速入门代码
一个通过 Interactions API 调用 3.5 Flash 的最小 Python 示例:
有三点需要注意。首先,模型 ID 是 gemini-3.5-flash — 没有 -preview 或 -latest 后缀,因为它已进入 GA 阶段。其次,尽管 medium 是默认值,但这里显式设置了 effort;这可以在 Google 再次更改默认值时保护你的代码。第三,无需手动维护线程记录 — Interactions 会处理服务端状态。
9. 3.5 Flash 对比 3.1 Pro
Google 官方在 Sundar 的文章中给出的定义是:相比 3.1 Pro,3.5 Flash “在几乎所有基准测试中表现更好,且在编程方面取得了巨大进步”,并且在智能程度与输出速度的关系图中,它独占右上角象限。以下是来自 I/O 2026 主旨演讲幻灯片的原始图表:

| 维度 | Gemini 3.1 Pro | Gemini 3.5 Flash |
|---|---|---|
| 定位 | 前沿 Pro 级别 | 最智能的 Flash 模型 |
| 上下文窗口 | 1M 输入 | 1M 输入 |
| 最大输出 | 65k tokens | 65k tokens |
| 代码基准测试 | 表现强劲 | 更好 — Sundar 称其为 “巨大进步” |
| 输出速度 | Pro 级别的延迟 | 比同类前沿模型快约 4 倍 |
| 默认推理力度 | (单次调用) | 中等 (由高调整) |
| 思维保留 | 跨轮次受限 | 自动生效,无需更改 API |
| Computer Use | 已支持 | 尚未支持 |
Computer Use 方面的差距是你仍需在工具箱中保留 3.1 Pro 的唯一原因 — 对于任何需要驱动浏览器或操作 UI 的任务,目前的 Flash 并非最佳选择。而对于编码工作流中的其他所有环节,这款更便宜、更快速的 GA 模型现在拥有更高的基准测试分数。这非同寻常。
10. Antigravity 中的 3.5 Flash
Sundar 特别点名提到了这一点:“Gemini 3.5 Flash 即日起面向 Antigravity 用户以及我们所有的产品和 API 开放。” Logan Kilpatrick 随后公布了完整的发布名单:
Try it in the Gemini API, Google AI Studio, Antigravity, AI Mode, Gemini App, and wherever else you use Gemini!
— @OfficialLoganK May 19, 2026
在 Google 的各个产品界面中尝试
3.5 Flash 在发布首日便同步推送到 Gemini API、Google AI Studio、Antigravity、AI Mode、Gemini App 以及所有其他 Gemini 产品界面 — 无需排队。
它已在模型选择器中上线 (Settings → Models),适用于 Pro 和 Ultra 层级,自 2026 年 5 月 19 日的主旨演讲起生效。一些实用说明:
- 选择器可能会显示两个 Flash 条目 在发布窗口期 — 3 Flash 和 3.5 Flash。除非有特殊原因,否则请选择 3.5。如果你只看到一个,可能需要重启客户端。
- 算力层级控制(Effort tier controls)仍在原处 — 即 Settings → Models 下的 low/medium/high 选择器。默认值现已设为 medium。
- 大多数工作负载的额度消耗应该会下降 因为 medium 比 high 更便宜,而且许多以前需要 medium 的任务现在可以在 low 下运行。请通过以下方式跟踪你的使用情况: Cockpit 监控指南.
- 浏览器子智能体集成 适用于 3.5 Flash 的读取/分析任务,但完整的 Computer Use 控制仍需 3.1 Pro。
11. Spark、Antigravity 2.0 以及为什么 Flash 至关重要
3.5 Flash GA 的发布并非孤立。同在 I/O 大会上午发布的另外两项产品解释了为什么 Google 需要 Flash 兼具智能 与 快速。
- Antigravity 2.0 — 一款重构的独立桌面应用,具备多智能体团队、定时任务、原生语音以及与其它 Google 产品的一键集成功能。定时任务和多智能体团队意味着 Google 需要一个能够持续进行智能体工作且不会导致成本失控的模型。发布公告中包含了各层面的详细拆解。
- Antigravity CLI — 全新的基于 Go 的终端智能体,取代了 Gemini CLI 成为官方支持的终端界面。开箱即默认使用 3.5 Flash。如果你习惯在终端工作,这就是 3.5 Flash 专门优化的应用场景。
- Gemini Spark — Gemini 应用内置的 24/7 个人 AI 智能体,“基于 Antigravity 构建”,运行在 Google Cloud 的专用虚拟机上,并明确由 Gemini 3.5 驱动。Spark 是 3.5 Flash 必须在今天发布 GA 版的面向消费者的原因:每个 Spark 用户的后台任务都是一次 3.5 Flash 调用。
Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a truly agent-optimized experience. Rebuilt from the ground up with multi-agent teams, scheduled tasks, native voice and one-click integration with other Google
— @antigravity May 19, 2026
Antigravity 2.0 与 3.5 Flash 同步发布
@antigravity 官方发布的 2.0 独立桌面应用公告 —— 多智能体团队、定时任务、原生语音、一键 Google 集成。这是 3.5 Flash 专为驱动而构建的平台。
Logan 的结语抓住了核心主线:“模型即产品。” 3.5 Flash 并非一个独立的发布版本 — 它是 Google 所需的引擎,旨在让 Spark 成本更低、Antigravity 2.0 更具智能体特性、AI Mode 响应更快,并同时实现这一切。
综合这三项发布来看,3.5 Flash 是 Google 打算让所有长时运行的智能体循环 — Antigravity 子智能体、Spark 后台作业、定时任务 — 运行的主力模型。Pro 和 Ultra Pro 则保留给那些特别需要额外推理深度或 Computer Use 的场景。
12. 跨轮次的思维保留
最不显眼但却至关重要的能力变化是思维保留。根据指南:“模型会自动在多轮对话中保持中间推理过程。无需更改 API。”
在 3 Flash 中,每一轮对话都从全新的思考过程开始。如果第一轮已经仔细推理了你的数据模型并给出了答案,第二轮仍会从头开始重新推导所需的一切。而在 3.5 Flash 中,这些中间推理轨迹会在服务端保留。模型会从上次中断的地方继续。
对 Antigravity 工作流的影响:
- 长时间的规划会话不再会在第 8 轮对话时偏离主题。
- 子智能体之间的 “handoffs”(即一个智能体将任务移交给另一个)能保留更多原始的思维链。
- 你可以使用 “OK now do the same for the other module” 这样的提示词,并确实获得相同的方法,而不是重新推导出的并行尝试。
- 唯一的 缺点:第 1 轮的错误假设可能会影响后续第 2–N 轮。如果会话偏离了预期,请开启新聊天,而不是试图通过争论让智能体摆脱其保留的推理逻辑。
13. Flash 仍然无法做到的事情
开发者指南明确指出: 目前 3.5 Flash 尚不支持 Computer Use。除此之外,3 Flash 工具层面的其他所有功能均可使用。
如果你的智能体需要控制浏览器、填写表单、导航 UI,或者截取屏幕并点击 — 即 3.1 Pro 的 Computer Use 模式所处理的那类工作 — 你要么在路由逻辑中为这些调用保留 3.1 Pro,要么等待 3.5 Pro 或 3.5 级别的 Computer Use 发布。
在 Antigravity 子智能体中处理此问题的一种简洁方法是将 coder 和 planner 角色默认设置为 3.5 Flash,并仅将 browser-driver 角色路由到 3.1 Pro。browser-driver 调用通常只占会话中极小比例的 token,因此这能让你在处理大部分工作时享受 3.5 Flash 的成本优势,同时又不完全失去 Computer Use 功能。
14. 价格与配额影响
Google 在发布公告时并未发布新的价格表 — 指南链接到了现有的定价页面。Antigravity 中实际影响的方向源于以下三个事实:
- 默认 effort 下降了一个层级 (high → medium)。在相同的调用次数下,单次调用的成本更低。
- Low 变得更智能了。 更多以前需要 medium 的调用现在可以在 low 上运行。进一步节省了成本。
- Thought preservation 减少了重复思考。 第 N 轮对话不再需要为第 1 到 N-1 轮已经得出的结论付费。
总结:在 3.5 Flash 上进行的典型 Antigravity 会话所消耗的每周配额,应明显少于在 3 Flash 上进行的相同会话。如果你之前的用量已接近上限,那么这次发布实际上为你提供了更多余量。有关完整的配额机制,请参阅 积分与定价说明 以及 每周配额冷却机制。
15. 迁移清单
如果你拥有 Antigravity 工作流或直接集成了 Gemini API,请在本周按顺序执行以下操作:
- 将模型选择器切换至
gemini-3.5-flash作为你在 Antigravity 中的默认编程模型。如果没看到该选项,请重启客户端。 - 确定你的 effort 策略。 选择一个全局默认值(medium 或 high)并记录下来。在你的客户端封装器中显式设置它,以免未来的默认值更改让你措手不及。
- 尽可能降低一个模型层级。 尝试将清理、重命名、格式化以及 simple-tool-call 任务放在
低层级优先处理。 - 为 Computer Use 保留 3.1 Pro。 明确将任何驱动浏览器的子代理路由到 3.1 Pro;3.5 Flash 无法胜任。
- 更积极地开启新会话。 Thought preservation 使得陈旧假设的代价更高 — 偏见推理会在多轮对话中持续存在。
- 将新 Agent 迁移到 Interactions API。 暂时不要重写现有的 GenerateContent 代码。只需停止在旧 API 上添加新代码即可。
- 如果你正在使用 Gemini CLI,请规划你的 CLI 迁移。 Google 将于以下日期停止面向个人 Pro / Ultra / 免费 Code Assist 用户的 Gemini CLI 服务: 2026 年 6 月 18 日。Antigravity CLI 是替代方案,且默认使用 3.5 Flash。请参阅 Gemini CLI → Antigravity CLI 迁移指南 获取详细步骤。
- 重新建立基准测试。 任何假设 Pro > Flash 的内部评估套件都需要重新运行。排名已经改变。
16. 结论
Gemini 3.5 Flash 是第一个让 “使用 Flash” 不再是编程工作负载妥协方案的 Flash 版本。在 Google 选择在 I/O 舞台上展示的几乎每一个基准测试中,它都更快、更便宜、更智能,且已达到 GA 稳定版,并已集成到 Antigravity。在默认路由中保留 3.1 Pro 的唯一合理理由是 Computer Use;对于其他所有场景,3.5 Flash 都是更好的主力选择。
如果你今天只打算做一件事:打开 Antigravity,将默认模型切换为 Gemini 3.5 Flash,并重新运行昨天最难的编码任务。其优势非常明显。