模型发布Google I/O 2026

Gemini 3.5 Flash 开发者指南

Google AI Studio 刚刚在 I/O 2026 上正式发布了 3.5 Flash 的 GA 版本。以下是完整的开发者级深度解析:本周你的 Antigravity 工作流中哪些发生了变化、哪些已失效,以及哪些需要重写。

Gemini 3.5 Flash 的社论插图:层叠的发光几何形状,代表 Flash 模型在 1M token 上下文中进行思考,子智能体剪影分支延伸至并行编程任务中。

Google I/O 2026 5月19日,Google AI Studio 发布了官方开发者指南,针对 Gemini 3.5 Flash — 现已正式发布(GA)、稳定且可用于生产环境。这仍是你熟悉的 Flash 系列,但它在编程基准测试中已经超越了 3.1 Pro,运行速度比其他前沿模型快约 4 倍,并配备了全新的默认思考强度(thinking effort)。如果你正在 Antigravity 中构建任何智能体化(agentic)应用,你的默认设置可能从今天起就需要调整。

Google AI Studio · May 19, 2026

Gemini 3.5 Flash 开发者指南已上线

@GoogleAIStudio 发布的官方公告,包含了 Gemini 3.5 Flash GA 版本的完整开发者指南。在 I/O 2026 主旨演讲后的几小时内,已获得 2.8 万次观看和 487 次点赞。

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

1. 官方公告

上方的推文是 Google AI Studio 发布 Gemini 3.5 Flash 开发者指南的官方链接。发布时间为 2026年5月19日,星期二就在 Sundar Pichai 走下 I/O 演讲台大约两分钟后。到当天结束时,它已被开发者收藏了 223 次 — 这种收藏与点赞的异常比例准确地告诉了你受众是谁。

Sundar's 同天早上的同步帖子明确了定位:“Gemini 3.5 Flash 今天已在 Antigravity 以及我们的产品和 API 中面向所有人开放。与 3.1 Pro 相比,3.5 Flash 在几乎所有基准测试中表现更好,在编程方面取得了巨大进步。” 这意味着 Google 公开表示其廉价、快速的 Flash 模型现在在大多数评估中击败了之前的旗舰 Pro 模型。这重新定位了整个 Gemini 阵容。

Sundar Pichai · CEO, Google

3.5 Flash 表现出众,独树一帜

Sundar 的主题演讲后推文:3.5 Flash 在几乎所有基准测试中都击败了 3.1 Pro,编程进步巨大,运行速度比其他前沿模型快 4 倍,并且在“智能 vs 速度”图表中独占右上角。

领导 Google AI Studio 的 Logan Kilpatrick 的措辞更加直接:“Gemini 3.5 Flash 是我们迄今为止最强大的模型。它突破了智能、速度和成本的前沿,使 3.5 Flash 独树一帜。” 请注意这个词 最强大。这意味着 Google 正在宣布其 Flash 模型现在是其旗舰产品。

Logan Kilpatrick · Google AI Studio Lead

3.5 Flash:迄今为止最强大的模型

Logan 明确称 3.5 Flash 为 Google 最强大的模型 —— 同时突破了智能、速度和成本的前沿。

2. TL;DR

  • 模型 ID: gemini-3.5-flash
  • 状态: 正式发布 (GA),生产环境稳定
  • 上下文窗口: 1,000,000 input tokens
  • 最大输出: 65,536 tokens
  • Thinking (思维能力): 支持三种强度等级(low / medium / high)
  • 新的默认 Effort: 中等 (原为 在 3 Flash 中)
  • 速度: 每秒 Token 生成速度比其他前沿模型快约 4 倍
  • 编程: 在几乎所有基准测试中均超越 Gemini 3.1 Pro
  • 推荐 API: Interactions API(新的标准原语)
  • 仍不支持: Computer Use
  • 在 Antigravity 内部: 今日已在所有层级上线
为什么这很重要

两个月来,在 Antigravity 中,当你需要深度推理时,你会选择 Gemini 3.1 Pro;而当你需要速度或节省配额时,你会选择 Flash。3.5 Flash 在编程工作负载中打破了这种权衡。我们在 3.1 Pro 与 Opus 对比 中的许多启发式方法,现在需要将 Flash 放在中间列重新审视。

3. 3.5 Flash 有哪些新变化

开发者指南用通俗易懂的语言列出了这些变化。以下是它们对 Antigravity 用户的具体影响:

  • 持续的尖端性能。 Google's 的定位是,这是其最智能的 Flash 模型,针对大规模的智能体和编程任务进行了优化。解读:长会话在超过 200k+ token 时不再崩溃。
  • 智能体执行。 子智能体部署、问题解决以及大规模的快速智能体循环。解读:它能经受住 Antigravity's 的 编排模式 在该模式下,你可以生成子智能体进行规划、编码和审查(参见我们的 多智能体编排指南)。
  • 编码循环。 迭代编码周期、快速探索、原型设计以测试替代路径并动态探索解决方案。解读:“尝试、失败、修复、重试”循环在每次尝试中消耗的上下文更少。
  • 长程任务。 大规模的多步工作流和工具使用。解读:超过 30 次的工具调用链不再出现性能退化。
  • 思维保留。 中间推理过程现在会自动在多轮对话中保持 — 无需更改 API。更多信息请参阅 第 12 节
  • 新的默认 effort。 medium 替换了 作为默认思考等级。更多内容请参阅 第 5 节
  • 改进的低思考等级。 层级现在针对代码和步骤较少的智能体任务进行了 “显著改进” — 在更低延迟和成本下提供卓越质量。更多内容请参阅 第 6 节
  • GA 版本发布。 稳定版。不再有 “预览版” SLA 的陷阱。现在已正式支持生产环境流量。

4. 模型规格与能力

模型 ID:          gemini-3.5-flash
上下文窗口:   1,000,000 input tokens
最大输出:       65,536 tokens
思考能力:         支持(低 / 中 / 高)
默认强度:   中
工具:             与 Gemini 3 Flash 相同
多模态:       支持文本 + 图像 + 音频 + 视频输入
Computer Use:    (尚)不支持
价格:         请参阅官方定价页面
状态:           正式发布 (GA),稳定版

工具接口与 3 Flash 保持一致,因此您现有的任何 grounding-with-google-searchcode-execution url-context以及 function-calling 流水线无需修改即可继续工作。 如果您遇到了 1% Claude Opus 思考预算上限 在 Antigravity 中,3.5 Flash 的新 effort 等级为您在 Gemini 侧提供了处理深度推理工作负载的可靠替代方案。

5. 默认 Effort:high → medium

这是最可能让您感到意外的变化,也是更新日志中最容易被忽略的一项。在 3 Flash 中,当您在调用 API 时未设置 effort 级别,模型默认使用 high。在 3.5 Flash 中,未设置时的默认值现在是 medium

对于大多数工作负载来说,这是一个无成本的提升 — 3.5 Flash 上的 medium effort 大致相当于 3 Flash 上的 high effort,且延迟和成本更低。但如果您之前依赖隐式的 high 为了在困难的长周期任务中获得可靠的智能体行为,你的流量可能已经悄无声息地降级了。这种模式类似于 模型静默降级 Antigravity 在配额压力下已经表现出的行为。有两种选择:

  • 审计并显式设置。 在代码库中 Grep 那些省略了 thinking_config 的调用,并根据每个调用点决定你想要medium (更便宜、更快、GA 认证)或者 high (旧有的隐式行为)。
  • 全局设置一次 high。 如果你有一个共享的客户端封装,请设置 effort: "high" 作为那里的全局默认值,稍后再重新审视每个调用的覆盖设置。

6. 'low' 模式变得更智能了

另一个宣传不足的变化是 low 层级被重写了。Google 的表述是:“low 现在针对代码和步骤较少的智能体任务进行了显著改进,在降低延迟和成本的同时,提供了极高的质量。”

翻译:你以前必须发送到 medium 才能获得可用结果的工作负载,现在可以在 low上完成。对于 Antigravity 用户来说,这意味着许多以前在 medium 档位消耗额度的清理、重命名和小型重构工作,现在可以降级到 low。请在以下场景尝试:

  • 跨少量文件的变量/文件重命名
  • JSDoc / docstring 生成
  • 单函数单元测试存根
  • 代码格式化和 lint 规则应用
  • 单步工具调用(读取文件、编辑文件、运行测试)

请参阅我们的 token 节省指南 以获取关于如何将任务路由至最经济且有效的配置的深入指南。

7. 迁移到 Interactions API

开发者指南建议你安装最新的 Google Gen AI SDK,并指出所有示例都使用了新的 Interactions API,它被定位为“使用 Gemini 构建应用的新标准原语,推荐用于所有新项目”。较旧的 GenerateContent API 仍受支持,且适用相同的配置选项。

实际上,如果你正在开发一个新的智能体,请使用 Interactions。如果你已有现成的 GenerateContent 流水线,目前无需重写 — 但 API 层面正针对智能体工作流、服务端状态管理以及复杂的多模态多轮对话进行优化。这正是 Antigravity 子智能体的形态。迁移将经得起时间的考验。

8. 快速入门代码

一个通过 Interactions API 调用 3.5 Flash 的最小 Python 示例:

from google import genai client = genai.Client(api_key="...") interaction = client.interactions.create( model="gemini-3.5-flash", instructions="You are a careful coding assistant.", input="Refactor this function to async/await...", thinking_config={"effort": "medium"}, # explicit default ) print(interaction.output_text)

有三点需要注意。首先,模型 ID 是 gemini-3.5-flash — 没有 -preview-latest 后缀,因为它已进入 GA 阶段。其次,尽管 medium 是默认值,但这里显式设置了 effort;这可以在 Google 再次更改默认值时保护你的代码。第三,无需手动维护线程记录 — Interactions 会处理服务端状态。

9. 3.5 Flash 对比 3.1 Pro

Google 官方在 Sundar 的文章中给出的定义是:相比 3.1 Pro,3.5 Flash “在几乎所有基准测试中表现更好,且在编程方面取得了巨大进步”,并且在智能程度与输出速度的关系图中,它独占右上角象限。以下是来自 I/O 2026 主旨演讲幻灯片的原始图表:

Sundar Pichai 在 Google I/O 2026 演讲台上展示 Gemini 3.5 Flash 的智能程度与输出速度基准测试图表。3.5 Flash 独占右上角象限,与一众竞争对手的前沿模型拉开了距离。
摘自 Sundar Pichai 的 I/O 2026 主旨演讲:智能程度 vs. 输出速度。3.5 Flash 独占右上角象限。 来源
维度Gemini 3.1 ProGemini 3.5 Flash
定位前沿 Pro 级别最智能的 Flash 模型
上下文窗口1M 输入1M 输入
最大输出65k tokens65k tokens
代码基准测试表现强劲更好 — Sundar 称其为 “巨大进步”
输出速度Pro 级别的延迟比同类前沿模型快约 4 倍
默认推理力度(单次调用)中等 (由高调整)
思维保留跨轮次受限自动生效,无需更改 API
Computer Use已支持尚未支持

Computer Use 方面的差距是你仍需在工具箱中保留 3.1 Pro 的唯一原因 — 对于任何需要驱动浏览器或操作 UI 的任务,目前的 Flash 并非最佳选择。而对于编码工作流中的其他所有环节,这款更便宜、更快速的 GA 模型现在拥有更高的基准测试分数。这非同寻常。

10. Antigravity 中的 3.5 Flash

Sundar 特别点名提到了这一点:“Gemini 3.5 Flash 即日起面向 Antigravity 用户以及我们所有的产品和 API 开放。” Logan Kilpatrick 随后公布了完整的发布名单:

Logan Kilpatrick · Google AI Studio Lead

在 Google 的各个产品界面中尝试

3.5 Flash 在发布首日便同步推送到 Gemini API、Google AI Studio、Antigravity、AI Mode、Gemini App 以及所有其他 Gemini 产品界面 — 无需排队。

它已在模型选择器中上线 (Settings → Models),适用于 Pro 和 Ultra 层级,自 2026 年 5 月 19 日的主旨演讲起生效。一些实用说明:

  • 选择器可能会显示两个 Flash 条目 在发布窗口期 — 3 Flash 和 3.5 Flash。除非有特殊原因,否则请选择 3.5。如果你只看到一个,可能需要重启客户端。
  • 算力层级控制(Effort tier controls)仍在原处 — 即 Settings → Models 下的 low/medium/high 选择器。默认值现已设为 medium。
  • 大多数工作负载的额度消耗应该会下降 因为 medium 比 high 更便宜,而且许多以前需要 medium 的任务现在可以在 low 下运行。请通过以下方式跟踪你的使用情况: Cockpit 监控指南.
  • 浏览器子智能体集成 适用于 3.5 Flash 的读取/分析任务,但完整的 Computer Use 控制仍需 3.1 Pro。

11. Spark、Antigravity 2.0 以及为什么 Flash 至关重要

3.5 Flash GA 的发布并非孤立。同在 I/O 大会上午发布的另外两项产品解释了为什么 Google 需要 Flash 兼具智能 快速。

  • Antigravity 2.0 — 一款重构的独立桌面应用,具备多智能体团队、定时任务、原生语音以及与其它 Google 产品的一键集成功能。定时任务和多智能体团队意味着 Google 需要一个能够持续进行智能体工作且不会导致成本失控的模型。发布公告中包含了各层面的详细拆解。
  • Antigravity CLI — 全新的基于 Go 的终端智能体,取代了 Gemini CLI 成为官方支持的终端界面。开箱即默认使用 3.5 Flash。如果你习惯在终端工作,这就是 3.5 Flash 专门优化的应用场景。
  • Gemini Spark — Gemini 应用内置的 24/7 个人 AI 智能体,“基于 Antigravity 构建”,运行在 Google Cloud 的专用虚拟机上,并明确由 Gemini 3.5 驱动。Spark 是 3.5 Flash 必须在今天发布 GA 版的面向消费者的原因:每个 Spark 用户的后台任务都是一次 3.5 Flash 调用。
Google Antigravity · May 19, 2026

Antigravity 2.0 与 3.5 Flash 同步发布

@antigravity 官方发布的 2.0 独立桌面应用公告 —— 多智能体团队、定时任务、原生语音、一键 Google 集成。这是 3.5 Flash 专为驱动而构建的平台。

Logan 的结语抓住了核心主线:“模型即产品。” 3.5 Flash 并非一个独立的发布版本 — 它是 Google 所需的引擎,旨在让 Spark 成本更低、Antigravity 2.0 更具智能体特性、AI Mode 响应更快,并同时实现这一切。

综合这三项发布来看,3.5 Flash 是 Google 打算让所有长时运行的智能体循环 — Antigravity 子智能体、Spark 后台作业、定时任务 — 运行的主力模型。Pro 和 Ultra Pro 则保留给那些特别需要额外推理深度或 Computer Use 的场景。

12. 跨轮次的思维保留

最不显眼但却至关重要的能力变化是思维保留。根据指南:“模型会自动在多轮对话中保持中间推理过程。无需更改 API。”

在 3 Flash 中,每一轮对话都从全新的思考过程开始。如果第一轮已经仔细推理了你的数据模型并给出了答案,第二轮仍会从头开始重新推导所需的一切。而在 3.5 Flash 中,这些中间推理轨迹会在服务端保留。模型会从上次中断的地方继续。

对 Antigravity 工作流的影响:

  • 长时间的规划会话不再会在第 8 轮对话时偏离主题。
  • 子智能体之间的 “handoffs”(即一个智能体将任务移交给另一个)能保留更多原始的思维链。
  • 你可以使用 “OK now do the same for the other module” 这样的提示词,并确实获得相同的方法,而不是重新推导出的并行尝试。
  • 唯一的 缺点:第 1 轮的错误假设可能会影响后续第 2–N 轮。如果会话偏离了预期,请开启新聊天,而不是试图通过争论让智能体摆脱其保留的推理逻辑。

13. Flash 仍然无法做到的事情

开发者指南明确指出: 目前 3.5 Flash 尚不支持 Computer Use。除此之外,3 Flash 工具层面的其他所有功能均可使用。

如果你的智能体需要控制浏览器、填写表单、导航 UI,或者截取屏幕并点击 — 即 3.1 Pro 的 Computer Use 模式所处理的那类工作 — 你要么在路由逻辑中为这些调用保留 3.1 Pro,要么等待 3.5 Pro 或 3.5 级别的 Computer Use 发布。

路由模式

在 Antigravity 子智能体中处理此问题的一种简洁方法是将 coderplanner 角色默认设置为 3.5 Flash,并仅将 browser-driver 角色路由到 3.1 Pro。browser-driver 调用通常只占会话中极小比例的 token,因此这能让你在处理大部分工作时享受 3.5 Flash 的成本优势,同时又不完全失去 Computer Use 功能。

14. 价格与配额影响

Google 在发布公告时并未发布新的价格表 — 指南链接到了现有的定价页面。Antigravity 中实际影响的方向源于以下三个事实:

  • 默认 effort 下降了一个层级 (high → medium)。在相同的调用次数下,单次调用的成本更低。
  • Low 变得更智能了。 更多以前需要 medium 的调用现在可以在 low 上运行。进一步节省了成本。
  • Thought preservation 减少了重复思考。 第 N 轮对话不再需要为第 1 到 N-1 轮已经得出的结论付费。

总结:在 3.5 Flash 上进行的典型 Antigravity 会话所消耗的每周配额,应明显少于在 3 Flash 上进行的相同会话。如果你之前的用量已接近上限,那么这次发布实际上为你提供了更多余量。有关完整的配额机制,请参阅 积分与定价说明 以及 每周配额冷却机制

15. 迁移清单

如果你拥有 Antigravity 工作流或直接集成了 Gemini API,请在本周按顺序执行以下操作:

  1. 将模型选择器切换至 gemini-3.5-flash 作为你在 Antigravity 中的默认编程模型。如果没看到该选项,请重启客户端。
  2. 确定你的 effort 策略。 选择一个全局默认值(medium 或 high)并记录下来。在你的客户端封装器中显式设置它,以免未来的默认值更改让你措手不及。
  3. 尽可能降低一个模型层级。 尝试将清理、重命名、格式化以及 simple-tool-call 任务放在 低层级 优先处理。
  4. 为 Computer Use 保留 3.1 Pro。 明确将任何驱动浏览器的子代理路由到 3.1 Pro;3.5 Flash 无法胜任。
  5. 更积极地开启新会话。 Thought preservation 使得陈旧假设的代价更高 — 偏见推理会在多轮对话中持续存在。
  6. 将新 Agent 迁移到 Interactions API。 暂时不要重写现有的 GenerateContent 代码。只需停止在旧 API 上添加新代码即可。
  7. 如果你正在使用 Gemini CLI,请规划你的 CLI 迁移。 Google 将于以下日期停止面向个人 Pro / Ultra / 免费 Code Assist 用户的 Gemini CLI 服务: 2026 年 6 月 18 日。Antigravity CLI 是替代方案,且默认使用 3.5 Flash。请参阅 Gemini CLI → Antigravity CLI 迁移指南 获取详细步骤。
  8. 重新建立基准测试。 任何假设 Pro > Flash 的内部评估套件都需要重新运行。排名已经改变。

16. 结论

Gemini 3.5 Flash 是第一个让 “使用 Flash” 不再是编程工作负载妥协方案的 Flash 版本。在 Google 选择在 I/O 舞台上展示的几乎每一个基准测试中,它都更快、更便宜、更智能,且已达到 GA 稳定版,并已集成到 Antigravity。在默认路由中保留 3.1 Pro 的唯一合理理由是 Computer Use;对于其他所有场景,3.5 Flash 都是更好的主力选择。

如果你今天只打算做一件事:打开 Antigravity,将默认模型切换为 Gemini 3.5 Flash,并重新运行昨天最难的编码任务。其优势非常明显。


Get the Ultimate Antigravity Cheat Sheet

Join 5,000+ developers and get our exclusive PDF guide to mastering Gemini 3 shortcuts and agent workflows.

    We respect your privacy. Unsubscribe at any time.

    Sponsored AI assistant. Recommendations may be paid.