
No Google I/O 2026 em 19 de maio, o Google AI Studio lançou o guia oficial do desenvolvedor para o Gemini 3.5 Flash — agora em disponibilidade geral, estável e pronto para produção. É a mesma família Flash que você já conhece, exceto que superou os números de benchmark do 3.1 Pro em codificação, roda cerca de 4x mais rápido que outros modelos de fronteira e vem com um novo esforço de pensamento padrão. Se você está construindo algo agêntico dentro do Antigravity, seus padrões provavelmente precisam mudar hoje.
O Guia do Desenvolvedor do Gemini 3.5 Flash está no ar
O anúncio oficial do @GoogleAIStudio que lança o guia completo do desenvolvedor para o Gemini 3.5 Flash GA. 28 mil visualizações, 487 curtidas em poucas horas após o keynote do I/O 2026.
Get the latest on AI, LLMs & developer tools
New MCP servers, model updates, and guides like this one — delivered weekly.
1. O Anúncio
O tweet acima é a referência canônica que o Google AI Studio usou para publicar o guia do desenvolvedor do Gemini 3.5 Flash. Ele foi publicado na terça-feira, 19 de maio de 2026aproximadamente dois minutos após Sundar Pichai sair do palco do I/O. Ao final do dia, ele havia sido salvo nos favoritos 223 vezes por desenvolvedores — uma proporção incomum de favoritos em relação a curtidas que diz exatamente quem era o público.
O post paralelo de Sundar na mesma manhã tornou o posicionamento explícito: “O Gemini 3.5 Flash está disponível hoje para todos no Antigravity e em nossos produtos e APIs. Comparado ao 3.1 Pro, o 3.5 Flash é melhor em quase todos os benchmarks, com um progresso enorme em programação.” Isso é o Google dizendo publicamente que seu modelo Flash, rápido e barato, agora supera seu modelo Pro topo de linha anterior na maioria das avaliações. Isso reposiciona toda a linha Gemini.
O 3.5 Flash está em um patamar à parte
A thread pós-keynote do Sundar: o 3.5 Flash supera o 3.1 Pro em quase todos os benchmarks com um progresso enorme em programação, roda 4x mais rápido que outros modelos de fronteira e se posiciona isolado no canto superior direito do gráfico de inteligência vs. velocidade.
Logan Kilpatrick, que lidera o Google AI Studio, tornou o enquadramento ainda mais enfático: “Gemini 3.5 Flash, nosso modelo mais poderoso até hoje. Ele expande a fronteira de inteligência, velocidade e custo, colocando o 3.5 Flash em uma categoria própria.” Note a palavra mais poderoso. Isso é o Google dizendo que seu modelo Flash é o seu novo carro-chefe agora.
3.5 Flash: o modelo mais poderoso até hoje
Logan chama explicitamente o 3.5 Flash de o modelo mais poderoso do Google — expandindo a fronteira de inteligência, velocidade e custo simultaneamente.
2. TL;DR
- ID do Modelo:
gemini-3.5-flash - Status: Disponibilidade Geral (GA), estável para produção
- Janela de contexto: 1.000.000 de tokens de entrada
- Saída máxima: 65.536 tokens
- Raciocínio (Thinking): suportado com três níveis de esforço (baixo / médio / alto)
- Novo esforço padrão:
médio(eraaltono 3 Flash) - Velocidade: ~4x mais rápido em tokens por segundo vs. outros modelos de fronteira
- Programação: supera o Gemini 3.1 Pro em quase todos os benchmarks
- API recomendada: Interactions API (nova primitiva padrão)
- Ainda não suportado: Computer Use
- Dentro do Antigravity: disponível hoje em todos os planos
Por dois meses, o Gemini 3.1 Pro foi o modelo ideal dentro do Antigravity quando você precisava de raciocínio profundo, e o Flash era a opção para velocidade ou alívio de cota. O 3.5 Flash elimina esse trade-off em fluxos de trabalho de coding. Muitas das heurísticas em nossa comparação entre 3.1 Pro vs Opus precisam ser relidas com o Flash na coluna do meio.
3. O que há de novo no 3.5 Flash
O guia do desenvolvedor lista as mudanças em linguagem simples. Aqui estão elas com as implicações para um usuário do Antigravity detalhadas:
- Desempenho de ponta sustentado. A perspectiva do Google's é que este é o seu modelo Flash mais inteligente, otimizado para tarefas agênticas e de codificação em escala. Leia-se: sessões longas param de se degradar após o token 200k+.
- Execução agêntica. Implantação de subagentes, resolução de problemas e loops agênticos rápidos em escala. Leia-se: ele sobrevive ao Antigravity's modo de orquestração onde você cria agentes filhos para planejamento, codificação e revisão (veja nosso guia de orquestração multiagente).
- Loops de codificação. Ciclos de codificação iterativos, exploração rápida, prototipagem para testar caminhos alternativos e explorar soluções dinamicamente. Leia-se: o loop “tentar, falhar, corrigir, tentar novamente” custa menos contexto por tentativa.
- Longo horizonte. Workflows de múltiplas etapas e uso de ferramentas em escala. Leia-se: cadeias de mais de 30 chamadas de ferramentas param de degradar.
- Preservação de pensamento. O raciocínio intermediário agora é mantido automaticamente em conversas de vários turnos — sem necessidade de alterações na API. Mais sobre isso na seção 12.
- Novo esforço padrão.
mediumsubstituialtocomo o nível de pensamento padrão. Mais sobre isso na seção 5. - Pensamento baixo aprimorado. O
nível baixoestá agora “significativamente melhorado” para código e tarefas de agentes que exigem menos etapas — alta qualidade com menor latência e custo. Mais na seção 6. - Lançamento GA. Estável. Sem mais pegadinhas de SLA de “preview”. O tráfego de produção é agora o caminho suportado.
4. Especificações e Capacidades do Modelo
Janela de contexto: 1.000.000 tokens de entrada
Saída máxima: 65.536 tokens
Pensamento: suportado (baixo / médio / alto)
Esforço padrão: médio
Ferramentas: as mesmas do Gemini 3 Flash
Multimodal: texto + imagem + áudio + vídeo de entrada
Computer Use: não suportado (ainda)
Preços: veja a página oficial de preços
Status: Disponibilidade Geral (GA), estável
A superfície de ferramentas permanece inalterada em relação ao 3 Flash, então qualquer uma das suas grounding-with-google-search, code-execution, url-context, e pipelines de function-calling continuam funcionando sem edições. limite de 1% de thinking-budget do Claude Opus no Antigravity, os novos níveis de esforço no 3.5 Flash oferecem uma alternativa viável do lado do Gemini para cargas de trabalho de raciocínio profundo.
5. Esforço Padrão: high → medium
Esta é a única mudança com maior probabilidade de surpreender você e a mais fácil de passar despercebida no changelog. No 3 Flash, quando você chamava a API sem definir um nível de esforço, o modelo usava por padrão high. No 3.5 Flash, o padrão não definido agora é medium.
Para a maioria das cargas de trabalho, isso é um ganho direto — o esforço medium no 3.5 Flash é aproximadamente equivalente ao esforço high no 3 Flash, com menor latência e custo. Mas se você estava dependendo do high para obter um comportamento de agente confiável em uma tarefa difícil de longo prazo, seu tráfego simplesmente degradou silenciosamente. O padrão é semelhante ao downgrade silencioso do modelo comportamento que o Antigravity já apresenta sob pressão de cota. Duas opções:
- Auditoria e definição explícita. Faça um grep no seu codebase por chamadas que omitem
thinking_confige decida por local de chamada se você desejamedium(mais barato, mais rápido, validado para GA) ouhigh(o antigo comportamento implícito). - Defina high uma vez, globalmente. Se você tiver um wrapper de cliente compartilhado, defina
effort: "high"como o padrão global e revise as sobrescritas por chamada mais tarde.
6. O modo 'low' ficou inteligente
A outra mudança pouco divulgada é que o low tier foi reescrito. A frase do Google: “low está agora significativamente melhorado para código e tarefas de agentes que exigem menos etapas, oferecendo alta qualidade com menor latência e custo.”
Tradução: cargas de trabalho que você anteriormente precisava enviar para médio para obter um resultado utilizável agora serão concluídas em baixo. Para usuários do Antigravity, isso significa que grande parte do trabalho de limpeza, renomeação e pequenas refatorações que consumia créditos em esforço médio pode passar para baixo. Experimente em:
- Renomeação de variáveis / arquivos em um pequeno conjunto de arquivos
- Geração de JSDoc / docstring
- Stubs de testes unitários de função única
- Formatação de código e aplicação de regras de lint
- Chamadas de ferramenta de etapa única (ler arquivo, editar arquivo, executar teste)
Veja nosso guia de economia de tokens para um guia mais detalhado sobre como rotear o trabalho para o esforço mais barato que ainda funcione.
7. Migrando para a Interactions API
O guia do desenvolvedor instrui a instalar o SDK mais recente do Google Gen AI e observa que todos os exemplos usam a nova Interactions API, apresentada como “a nova primitiva padrão para construir com Gemini, recomendada para todos os novos projetos.” A antiga GenerateContent API ainda é suportada e as mesmas opções de configuração se aplicam.
Practically, if you are starting a new agent, use Interactions. If you have an existing GenerateContent pipeline, you do not need to rewrite it today — but the API surface is being optimized around agentic workflows, server-side state management, and complex multi-modal multi-turn conversations. That is exactly the shape of an Antigravity sub-agent. Migration is going to age well.
8. Quickstart Code
A minimal Python call against 3.5 Flash via the Interactions API:
Three things to notice. First, the model ID is gemini-3.5-flash — no -preview or -latest suffix because GA. Second, the effort is set explicitly even though medium is the default; this protects you if Google ever changes the default again. Third, there is no manual thread bookkeeping — Interactions handles server-side state.
9. 3.5 Flash vs 3.1 Pro
Google's own framing in Sundar's post is that 3.5 Flash “is better across almost all benchmarks with huge progress in coding” relative to 3.1 Pro, and that on the intelligence-versus-output-speed plot it sits alone in the top-right quadrant. Here is that exact chart from the I/O 2026 keynote slide:

| Dimension | Gemini 3.1 Pro | Gemini 3.5 Flash |
|---|---|---|
| Posicionamento | Nível Frontier Pro | Modelo Flash mais inteligente |
| Janela de contexto | 1M de input | 1M de input |
| Output máximo | 65k tokens | 65k tokens |
| Benchmarks de codificação | Forte | Melhor — “progresso enorme” segundo Sundar |
| Velocidade de output | Latência de nível Pro | ~4x mais rápido que concorrentes de fronteira |
| Esforço padrão | (por chamada) | médio (alterado de alto) |
| Preservação de pensamento | Limitado entre turnos | Automático, sem alterações na API |
| Computer Use | Suportado | Ainda não |
A lacuna no Computer Use é o único motivo para você manter o 3.1 Pro na sua caixa de ferramentas — para qualquer coisa que precise controlar um navegador ou operar uma UI, o Flash não é a solução hoje. Para todo o resto em um fluxo de trabalho de codificação, o modelo GA, mais barato e rápido, é agora o modelo com as maiores pontuações de benchmark. Isso é incomum.
10. 3.5 Flash dentro do Antigravity
Sundar mencionou isso nominalmente: “O Gemini 3.5 Flash está disponível hoje para todos no Antigravity e em nossos produtos e APIs.” Logan Kilpatrick complementou com a lista completa de distribuição:
Experimente em todas as superfícies do Google
O 3.5 Flash foi lançado simultaneamente para a Gemini API, Google AI Studio, Antigravity, AI Mode, o Gemini App e todas as outras superfícies do Gemini no primeiro dia — sem lista de espera.
Já está disponível no seletor de modelos (Settings → Models) nos níveis Pro e Ultra a partir do keynote de 19 de maio de 2026. Algumas notas práticas:
- O seletor pode exibir duas entradas do Flash durante a janela de lançamento — 3 Flash e 3.5 Flash. Escolha o 3.5, a menos que tenha um motivo específico. Se vir apenas um, seu cliente provavelmente precisa ser reiniciado.
- Os controles de nível de esforço continuam no mesmo lugar — o seletor de três níveis low/medium/high em Settings → Models. O padrão agora é medium.
- O consumo de créditos deve diminuir para a maioria das cargas de trabalho porque o medium é mais barato que o high, e muitas tarefas que exigiam o medium agora podem rodar no low. Monitore seu uso com o guia de monitoramento do Cockpit.
- Integração de sub-agentes de navegador funciona no 3.5 Flash para tarefas de leitura / análise, mas o controle total de Computer Use ainda exige o 3.1 Pro.
11. Spark, Antigravity 2.0 e por que o Flash é importante
O anúncio de GA do 3.5 Flash não veio isolado. Outros dois lançamentos da mesma manhã do I/O explicam por que o Google precisava que o Flash fosse inteligente e rápido.
- Antigravity 2.0 — um app desktop standalone reconstruído com equipes multi-agentes, tarefas agendadas, voz nativa e integração em um clique com outros produtos Google. Tarefas agendadas e equipes multi-agentes significam que o Google queria um modelo capaz de sustentar trabalho agentic contínuo sem explodir os custos. O post de lançamento traz o detalhamento completo de cada interface.
- Antigravity CLI — o novo agente de terminal baseado em Go que substitui o Gemini CLI como a interface de terminal suportada. Vem com o 3.5 Flash por padrão out of the box. Se você vive no terminal, esta é a interface para a qual o 3.5 Flash foi ajustado.
- Gemini Spark — um agente de IA pessoal 24/7 dentro do app Gemini, “construído sobre o Antigravity”, rodando em VMs dedicadas no Google Cloud e explicitamente alimentado pelo Gemini 3.5. Spark é o motivo voltado ao consumidor pelo qual o 3.5 Flash tinha que ser lançado em GA hoje: cada tarefa de background de um usuário do Spark é uma chamada ao 3.5 Flash.
Antigravity 2.0 é lançado junto com o 3.5 Flash
O anúncio oficial da @antigravity sobre o app desktop standalone 2.0 — equipes multi-agentes, tarefas agendadas, voz nativa, integração Google em um clique. A plataforma que o 3.5 Flash foi construído para alimentar.
A conclusão de Logan capturou o fio condutor: “O modelo é o produto.” 3.5 Flash não é um lançamento isolado — é o motor que o Google precisa para que o Spark seja barato, o Antigravity 2.0 seja agentic e o AI Mode seja rápido, tudo ao mesmo tempo.
Lendo os três anúncios juntos, o 3.5 Flash é o modelo principal que o Google pretende que todo loop agentic de longa duração — sub-agentes Antigravity, jobs de background do Spark, tarefas agendadas — utilize. Pro e Ultra Pro continuam reservados para casos onde você precisa especificamente de profundidade extra de raciocínio ou Computer Use.
12. Preservação de Pensamento entre Turnos
A mudança de capacidade mais discretamente importante é a preservação de pensamento. De acordo com o guia: “O modelo mantém o raciocínio intermediário em conversas de múltiplos turnos automaticamente. Nenhuma alteração na API é necessária.”
No 3 Flash, cada turno começava com uma nova etapa de pensamento. Se o turno 1 tivesse raciocinado cuidadosamente sobre seu modelo de dados e produzido uma resposta, o turno 2 derivaria novamente tudo o que precisasse do zero. No 3.5 Flash, esses rastros de raciocínio intermediário são mantidos no lado do servidor. O modelo continua de onde parou.
Implicações para os workflows do Antigravity:
- Sessões longas de planejamento param de perder o fio da meada no oitavo turno.
- “Handoffs” de sub-agentes, onde um agente passa uma tarefa para outro, preservam melhor a cadeia de pensamento original.
- Você pode usar o prompt “OK, agora faça o mesmo para o outro módulo” e realmente obter a mesma abordagem, em vez de uma tentativa paralela derivada do zero.
- O ponto negativo: uma suposição errada no turno 1 pode contaminar os turnos 2–N. Se uma sessão sair do controle, inicie um novo chat em vez de tentar convencer o agente a abandonar seu raciocínio preservado.
13. O que o Flash ainda não consegue fazer
O guia do desenvolvedor é explícito: Computer Use não é suportado no 3.5 Flash neste momento. Todo o restante da superfície de ferramentas do 3 Flash está disponível.
Se o seu agente precisa controlar um navegador, preencher formulários, navegar em uma UI ou tirar screenshots e clicar nelas — o tipo de trabalho que o modo Computer Use do 3.1 Pro gerencia — você deve manter o 3.1 Pro na sua lógica de roteamento para essas chamadas ou esperar pelo lançamento do 3.5 Pro / um Computer Use de nível 3.5.
Uma maneira limpa de lidar com isso em sub-agentes do Antigravity é definir como padrão as coder e planner roles para o 3.5 Flash, e rotear apenas a browser-driver role para o 3.1 Pro. A chamada do browser-driver geralmente representa a menor fração de tokens em uma sessão, então isso oferece o perfil de custo do 3.5 Flash na maior parte do trabalho sem perder o Computer Use completamente.
14. Implicações de Preços e Cotas
A Google não publicou uma nova tabela de preços com o anúncio — o guia redireciona para a página de preços existente. As orientações de impacto prático no Antigravity decorrem de três fatos:
- O esforço padrão caiu um nível (high → medium). Com o mesmo número de chamadas, o custo por chamada é menor.
- O nível low ficou mais inteligente. Mais chamadas que antes exigiam medium agora podem rodar no low. Ainda mais economia.
- A preservação de pensamento reduz o raciocínio redundante. O turno N deixa de pagar pelo que os turnos 1..N-1 já processaram.
Saldo: sessões típicas do Antigravity no 3.5 Flash devem consumir visivelmente menos da sua cota semanal do que a mesma sessão consumiria no 3 Flash. Se você estava operando próximo ao limite, este anúncio efetivamente lhe dá mais margem. Para a mecânica completa de cotas, veja explicação de créditos e preços e tempos de recarga da cota semanal.
15. Checklist de Migração
Se você tem um workflow no Antigravity ou uma integração direta com a API do Gemini, siga estes passos em ordem esta semana:
- Altere o seletor de modelo para
gemini-3.5-flashcomo seu modelo de codificação padrão no Antigravity. Reinicie o cliente se não o visualizar. - Defina sua política de esforço (effort). Escolha um padrão global (medium ou high) e documente-o. Configure-o explicitamente no seu wrapper do cliente para que uma mudança futura no padrão não o surpreenda.
- Reduza um nível onde puder. Tente realizar tarefas de cleanup, rename, format e simple-tool-call em
baixoprimeiro. - Mantenha o 3.1 Pro para Computer Use. Direcione qualquer sub-agente de navegação no browser para o 3.1 Pro explicitamente; o 3.5 Flash não dará conta.
- Inicie novos chats com mais frequência. A preservação de pensamentos torna suposições obsoletas mais custosas — o raciocínio enviesado se propaga entre os turnos.
- Migre novos agentes para a Interactions API. Não reescreva o código GenerateContent existente ainda. Apenas pare de adicionar novo código na API antiga.
- Se você usa a Gemini CLI, planeje sua migração de CLI. O Google está descontinuando a Gemini CLI para usuários individuais Pro / Ultra / Code Assist gratuito em 18 de junho de 2026. A Antigravity CLI é a substituta e utiliza o 3.5 Flash por padrão. Veja o guia de migração Gemini CLI → Antigravity CLI para o passo a passo.
- Refaça o baseline dos seus benchmarks. Qualquer suíte de avaliação interna que assumia Pro > Flash precisa ser executada novamente. O ranking mudou.
16. Veredito
O Gemini 3.5 Flash é o primeiro lançamento Flash onde “usar o Flash” não é mais um compromisso para fluxos de trabalho de codificação. Ele é mais rápido, mais barato e mais inteligente em quase todos os benchmarks que o Google escolheu apresentar no palco do I/O, está em GA stable e já está integrado ao Antigravity. O único motivo legítimo para manter o 3.1 Pro no seu roteamento padrão é o Computer Use; para todo o resto, o 3.5 Flash é a melhor escolha para o dia a dia.
Se você fizer apenas uma coisa hoje: abra o Antigravity, mude seu modelo padrão para o Gemini 3.5 Flash e execute novamente a sessão de código mais difícil de ontem. O ganho é absurdamente óbvio.
Guias Relacionados
Outros lançamentos do I/O 2026
- → Lançamento do Antigravity 2.0: Tudo o que o Google entregou
- → Mergulho profundo no Antigravity CLI
- → Migração do Gemini CLI → Antigravity CLI (prazo final: 18 de junho)
Onde o 3.5 Flash se encaixa na stack
- → Gemini 3.1 Pro vs Claude Opus 4.6 no Antigravity
- → Orquestração Multi-Agente no Antigravity
- → Quando o Opus acabar: Workflow de Fallback
- → Correção: Thinking Budget do Claude limitado a 1%