Guía para desarrolladores de Gemini 3.5 Flash: GA, contexto de 1M, nuevos valores predeterminados (mayo de 2026)

Ilustración editorial de Gemini 3.5 Flash: formas geométricas brillantes en capas que representan a un modelo Flash pensando a través de un contexto de 1M de tokens, con siluetas de sub-agentes ramificándose en tareas de programación paralelas.

En el Google I/O 2026 el 19 de mayo, Google AI Studio lanzó la guía oficial para desarrolladores de Gemini 3.5 Flash — ahora disponible para el público general (GA), estable y listo para producción. Es la misma familia Flash que ya conoces, excepto que ha superado los benchmarks de programación de 3.1 Pro, se ejecuta aproximadamente 4 veces más rápido que otros modelos de frontera e incluye un nuevo nivel de esfuerzo de pensamiento predeterminado. Si estás construyendo algo basado en agentes dentro de Antigravity, es probable que tus valores predeterminados deban cambiar hoy mismo.

View tweet on X

Google AI Studio · May 19, 2026

La guía para desarrolladores de Gemini 3.5 Flash ya está disponible

El anuncio oficial de @GoogleAIStudio que presenta la guía completa para desarrolladores de Gemini 3.5 Flash GA. 28 mil visualizaciones, 487 me gusta a pocas horas del keynote del I/O 2026.

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

1. El anuncio

El tweet de arriba es el enlace canónico que Google AI Studio utilizó para publicar la guía para desarrolladores de Gemini 3.5 Flash. Se publicó el martes, 19 de mayo de 2026aproximadamente dos minutos después de que Sundar Pichai bajara del escenario del I/O. Al final del día, había sido guardado en marcadores 223 veces por desarrolladores — una proporción inusual de marcadores frente a likes que te dice exactamente quién era la audiencia.

El post paralelo de Sundar's de esa misma mañana hizo que el posicionamiento fuera explícito: “Gemini 3.5 Flash está disponible hoy para todos en Antigravity y en todos nuestros productos y APIs. En comparación con 3.1 Pro, 3.5 Flash es mejor en casi todos los benchmarks con un progreso enorme en programación.” Eso es Google diciendo públicamente que su modelo Flash, rápido y económico, ahora supera a su anterior modelo insignia Pro en la mayoría de las evaluaciones. Eso reposiciona toda la línea Gemini.

Just off stage at #GoogleIO, some highlights from this morning 🧵 Gemini 3.5 Flash is available today for everyone in @antigravity and across our products and APIs. Compared to 3.1 Pro, 3.5 Flash is better across almost all benchmarks with huge progress in coding. It’s also
— @sundarpichai May 19, 2026

Sundar Pichai · CEO, Google

3.5 Flash juega en su propia liga

El hilo de Sundar tras la keynote: 3.5 Flash supera a 3.1 Pro en casi todos los benchmarks con un progreso enorme en programación, se ejecuta 4 veces más rápido que otros modelos de frontera y se sitúa solo en la parte superior derecha del gráfico de inteligencia vs. velocidad.

Logan Kilpatrick, quien lidera Google AI Studio, hizo que el enfoque fuera aún más contundente: “Gemini 3.5 Flash, nuestro modelo más potente hasta la fecha. Empuja la frontera de la inteligencia, la velocidad y el coste, situando a 3.5 Flash en una categoría propia.” Fíjate en la palabra más potente. Eso es Google diciendo que su modelo Flash es ahora su buque insignia.

Welcome to Gemini 3.5 Flash, our most powerful model to date. It pushes the frontier of intelligence, speed, and cost putting 3.5 Flash in a class of its own. We spent the last 6 months making sure Flash is great for real world use cases. It's available everywhere now!
— @OfficialLoganK May 19, 2026

Logan Kilpatrick · Google AI Studio Lead

3.5 Flash: el modelo más potente hasta la fecha

Logan llama explícitamente a 3.5 Flash el modelo más potente de Google — empujando la frontera de la inteligencia, la velocidad y el coste simultáneamente.

2. TL;DR

ID del modelo: gemini-3.5-flash
Status: Disponibilidad general (GA), estable para producción
Ventana de contexto: 1.000.000 tokens de entrada
Salida máxima: 65.536 tokens
Razonamiento: soportado con tres niveles de esfuerzo (bajo / medio / alto)
Nuevo esfuerzo predeterminado: medio (antes alto en 3 Flash)
Velocidad: ~4 veces más rápido en tokens por segundo frente a otros modelos de frontera
Programación: supera a Gemini 3.1 Pro en casi todos los benchmarks
API recomendada: Interactions API (nueva primitiva estándar)
Aún no compatible: Computer Use
Dentro de Antigravity: disponible hoy en todos los niveles

Por qué esto es importante

Durante dos meses, Gemini 3.1 Pro fue el modelo al que recurrías dentro de Antigravity cuando necesitabas un razonamiento profundo, y Flash era el modelo al que recurrías cuando necesitabas velocidad o alivio de cuota. 3.5 Flash elimina esa disyuntiva en cargas de trabajo de programación. Muchas de las heurísticas en nuestra comparativa de 3.1 Pro vs Opus deben ser revisadas con Flash en la columna central.

3. Novedades en 3.5 Flash

La guía para desarrolladores resume los cambios en lenguaje sencillo. Aquí los presentamos con las implicaciones para un usuario de Antigravity detalladas:

Rendimiento de vanguardia sostenido. El planteamiento de Google es que este es su modelo Flash más inteligente, optimizado para tareas de codificación y agentes a escala. Traducción: las sesiones largas dejan de degradarse a partir del token 200k+.
Ejecución de agentes. Despliegue de sub-agentes, resolución de problemas y bucles de agentes rápidos a escala. Traducción: sobrevive al de Antigravity modo de orquestación donde generas agentes hijos para planificación, codificación y revisión (consulta nuestra guía de orquestación multi-agente).
Bucles de codificación. Ciclos de codificación iterativos, exploración rápida y prototipado para probar rutas alternativas y explorar soluciones dinámicamente. Traducción: el bucle “intentar, fallar, corregir, reintentar” consume menos contexto por intento.
Horizonte largo. Flujos de trabajo de múltiples pasos y uso de herramientas a escala. Traducción: las cadenas de más de 30 llamadas a herramientas dejan de degradarse.
Preservación del pensamiento. El razonamiento intermedio ahora se mantiene automáticamente en conversaciones de varios turnos — sin necesidad de cambios en la API. Más sobre esto en la sección 12.
Nuevo esfuerzo predeterminado. medium reemplaza high as the default thinking level. More on this in section 5.
Improved low thinking. The low tier is now “significantly improved” for code and agentic tasks that require fewer steps — strong quality at lower latency and cost. More in section 6.
GA release. Stable. No more “preview” SLA gotchas. Production traffic is the supported path now.

4. Model Specs & Capabilities

Model ID:          gemini-3.5-flash
Context window:   1,000,000 input tokens
Max output:       65,536 tokens
Thinking:         supported (low / medium / high)
Default effort:   medium
Tools:             same as Gemini 3 Flash
Multimodal:       text + image + audio + video in
Uso de computadora:    no soportado (aún)
Precios:         ver página oficial de precios
Estado:           Disponibilidad general (GA), estable

La superficie de herramientas no ha cambiado respecto a 3 Flash, por lo que cualquiera de sus grounding-with-google-search, code-execution, url-context, y los pipelines de function-calling siguen funcionando sin cambios. Si te estabas encontrando con el límite del 1% del thinking-budget de Claude Opus en Antigravity, los nuevos niveles de esfuerzo en 3.5 Flash te ofrecen una alternativa creíble en el lado de Gemini para cargas de trabajo de razonamiento profundo.

5. Esfuerzo predeterminado: high → medium

Este es el cambio que más probablemente te sorprenda y el más fácil de pasar por alto en el changelog. En 3 Flash, cuando llamabas a la API sin establecer un nivel de esfuerzo, el modelo usaba por defecto high. En 3.5 Flash, el valor predeterminado no establecido es ahora medium.

Para la mayoría de las cargas de trabajo, esto es una victoria directa — el esfuerzo medium en 3.5 Flash es aproximadamente equivalente al esfuerzo high en 3 Flash, con menor latencia y costo. Pero si dependías del valor implícito high para obtener un comportamiento de agente confiable en una tarea compleja de largo plazo, tu tráfico simplemente se degradó de forma silenciosa. El patrón es similar al degradación silenciosa del modelo comportamiento que Antigravity ya muestra bajo presión de cuota. Dos opciones:

Auditar y establecer explícitamente. Haz un grep en tu código base para buscar llamadas que omitan thinking_config y decide por cada punto de llamada si deseasmedium (más económico, más rápido, aprobado para GA) o high (el antiguo comportamiento implícito).
Establece high una vez, de forma global. Si tienes un wrapper de cliente compartido, establece effort: "high" como el valor predeterminado global allí y revisa las sobreescrituras por llamada más tarde.

6. El modo 'low' se volvió inteligente

El otro cambio poco promocionado es que el low nivel fue reescrito. La frase de Google: “low ahora ha mejorado significativamente para código y tareas agénticas que requieren menos pasos, ofreciendo una gran calidad con menor latencia y costo.”

Traducción: las cargas de trabajo que antes tenías que enviar a medio para obtener un resultado utilizable ahora terminarán en bajo. Para los usuarios de Antigravity, esto significa que gran parte del trabajo de limpieza, renombrado y pequeñas refactorizaciones que consumía créditos en esfuerzo medio ahora puede pasar a bajo. Pruébalo en:

Renombrado de variables / archivos en un conjunto pequeño de archivos
Generación de JSDoc / docstring
Stubs de pruebas unitarias para una sola función
Formateo de código y aplicación de reglas de lint
Llamadas a herramientas de un solo paso (leer archivo, editar archivo, ejecutar prueba)

Consulta nuestra guía de ahorro de tokens para obtener un manual más detallado sobre cómo dirigir el trabajo al esfuerzo más económico que siga funcionando.

7. Migración a la Interactions API

La guía para desarrolladores te indica que instales el último Google Gen AI SDK y señala que todos los ejemplos utilizan la nueva Interactions API, presentada como “la nueva primitiva estándar para construir con Gemini, recomendada para todos los proyectos nuevos.” La versión anterior de la GenerateContent API sigue siendo compatible y se aplican las mismas opciones de configuración.

En la práctica, si estás comenzando un nuevo agente, usa Interactions. Si tienes un pipeline de GenerateContent existente, no necesitas reescribirlo hoy — pero la superficie de la API se está optimizando para flujos de trabajo agénticos, gestión de estado en el servidor y conversaciones multimodales complejas de varios turnos. Esa es exactamente la forma de un sub-agente de Antigravity. La migración envejecerá bien.

8. Código de inicio rápido

Una llamada mínima en Python a 3.5 Flash a través de la API de Interactions:

from google import genai

client = genai.Client(api_key="...")

interaction = client.interactions.create(
    model="gemini-3.5-flash",
    instructions="You are a careful coding assistant.",
    input="Refactor this function to async/await...",
    thinking_config={"effort": "medium"},  # explicit default
)

print(interaction.output_text)

Tres cosas a tener en cuenta. Primero, el ID del modelo es gemini-3.5-flash — sin -preview o -latest el sufijo debido a GA. Segundo, el effort se establece explícitamente aunque medium sea el valor predeterminado; esto te protege si Google vuelve a cambiar el valor por defecto. Tercero, no hay un registro manual de hilos — Interactions gestiona el estado del lado del servidor.

9. 3.5 Flash vs 3.1 Pro

El propio enfoque de Google en la publicación de Sundar es que 3.5 Flash “es mejor en casi todos los benchmarks con un gran progreso en programación” en comparación con 3.1 Pro, y que en el gráfico de inteligencia frente a velocidad de salida se sitúa solo en el cuadrante superior derecho. Aquí está ese gráfico exacto de la diapositiva del keynote de I/O 2026:

Sundar Pichai en el escenario de Google I/O 2026 mostrando el gráfico de benchmark de inteligencia vs. velocidad de salida de Gemini 3.5 Flash. 3.5 Flash se encuentra solo en el cuadrante superior derecho, separado del grupo de modelos de frontera de la competencia. — Del keynote de Sundar Pichai en el I/O 2026: inteligencia vs. velocidad de salida. 3.5 Flash está solo en el cuadrante superior derecho. Fuente.

Dimensión	Gemini 3.1 Pro	Gemini 3.5 Flash
Posicionamiento	Nivel Frontier Pro	El modelo Flash más inteligente
Ventana de contexto	1M de entrada	1M de entrada
Salida máxima	65k tokens	65k tokens
Benchmarks de programación	Sólido	Mejor — “gran progreso” según Sundar
Velocidad de salida	Latencia de nivel Pro	~4 veces más rápido que sus pares frontier
Esfuerzo predeterminado	(por llamada)	medio (cambiado de alto)
Preservación del pensamiento	Limitado entre turnos	Automático, sin cambios en la API
Computer Use	Soportado	Aún no

La brecha en Computer Use es la única razón para mantener 3.1 Pro en tu caja de herramientas — para cualquier cosa que requiera controlar un navegador u operar una interfaz de usuario, Flash no es la solución hoy en día. Para todo lo demás en un flujo de trabajo de programación, el modelo GA, más económico y rápido, es ahora el modelo con las puntuaciones de benchmark más altas. Eso es inusual.

10. 3.5 Flash dentro de Antigravity

Sundar lo mencionó específicamente: “Gemini 3.5 Flash está disponible hoy para todos en Antigravity y en todos nuestros productos y APIs.” Logan Kilpatrick dio seguimiento con la lista de distribución completa:

Try it in the Gemini API, Google AI Studio, Antigravity, AI Mode, Gemini App, and wherever else you use Gemini!
— @OfficialLoganK May 19, 2026

Logan Kilpatrick · Google AI Studio Lead

Pruébalo en todas las superficies de Google

3.5 Flash se lanzó simultáneamente en la Gemini API, Google AI Studio, Antigravity, AI Mode, la Gemini App y cualquier otra superficie de Gemini desde el primer día — sin lista de espera.

Ya está disponible en el selector de modelos (Settings → Models) en los niveles Pro y Ultra a partir de la conferencia del 19 de mayo de 2026. Algunas notas prácticas:

El selector puede mostrar dos entradas de Flash durante el periodo de despliegue — 3 Flash y 3.5 Flash. Elige 3.5 a menos que tengas una razón específica. Si solo ves uno, es probable que tu cliente necesite un reinicio.
Los controles de nivel de esfuerzo siguen en el mismo lugar — el selector de tres niveles low/medium/high bajo Settings → Models. El valor predeterminado ahora es medium.
El consumo de créditos debería disminuir para la mayoría de las cargas de trabajo porque medium es más económico que high, y muchas tareas que requerían medium ahora pueden ejecutarse en low. Realiza un seguimiento de tu uso con la guía de monitoreo de Cockpit.
Integración de sub-agentes de navegador funciona en 3.5 Flash para tareas de lectura / análisis, pero el control total de Computer Use aún requiere 3.1 Pro.

11. Spark, Antigravity 2.0 y por qué Flash es importante

El anuncio de la disponibilidad general (GA) de 3.5 Flash no se lanzó de forma aislada. Otros dos lanzamientos de la misma mañana del I/O explican por qué Google necesitaba que Flash fuera inteligente y rápido.

Antigravity 2.0 — una aplicación de escritorio independiente rediseñada con equipos multi-agente, tareas programadas, voz nativa e integración en un clic con otros productos de Google. Las tareas programadas y los equipos multi-agente significan que Google buscaba un modelo capaz de realizar trabajo agéntico sostenido sin disparar los costes. El post de lanzamiento incluye el desglose completo de cada interfaz.
Antigravity CLI — el nuevo agente de terminal basado en Go que reemplaza a Gemini CLI como la interfaz de terminal soportada. Utiliza 3.5 Flash por defecto de fábrica. Si vives en la terminal, esta es la interfaz para la que se optimizó 3.5 Flash.
Gemini Spark — un agente de IA personal 24/7 dentro de la aplicación Gemini, “basado en Antigravity”, que se ejecuta en VMs dedicadas en Google Cloud y está impulsado explícitamente por Gemini 3.5. Spark es la razón de cara al consumidor por la que 3.5 Flash tenía que lanzarse en GA hoy: cada tarea en segundo plano de los usuarios de Spark es una llamada a 3.5 Flash.

Introducing Antigravity 2.0, a new standalone desktop application that delivers fully on that original glimpse of a truly agent-optimized experience. Rebuilt from the ground up with multi-agent teams, scheduled tasks, native voice and one-click integration with other Google
— @antigravity May 19, 2026

Google Antigravity · May 19, 2026

Antigravity 2.0 se lanza junto con 3.5 Flash

El anuncio oficial de @antigravity sobre la aplicación de escritorio independiente 2.0: equipos multi-agente, tareas programadas, voz nativa e integración con Google en un clic. La plataforma para la cual se diseñó 3.5 Flash.

El cierre de Logan capturó la idea central: “El modelo es el producto”. 3.5 Flash no es un lanzamiento independiente — es el motor que Google necesita para que Spark sea económico, Antigravity 2.0 sea agéntico y AI Mode sea rápido, todo al mismo tiempo.

Al leer los tres anuncios en conjunto, 3.5 Flash es el modelo de batalla en el que Google pretende que se ejecute cada bucle agéntico de larga duración — sub-agentes de Antigravity, tareas en segundo plano de Spark, tareas programadas —. Pro y Ultra Pro se reservan para casos en los que se necesite específicamente una mayor profundidad de razonamiento o Computer Use.

12. Preservación del pensamiento entre turnos

El cambio de capacidad más importante, aunque discreto, es la preservación del pensamiento. Según la guía: “El modelo mantiene el razonamiento intermedio a través de conversaciones de varios turnos de forma automática. No se requieren cambios en la API”.

En 3 Flash, cada turno comenzaba con una nueva fase de pensamiento. Si en el turno 1 se había razonado cuidadosamente sobre tu modelo de datos para generar una respuesta, el turno 2 volvería a derivar lo necesario desde cero. En 3.5 Flash, esas trazas de razonamiento intermedio se mantienen en el lado del servidor. El modelo retoma el trabajo justo donde lo dejó.

Implicaciones para los flujos de trabajo de Antigravity:

Las sesiones de planificación largas dejan de perder el hilo en el turno 8.
Las “transferencias” entre sub-agentes, donde un agente pasa una tarea a otro, preservan mejor la cadena de pensamiento original.
Puedes usar un prompt como “OK, ahora haz lo mismo para el otro módulo” y obtener realmente el mismo enfoque, no un intento paralelo derivado de cero.
La desventaja: una suposición errónea en el turno 1 puede contaminar los turnos 2–N. Si una sesión se desvía, inicia un nuevo chat en lugar de intentar convencer al agente de que abandone su razonamiento preservado.

13. Lo que Flash aún no puede hacer

La guía para desarrolladores es explícita: Computer Use no es compatible con 3.5 Flash en este momento. Todo lo demás de la superficie de herramientas de 3 Flash está disponible.

Si tu agente necesita controlar un navegador, completar formularios, navegar por una interfaz de usuario o tomar capturas de pantalla y hacer clic en ellas — el tipo de trabajo que maneja el modo Computer Use de 3.1 Pro — debes mantener 3.1 Pro en tu lógica de enrutamiento para esas llamadas, o esperar a que se lance 3.5 Pro o una versión de Computer Use de nivel 3.5.

Patrón de enrutamiento

Una forma limpia de manejar esto en los sub-agentes de Antigravity es establecer por defecto los coder y planner roles a 3.5 Flash, y enrutar solo el browser-driver rol a 3.1 Pro. La llamada al browser-driver suele ser la fracción más pequeña de tokens en una sesión, por lo que esto te ofrece el perfil de costos de 3.5 Flash en la mayor parte del trabajo sin perder Computer Use por completo.

14. Implicaciones de precios y cuotas

Google no publicó una nueva tarjeta de precios con el anuncio — la guía

El esfuerzo predeterminado bajó un nivel (high → medium). Con el
Low se volvió más inteligente. Más llamadas que antes requerían medium
La preservación del pensamiento reduce el razonamiento redundante. El turno N deja de

Resultado neto: las sesiones típicas de Antigravity en 3.5 Flash deberían consumir notablemente menos de explicación de créditos y precios y periodos de enfriamiento de la cuota semanal.

15. Lista de verificación para la migración

Si tienes un flujo de trabajo en Antigravity o una integración directa con la API de Gemini, realiza lo siguiente

Cambia el selector de modelos a gemini-3.5-flash para
Decide tu política de esfuerzo. Elige un valor predeterminado global (medium o
Baja un nivel donde puedas. Prueba tareas de cleanup, rename, format y simple-tool-call en niveles bajos primero.
Mantén 3.1 Pro para Computer Use. Enruta cualquier sub-agente que controle el navegador a 3.1 Pro explícitamente; 3.5 Flash no podrá hacerlo.
Inicia nuevos chats con más frecuencia. La preservación del pensamiento hace que las suposiciones obsoletas sean más costosas — el razonamiento sesgado se arrastra entre turnos.
Migra los nuevos agentes a la Interactions API. No reescribas el código de GenerateContent existente todavía. Simplemente deja de añadir código nuevo en la API antigua.
Si usas Gemini CLI, planifica tu migración de la CLI. Google retirará Gemini CLI para usuarios individuales de Pro / Ultra / Code Assist gratuito el 18 de junio de 2026. Antigravity CLI es el reemplazo y usa 3.5 Flash por defecto. Consulta la guía de migración de Gemini CLI → Antigravity CLI para ver el paso a paso.
Vuelve a establecer la línea base de tus benchmarks. Cualquier suite de evaluación interna que asumiera que Pro > Flash debe ejecutarse de nuevo. El ranking ha cambiado.

16. Veredicto

Gemini 3.5 Flash es el primer lanzamiento de Flash donde “usar Flash” ya no supone un sacrificio para las cargas de trabajo de programación. Es más rápido, más barato y más inteligente en casi todos los benchmarks que Google presentó en el escenario del I/O, es GA estable y ya está integrado en Antigravity. La única razón legítima para mantener 3.1 Pro en tu enrutamiento por defecto es Computer Use; para todo lo demás, 3.5 Flash es la mejor opción para el día a día.

Si solo haces una cosa hoy: abre Antigravity, cambia tu modelo predeterminado a Gemini 3.5 Flash y vuelve a ejecutar la sesión de programación más difícil de ayer. La ventaja es inusualmente evidente.

Guía para desarrolladores de Gemini 3.5 Flash

La guía para desarrolladores de Gemini 3.5 Flash ya está disponible

1. El anuncio

3.5 Flash juega en su propia liga

3.5 Flash: el modelo más potente hasta la fecha

2. TL;DR

3. Novedades en 3.5 Flash

4. Model Specs & Capabilities

5. Esfuerzo predeterminado: high → medium

6. El modo 'low' se volvió inteligente

7. Migración a la Interactions API

8. Código de inicio rápido

9. 3.5 Flash vs 3.1 Pro

10. 3.5 Flash dentro de Antigravity

Pruébalo en todas las superficies de Google

11. Spark, Antigravity 2.0 y por qué Flash es importante

Antigravity 2.0 se lanza junto con 3.5 Flash

12. Preservación del pensamiento entre turnos

13. Lo que Flash aún no puede hacer

14. Implicaciones de precios y cuotas

15. Lista de verificación para la migración

16. Veredicto

Guías relacionadas

Otros lanzamientos del I/O 2026

Dónde encaja 3.5 Flash en el stack

Cuota, precios y tokens

La guía para desarrolladores de Gemini 3.5 Flash ya está disponible

1. El anuncio

3.5 Flash juega en su propia liga

3.5 Flash: el modelo más potente hasta la fecha

2. TL;DR

3. Novedades en 3.5 Flash

4. Model Specs & Capabilities

5. Esfuerzo predeterminado: high → medium

6. El modo 'low' se volvió inteligente

7. Migración a la Interactions API

8. Código de inicio rápido

9. 3.5 Flash vs 3.1 Pro

10. 3.5 Flash dentro de Antigravity

Pruébalo en todas las superficies de Google

11. Spark, Antigravity 2.0 y por qué Flash es importante

Antigravity 2.0 se lanza junto con 3.5 Flash

12. Preservación del pensamiento entre turnos

13. Lo que Flash aún no puede hacer

14. Implicaciones de precios y cuotas

15. Lista de verificación para la migración

16. Veredicto

Guías relacionadas

Otros lanzamientos del I/O 2026

Dónde encaja 3.5 Flash en el stack

Cuota, precios y tokens

Get the Ultimate Antigravity Cheat Sheet