
En el Google I/O 2026 el 19 de mayo, Google AI Studio lanzó la guía oficial para desarrolladores de Gemini 3.5 Flash — ahora disponible para el público general (GA), estable y listo para producción. Es la misma familia Flash que ya conoces, excepto que ha superado los benchmarks de programación de 3.1 Pro, se ejecuta aproximadamente 4 veces más rápido que otros modelos de frontera e incluye un nuevo nivel de esfuerzo de pensamiento predeterminado. Si estás construyendo algo basado en agentes dentro de Antigravity, es probable que tus valores predeterminados deban cambiar hoy mismo.
La guía para desarrolladores de Gemini 3.5 Flash ya está disponible
El anuncio oficial de @GoogleAIStudio que presenta la guía completa para desarrolladores de Gemini 3.5 Flash GA. 28 mil visualizaciones, 487 me gusta a pocas horas del keynote del I/O 2026.
Get the latest on AI, LLMs & developer tools
New MCP servers, model updates, and guides like this one — delivered weekly.
1. El anuncio
El tweet de arriba es el enlace canónico que Google AI Studio utilizó para publicar la guía para desarrolladores de Gemini 3.5 Flash. Se publicó el martes, 19 de mayo de 2026aproximadamente dos minutos después de que Sundar Pichai bajara del escenario del I/O. Al final del día, había sido guardado en marcadores 223 veces por desarrolladores — una proporción inusual de marcadores frente a likes que te dice exactamente quién era la audiencia.
El post paralelo de Sundar's de esa misma mañana hizo que el posicionamiento fuera explícito: “Gemini 3.5 Flash está disponible hoy para todos en Antigravity y en todos nuestros productos y APIs. En comparación con 3.1 Pro, 3.5 Flash es mejor en casi todos los benchmarks con un progreso enorme en programación.” Eso es Google diciendo públicamente que su modelo Flash, rápido y económico, ahora supera a su anterior modelo insignia Pro en la mayoría de las evaluaciones. Eso reposiciona toda la línea Gemini.
3.5 Flash juega en su propia liga
El hilo de Sundar tras la keynote: 3.5 Flash supera a 3.1 Pro en casi todos los benchmarks con un progreso enorme en programación, se ejecuta 4 veces más rápido que otros modelos de frontera y se sitúa solo en la parte superior derecha del gráfico de inteligencia vs. velocidad.
Logan Kilpatrick, quien lidera Google AI Studio, hizo que el enfoque fuera aún más contundente: “Gemini 3.5 Flash, nuestro modelo más potente hasta la fecha. Empuja la frontera de la inteligencia, la velocidad y el coste, situando a 3.5 Flash en una categoría propia.” Fíjate en la palabra más potente. Eso es Google diciendo que su modelo Flash es ahora su buque insignia.
3.5 Flash: el modelo más potente hasta la fecha
Logan llama explícitamente a 3.5 Flash el modelo más potente de Google — empujando la frontera de la inteligencia, la velocidad y el coste simultáneamente.
2. TL;DR
- ID del modelo:
gemini-3.5-flash - Status: Disponibilidad general (GA), estable para producción
- Ventana de contexto: 1.000.000 tokens de entrada
- Salida máxima: 65.536 tokens
- Razonamiento: soportado con tres niveles de esfuerzo (bajo / medio / alto)
- Nuevo esfuerzo predeterminado:
medio(antesaltoen 3 Flash) - Velocidad: ~4 veces más rápido en tokens por segundo frente a otros modelos de frontera
- Programación: supera a Gemini 3.1 Pro en casi todos los benchmarks
- API recomendada: Interactions API (nueva primitiva estándar)
- Aún no compatible: Computer Use
- Dentro de Antigravity: disponible hoy en todos los niveles
Durante dos meses, Gemini 3.1 Pro fue el modelo al que recurrías dentro de Antigravity cuando necesitabas un razonamiento profundo, y Flash era el modelo al que recurrías cuando necesitabas velocidad o alivio de cuota. 3.5 Flash elimina esa disyuntiva en cargas de trabajo de programación. Muchas de las heurísticas en nuestra comparativa de 3.1 Pro vs Opus deben ser revisadas con Flash en la columna central.
3. Novedades en 3.5 Flash
La guía para desarrolladores resume los cambios en lenguaje sencillo. Aquí los presentamos con las implicaciones para un usuario de Antigravity detalladas:
- Rendimiento de vanguardia sostenido. El planteamiento de Google es que este es su modelo Flash más inteligente, optimizado para tareas de codificación y agentes a escala. Traducción: las sesiones largas dejan de degradarse a partir del token 200k+.
- Ejecución de agentes. Despliegue de sub-agentes, resolución de problemas y bucles de agentes rápidos a escala. Traducción: sobrevive al de Antigravity modo de orquestación donde generas agentes hijos para planificación, codificación y revisión (consulta nuestra guía de orquestación multi-agente).
- Bucles de codificación. Ciclos de codificación iterativos, exploración rápida y prototipado para probar rutas alternativas y explorar soluciones dinámicamente. Traducción: el bucle “intentar, fallar, corregir, reintentar” consume menos contexto por intento.
- Horizonte largo. Flujos de trabajo de múltiples pasos y uso de herramientas a escala. Traducción: las cadenas de más de 30 llamadas a herramientas dejan de degradarse.
- Preservación del pensamiento. El razonamiento intermedio ahora se mantiene automáticamente en conversaciones de varios turnos — sin necesidad de cambios en la API. Más sobre esto en la sección 12.
- Nuevo esfuerzo predeterminado.
mediumreemplazahighas the default thinking level. More on this in section 5. - Improved low thinking. The
lowtier is now “significantly improved” for code and agentic tasks that require fewer steps — strong quality at lower latency and cost. More in section 6. - GA release. Stable. No more “preview” SLA gotchas. Production traffic is the supported path now.
4. Model Specs & Capabilities
Context window: 1,000,000 input tokens
Max output: 65,536 tokens
Thinking: supported (low / medium / high)
Default effort: medium
Tools: same as Gemini 3 Flash
Multimodal: text + image + audio + video in
Uso de computadora: no soportado (aún)
Precios: ver página oficial de precios
Estado: Disponibilidad general (GA), estable
La superficie de herramientas no ha cambiado respecto a 3 Flash, por lo que cualquiera de sus grounding-with-google-search, code-execution, url-context, y los pipelines de function-calling siguen funcionando sin cambios. Si te estabas encontrando con el límite del 1% del thinking-budget de Claude Opus en Antigravity, los nuevos niveles de esfuerzo en 3.5 Flash te ofrecen una alternativa creíble en el lado de Gemini para cargas de trabajo de razonamiento profundo.
5. Esfuerzo predeterminado: high → medium
Este es el cambio que más probablemente te sorprenda y el más fácil de pasar por alto en el changelog. En 3 Flash, cuando llamabas a la API sin establecer un nivel de esfuerzo, el modelo usaba por defecto high. En 3.5 Flash, el valor predeterminado no establecido es ahora medium.
Para la mayoría de las cargas de trabajo, esto es una victoria directa — el esfuerzo medium en 3.5 Flash es aproximadamente equivalente al esfuerzo high en 3 Flash, con menor latencia y costo. Pero si dependías del valor implícito high para obtener un comportamiento de agente confiable en una tarea compleja de largo plazo, tu tráfico simplemente se degradó de forma silenciosa. El patrón es similar al degradación silenciosa del modelo comportamiento que Antigravity ya muestra bajo presión de cuota. Dos opciones:
- Auditar y establecer explícitamente. Haz un grep en tu código base para buscar llamadas que omitan
thinking_configy decide por cada punto de llamada si deseasmedium(más económico, más rápido, aprobado para GA) ohigh(el antiguo comportamiento implícito). - Establece high una vez, de forma global. Si tienes un wrapper de cliente compartido, establece
effort: "high"como el valor predeterminado global allí y revisa las sobreescrituras por llamada más tarde.
6. El modo 'low' se volvió inteligente
El otro cambio poco promocionado es que el low nivel fue reescrito. La frase de Google: “low ahora ha mejorado significativamente para código y tareas agénticas que requieren menos pasos, ofreciendo una gran calidad con menor latencia y costo.”
Traducción: las cargas de trabajo que antes tenías que enviar a medio para obtener un resultado utilizable ahora terminarán en bajo. Para los usuarios de Antigravity, esto significa que gran parte del trabajo de limpieza, renombrado y pequeñas refactorizaciones que consumía créditos en esfuerzo medio ahora puede pasar a bajo. Pruébalo en:
- Renombrado de variables / archivos en un conjunto pequeño de archivos
- Generación de JSDoc / docstring
- Stubs de pruebas unitarias para una sola función
- Formateo de código y aplicación de reglas de lint
- Llamadas a herramientas de un solo paso (leer archivo, editar archivo, ejecutar prueba)
Consulta nuestra guía de ahorro de tokens para obtener un manual más detallado sobre cómo dirigir el trabajo al esfuerzo más económico que siga funcionando.
7. Migración a la Interactions API
La guía para desarrolladores te indica que instales el último Google Gen AI SDK y señala que todos los ejemplos utilizan la nueva Interactions API, presentada como “la nueva primitiva estándar para construir con Gemini, recomendada para todos los proyectos nuevos.” La versión anterior de la GenerateContent API sigue siendo compatible y se aplican las mismas opciones de configuración.
En la práctica, si estás comenzando un nuevo agente, usa Interactions. Si tienes un pipeline de GenerateContent existente, no necesitas reescribirlo hoy — pero la superficie de la API se está optimizando para flujos de trabajo agénticos, gestión de estado en el servidor y conversaciones multimodales complejas de varios turnos. Esa es exactamente la forma de un sub-agente de Antigravity. La migración envejecerá bien.
8. Código de inicio rápido
Una llamada mínima en Python a 3.5 Flash a través de la API de Interactions:
Tres cosas a tener en cuenta. Primero, el ID del modelo es gemini-3.5-flash — sin -preview o -latest el sufijo debido a GA. Segundo, el effort se establece explícitamente aunque medium sea el valor predeterminado; esto te protege si Google vuelve a cambiar el valor por defecto. Tercero, no hay un registro manual de hilos — Interactions gestiona el estado del lado del servidor.
9. 3.5 Flash vs 3.1 Pro
El propio enfoque de Google en la publicación de Sundar es que 3.5 Flash “es mejor en casi todos los benchmarks con un gran progreso en programación” en comparación con 3.1 Pro, y que en el gráfico de inteligencia frente a velocidad de salida se sitúa solo en el cuadrante superior derecho. Aquí está ese gráfico exacto de la diapositiva del keynote de I/O 2026:

| Dimensión | Gemini 3.1 Pro | Gemini 3.5 Flash |
|---|---|---|
| Posicionamiento | Nivel Frontier Pro | El modelo Flash más inteligente |
| Ventana de contexto | 1M de entrada | 1M de entrada |
| Salida máxima | 65k tokens | 65k tokens |
| Benchmarks de programación | Sólido | Mejor — “gran progreso” según Sundar |
| Velocidad de salida | Latencia de nivel Pro | ~4 veces más rápido que sus pares frontier |
| Esfuerzo predeterminado | (por llamada) | medio (cambiado de alto) |
| Preservación del pensamiento | Limitado entre turnos | Automático, sin cambios en la API |
| Computer Use | Soportado | Aún no |
La brecha en Computer Use es la única razón para mantener 3.1 Pro en tu caja de herramientas — para cualquier cosa que requiera controlar un navegador u operar una interfaz de usuario, Flash no es la solución hoy en día. Para todo lo demás en un flujo de trabajo de programación, el modelo GA, más económico y rápido, es ahora el modelo con las puntuaciones de benchmark más altas. Eso es inusual.
10. 3.5 Flash dentro de Antigravity
Sundar lo mencionó específicamente: “Gemini 3.5 Flash está disponible hoy para todos en Antigravity y en todos nuestros productos y APIs.” Logan Kilpatrick dio seguimiento con la lista de distribución completa:
Pruébalo en todas las superficies de Google
3.5 Flash se lanzó simultáneamente en la Gemini API, Google AI Studio, Antigravity, AI Mode, la Gemini App y cualquier otra superficie de Gemini desde el primer día — sin lista de espera.
Ya está disponible en el selector de modelos (Settings → Models) en los niveles Pro y Ultra a partir de la conferencia del 19 de mayo de 2026. Algunas notas prácticas:
- El selector puede mostrar dos entradas de Flash durante el periodo de despliegue — 3 Flash y 3.5 Flash. Elige 3.5 a menos que tengas una razón específica. Si solo ves uno, es probable que tu cliente necesite un reinicio.
- Los controles de nivel de esfuerzo siguen en el mismo lugar — el selector de tres niveles low/medium/high bajo Settings → Models. El valor predeterminado ahora es medium.
- El consumo de créditos debería disminuir para la mayoría de las cargas de trabajo porque medium es más económico que high, y muchas tareas que requerían medium ahora pueden ejecutarse en low. Realiza un seguimiento de tu uso con la guía de monitoreo de Cockpit.
- Integración de sub-agentes de navegador funciona en 3.5 Flash para tareas de lectura / análisis, pero el control total de Computer Use aún requiere 3.1 Pro.
11. Spark, Antigravity 2.0 y por qué Flash es importante
El anuncio de la disponibilidad general (GA) de 3.5 Flash no se lanzó de forma aislada. Otros dos lanzamientos de la misma mañana del I/O explican por qué Google necesitaba que Flash fuera inteligente y rápido.
- Antigravity 2.0 — una aplicación de escritorio independiente rediseñada con equipos multi-agente, tareas programadas, voz nativa e integración en un clic con otros productos de Google. Las tareas programadas y los equipos multi-agente significan que Google buscaba un modelo capaz de realizar trabajo agéntico sostenido sin disparar los costes. El post de lanzamiento incluye el desglose completo de cada interfaz.
- Antigravity CLI — el nuevo agente de terminal basado en Go que reemplaza a Gemini CLI como la interfaz de terminal soportada. Utiliza 3.5 Flash por defecto de fábrica. Si vives en la terminal, esta es la interfaz para la que se optimizó 3.5 Flash.
- Gemini Spark — un agente de IA personal 24/7 dentro de la aplicación Gemini, “basado en Antigravity”, que se ejecuta en VMs dedicadas en Google Cloud y está impulsado explícitamente por Gemini 3.5. Spark es la razón de cara al consumidor por la que 3.5 Flash tenía que lanzarse en GA hoy: cada tarea en segundo plano de los usuarios de Spark es una llamada a 3.5 Flash.
Antigravity 2.0 se lanza junto con 3.5 Flash
El anuncio oficial de @antigravity sobre la aplicación de escritorio independiente 2.0: equipos multi-agente, tareas programadas, voz nativa e integración con Google en un clic. La plataforma para la cual se diseñó 3.5 Flash.
El cierre de Logan capturó la idea central: “El modelo es el producto”. 3.5 Flash no es un lanzamiento independiente — es el motor que Google necesita para que Spark sea económico, Antigravity 2.0 sea agéntico y AI Mode sea rápido, todo al mismo tiempo.
Al leer los tres anuncios en conjunto, 3.5 Flash es el modelo de batalla en el que Google pretende que se ejecute cada bucle agéntico de larga duración — sub-agentes de Antigravity, tareas en segundo plano de Spark, tareas programadas —. Pro y Ultra Pro se reservan para casos en los que se necesite específicamente una mayor profundidad de razonamiento o Computer Use.
12. Preservación del pensamiento entre turnos
El cambio de capacidad más importante, aunque discreto, es la preservación del pensamiento. Según la guía: “El modelo mantiene el razonamiento intermedio a través de conversaciones de varios turnos de forma automática. No se requieren cambios en la API”.
En 3 Flash, cada turno comenzaba con una nueva fase de pensamiento. Si en el turno 1 se había razonado cuidadosamente sobre tu modelo de datos para generar una respuesta, el turno 2 volvería a derivar lo necesario desde cero. En 3.5 Flash, esas trazas de razonamiento intermedio se mantienen en el lado del servidor. El modelo retoma el trabajo justo donde lo dejó.
Implicaciones para los flujos de trabajo de Antigravity:
- Las sesiones de planificación largas dejan de perder el hilo en el turno 8.
- Las “transferencias” entre sub-agentes, donde un agente pasa una tarea a otro, preservan mejor la cadena de pensamiento original.
- Puedes usar un prompt como “OK, ahora haz lo mismo para el otro módulo” y obtener realmente el mismo enfoque, no un intento paralelo derivado de cero.
- La desventaja: una suposición errónea en el turno 1 puede contaminar los turnos 2–N. Si una sesión se desvía, inicia un nuevo chat en lugar de intentar convencer al agente de que abandone su razonamiento preservado.
13. Lo que Flash aún no puede hacer
La guía para desarrolladores es explícita: Computer Use no es compatible con 3.5 Flash en este momento. Todo lo demás de la superficie de herramientas de 3 Flash está disponible.
Si tu agente necesita controlar un navegador, completar formularios, navegar por una interfaz de usuario o tomar capturas de pantalla y hacer clic en ellas — el tipo de trabajo que maneja el modo Computer Use de 3.1 Pro — debes mantener 3.1 Pro en tu lógica de enrutamiento para esas llamadas, o esperar a que se lance 3.5 Pro o una versión de Computer Use de nivel 3.5.
Una forma limpia de manejar esto en los sub-agentes de Antigravity es establecer por defecto los coder y planner roles a 3.5 Flash, y enrutar solo el browser-driver rol a 3.1 Pro. La llamada al browser-driver suele ser la fracción más pequeña de tokens en una sesión, por lo que esto te ofrece el perfil de costos de 3.5 Flash en la mayor parte del trabajo sin perder Computer Use por completo.
14. Implicaciones de precios y cuotas
Google no publicó una nueva tarjeta de precios con el anuncio — la guía
- El esfuerzo predeterminado bajó un nivel (high → medium). Con el
- Low se volvió más inteligente. Más llamadas que antes requerían medium
- La preservación del pensamiento reduce el razonamiento redundante. El turno N deja de
Resultado neto: las sesiones típicas de Antigravity en 3.5 Flash deberían consumir notablemente menos de explicación de créditos y precios y periodos de enfriamiento de la cuota semanal.
15. Lista de verificación para la migración
Si tienes un flujo de trabajo en Antigravity o una integración directa con la API de Gemini, realiza lo siguiente
- Cambia el selector de modelos a
gemini-3.5-flashpara - Decide tu política de esfuerzo. Elige un valor predeterminado global (medium o
- Baja un nivel donde puedas. Prueba tareas de cleanup, rename, format y simple-tool-call en
niveles bajosprimero. - Mantén 3.1 Pro para Computer Use. Enruta cualquier sub-agente que controle el navegador a 3.1 Pro explícitamente; 3.5 Flash no podrá hacerlo.
- Inicia nuevos chats con más frecuencia. La preservación del pensamiento hace que las suposiciones obsoletas sean más costosas — el razonamiento sesgado se arrastra entre turnos.
- Migra los nuevos agentes a la Interactions API. No reescribas el código de GenerateContent existente todavía. Simplemente deja de añadir código nuevo en la API antigua.
- Si usas Gemini CLI, planifica tu migración de la CLI. Google retirará Gemini CLI para usuarios individuales de Pro / Ultra / Code Assist gratuito el 18 de junio de 2026. Antigravity CLI es el reemplazo y usa 3.5 Flash por defecto. Consulta la guía de migración de Gemini CLI → Antigravity CLI para ver el paso a paso.
- Vuelve a establecer la línea base de tus benchmarks. Cualquier suite de evaluación interna que asumiera que Pro > Flash debe ejecutarse de nuevo. El ranking ha cambiado.
16. Veredicto
Gemini 3.5 Flash es el primer lanzamiento de Flash donde “usar Flash” ya no supone un sacrificio para las cargas de trabajo de programación. Es más rápido, más barato y más inteligente en casi todos los benchmarks que Google presentó en el escenario del I/O, es GA estable y ya está integrado en Antigravity. La única razón legítima para mantener 3.1 Pro en tu enrutamiento por defecto es Computer Use; para todo lo demás, 3.5 Flash es la mejor opción para el día a día.
Si solo haces una cosa hoy: abre Antigravity, cambia tu modelo predeterminado a Gemini 3.5 Flash y vuelve a ejecutar la sesión de programación más difícil de ayer. La ventaja es inusualmente evidente.
Guías relacionadas
Otros lanzamientos del I/O 2026
- → Lanzamiento de Antigravity 2.0: Todo lo que Google lanzó
- → Análisis profundo de Antigravity CLI
- → Migración de Gemini CLI → Antigravity CLI (fecha límite: 18 de junio)
Dónde encaja 3.5 Flash en el stack
- → Gemini 3.1 Pro vs Claude Opus 4.6 en Antigravity
- → Orquestación multi-agente en Antigravity
- → Cuando Opus se agota: Workflow de fallback
- → Solución: Thinking Budget de Claude limitado al 1%