Guía de la API de Gemini 3.5 Live Translate

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Qué lanzó Google

Gemini 3.5 Live Translate no es un modelo de chat con un prompt de traducción. Es un modo de traducción dedicado de la Live API: transmite voz PCM a 16kHz, elige un idioma de destino y recibe audio traducido a 24kHz además de transcripciones opcionales desde gemini-3.5-live-translate-preview.

Model ID

gemini-3.5-live-translate-preview

Launch

June 9, 2026

Languages

70+ supported

Input

Audio only

Output

Translated audio

Status

Public preview for developers

Qué cambió para los desarrolladores

La publicación de lanzamiento de Google posiciona a Gemini 3.5 Live Translate como un modelo de audio para traducción de voz a voz en tiempo real. El cambio para los desarrolladores es que la traducción en tiempo real ahora está expuesta a través de la Gemini Live API y Google AI Studio, no solo dentro de los productos de Google para el usuario final.

Área	Qué cambió	Impacto en el desarrollador
Developer access	Gemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio.	Developers can prototype speech-to-speech translation without waiting for a separate product surface.
Model ID	The Live API translation model is `gemini-3.5-live-translate-preview`.	Treat it as a preview model and isolate it behind config flags before production rollout.
Interaction model	Live Translation behaves like a realtime interpreter, not a conversational Live Agent.	Do not design prompts, tools, function calls, or turn-taking flows around this mode.
Audio pipeline	Input is audio-only raw PCM at 16kHz; output is translated audio at 24kHz.	Your product needs capture, resampling, buffering, playback, and transcript handling.
Safety signal	Google says model-generated audio is watermarked with SynthID.	Apps using generated audio should disclose AI audio and preserve provenance expectations.

Hilo oficial de X y video

El hilo de lanzamiento de Google AI Developers es útil porque enmarca las capacidades para desarrolladores en términos de producto: entrada multilingüe, detección automática de idioma, procesamiento de audio nativo y robustez en entornos ruidosos.

Nuestro modelo de audio más reciente, Gemini 3.5 Live Translate, lleva la traducción de voz en tiempo real al siguiente nivel para los desarrolladores.
— Google AI Developers (@googleaidevs)9 de junio de 2026

La publicación incrustada incluye el video de lanzamiento oficial de Google. La conclusión importante para los desarrolladores no es solo que la traducción sea más rápida; es que la superficie del producto está diseñada para el habla continua, donde el sistema se mantiene cerca del hablante en lugar de esperar a que termine su turno.

Modelo mental: Live Agent frente a Live Translation

La Gemini Live API puede admitir interacciones de agentes en tiempo real, pero Live Translation es un modo más limitado. La documentación de Google lo describe como un pipeline de intérprete. Esa distinción cambia todo el diseño del producto.

Dimensión	Live Agent	Live Translation
Role	Assistant that listens, reasons, and can act.	Interpreter pipeline for speech-to-speech translation.
Interaction	Turn-based realtime conversation.	Continuous stream processing while the speaker talks.
Tools	Can use Live API tool and agent capabilities.	Translation-only; no tools or instructions.
Inputs	Text, audio, video, image depending on feature.	Audio input only for translation latency.
Main config	Generation, speech, tools, and instructions.	`targetLanguageCode` plus `echoTargetLanguage`.

La implicación práctica: no utilices prompts en Live Translate como si fuera un asistente multilingüe. Construye un pipeline multimedia, no un chatbot. La superficie de la API se basa en fragmentos de audio, códigos de idioma, transcripciones y reproducción de salida.

Forma mínima de la API

La documentación muestra opciones para Python, JavaScript y WebSocket sin procesar. Para la mayoría de los equipos web, la forma del SDK de JavaScript es el punto de partida más claro, pero las aplicaciones del lado del cliente deberían seguir utilizando tokens efímeros en lugar de exponer una API key.

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({});

const session = await ai.live.connect({
  model: "gemini-3.5-live-translate-preview",
  config: {
    responseModalities: [Modality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
    translationConfig: {
      targetLanguageCode: "es",
      echoTargetLanguage: false,
    },
  },
  callbacks: {
    onmessage: (message) => {
      const content = message.serverContent;
      const transcript = content?.outputTranscription?.text;
      const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);

      if (transcript) console.log("Translated transcript:", transcript);
      if (translatedAudio) {
        // Decode and play the translated PCM audio chunk.
      }
    },
  },
});

Campo	Valor	Por qué es importante
`model`	`gemini-3.5-live-translate-preview`	Use the preview Live Translate model.
`responseModalities`	`AUDIO`	The API returns translated audio chunks.
`inputAudioTranscription`	object	Optional input transcript stream.
`outputAudioTranscription`	object	Optional translated transcript stream.
`targetLanguageCode`	BCP-47 code	Target output language, such as `pl`, `es`, or `ja`. Defaults to English.
`echoTargetLanguage`	boolean	When true, target-language input is echoed; when false, the model stays silent for target-language speech.

Contrato de audio: PCM de entrada, audio traducido de salida

La documentación de Live Translate es explícita sobre el contrato de medios. El audio de entrada debe ser PCM sin procesar, little-endian, de 16 bits a 16kHz mono. El audio de salida es PCM sin procesar de 16 bits a 24kHz mono. Google recomienda fragmentos de 100ms para streaming de baja latencia.

// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks

session.sendRealtimeInput({
  audio: {
    data: pcm16MonoChunk.toString("base64"),
    mimeType: "audio/pcm;rate=16000",
  },
});

Eso significa que la parte difícil de una aplicación real a menudo no es la llamada a la API. Es la captura, el remuestreo, el manejo de la actividad de voz, el almacenamiento en búfer, la deriva de la reproducción y la respuesta de la interfaz de usuario cuando la red o el micrófono presentan problemas.

Seguridad del cliente con tokens efímeros

La documentación de Google recomienda tokens efímeros para aplicaciones de cliente a servidor, de modo que los clientes de navegador no expongan la API key. Para la traducción, la opción predeterminada más segura es bloquear translationConfig las restricciones del token en el servidor.

Opción	Usar cuando	Riesgo
Bloquear el idioma de destino en el servidor	Kiosco, aula, transmisión, sala de soporte, flujo de trabajo de reuniones.	Menos flexible, pero el cliente no puede alterar la configuración de traducción.
Desbloquear el idioma de destino en el cliente	El usuario debe elegir el idioma de forma dinámica en el navegador.	Requiere una validación, registro y controles de abuso más estrictos.

Un diseño de producción debe mantener la API key en el lado del servidor, generar tokens de corta duración, limitar los modelos permitidos, restringir los idiomas de destino siempre que sea posible y registrar suficientes metadatos para depurar la latencia sin almacenar audio sin procesar sensible innecesariamente.

Limitaciones que debes considerar en tu diseño

El enfoque del lanzamiento es sólido, pero la documentación oficial también enumera advertencias prácticas. Estas limitaciones son precisamente donde una aplicación pulida necesita soporte de UX.

Limitación	Advertencia oficial	Respuesta del producto
Audio only	Translation mode does not accept text input.	Keep text translation, chat, and function calling in separate flows.
Voice consistency	Voices can shift after long pauses or rapid speaker changes.	Do not promise perfect speaker identity preservation.
Language detection	Heavy accents, similar languages, and fast language switches can affect the input transcript.	Show transcript confidence and let users correct language when needed.
Background audio	Noise and music are filtered, but not every background signal is ignored.	Test real rooms, cars, crowds, and cheap microphones.
Echo artifacts	`echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio.	Default to false unless your UX really needs echoing.

Arquitectura de referencia

La aplicación de ejemplo de Google muestra un patrón de transmisión útil con LiveKit: el organizador publica audio, un puente de traducción se suscribe, se crea una sesión de Gemini Live API por cada idioma de destino y los asistentes se suscriben a la pista de audio traducida para el idioma que hayan elegido.

Organizer microphone
  -> realtime room audio
  -> translation bridge per target language
  -> Gemini Live API translationConfig
  -> translated 24kHz audio
  -> attendee playback + optional transcript

La idea de escalado más importante de la demo es el uso compartido de sesiones. Si cincuenta asistentes eligen español, no deberían crearse cincuenta sesiones de Gemini idénticas. Un puente puede publicar un flujo de traducción al español que compartan todos los oyentes de ese idioma.

Imagen oficial de Google que muestra la traducción de voz en una videollamada. — Imagen oficial de Google para la traducción de voz en reuniones. Google afirma que Meet utilizará 3.5 Live Translate en vista previa privada antes de su lanzamiento general.

Lanzamiento en los productos de Google

El lanzamiento no es solo un anuncio de una API. Google indica que Gemini 3.5 Live Translate se está implementando a través de tres superficies: vista previa pública para desarrolladores a través de la Gemini Live API y AI Studio, vista previa privada para clientes empresariales de Google Meet, y la aplicación Google Translate en Android e iOS.

Superficie	Estado por parte de Google	Conclusión para desarrolladores
Gemini Live API	Vista previa pública para desarrolladores.	El mejor lugar para crear y probar flujos de traducción personalizados en tiempo real.
Google AI Studio	Disponible para probar las capacidades del modelo.	La forma más rápida de realizar pruebas antes de configurar una pila multimedia.
Google Meet	Vista previa privada para clientes seleccionados de Workspace; lanzamiento más amplio próximamente.	Demuestra que el modelo está orientado a la traducción de reuniones en vivo, no solo al doblaje por lotes sin conexión.
Aplicación Google Translate	Lanzamiento global en Android e iOS.	Buena referencia para las expectativas de UX en torno a auriculares, modo de escucha y salida de voz natural.

Lista de verificación de compilación

Si vas a desarrollar con Live Translate esta semana, comienza por la canalización de medios y los modos de fallo antes de pulir la interfaz.

1. Start in Google AI Studio to test target languages.
2. Use gemini-3.5-live-translate-preview behind a feature flag.
3. Capture microphone audio and convert to 16kHz mono PCM.
4. Send roughly 100ms chunks over the Live API session.
5. Request input and output transcripts for debugging.
6. Keep API keys on the server; use ephemeral tokens for browser clients.
7. Decide whether target language is locked server-side or user-selectable.
8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches.
9. Add visible latency and transcript status in the UI.
10. Disclose AI-generated translated audio and preserve SynthID expectations.

FAQ

¿Qué es Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate es el modelo de audio de Google para traducción de voz a voz en tiempo casi real. Los desarrolladores lo utilizan a través de la Gemini Live API con el modelo `gemini-3.5-live-translate-preview`.

¿Es Live Translate lo mismo que un Gemini Live Agent?

No. Live Translation es un pipeline de interpretación. No admite herramientas, llamadas a funciones, instrucciones de formato libre, entrada de texto ni comportamiento general de agente en el modo de traducción.

¿Qué formato de audio espera la API?

La documentación especifica audio PCM de 16 bits little-endian sin procesar a 16kHz mono para la entrada, salida de audio traducido a 24kHz mono y fragmentos de entrada de 100ms.

¿Puede una aplicación de navegador llamar a Live Translate directamente?

Utiliza tokens efímeros para aplicaciones del lado del cliente. La documentación recomienda bloquear la configuración de traducción en el servidor para que un cliente de navegador no pueda alterar los ajustes del modelo o del idioma.

¿Debería usar esto para producción hoy?

Trátalo como una capacidad en vista previa. Es útil para prototipos y pilotos controlados, pero las aplicaciones en producción requieren pruebas de latencia, UX de respaldo, revisión de privacidad, comprobaciones de calidad de audio y límites en torno a la consistencia de la voz.

Fuentes y enlaces oficiales

Guía de Gemini 3.5 FlashEl contexto más amplio del modelo para desarrolladores Gemini 3.5.Migración de la Gemini CLICómo Google está trasladando los flujos de trabajo de codificación a la Antigravity CLI.Configuración de la Gemini CLIInformación de fondo útil para los flujos de trabajo de la Gemini API y CLI.