Gemini API

Gemini 3.5 Live Translate: Guía de API para traducción de voz en tiempo real

Gemini 3.5 Live Translate es el modelo de vista previa de la Live API de Google para traducción de voz a voz de baja latencia en más de 70 idiomas. Esta guía explica qué se lanzó, cómo funciona el modo de API, qué formato de audio espera, cuáles son sus limitaciones y cómo diseñar el primer prototipo seguro para producción.

Imagen oficial de Google anunciando Gemini 3.5 Live Translate
Imagen oficial de lanzamiento de Google para Gemini 3.5 Live Translate. Los detalles de implementación a continuación provienen de la documentación de la Gemini Live API y la publicación oficial de lanzamiento de Google.

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Qué lanzó Google

Gemini 3.5 Live Translate no es un modelo de chat con un prompt de traducción. Es un modo de traducción dedicado de la Live API: transmite voz PCM a 16kHz, elige un idioma de destino y recibe audio traducido a 24kHz además de transcripciones opcionales desde gemini-3.5-live-translate-preview.

Model ID

gemini-3.5-live-translate-preview

Launch

June 9, 2026

Languages

70+ supported

Input

Audio only

Output

Translated audio

Status

Public preview for developers

Qué cambió para los desarrolladores

La publicación de lanzamiento de Google posiciona a Gemini 3.5 Live Translate como un modelo de audio para traducción de voz a voz en tiempo real. El cambio para los desarrolladores es que la traducción en tiempo real ahora está expuesta a través de la Gemini Live API y Google AI Studio, no solo dentro de los productos de Google para el usuario final.

ÁreaQué cambióImpacto en el desarrollador
Developer accessGemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio.Developers can prototype speech-to-speech translation without waiting for a separate product surface.
Model IDThe Live API translation model is `gemini-3.5-live-translate-preview`.Treat it as a preview model and isolate it behind config flags before production rollout.
Interaction modelLive Translation behaves like a realtime interpreter, not a conversational Live Agent.Do not design prompts, tools, function calls, or turn-taking flows around this mode.
Audio pipelineInput is audio-only raw PCM at 16kHz; output is translated audio at 24kHz.Your product needs capture, resampling, buffering, playback, and transcript handling.
Safety signalGoogle says model-generated audio is watermarked with SynthID.Apps using generated audio should disclose AI audio and preserve provenance expectations.

Hilo oficial de X y video

El hilo de lanzamiento de Google AI Developers es útil porque enmarca las capacidades para desarrolladores en términos de producto: entrada multilingüe, detección automática de idioma, procesamiento de audio nativo y robustez en entornos ruidosos.

La publicación incrustada incluye el video de lanzamiento oficial de Google. La conclusión importante para los desarrolladores no es solo que la traducción sea más rápida; es que la superficie del producto está diseñada para el habla continua, donde el sistema se mantiene cerca del hablante en lugar de esperar a que termine su turno.

Modelo mental: Live Agent frente a Live Translation

La Gemini Live API puede admitir interacciones de agentes en tiempo real, pero Live Translation es un modo más limitado. La documentación de Google lo describe como un pipeline de intérprete. Esa distinción cambia todo el diseño del producto.

DimensiónLive AgentLive Translation
RoleAssistant that listens, reasons, and can act.Interpreter pipeline for speech-to-speech translation.
InteractionTurn-based realtime conversation.Continuous stream processing while the speaker talks.
ToolsCan use Live API tool and agent capabilities.Translation-only; no tools or instructions.
InputsText, audio, video, image depending on feature.Audio input only for translation latency.
Main configGeneration, speech, tools, and instructions.`targetLanguageCode` plus `echoTargetLanguage`.

La implicación práctica: no utilices prompts en Live Translate como si fuera un asistente multilingüe. Construye un pipeline multimedia, no un chatbot. La superficie de la API se basa en fragmentos de audio, códigos de idioma, transcripciones y reproducción de salida.

Forma mínima de la API

La documentación muestra opciones para Python, JavaScript y WebSocket sin procesar. Para la mayoría de los equipos web, la forma del SDK de JavaScript es el punto de partida más claro, pero las aplicaciones del lado del cliente deberían seguir utilizando tokens efímeros en lugar de exponer una API key.

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({});

const session = await ai.live.connect({
  model: "gemini-3.5-live-translate-preview",
  config: {
    responseModalities: [Modality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
    translationConfig: {
      targetLanguageCode: "es",
      echoTargetLanguage: false,
    },
  },
  callbacks: {
    onmessage: (message) => {
      const content = message.serverContent;
      const transcript = content?.outputTranscription?.text;
      const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);

      if (transcript) console.log("Translated transcript:", transcript);
      if (translatedAudio) {
        // Decode and play the translated PCM audio chunk.
      }
    },
  },
});
CampoValorPor qué es importante
model`gemini-3.5-live-translate-preview`Use the preview Live Translate model.
responseModalities`AUDIO`The API returns translated audio chunks.
inputAudioTranscriptionobjectOptional input transcript stream.
outputAudioTranscriptionobjectOptional translated transcript stream.
targetLanguageCodeBCP-47 codeTarget output language, such as `pl`, `es`, or `ja`. Defaults to English.
echoTargetLanguagebooleanWhen true, target-language input is echoed; when false, the model stays silent for target-language speech.

Contrato de audio: PCM de entrada, audio traducido de salida

La documentación de Live Translate es explícita sobre el contrato de medios. El audio de entrada debe ser PCM sin procesar, little-endian, de 16 bits a 16kHz mono. El audio de salida es PCM sin procesar de 16 bits a 24kHz mono. Google recomienda fragmentos de 100ms para streaming de baja latencia.

// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks

session.sendRealtimeInput({
  audio: {
    data: pcm16MonoChunk.toString("base64"),
    mimeType: "audio/pcm;rate=16000",
  },
});

Eso significa que la parte difícil de una aplicación real a menudo no es la llamada a la API. Es la captura, el remuestreo, el manejo de la actividad de voz, el almacenamiento en búfer, la deriva de la reproducción y la respuesta de la interfaz de usuario cuando la red o el micrófono presentan problemas.

Seguridad del cliente con tokens efímeros

La documentación de Google recomienda tokens efímeros para aplicaciones de cliente a servidor, de modo que los clientes de navegador no expongan la API key. Para la traducción, la opción predeterminada más segura es bloquear translationConfig las restricciones del token en el servidor.

OpciónUsar cuandoRiesgo
Bloquear el idioma de destino en el servidorKiosco, aula, transmisión, sala de soporte, flujo de trabajo de reuniones.Menos flexible, pero el cliente no puede alterar la configuración de traducción.
Desbloquear el idioma de destino en el clienteEl usuario debe elegir el idioma de forma dinámica en el navegador.Requiere una validación, registro y controles de abuso más estrictos.

Un diseño de producción debe mantener la API key en el lado del servidor, generar tokens de corta duración, limitar los modelos permitidos, restringir los idiomas de destino siempre que sea posible y registrar suficientes metadatos para depurar la latencia sin almacenar audio sin procesar sensible innecesariamente.

Limitaciones que debes considerar en tu diseño

El enfoque del lanzamiento es sólido, pero la documentación oficial también enumera advertencias prácticas. Estas limitaciones son precisamente donde una aplicación pulida necesita soporte de UX.

LimitaciónAdvertencia oficialRespuesta del producto
Audio onlyTranslation mode does not accept text input.Keep text translation, chat, and function calling in separate flows.
Voice consistencyVoices can shift after long pauses or rapid speaker changes.Do not promise perfect speaker identity preservation.
Language detectionHeavy accents, similar languages, and fast language switches can affect the input transcript.Show transcript confidence and let users correct language when needed.
Background audioNoise and music are filtered, but not every background signal is ignored.Test real rooms, cars, crowds, and cheap microphones.
Echo artifacts`echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio.Default to false unless your UX really needs echoing.

Arquitectura de referencia

La aplicación de ejemplo de Google muestra un patrón de transmisión útil con LiveKit: el organizador publica audio, un puente de traducción se suscribe, se crea una sesión de Gemini Live API por cada idioma de destino y los asistentes se suscriben a la pista de audio traducida para el idioma que hayan elegido.

Organizer microphone
  -> realtime room audio
  -> translation bridge per target language
  -> Gemini Live API translationConfig
  -> translated 24kHz audio
  -> attendee playback + optional transcript

La idea de escalado más importante de la demo es el uso compartido de sesiones. Si cincuenta asistentes eligen español, no deberían crearse cincuenta sesiones de Gemini idénticas. Un puente puede publicar un flujo de traducción al español que compartan todos los oyentes de ese idioma.

Imagen oficial de Google que muestra la traducción de voz en una videollamada.
Imagen oficial de Google para la traducción de voz en reuniones. Google afirma que Meet utilizará 3.5 Live Translate en vista previa privada antes de su lanzamiento general.

Lanzamiento en los productos de Google

El lanzamiento no es solo un anuncio de una API. Google indica que Gemini 3.5 Live Translate se está implementando a través de tres superficies: vista previa pública para desarrolladores a través de la Gemini Live API y AI Studio, vista previa privada para clientes empresariales de Google Meet, y la aplicación Google Translate en Android e iOS.

SuperficieEstado por parte de GoogleConclusión para desarrolladores
Gemini Live APIVista previa pública para desarrolladores.El mejor lugar para crear y probar flujos de traducción personalizados en tiempo real.
Google AI StudioDisponible para probar las capacidades del modelo.La forma más rápida de realizar pruebas antes de configurar una pila multimedia.
Google MeetVista previa privada para clientes seleccionados de Workspace; lanzamiento más amplio próximamente.Demuestra que el modelo está orientado a la traducción de reuniones en vivo, no solo al doblaje por lotes sin conexión.
Aplicación Google TranslateLanzamiento global en Android e iOS.Buena referencia para las expectativas de UX en torno a auriculares, modo de escucha y salida de voz natural.

Lista de verificación de compilación

Si vas a desarrollar con Live Translate esta semana, comienza por la canalización de medios y los modos de fallo antes de pulir la interfaz.

1. Start in Google AI Studio to test target languages.
2. Use gemini-3.5-live-translate-preview behind a feature flag.
3. Capture microphone audio and convert to 16kHz mono PCM.
4. Send roughly 100ms chunks over the Live API session.
5. Request input and output transcripts for debugging.
6. Keep API keys on the server; use ephemeral tokens for browser clients.
7. Decide whether target language is locked server-side or user-selectable.
8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches.
9. Add visible latency and transcript status in the UI.
10. Disclose AI-generated translated audio and preserve SynthID expectations.

FAQ

¿Qué es Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate es el modelo de audio de Google para traducción de voz a voz en tiempo casi real. Los desarrolladores lo utilizan a través de la Gemini Live API con el modelo `gemini-3.5-live-translate-preview`.

¿Es Live Translate lo mismo que un Gemini Live Agent?

No. Live Translation es un pipeline de interpretación. No admite herramientas, llamadas a funciones, instrucciones de formato libre, entrada de texto ni comportamiento general de agente en el modo de traducción.

¿Qué formato de audio espera la API?

La documentación especifica audio PCM de 16 bits little-endian sin procesar a 16kHz mono para la entrada, salida de audio traducido a 24kHz mono y fragmentos de entrada de 100ms.

¿Puede una aplicación de navegador llamar a Live Translate directamente?

Utiliza tokens efímeros para aplicaciones del lado del cliente. La documentación recomienda bloquear la configuración de traducción en el servidor para que un cliente de navegador no pueda alterar los ajustes del modelo o del idioma.

¿Debería usar esto para producción hoy?

Trátalo como una capacidad en vista previa. Es útil para prototipos y pilotos controlados, pero las aplicaciones en producción requieren pruebas de latencia, UX de respaldo, revisión de privacidad, comprobaciones de calidad de audio y límites en torno a la consistencia de la voz.

Fuentes y enlaces oficiales

Sponsored AI assistant. Recommendations may be paid.