Get the latest on AI, LLMs & developer tools
New MCP servers, model updates, and guides like this one — delivered weekly.
Qué lanzó Google
Gemini 3.5 Live Translate no es un modelo de chat con un prompt de traducción. Es un modo de traducción dedicado de la Live API: transmite voz PCM a 16kHz, elige un idioma de destino y recibe audio traducido a 24kHz además de transcripciones opcionales desde gemini-3.5-live-translate-preview.
Model ID
gemini-3.5-live-translate-preview
Launch
June 9, 2026
Languages
70+ supported
Input
Audio only
Output
Translated audio
Status
Public preview for developers
Qué cambió para los desarrolladores
La publicación de lanzamiento de Google posiciona a Gemini 3.5 Live Translate como un modelo de audio para traducción de voz a voz en tiempo real. El cambio para los desarrolladores es que la traducción en tiempo real ahora está expuesta a través de la Gemini Live API y Google AI Studio, no solo dentro de los productos de Google para el usuario final.
| Área | Qué cambió | Impacto en el desarrollador |
|---|---|---|
| Developer access | Gemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio. | Developers can prototype speech-to-speech translation without waiting for a separate product surface. |
| Model ID | The Live API translation model is `gemini-3.5-live-translate-preview`. | Treat it as a preview model and isolate it behind config flags before production rollout. |
| Interaction model | Live Translation behaves like a realtime interpreter, not a conversational Live Agent. | Do not design prompts, tools, function calls, or turn-taking flows around this mode. |
| Audio pipeline | Input is audio-only raw PCM at 16kHz; output is translated audio at 24kHz. | Your product needs capture, resampling, buffering, playback, and transcript handling. |
| Safety signal | Google says model-generated audio is watermarked with SynthID. | Apps using generated audio should disclose AI audio and preserve provenance expectations. |
Hilo oficial de X y video
El hilo de lanzamiento de Google AI Developers es útil porque enmarca las capacidades para desarrolladores en términos de producto: entrada multilingüe, detección automática de idioma, procesamiento de audio nativo y robustez en entornos ruidosos.
Nuestro modelo de audio más reciente, Gemini 3.5 Live Translate, lleva la traducción de voz en tiempo real al siguiente nivel para los desarrolladores.
— Google AI Developers (@googleaidevs)9 de junio de 2026
La publicación incrustada incluye el video de lanzamiento oficial de Google. La conclusión importante para los desarrolladores no es solo que la traducción sea más rápida; es que la superficie del producto está diseñada para el habla continua, donde el sistema se mantiene cerca del hablante en lugar de esperar a que termine su turno.
Modelo mental: Live Agent frente a Live Translation
La Gemini Live API puede admitir interacciones de agentes en tiempo real, pero Live Translation es un modo más limitado. La documentación de Google lo describe como un pipeline de intérprete. Esa distinción cambia todo el diseño del producto.
| Dimensión | Live Agent | Live Translation |
|---|---|---|
| Role | Assistant that listens, reasons, and can act. | Interpreter pipeline for speech-to-speech translation. |
| Interaction | Turn-based realtime conversation. | Continuous stream processing while the speaker talks. |
| Tools | Can use Live API tool and agent capabilities. | Translation-only; no tools or instructions. |
| Inputs | Text, audio, video, image depending on feature. | Audio input only for translation latency. |
| Main config | Generation, speech, tools, and instructions. | `targetLanguageCode` plus `echoTargetLanguage`. |
La implicación práctica: no utilices prompts en Live Translate como si fuera un asistente multilingüe. Construye un pipeline multimedia, no un chatbot. La superficie de la API se basa en fragmentos de audio, códigos de idioma, transcripciones y reproducción de salida.
Forma mínima de la API
La documentación muestra opciones para Python, JavaScript y WebSocket sin procesar. Para la mayoría de los equipos web, la forma del SDK de JavaScript es el punto de partida más claro, pero las aplicaciones del lado del cliente deberían seguir utilizando tokens efímeros en lugar de exponer una API key.
import { GoogleGenAI, Modality } from "@google/genai";
const ai = new GoogleGenAI({});
const session = await ai.live.connect({
model: "gemini-3.5-live-translate-preview",
config: {
responseModalities: [Modality.AUDIO],
inputAudioTranscription: {},
outputAudioTranscription: {},
translationConfig: {
targetLanguageCode: "es",
echoTargetLanguage: false,
},
},
callbacks: {
onmessage: (message) => {
const content = message.serverContent;
const transcript = content?.outputTranscription?.text;
const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);
if (transcript) console.log("Translated transcript:", transcript);
if (translatedAudio) {
// Decode and play the translated PCM audio chunk.
}
},
},
});| Campo | Valor | Por qué es importante |
|---|---|---|
model | `gemini-3.5-live-translate-preview` | Use the preview Live Translate model. |
responseModalities | `AUDIO` | The API returns translated audio chunks. |
inputAudioTranscription | object | Optional input transcript stream. |
outputAudioTranscription | object | Optional translated transcript stream. |
targetLanguageCode | BCP-47 code | Target output language, such as `pl`, `es`, or `ja`. Defaults to English. |
echoTargetLanguage | boolean | When true, target-language input is echoed; when false, the model stays silent for target-language speech. |
Contrato de audio: PCM de entrada, audio traducido de salida
La documentación de Live Translate es explícita sobre el contrato de medios. El audio de entrada debe ser PCM sin procesar, little-endian, de 16 bits a 16kHz mono. El audio de salida es PCM sin procesar de 16 bits a 24kHz mono. Google recomienda fragmentos de 100ms para streaming de baja latencia.
// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks
session.sendRealtimeInput({
audio: {
data: pcm16MonoChunk.toString("base64"),
mimeType: "audio/pcm;rate=16000",
},
});Eso significa que la parte difícil de una aplicación real a menudo no es la llamada a la API. Es la captura, el remuestreo, el manejo de la actividad de voz, el almacenamiento en búfer, la deriva de la reproducción y la respuesta de la interfaz de usuario cuando la red o el micrófono presentan problemas.
Seguridad del cliente con tokens efímeros
La documentación de Google recomienda tokens efímeros para aplicaciones de cliente a servidor, de modo que los clientes de navegador no expongan la API key. Para la traducción, la opción predeterminada más segura es bloquear translationConfig las restricciones del token en el servidor.
| Opción | Usar cuando | Riesgo |
|---|---|---|
| Bloquear el idioma de destino en el servidor | Kiosco, aula, transmisión, sala de soporte, flujo de trabajo de reuniones. | Menos flexible, pero el cliente no puede alterar la configuración de traducción. |
| Desbloquear el idioma de destino en el cliente | El usuario debe elegir el idioma de forma dinámica en el navegador. | Requiere una validación, registro y controles de abuso más estrictos. |
Un diseño de producción debe mantener la API key en el lado del servidor, generar tokens de corta duración, limitar los modelos permitidos, restringir los idiomas de destino siempre que sea posible y registrar suficientes metadatos para depurar la latencia sin almacenar audio sin procesar sensible innecesariamente.
Limitaciones que debes considerar en tu diseño
El enfoque del lanzamiento es sólido, pero la documentación oficial también enumera advertencias prácticas. Estas limitaciones son precisamente donde una aplicación pulida necesita soporte de UX.
| Limitación | Advertencia oficial | Respuesta del producto |
|---|---|---|
| Audio only | Translation mode does not accept text input. | Keep text translation, chat, and function calling in separate flows. |
| Voice consistency | Voices can shift after long pauses or rapid speaker changes. | Do not promise perfect speaker identity preservation. |
| Language detection | Heavy accents, similar languages, and fast language switches can affect the input transcript. | Show transcript confidence and let users correct language when needed. |
| Background audio | Noise and music are filtered, but not every background signal is ignored. | Test real rooms, cars, crowds, and cheap microphones. |
| Echo artifacts | `echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio. | Default to false unless your UX really needs echoing. |
Arquitectura de referencia
La aplicación de ejemplo de Google muestra un patrón de transmisión útil con LiveKit: el organizador publica audio, un puente de traducción se suscribe, se crea una sesión de Gemini Live API por cada idioma de destino y los asistentes se suscriben a la pista de audio traducida para el idioma que hayan elegido.
Organizer microphone -> realtime room audio -> translation bridge per target language -> Gemini Live API translationConfig -> translated 24kHz audio -> attendee playback + optional transcript
La idea de escalado más importante de la demo es el uso compartido de sesiones. Si cincuenta asistentes eligen español, no deberían crearse cincuenta sesiones de Gemini idénticas. Un puente puede publicar un flujo de traducción al español que compartan todos los oyentes de ese idioma.

Lanzamiento en los productos de Google
El lanzamiento no es solo un anuncio de una API. Google indica que Gemini 3.5 Live Translate se está implementando a través de tres superficies: vista previa pública para desarrolladores a través de la Gemini Live API y AI Studio, vista previa privada para clientes empresariales de Google Meet, y la aplicación Google Translate en Android e iOS.
| Superficie | Estado por parte de Google | Conclusión para desarrolladores |
|---|---|---|
| Gemini Live API | Vista previa pública para desarrolladores. | El mejor lugar para crear y probar flujos de traducción personalizados en tiempo real. |
| Google AI Studio | Disponible para probar las capacidades del modelo. | La forma más rápida de realizar pruebas antes de configurar una pila multimedia. |
| Google Meet | Vista previa privada para clientes seleccionados de Workspace; lanzamiento más amplio próximamente. | Demuestra que el modelo está orientado a la traducción de reuniones en vivo, no solo al doblaje por lotes sin conexión. |
| Aplicación Google Translate | Lanzamiento global en Android e iOS. | Buena referencia para las expectativas de UX en torno a auriculares, modo de escucha y salida de voz natural. |
Lista de verificación de compilación
Si vas a desarrollar con Live Translate esta semana, comienza por la canalización de medios y los modos de fallo antes de pulir la interfaz.
1. Start in Google AI Studio to test target languages. 2. Use gemini-3.5-live-translate-preview behind a feature flag. 3. Capture microphone audio and convert to 16kHz mono PCM. 4. Send roughly 100ms chunks over the Live API session. 5. Request input and output transcripts for debugging. 6. Keep API keys on the server; use ephemeral tokens for browser clients. 7. Decide whether target language is locked server-side or user-selectable. 8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches. 9. Add visible latency and transcript status in the UI. 10. Disclose AI-generated translated audio and preserve SynthID expectations.
FAQ
¿Qué es Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate es el modelo de audio de Google para traducción de voz a voz en tiempo casi real. Los desarrolladores lo utilizan a través de la Gemini Live API con el modelo `gemini-3.5-live-translate-preview`.
¿Es Live Translate lo mismo que un Gemini Live Agent?
No. Live Translation es un pipeline de interpretación. No admite herramientas, llamadas a funciones, instrucciones de formato libre, entrada de texto ni comportamiento general de agente en el modo de traducción.
¿Qué formato de audio espera la API?
La documentación especifica audio PCM de 16 bits little-endian sin procesar a 16kHz mono para la entrada, salida de audio traducido a 24kHz mono y fragmentos de entrada de 100ms.
¿Puede una aplicación de navegador llamar a Live Translate directamente?
Utiliza tokens efímeros para aplicaciones del lado del cliente. La documentación recomienda bloquear la configuración de traducción en el servidor para que un cliente de navegador no pueda alterar los ajustes del modelo o del idioma.
¿Debería usar esto para producción hoy?
Trátalo como una capacidad en vista previa. Es útil para prototipos y pilotos controlados, pero las aplicaciones en producción requieren pruebas de latencia, UX de respaldo, revisión de privacidad, comprobaciones de calidad de audio y límites en torno a la consistencia de la voz.
Fuentes y enlaces oficiales
- Hilo de lanzamiento de Google AI Developers en X
- Publicación de lanzamiento en Google Keyword: Gemini 3.5 Live Translate
- Documentación de la Gemini API: Traducción en vivo con la Gemini Live API
- Ejemplos de la Google Gemini Live API: Live Translate con LiveKit
- Tarjeta del modelo Gemini 3.5 Audio
