Gemini API

Gemini 3.5 Live Translate: Guia da API para tradução de voz em tempo real

O Gemini 3.5 Live Translate é o modelo preview da Live API do Google para tradução de fala para fala de baixa latência em mais de 70 idiomas. Este guia explica o que foi lançado, como o modo da API funciona, qual formato de áudio ele espera, onde estão suas limitações e como projetar o primeiro protótipo seguro para produção.

Imagem oficial do Google anunciando o Gemini 3.5 Live Translate
Imagem oficial de lançamento do Google para o Gemini 3.5 Live Translate. Os detalhes de implementação abaixo vêm da documentação da Gemini Live API e do post oficial de lançamento do Google.

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

O que o Google lançou

O Gemini 3.5 Live Translate não é um modelo de chat com um prompt de tradução. É um modo de tradução dedicado da Live API: transmita áudio PCM de 16kHz, escolha um idioma de destino e receba áudio traduzido de 24kHz, além de transcrições opcionais do gemini-3.5-live-translate-preview.

Model ID

gemini-3.5-live-translate-preview

Launch

June 9, 2026

Languages

70+ supported

Input

Audio only

Output

Translated audio

Status

Public preview for developers

O que mudou para desenvolvedores

O post de lançamento do Google posiciona o Gemini 3.5 Live Translate como um modelo de áudio para tradução de fala para fala em tempo real. A mudança para o desenvolvedor é que a tradução em tempo real agora é exposta através da Gemini Live API e do Google AI Studio, e não apenas dentro dos produtos Google para o usuário final.

ÁreaO que mudouImpacto para o desenvolvedor
Developer accessGemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio.Developers can prototype speech-to-speech translation without waiting for a separate product surface.
Model IDThe Live API translation model is `gemini-3.5-live-translate-preview`.Treat it as a preview model and isolate it behind config flags before production rollout.
Interaction modelLive Translation behaves like a realtime interpreter, not a conversational Live Agent.Do not design prompts, tools, function calls, or turn-taking flows around this mode.
Audio pipelineInput is audio-only raw PCM at 16kHz; output is translated audio at 24kHz.Your product needs capture, resampling, buffering, playback, and transcript handling.
Safety signalGoogle says model-generated audio is watermarked with SynthID.Apps using generated audio should disclose AI audio and preserve provenance expectations.

Thread oficial no X e vídeo

A thread de lançamento do Google AI Developers é útil porque enquadra as capacidades do desenvolvedor em termos de produto: entrada multilíngue, detecção automática de idioma, processamento de áudio nativo e robustez em ambientes ruidosos.

A publicação incorporada inclui o vídeo oficial de lançamento do Google. O ponto importante para os desenvolvedores não é apenas que a tradução é mais rápida; é que a superfície do produto foi projetada para fala contínua, onde o sistema permanece próximo ao falante em vez de esperar por uma frase completa.

Modelo Mental: Live Agent vs. Live Translation

A Gemini Live API pode suportar interações de agentes em tempo real, mas o Live Translation é um modo mais restrito. A documentação do Google descreve-o como um pipeline de intérprete. Essa distinção muda todo o design do produto.

DimensãoLive AgentLive Translation
RoleAssistant that listens, reasons, and can act.Interpreter pipeline for speech-to-speech translation.
InteractionTurn-based realtime conversation.Continuous stream processing while the speaker talks.
ToolsCan use Live API tool and agent capabilities.Translation-only; no tools or instructions.
InputsText, audio, video, image depending on feature.Audio input only for translation latency.
Main configGeneration, speech, tools, and instructions.`targetLanguageCode` plus `echoTargetLanguage`.

A implicação prática: não faça prompts no Live Translate como se fosse um assistente multilíngue. Construa um pipeline de mídia, não um chatbot. A superfície da API trata de chunks de áudio, códigos de idioma, transcrições e reprodução de saída.

Menor Formato de API

A documentação mostra opções em Python, JavaScript e WebSocket puro. Para a maioria das equipes web, o formato do JavaScript SDK é o ponto de partida mais claro, mas aplicativos client-side ainda devem usar tokens efêmeros em vez de expor uma API key.

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({});

const session = await ai.live.connect({
  model: "gemini-3.5-live-translate-preview",
  config: {
    responseModalities: [Modality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
    translationConfig: {
      targetLanguageCode: "es",
      echoTargetLanguage: false,
    },
  },
  callbacks: {
    onmessage: (message) => {
      const content = message.serverContent;
      const transcript = content?.outputTranscription?.text;
      const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);

      if (transcript) console.log("Translated transcript:", transcript);
      if (translatedAudio) {
        // Decode and play the translated PCM audio chunk.
      }
    },
  },
});
CampoValorPor que é importante
model`gemini-3.5-live-translate-preview`Use the preview Live Translate model.
responseModalities`AUDIO`The API returns translated audio chunks.
inputAudioTranscriptionobjectOptional input transcript stream.
outputAudioTranscriptionobjectOptional translated transcript stream.
targetLanguageCodeBCP-47 codeTarget output language, such as `pl`, `es`, or `ja`. Defaults to English.
echoTargetLanguagebooleanWhen true, target-language input is echoed; when false, the model stays silent for target-language speech.

Contrato de Áudio: PCM In, Áudio Traduzido Out

A documentação do Live Translate é explícita sobre o contrato de mídia. O áudio de entrada deve ser PCM bruto, little-endian, 16-bit a 16kHz mono. O áudio de saída é PCM bruto de 16-bit a 24kHz mono. O Google recomenda chunks de 100ms para streaming de baixa latência.

// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks

session.sendRealtimeInput({
  audio: {
    data: pcm16MonoChunk.toString("base64"),
    mimeType: "audio/pcm;rate=16000",
  },
});

Isso significa que a parte difícil de um aplicativo real geralmente não é a chamada de API. É a captura, reamostragem, tratamento de atividade de voz, buffering, desvio de reprodução (drift) e feedback da UI quando a rede ou o microfone apresentam instabilidade.

Segurança do Cliente com Tokens Efêmeros

A documentação do Google recomenda tokens efêmeros para aplicações cliente-servidor, para que clientes de navegador não exponham a API key. Para tradução, o padrão mais seguro é bloquear translationConfig as restrições de token no servidor.

EscolhaUse quandoRisco
Bloquear idioma de destino no servidorQuiosque, sala de aula, transmissão, sala de suporte, fluxo de trabalho de reunião.Menos flexível, mas o cliente não pode adulterar as configurações de tradução.
Desbloquear idioma de destino no clienteO usuário deve escolher o idioma dinamicamente no navegador.Requer validação, registro de logs e controles de abuso mais rigorosos.

Um design de produção deve manter a API key no lado do servidor, gerar tokens de curta duração, limitar os modelos permitidos, restringir idiomas de destino sempre que possível e registrar metadados suficientes para depurar a latência sem armazenar áudio bruto sensível desnecessariamente.

Limitações que você deve considerar no design

A estrutura de lançamento é sólida, mas a documentação oficial também lista ressalvas práticas. Essas limitações são exatamente onde um aplicativo polido precisa de suporte de UX.

LimitaçãoRessalva oficialResposta do produto
Audio onlyTranslation mode does not accept text input.Keep text translation, chat, and function calling in separate flows.
Voice consistencyVoices can shift after long pauses or rapid speaker changes.Do not promise perfect speaker identity preservation.
Language detectionHeavy accents, similar languages, and fast language switches can affect the input transcript.Show transcript confidence and let users correct language when needed.
Background audioNoise and music are filtered, but not every background signal is ignored.Test real rooms, cars, crowds, and cheap microphones.
Echo artifacts`echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio.Default to false unless your UX really needs echoing.

Arquitetura de Referência

O aplicativo de exemplo do Google mostra um padrão de transmissão útil com LiveKit: o organizador publica o áudio, uma ponte de tradução se inscreve, uma sessão da Gemini Live API é criada por idioma de destino e os participantes se inscrevem na faixa de áudio traduzida para o idioma escolhido.

Organizer microphone
  -> realtime room audio
  -> translation bridge per target language
  -> Gemini Live API translationConfig
  -> translated 24kHz audio
  -> attendee playback + optional transcript

A ideia de escalonamento mais importante da demonstração é o compartilhamento de sessão. Se cinquenta participantes escolherem espanhol, eles não devem criar cinquenta sessões Gemini idênticas. Uma ponte pode publicar um fluxo de tradução em espanhol que todos os ouvintes de espanhol compartilham.

Visual oficial do Google mostrando tradução de fala em uma reunião por vídeo
Visual oficial do Google para tradução de fala em reuniões. O Google afirma que o Meet usará o 3.5 Live Translate em visualização privada antes de uma implementação mais ampla.

Implementação em produtos Google

O lançamento não é apenas um anúncio de API. O Google diz que o Gemini 3.5 Live Translate está sendo implementado em três superfícies: visualização pública para desenvolvedores por meio da Gemini Live API e AI Studio, visualização privada para clientes corporativos do Google Meet e o aplicativo Google Translate no Android e iOS.

SuperfícieStatus do GoogleConclusão para desenvolvedores
Gemini Live APIVisualização pública para desenvolvedores.Melhor lugar para criar e testar fluxos de tradução em tempo real personalizados.
Google AI StudioDisponível para experimentar as capacidades do modelo.Maneira mais rápida de testar antes de conectar uma pilha de mídia.
Google MeetVisualização privada para clientes selecionados do Workspace, implementação mais ampla posteriormente.Mostra que o modelo é voltado para tradução de reuniões ao vivo, não apenas para dublagem em lote offline.
Aplicativo Google TranslateImplementação global no Android e iOS.Boa referência para expectativas de UX em relação a fones de ouvido, modo de escuta e saída de voz natural.

Checklist de construção

Se você estiver desenvolvendo com Live Translate esta semana, comece pelo pipeline de mídia e pelos modos de falha antes de refinar a interface.

1. Start in Google AI Studio to test target languages.
2. Use gemini-3.5-live-translate-preview behind a feature flag.
3. Capture microphone audio and convert to 16kHz mono PCM.
4. Send roughly 100ms chunks over the Live API session.
5. Request input and output transcripts for debugging.
6. Keep API keys on the server; use ephemeral tokens for browser clients.
7. Decide whether target language is locked server-side or user-selectable.
8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches.
9. Add visible latency and transcript status in the UI.
10. Disclose AI-generated translated audio and preserve SynthID expectations.

FAQ

O que é a Tradução em Tempo Real do Gemini 3.5?

O Gemini 3.5 Live Translate é o modelo de áudio do Google para tradução de fala para fala em tempo quase real. Desenvolvedores o utilizam por meio da Gemini Live API com o modelo `gemini-3.5-live-translate-preview`.

O Live Translate é o mesmo que um Gemini Live Agent?

Não. O Live Translation é um pipeline de intérprete. Ele não oferece suporte a ferramentas, chamadas de função, instruções de formato livre, entrada de texto ou comportamento geral de agente no modo de tradução.

Qual formato de áudio a API espera?

A documentação especifica áudio PCM de 16 bits little-endian bruto a 16kHz mono para entrada, áudio traduzido de saída a 24kHz mono e blocos de entrada de 100ms.

Um aplicativo de navegador pode chamar o Live Translate diretamente?

Use tokens efêmeros para aplicações client-side. A documentação recomenda bloquear a configuração de tradução no servidor para que um cliente de navegador não possa adulterar as configurações de modelo ou idioma.

Devo usar isso em produção hoje?

Trate-o como uma funcionalidade em preview. É útil para protótipos e pilotos controlados, mas aplicações em produção precisam de testes de latência, UX de fallback, revisão de privacidade, verificações de qualidade de áudio e limites em relação à consistência de voz.

Fontes e links oficiais

Sponsored AI assistant. Recommendations may be paid.