Gemini 3.5 Live Translate API-Handbuch

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Was Google gestartet hat

Gemini 3.5 Live Translate ist kein Chat-Modell mit einem Übersetzungs-Prompt. Es handelt sich um einen dedizierten Live API-Übersetzungsmodus: Streamen Sie 16kHz PCM-Sprache hinein, wählen Sie eine Zielsprache aus und erhalten Sie übersetztes 24kHz-Audio sowie optionale Transkripte von gemini-3.5-live-translate-preview.

Model ID

gemini-3.5-live-translate-preview

Launch

June 9, 2026

Languages

70+ supported

Input

Audio only

Output

Translated audio

Status

Public preview for developers

Was sich für Entwickler geändert hat

Googles Launch-Beitrag positioniert Gemini 3.5 Live Translate als Audio-Modell für Live-Sprache-zu-Sprache-Übersetzungen. Die für Entwickler relevante Änderung besteht darin, dass Echtzeit-Übersetzung nun über die Gemini Live API und Google AI Studio verfügbar ist und nicht mehr nur innerhalb von Google-Endnutzerprodukten.

Bereich	Was sich geändert hat	Auswirkungen auf Entwickler
Developer access	Gemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio.	Developers can prototype speech-to-speech translation without waiting for a separate product surface.
Model ID	The Live API translation model is `gemini-3.5-live-translate-preview`.	Treat it as a preview model and isolate it behind config flags before production rollout.
Interaction model	Live Translation behaves like a realtime interpreter, not a conversational Live Agent.	Do not design prompts, tools, function calls, or turn-taking flows around this mode.
Audio pipeline	Input is audio-only raw PCM at 16kHz; output is translated audio at 24kHz.	Your product needs capture, resampling, buffering, playback, and transcript handling.
Safety signal	Google says model-generated audio is watermarked with SynthID.	Apps using generated audio should disclose AI audio and preserve provenance expectations.

Offizieller X-Thread und Video

Der Launch-Thread von Google AI Developers ist nützlich, da er die Entwicklerfunktionen in Produktbegriffen einordnet: mehrsprachige Eingabe, automatische Spracherkennung, native Audioverarbeitung und Robustheit in lauten Umgebungen.

Unser neuestes Audiomodell, Gemini 3.5 Live Translate, hebt Echtzeit-Sprachübersetzung für Entwickler auf die nächste Stufe.
— Google AI Developers (@googleaidevs)9. Juni 2026

Der eingebettete Beitrag enthält das offizielle Launch-Video von Google. Die wichtige Erkenntnis für Entwickler ist nicht nur, dass die Übersetzung schneller ist; es geht darum, dass die Produktoberfläche für kontinuierliche Sprache ausgelegt ist, bei der das System nah am Sprecher bleibt, anstatt auf einen vollständigen Redebeitrag zu warten.

Mentales Modell: Live Agent vs. Live Translation

Die Gemini Live API kann Echtzeit-Agenteninteraktionen unterstützen, aber Live Translation ist ein spezialisierterer Modus. Die Dokumentation von Google beschreibt ihn als Interpreter-Pipeline. Diese Unterscheidung verändert das gesamte Produktdesign.

Dimension	Live Agent	Live Translation
Role	Assistant that listens, reasons, and can act.	Interpreter pipeline for speech-to-speech translation.
Interaction	Turn-based realtime conversation.	Continuous stream processing while the speaker talks.
Tools	Can use Live API tool and agent capabilities.	Translation-only; no tools or instructions.
Inputs	Text, audio, video, image depending on feature.	Audio input only for translation latency.
Main config	Generation, speech, tools, and instructions.	`targetLanguageCode` plus `echoTargetLanguage`.

Die praktische Konsequenz: Prompten Sie Live Translate nicht wie einen mehrsprachigen Assistenten. Bauen Sie eine Media-Pipeline, keinen Chatbot. Die API-Oberfläche dreht sich um Audio-Chunks, Sprachcodes, Transkripte und die Wiedergabe der Ausgabe.

Kleinste API-Form

Die Dokumentation zeigt Optionen für Python, JavaScript und rohe WebSockets. Für die meisten Web-Teams ist die Form des JavaScript SDK der klarste Ausgangspunkt, aber Client-seitige Apps sollten dennoch ephemere Tokens verwenden, anstatt einen API-Key offenzulegen.

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({});

const session = await ai.live.connect({
  model: "gemini-3.5-live-translate-preview",
  config: {
    responseModalities: [Modality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
    translationConfig: {
      targetLanguageCode: "es",
      echoTargetLanguage: false,
    },
  },
  callbacks: {
    onmessage: (message) => {
      const content = message.serverContent;
      const transcript = content?.outputTranscription?.text;
      const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);

      if (transcript) console.log("Translated transcript:", transcript);
      if (translatedAudio) {
        // Decode and play the translated PCM audio chunk.
      }
    },
  },
});

Feld	Wert	Warum das wichtig ist
`model`	`gemini-3.5-live-translate-preview`	Use the preview Live Translate model.
`responseModalities`	`AUDIO`	The API returns translated audio chunks.
`inputAudioTranscription`	object	Optional input transcript stream.
`outputAudioTranscription`	object	Optional translated transcript stream.
`targetLanguageCode`	BCP-47 code	Target output language, such as `pl`, `es`, or `ja`. Defaults to English.
`echoTargetLanguage`	boolean	When true, target-language input is echoed; when false, the model stays silent for target-language speech.

Audio-Vertrag: PCM In, übersetztes Audio Out

Die Dokumentation zu Live Translate ist explizit bezüglich des Media-Vertrags. Das Eingabe-Audio muss rohes, Little-Endian, 16-Bit PCM mit 16kHz Mono sein. Das Ausgabe-Audio ist rohes 16-Bit PCM mit 24kHz Mono. Google empfiehlt 100ms-Chunks für Streaming mit geringer Latenz.

// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks

session.sendRealtimeInput({
  audio: {
    data: pcm16MonoChunk.toString("base64"),
    mimeType: "audio/pcm;rate=16000",
  },
});

Das bedeutet, dass der schwierige Teil einer echten App oft nicht der API-Aufruf ist. Es sind die Erfassung, das Resampling, die Handhabung der Sprachaktivität, das Buffering, die Wiedergabe-Drifts und das UI-Feedback, wenn das Netzwerk oder das Mikrofon Probleme bereiten.

Client-Sicherheit mit ephemeren Tokens

Die Dokumentation von Google empfiehlt für Client-Server-Anwendungen ephemere Tokens, damit Browser-Clients den API key nicht offenlegen. Für die Übersetzung ist es die sicherere Standardeinstellung, translationConfig die Token-Beschränkungen serverseitig festzulegen.

Auswahl	Verwendung bei	Risiko
Zielsprache serverseitig sperren	Kiosk, Klassenzimmer, Broadcast, Support-Raum, Meeting-Workflow.	Weniger flexibel, aber der Client kann die Übersetzungseinstellungen nicht manipulieren.
Zielsprache clientseitig entsperren	Der Benutzer muss die Sprache dynamisch im Browser auswählen.	Erfordert strengere Validierung, Protokollierung und Missbrauchskontrollen.

Ein produktionsreifes Design sollte den API key serverseitig halten, kurzlebige Tokens ausstellen, erlaubte Modelle einschränken, Zielsprachen wo möglich begrenzen und genügend Metadaten protokollieren, um Latenzen zu debuggen, ohne unnötigerweise sensible Roh-Audiodaten zu speichern.

Einschränkungen, die Sie bei der Planung berücksichtigen sollten

Das Launch-Framing ist stark, aber die offizielle Dokumentation nennt auch praktische Vorbehalte. Genau an diesen Einschränkungen benötigt eine ausgereifte App UX-Unterstützung.

Einschränkung	Offizieller Vorbehalt	Produktantwort
Audio only	Translation mode does not accept text input.	Keep text translation, chat, and function calling in separate flows.
Voice consistency	Voices can shift after long pauses or rapid speaker changes.	Do not promise perfect speaker identity preservation.
Language detection	Heavy accents, similar languages, and fast language switches can affect the input transcript.	Show transcript confidence and let users correct language when needed.
Background audio	Noise and music are filtered, but not every background signal is ignored.	Test real rooms, cars, crowds, and cheap microphones.
Echo artifacts	`echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio.	Default to false unless your UX really needs echoing.

Referenzarchitektur

Die Beispiel-App von Google zeigt ein nützliches Broadcast-Muster mit LiveKit: Der Organisator veröffentlicht Audio, eine Übersetzungs-Bridge abonniert dieses, pro Zielsprache wird eine Gemini Live API Session erstellt und die Teilnehmer abonnieren die übersetzte Tonspur für ihre gewählte Sprache.

Organizer microphone
  -> realtime room audio
  -> translation bridge per target language
  -> Gemini Live API translationConfig
  -> translated 24kHz audio
  -> attendee playback + optional transcript

Die wichtigste Skalierungsidee der Demo ist das Session-Sharing. Wenn fünfzig Teilnehmer Spanisch wählen, sollten sie nicht fünfzig identische Gemini-Sessions erstellen. Eine Bridge kann einen spanischen Übersetzungs-Stream bereitstellen, den sich alle spanischsprachigen Zuhörer teilen.

Offizielle Google-Grafik zur Sprachübersetzung in einem Videomeeting — Offizielle Google-Grafik zur Sprachübersetzung in Meetings. Laut Google wird Meet 3.5 Live Translate vor einer breiteren Einführung in einer privaten Vorschau nutzen.

Einführung in Google-Produkten

Der Start ist nicht nur eine API-Ankündigung. Google gibt an, dass Gemini 3.5 Live Translate über drei Oberflächen ausgerollt wird: öffentliche Vorschau für Entwickler über die Gemini Live API und AI Studio, private Vorschau für Google Meet-Unternehmenskunden sowie die Google Translate App für Android und iOS.

Oberfläche	Status von Google	Wichtigste Erkenntnis für Entwickler
Gemini Live API	Öffentliche Vorschau für Entwickler.	Der beste Ort, um benutzerdefinierte Echtzeit-Übersetzungsabläufe zu erstellen und zu testen.
Google AI Studio	Verfügbar zum Ausprobieren der Modellfunktionen.	Der schnellste Weg zum Testen, bevor ein Media-Stack angebunden wird.
Google Meet	Private Vorschau für ausgewählte Workspace-Kunden, breitere Einführung folgt später.	Zeigt, dass das Modell auf die Live-Übersetzung von Meetings ausgerichtet ist und nicht nur auf Offline-Batch-Synchronisation.
Google Translate App	Weltweite Einführung auf Android und iOS.	Gute Referenz für UX-Erwartungen in Bezug auf Kopfhörer, Zuhör-Modus und natürliche Sprachausgabe.

Build-Checkliste

Wenn du diese Woche mit Live Translate entwickelst, beginne mit der Media-Pipeline und den Fehlerzuständen, bevor du die Benutzeroberfläche verfeinerst.

1. Start in Google AI Studio to test target languages.
2. Use gemini-3.5-live-translate-preview behind a feature flag.
3. Capture microphone audio and convert to 16kHz mono PCM.
4. Send roughly 100ms chunks over the Live API session.
5. Request input and output transcripts for debugging.
6. Keep API keys on the server; use ephemeral tokens for browser clients.
7. Decide whether target language is locked server-side or user-selectable.
8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches.
9. Add visible latency and transcript status in the UI.
10. Disclose AI-generated translated audio and preserve SynthID expectations.

FAQ

Was ist Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate ist das Audiomodell von Google für nahezu echtzeitfähige Sprach-zu-Sprach-Übersetzung. Entwickler nutzen es über die Gemini Live API mit dem Modell `gemini-3.5-live-translate-preview`.

Ist Live Translate dasselbe wie ein Gemini Live Agent?

Nein. Live Translation ist eine Interpreter-Pipeline. Sie unterstützt im Übersetzungsmodus keine Tools, Funktionsaufrufe, freien Anweisungen, Texteingaben oder allgemeines Agentenverhalten.

Welches Audioformat erwartet die API?

Die Dokumentation spezifiziert rohes Little-Endian 16-Bit PCM-Audio mit 16 kHz Mono für die Eingabe, übersetzte Audioausgabe mit 24 kHz Mono und 100 ms Eingabe-Chunks.

Kann eine Browser-App Live Translate direkt aufrufen?

Verwenden Sie ephemere Tokens für clientseitige Anwendungen. Die Dokumentation empfiehlt, die Übersetzungskonfiguration auf dem Server zu sperren, damit ein Browser-Client die Modell- oder Spracheinstellungen nicht manipulieren kann.

Sollte ich dies heute für die Produktion verwenden?

Betrachten Sie es als Preview-Funktion. Es ist nützlich für Prototypen und kontrollierte Pilotprojekte, aber Produktionsanwendungen erfordern Latenztests, Fallback-UX, Datenschutzprüfungen, Audioqualitätskontrollen und Beschränkungen hinsichtlich der Stimmkonsistenz.

Offizielle Quellen und Links

Gemini 3.5 Flash-LeitfadenDer breitere Kontext der Gemini 3.5 Entwicklermodelle.Gemini CLI-MigrationWie Google Coding-Workflows in die Antigravity CLI integriert.Gemini CLI-EinrichtungNützliche Hintergrundinformationen für Gemini API- und CLI-Workflows.