Gemini API

Gemini 3.5 Live Translate: API-Handbuch für Echtzeit-Sprachübersetzung

Gemini 3.5 Live Translate ist das Preview Live API-Modell von Google für latenzarme Sprach-zu-Sprach-Übersetzung in über 70 Sprachen. Dieses Handbuch erläutert die Neuerungen, die Funktionsweise des API-Modus, das erwartete Audioformat, die bestehenden Einschränkungen und wie man den ersten produktionssicheren Prototyp entwirft.

Offizielles Google-Bild zur Ankündigung von Gemini 3.5 Live Translate
Offizielles Google-Startbild für Gemini 3.5 Live Translate. Die unten aufgeführten Implementierungsdetails stammen aus der Gemini Live API-Dokumentation und dem offiziellen Launch-Beitrag von Google.

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Was Google gestartet hat

Gemini 3.5 Live Translate ist kein Chat-Modell mit einem Übersetzungs-Prompt. Es handelt sich um einen dedizierten Live API-Übersetzungsmodus: Streamen Sie 16kHz PCM-Sprache hinein, wählen Sie eine Zielsprache aus und erhalten Sie übersetztes 24kHz-Audio sowie optionale Transkripte von gemini-3.5-live-translate-preview.

Model ID

gemini-3.5-live-translate-preview

Launch

June 9, 2026

Languages

70+ supported

Input

Audio only

Output

Translated audio

Status

Public preview for developers

Was sich für Entwickler geändert hat

Googles Launch-Beitrag positioniert Gemini 3.5 Live Translate als Audio-Modell für Live-Sprache-zu-Sprache-Übersetzungen. Die für Entwickler relevante Änderung besteht darin, dass Echtzeit-Übersetzung nun über die Gemini Live API und Google AI Studio verfügbar ist und nicht mehr nur innerhalb von Google-Endnutzerprodukten.

BereichWas sich geändert hatAuswirkungen auf Entwickler
Developer accessGemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio.Developers can prototype speech-to-speech translation without waiting for a separate product surface.
Model IDThe Live API translation model is `gemini-3.5-live-translate-preview`.Treat it as a preview model and isolate it behind config flags before production rollout.
Interaction modelLive Translation behaves like a realtime interpreter, not a conversational Live Agent.Do not design prompts, tools, function calls, or turn-taking flows around this mode.
Audio pipelineInput is audio-only raw PCM at 16kHz; output is translated audio at 24kHz.Your product needs capture, resampling, buffering, playback, and transcript handling.
Safety signalGoogle says model-generated audio is watermarked with SynthID.Apps using generated audio should disclose AI audio and preserve provenance expectations.

Offizieller X-Thread und Video

Der Launch-Thread von Google AI Developers ist nützlich, da er die Entwicklerfunktionen in Produktbegriffen einordnet: mehrsprachige Eingabe, automatische Spracherkennung, native Audioverarbeitung und Robustheit in lauten Umgebungen.

Der eingebettete Beitrag enthält das offizielle Launch-Video von Google. Die wichtige Erkenntnis für Entwickler ist nicht nur, dass die Übersetzung schneller ist; es geht darum, dass die Produktoberfläche für kontinuierliche Sprache ausgelegt ist, bei der das System nah am Sprecher bleibt, anstatt auf einen vollständigen Redebeitrag zu warten.

Mentales Modell: Live Agent vs. Live Translation

Die Gemini Live API kann Echtzeit-Agenteninteraktionen unterstützen, aber Live Translation ist ein spezialisierterer Modus. Die Dokumentation von Google beschreibt ihn als Interpreter-Pipeline. Diese Unterscheidung verändert das gesamte Produktdesign.

DimensionLive AgentLive Translation
RoleAssistant that listens, reasons, and can act.Interpreter pipeline for speech-to-speech translation.
InteractionTurn-based realtime conversation.Continuous stream processing while the speaker talks.
ToolsCan use Live API tool and agent capabilities.Translation-only; no tools or instructions.
InputsText, audio, video, image depending on feature.Audio input only for translation latency.
Main configGeneration, speech, tools, and instructions.`targetLanguageCode` plus `echoTargetLanguage`.

Die praktische Konsequenz: Prompten Sie Live Translate nicht wie einen mehrsprachigen Assistenten. Bauen Sie eine Media-Pipeline, keinen Chatbot. Die API-Oberfläche dreht sich um Audio-Chunks, Sprachcodes, Transkripte und die Wiedergabe der Ausgabe.

Kleinste API-Form

Die Dokumentation zeigt Optionen für Python, JavaScript und rohe WebSockets. Für die meisten Web-Teams ist die Form des JavaScript SDK der klarste Ausgangspunkt, aber Client-seitige Apps sollten dennoch ephemere Tokens verwenden, anstatt einen API-Key offenzulegen.

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({});

const session = await ai.live.connect({
  model: "gemini-3.5-live-translate-preview",
  config: {
    responseModalities: [Modality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
    translationConfig: {
      targetLanguageCode: "es",
      echoTargetLanguage: false,
    },
  },
  callbacks: {
    onmessage: (message) => {
      const content = message.serverContent;
      const transcript = content?.outputTranscription?.text;
      const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);

      if (transcript) console.log("Translated transcript:", transcript);
      if (translatedAudio) {
        // Decode and play the translated PCM audio chunk.
      }
    },
  },
});
FeldWertWarum das wichtig ist
model`gemini-3.5-live-translate-preview`Use the preview Live Translate model.
responseModalities`AUDIO`The API returns translated audio chunks.
inputAudioTranscriptionobjectOptional input transcript stream.
outputAudioTranscriptionobjectOptional translated transcript stream.
targetLanguageCodeBCP-47 codeTarget output language, such as `pl`, `es`, or `ja`. Defaults to English.
echoTargetLanguagebooleanWhen true, target-language input is echoed; when false, the model stays silent for target-language speech.

Audio-Vertrag: PCM In, übersetztes Audio Out

Die Dokumentation zu Live Translate ist explizit bezüglich des Media-Vertrags. Das Eingabe-Audio muss rohes, Little-Endian, 16-Bit PCM mit 16kHz Mono sein. Das Ausgabe-Audio ist rohes 16-Bit PCM mit 24kHz Mono. Google empfiehlt 100ms-Chunks für Streaming mit geringer Latenz.

// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks

session.sendRealtimeInput({
  audio: {
    data: pcm16MonoChunk.toString("base64"),
    mimeType: "audio/pcm;rate=16000",
  },
});

Das bedeutet, dass der schwierige Teil einer echten App oft nicht der API-Aufruf ist. Es sind die Erfassung, das Resampling, die Handhabung der Sprachaktivität, das Buffering, die Wiedergabe-Drifts und das UI-Feedback, wenn das Netzwerk oder das Mikrofon Probleme bereiten.

Client-Sicherheit mit ephemeren Tokens

Die Dokumentation von Google empfiehlt für Client-Server-Anwendungen ephemere Tokens, damit Browser-Clients den API key nicht offenlegen. Für die Übersetzung ist es die sicherere Standardeinstellung, translationConfig die Token-Beschränkungen serverseitig festzulegen.

AuswahlVerwendung beiRisiko
Zielsprache serverseitig sperrenKiosk, Klassenzimmer, Broadcast, Support-Raum, Meeting-Workflow.Weniger flexibel, aber der Client kann die Übersetzungseinstellungen nicht manipulieren.
Zielsprache clientseitig entsperrenDer Benutzer muss die Sprache dynamisch im Browser auswählen.Erfordert strengere Validierung, Protokollierung und Missbrauchskontrollen.

Ein produktionsreifes Design sollte den API key serverseitig halten, kurzlebige Tokens ausstellen, erlaubte Modelle einschränken, Zielsprachen wo möglich begrenzen und genügend Metadaten protokollieren, um Latenzen zu debuggen, ohne unnötigerweise sensible Roh-Audiodaten zu speichern.

Einschränkungen, die Sie bei der Planung berücksichtigen sollten

Das Launch-Framing ist stark, aber die offizielle Dokumentation nennt auch praktische Vorbehalte. Genau an diesen Einschränkungen benötigt eine ausgereifte App UX-Unterstützung.

EinschränkungOffizieller VorbehaltProduktantwort
Audio onlyTranslation mode does not accept text input.Keep text translation, chat, and function calling in separate flows.
Voice consistencyVoices can shift after long pauses or rapid speaker changes.Do not promise perfect speaker identity preservation.
Language detectionHeavy accents, similar languages, and fast language switches can affect the input transcript.Show transcript confidence and let users correct language when needed.
Background audioNoise and music are filtered, but not every background signal is ignored.Test real rooms, cars, crowds, and cheap microphones.
Echo artifacts`echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio.Default to false unless your UX really needs echoing.

Referenzarchitektur

Die Beispiel-App von Google zeigt ein nützliches Broadcast-Muster mit LiveKit: Der Organisator veröffentlicht Audio, eine Übersetzungs-Bridge abonniert dieses, pro Zielsprache wird eine Gemini Live API Session erstellt und die Teilnehmer abonnieren die übersetzte Tonspur für ihre gewählte Sprache.

Organizer microphone
  -> realtime room audio
  -> translation bridge per target language
  -> Gemini Live API translationConfig
  -> translated 24kHz audio
  -> attendee playback + optional transcript

Die wichtigste Skalierungsidee der Demo ist das Session-Sharing. Wenn fünfzig Teilnehmer Spanisch wählen, sollten sie nicht fünfzig identische Gemini-Sessions erstellen. Eine Bridge kann einen spanischen Übersetzungs-Stream bereitstellen, den sich alle spanischsprachigen Zuhörer teilen.

Offizielle Google-Grafik zur Sprachübersetzung in einem Videomeeting
Offizielle Google-Grafik zur Sprachübersetzung in Meetings. Laut Google wird Meet 3.5 Live Translate vor einer breiteren Einführung in einer privaten Vorschau nutzen.

Einführung in Google-Produkten

Der Start ist nicht nur eine API-Ankündigung. Google gibt an, dass Gemini 3.5 Live Translate über drei Oberflächen ausgerollt wird: öffentliche Vorschau für Entwickler über die Gemini Live API und AI Studio, private Vorschau für Google Meet-Unternehmenskunden sowie die Google Translate App für Android und iOS.

OberflächeStatus von GoogleWichtigste Erkenntnis für Entwickler
Gemini Live APIÖffentliche Vorschau für Entwickler.Der beste Ort, um benutzerdefinierte Echtzeit-Übersetzungsabläufe zu erstellen und zu testen.
Google AI StudioVerfügbar zum Ausprobieren der Modellfunktionen.Der schnellste Weg zum Testen, bevor ein Media-Stack angebunden wird.
Google MeetPrivate Vorschau für ausgewählte Workspace-Kunden, breitere Einführung folgt später.Zeigt, dass das Modell auf die Live-Übersetzung von Meetings ausgerichtet ist und nicht nur auf Offline-Batch-Synchronisation.
Google Translate AppWeltweite Einführung auf Android und iOS.Gute Referenz für UX-Erwartungen in Bezug auf Kopfhörer, Zuhör-Modus und natürliche Sprachausgabe.

Build-Checkliste

Wenn du diese Woche mit Live Translate entwickelst, beginne mit der Media-Pipeline und den Fehlerzuständen, bevor du die Benutzeroberfläche verfeinerst.

1. Start in Google AI Studio to test target languages.
2. Use gemini-3.5-live-translate-preview behind a feature flag.
3. Capture microphone audio and convert to 16kHz mono PCM.
4. Send roughly 100ms chunks over the Live API session.
5. Request input and output transcripts for debugging.
6. Keep API keys on the server; use ephemeral tokens for browser clients.
7. Decide whether target language is locked server-side or user-selectable.
8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches.
9. Add visible latency and transcript status in the UI.
10. Disclose AI-generated translated audio and preserve SynthID expectations.

FAQ

Was ist Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate ist das Audiomodell von Google für nahezu echtzeitfähige Sprach-zu-Sprach-Übersetzung. Entwickler nutzen es über die Gemini Live API mit dem Modell `gemini-3.5-live-translate-preview`.

Ist Live Translate dasselbe wie ein Gemini Live Agent?

Nein. Live Translation ist eine Interpreter-Pipeline. Sie unterstützt im Übersetzungsmodus keine Tools, Funktionsaufrufe, freien Anweisungen, Texteingaben oder allgemeines Agentenverhalten.

Welches Audioformat erwartet die API?

Die Dokumentation spezifiziert rohes Little-Endian 16-Bit PCM-Audio mit 16 kHz Mono für die Eingabe, übersetzte Audioausgabe mit 24 kHz Mono und 100 ms Eingabe-Chunks.

Kann eine Browser-App Live Translate direkt aufrufen?

Verwenden Sie ephemere Tokens für clientseitige Anwendungen. Die Dokumentation empfiehlt, die Übersetzungskonfiguration auf dem Server zu sperren, damit ein Browser-Client die Modell- oder Spracheinstellungen nicht manipulieren kann.

Sollte ich dies heute für die Produktion verwenden?

Betrachten Sie es als Preview-Funktion. Es ist nützlich für Prototypen und kontrollierte Pilotprojekte, aber Produktionsanwendungen erfordern Latenztests, Fallback-UX, Datenschutzprüfungen, Audioqualitätskontrollen und Beschränkungen hinsichtlich der Stimmkonsistenz.

Offizielle Quellen und Links

Sponsored AI assistant. Recommendations may be paid.