Get the latest on AI, LLMs & developer tools
New MCP servers, model updates, and guides like this one — delivered weekly.
Was Google gestartet hat
Gemini 3.5 Live Translate ist kein Chat-Modell mit einem Übersetzungs-Prompt. Es handelt sich um einen dedizierten Live API-Übersetzungsmodus: Streamen Sie 16kHz PCM-Sprache hinein, wählen Sie eine Zielsprache aus und erhalten Sie übersetztes 24kHz-Audio sowie optionale Transkripte von gemini-3.5-live-translate-preview.
Model ID
gemini-3.5-live-translate-preview
Launch
June 9, 2026
Languages
70+ supported
Input
Audio only
Output
Translated audio
Status
Public preview for developers
Was sich für Entwickler geändert hat
Googles Launch-Beitrag positioniert Gemini 3.5 Live Translate als Audio-Modell für Live-Sprache-zu-Sprache-Übersetzungen. Die für Entwickler relevante Änderung besteht darin, dass Echtzeit-Übersetzung nun über die Gemini Live API und Google AI Studio verfügbar ist und nicht mehr nur innerhalb von Google-Endnutzerprodukten.
| Bereich | Was sich geändert hat | Auswirkungen auf Entwickler |
|---|---|---|
| Developer access | Gemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio. | Developers can prototype speech-to-speech translation without waiting for a separate product surface. |
| Model ID | The Live API translation model is `gemini-3.5-live-translate-preview`. | Treat it as a preview model and isolate it behind config flags before production rollout. |
| Interaction model | Live Translation behaves like a realtime interpreter, not a conversational Live Agent. | Do not design prompts, tools, function calls, or turn-taking flows around this mode. |
| Audio pipeline | Input is audio-only raw PCM at 16kHz; output is translated audio at 24kHz. | Your product needs capture, resampling, buffering, playback, and transcript handling. |
| Safety signal | Google says model-generated audio is watermarked with SynthID. | Apps using generated audio should disclose AI audio and preserve provenance expectations. |
Offizieller X-Thread und Video
Der Launch-Thread von Google AI Developers ist nützlich, da er die Entwicklerfunktionen in Produktbegriffen einordnet: mehrsprachige Eingabe, automatische Spracherkennung, native Audioverarbeitung und Robustheit in lauten Umgebungen.
Unser neuestes Audiomodell, Gemini 3.5 Live Translate, hebt Echtzeit-Sprachübersetzung für Entwickler auf die nächste Stufe.
— Google AI Developers (@googleaidevs)9. Juni 2026
Der eingebettete Beitrag enthält das offizielle Launch-Video von Google. Die wichtige Erkenntnis für Entwickler ist nicht nur, dass die Übersetzung schneller ist; es geht darum, dass die Produktoberfläche für kontinuierliche Sprache ausgelegt ist, bei der das System nah am Sprecher bleibt, anstatt auf einen vollständigen Redebeitrag zu warten.
Mentales Modell: Live Agent vs. Live Translation
Die Gemini Live API kann Echtzeit-Agenteninteraktionen unterstützen, aber Live Translation ist ein spezialisierterer Modus. Die Dokumentation von Google beschreibt ihn als Interpreter-Pipeline. Diese Unterscheidung verändert das gesamte Produktdesign.
| Dimension | Live Agent | Live Translation |
|---|---|---|
| Role | Assistant that listens, reasons, and can act. | Interpreter pipeline for speech-to-speech translation. |
| Interaction | Turn-based realtime conversation. | Continuous stream processing while the speaker talks. |
| Tools | Can use Live API tool and agent capabilities. | Translation-only; no tools or instructions. |
| Inputs | Text, audio, video, image depending on feature. | Audio input only for translation latency. |
| Main config | Generation, speech, tools, and instructions. | `targetLanguageCode` plus `echoTargetLanguage`. |
Die praktische Konsequenz: Prompten Sie Live Translate nicht wie einen mehrsprachigen Assistenten. Bauen Sie eine Media-Pipeline, keinen Chatbot. Die API-Oberfläche dreht sich um Audio-Chunks, Sprachcodes, Transkripte und die Wiedergabe der Ausgabe.
Kleinste API-Form
Die Dokumentation zeigt Optionen für Python, JavaScript und rohe WebSockets. Für die meisten Web-Teams ist die Form des JavaScript SDK der klarste Ausgangspunkt, aber Client-seitige Apps sollten dennoch ephemere Tokens verwenden, anstatt einen API-Key offenzulegen.
import { GoogleGenAI, Modality } from "@google/genai";
const ai = new GoogleGenAI({});
const session = await ai.live.connect({
model: "gemini-3.5-live-translate-preview",
config: {
responseModalities: [Modality.AUDIO],
inputAudioTranscription: {},
outputAudioTranscription: {},
translationConfig: {
targetLanguageCode: "es",
echoTargetLanguage: false,
},
},
callbacks: {
onmessage: (message) => {
const content = message.serverContent;
const transcript = content?.outputTranscription?.text;
const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);
if (transcript) console.log("Translated transcript:", transcript);
if (translatedAudio) {
// Decode and play the translated PCM audio chunk.
}
},
},
});| Feld | Wert | Warum das wichtig ist |
|---|---|---|
model | `gemini-3.5-live-translate-preview` | Use the preview Live Translate model. |
responseModalities | `AUDIO` | The API returns translated audio chunks. |
inputAudioTranscription | object | Optional input transcript stream. |
outputAudioTranscription | object | Optional translated transcript stream. |
targetLanguageCode | BCP-47 code | Target output language, such as `pl`, `es`, or `ja`. Defaults to English. |
echoTargetLanguage | boolean | When true, target-language input is echoed; when false, the model stays silent for target-language speech. |
Audio-Vertrag: PCM In, übersetztes Audio Out
Die Dokumentation zu Live Translate ist explizit bezüglich des Media-Vertrags. Das Eingabe-Audio muss rohes, Little-Endian, 16-Bit PCM mit 16kHz Mono sein. Das Ausgabe-Audio ist rohes 16-Bit PCM mit 24kHz Mono. Google empfiehlt 100ms-Chunks für Streaming mit geringer Latenz.
// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks
session.sendRealtimeInput({
audio: {
data: pcm16MonoChunk.toString("base64"),
mimeType: "audio/pcm;rate=16000",
},
});Das bedeutet, dass der schwierige Teil einer echten App oft nicht der API-Aufruf ist. Es sind die Erfassung, das Resampling, die Handhabung der Sprachaktivität, das Buffering, die Wiedergabe-Drifts und das UI-Feedback, wenn das Netzwerk oder das Mikrofon Probleme bereiten.
Client-Sicherheit mit ephemeren Tokens
Die Dokumentation von Google empfiehlt für Client-Server-Anwendungen ephemere Tokens, damit Browser-Clients den API key nicht offenlegen. Für die Übersetzung ist es die sicherere Standardeinstellung, translationConfig die Token-Beschränkungen serverseitig festzulegen.
| Auswahl | Verwendung bei | Risiko |
|---|---|---|
| Zielsprache serverseitig sperren | Kiosk, Klassenzimmer, Broadcast, Support-Raum, Meeting-Workflow. | Weniger flexibel, aber der Client kann die Übersetzungseinstellungen nicht manipulieren. |
| Zielsprache clientseitig entsperren | Der Benutzer muss die Sprache dynamisch im Browser auswählen. | Erfordert strengere Validierung, Protokollierung und Missbrauchskontrollen. |
Ein produktionsreifes Design sollte den API key serverseitig halten, kurzlebige Tokens ausstellen, erlaubte Modelle einschränken, Zielsprachen wo möglich begrenzen und genügend Metadaten protokollieren, um Latenzen zu debuggen, ohne unnötigerweise sensible Roh-Audiodaten zu speichern.
Einschränkungen, die Sie bei der Planung berücksichtigen sollten
Das Launch-Framing ist stark, aber die offizielle Dokumentation nennt auch praktische Vorbehalte. Genau an diesen Einschränkungen benötigt eine ausgereifte App UX-Unterstützung.
| Einschränkung | Offizieller Vorbehalt | Produktantwort |
|---|---|---|
| Audio only | Translation mode does not accept text input. | Keep text translation, chat, and function calling in separate flows. |
| Voice consistency | Voices can shift after long pauses or rapid speaker changes. | Do not promise perfect speaker identity preservation. |
| Language detection | Heavy accents, similar languages, and fast language switches can affect the input transcript. | Show transcript confidence and let users correct language when needed. |
| Background audio | Noise and music are filtered, but not every background signal is ignored. | Test real rooms, cars, crowds, and cheap microphones. |
| Echo artifacts | `echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio. | Default to false unless your UX really needs echoing. |
Referenzarchitektur
Die Beispiel-App von Google zeigt ein nützliches Broadcast-Muster mit LiveKit: Der Organisator veröffentlicht Audio, eine Übersetzungs-Bridge abonniert dieses, pro Zielsprache wird eine Gemini Live API Session erstellt und die Teilnehmer abonnieren die übersetzte Tonspur für ihre gewählte Sprache.
Organizer microphone -> realtime room audio -> translation bridge per target language -> Gemini Live API translationConfig -> translated 24kHz audio -> attendee playback + optional transcript
Die wichtigste Skalierungsidee der Demo ist das Session-Sharing. Wenn fünfzig Teilnehmer Spanisch wählen, sollten sie nicht fünfzig identische Gemini-Sessions erstellen. Eine Bridge kann einen spanischen Übersetzungs-Stream bereitstellen, den sich alle spanischsprachigen Zuhörer teilen.

Einführung in Google-Produkten
Der Start ist nicht nur eine API-Ankündigung. Google gibt an, dass Gemini 3.5 Live Translate über drei Oberflächen ausgerollt wird: öffentliche Vorschau für Entwickler über die Gemini Live API und AI Studio, private Vorschau für Google Meet-Unternehmenskunden sowie die Google Translate App für Android und iOS.
| Oberfläche | Status von Google | Wichtigste Erkenntnis für Entwickler |
|---|---|---|
| Gemini Live API | Öffentliche Vorschau für Entwickler. | Der beste Ort, um benutzerdefinierte Echtzeit-Übersetzungsabläufe zu erstellen und zu testen. |
| Google AI Studio | Verfügbar zum Ausprobieren der Modellfunktionen. | Der schnellste Weg zum Testen, bevor ein Media-Stack angebunden wird. |
| Google Meet | Private Vorschau für ausgewählte Workspace-Kunden, breitere Einführung folgt später. | Zeigt, dass das Modell auf die Live-Übersetzung von Meetings ausgerichtet ist und nicht nur auf Offline-Batch-Synchronisation. |
| Google Translate App | Weltweite Einführung auf Android und iOS. | Gute Referenz für UX-Erwartungen in Bezug auf Kopfhörer, Zuhör-Modus und natürliche Sprachausgabe. |
Build-Checkliste
Wenn du diese Woche mit Live Translate entwickelst, beginne mit der Media-Pipeline und den Fehlerzuständen, bevor du die Benutzeroberfläche verfeinerst.
1. Start in Google AI Studio to test target languages. 2. Use gemini-3.5-live-translate-preview behind a feature flag. 3. Capture microphone audio and convert to 16kHz mono PCM. 4. Send roughly 100ms chunks over the Live API session. 5. Request input and output transcripts for debugging. 6. Keep API keys on the server; use ephemeral tokens for browser clients. 7. Decide whether target language is locked server-side or user-selectable. 8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches. 9. Add visible latency and transcript status in the UI. 10. Disclose AI-generated translated audio and preserve SynthID expectations.
FAQ
Was ist Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate ist das Audiomodell von Google für nahezu echtzeitfähige Sprach-zu-Sprach-Übersetzung. Entwickler nutzen es über die Gemini Live API mit dem Modell `gemini-3.5-live-translate-preview`.
Ist Live Translate dasselbe wie ein Gemini Live Agent?
Nein. Live Translation ist eine Interpreter-Pipeline. Sie unterstützt im Übersetzungsmodus keine Tools, Funktionsaufrufe, freien Anweisungen, Texteingaben oder allgemeines Agentenverhalten.
Welches Audioformat erwartet die API?
Die Dokumentation spezifiziert rohes Little-Endian 16-Bit PCM-Audio mit 16 kHz Mono für die Eingabe, übersetzte Audioausgabe mit 24 kHz Mono und 100 ms Eingabe-Chunks.
Kann eine Browser-App Live Translate direkt aufrufen?
Verwenden Sie ephemere Tokens für clientseitige Anwendungen. Die Dokumentation empfiehlt, die Übersetzungskonfiguration auf dem Server zu sperren, damit ein Browser-Client die Modell- oder Spracheinstellungen nicht manipulieren kann.
Sollte ich dies heute für die Produktion verwenden?
Betrachten Sie es als Preview-Funktion. Es ist nützlich für Prototypen und kontrollierte Pilotprojekte, aber Produktionsanwendungen erfordern Latenztests, Fallback-UX, Datenschutzprüfungen, Audioqualitätskontrollen und Beschränkungen hinsichtlich der Stimmkonsistenz.
