Руководство по Gemini 3.5 Live Translate API

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Что запустила Google

Gemini 3.5 Live Translate — это не чат-модель с промптом для перевода. Это специализированный режим перевода в Live API: вы передаете потоковый аудиосигнал 16kHz PCM, выбираете целевой язык и получаете переведенный аудиопоток 24kHz, а также опциональные транскрипты от gemini-3.5-live-translate-preview.

Model ID

gemini-3.5-live-translate-preview

Launch

June 9, 2026

Languages

70+ supported

Input

Audio only

Output

Translated audio

Status

Public preview for developers

Что изменилось для разработчиков

В своем посте о запуске Google позиционирует Gemini 3.5 Live Translate как аудиомодель для синхронного перевода речи в речь. Ключевое изменение для разработчиков заключается в том, что теперь перевод в реальном времени доступен через Gemini Live API и Google AI Studio, а не только внутри конечных продуктов Google.

Область	Что изменилось	Влияние на разработчиков
Developer access	Gemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio.	Developers can prototype speech-to-speech translation without waiting for a separate product surface.
Model ID	The Live API translation model is `gemini-3.5-live-translate-preview`.	Treat it as a preview model and isolate it behind config flags before production rollout.
Interaction model	Live Translation behaves like a realtime interpreter, not a conversational Live Agent.	Do not design prompts, tools, function calls, or turn-taking flows around this mode.
Audio pipeline	Input is audio-only raw PCM at 16kHz; output is translated audio at 24kHz.	Your product needs capture, resampling, buffering, playback, and transcript handling.
Safety signal	Google says model-generated audio is watermarked with SynthID.	Apps using generated audio should disclose AI audio and preserve provenance expectations.

Официальная ветка в X и видео

Ветка запуска от Google AI Developers полезна тем, что описывает возможности для разработчиков в продуктовых терминах: многоязычный ввод, автоматическое определение языка, нативная обработка аудио и устойчивость к работе в шумной среде.

Наша новейшая аудиомодель, Gemini 3.5 Live Translate, выводит перевод речи в реальном времени на новый уровень для разработчиков.
— Google AI Developers (@googleaidevs)9 июня 2026 г.

Встроенный пост содержит официальное видео запуска от Google. Важный вывод для разработчиков заключается не только в том, что перевод стал быстрее; суть в том, что интерфейс продукта спроектирован для непрерывной речи, где система остается «близко» к говорящему, не дожидаясь завершения фразы.

Ментальная модель: Live Agent против Live Translation

Gemini Live API поддерживает взаимодействие с агентами в реальном времени, но Live Translation — это более узкий режим. В документации Google он описывается как конвейер интерпретатора. Это различие меняет весь дизайн продукта.

Параметр	Live Agent	Live Translation
Role	Assistant that listens, reasons, and can act.	Interpreter pipeline for speech-to-speech translation.
Interaction	Turn-based realtime conversation.	Continuous stream processing while the speaker talks.
Tools	Can use Live API tool and agent capabilities.	Translation-only; no tools or instructions.
Inputs	Text, audio, video, image depending on feature.	Audio input only for translation latency.
Main config	Generation, speech, tools, and instructions.	`targetLanguageCode` plus `echoTargetLanguage`.

Практический вывод: не используйте промпты для Live Translate как для многоязычного ассистента. Создавайте медиа-конвейер, а не чат-бота. API ориентирован на аудиофрагменты, языковые коды, транскрипты и воспроизведение вывода.

Минимальная структура API

В документации представлены варианты для Python, JavaScript и работа через WebSocket. Для большинства веб-команд JavaScript SDK является наиболее понятной отправной точкой, однако клиентские приложения должны использовать эфемерные токены, а не раскрывать API ключ.

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({});

const session = await ai.live.connect({
  model: "gemini-3.5-live-translate-preview",
  config: {
    responseModalities: [Modality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
    translationConfig: {
      targetLanguageCode: "es",
      echoTargetLanguage: false,
    },
  },
  callbacks: {
    onmessage: (message) => {
      const content = message.serverContent;
      const transcript = content?.outputTranscription?.text;
      const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);

      if (transcript) console.log("Translated transcript:", transcript);
      if (translatedAudio) {
        // Decode and play the translated PCM audio chunk.
      }
    },
  },
});

Поле	Значение	Почему это важно
`model`	`gemini-3.5-live-translate-preview`	Use the preview Live Translate model.
`responseModalities`	`AUDIO`	The API returns translated audio chunks.
`inputAudioTranscription`	object	Optional input transcript stream.
`outputAudioTranscription`	object	Optional translated transcript stream.
`targetLanguageCode`	BCP-47 code	Target output language, such as `pl`, `es`, or `ja`. Defaults to English.
`echoTargetLanguage`	boolean	When true, target-language input is echoed; when false, the model stays silent for target-language speech.

Аудиоконтракт: PCM на входе, переведенное аудио на выходе

Документация Live Translate четко определяет медиаконтракт. Входное аудио должно быть в формате raw, little-endian, 16-бит PCM с частотой 16 кГц моно. Выходное аудио — raw 16-бит PCM с частотой 24 кГц моно. Google рекомендует использовать фрагменты по 100 мс для потоковой передачи с низкой задержкой.

// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks

session.sendRealtimeInput({
  audio: {
    data: pcm16MonoChunk.toString("base64"),
    mimeType: "audio/pcm;rate=16000",
  },
});

Это означает, что самая сложная часть реального приложения — зачастую не вызов API. Это захват звука, передискретизация, обработка голосовой активности, буферизация, рассинхронизация воспроизведения и обратная связь в UI при проблемах с сетью или микрофоном.

Безопасность клиента с использованием эфемерных токенов

В документации Google рекомендуется использовать эфемерные токены для клиент-серверных приложений, чтобы браузерные клиенты не раскрывали API key. Для перевода более безопасным вариантом по умолчанию является фиксация translationConfig ограничений токена на стороне сервера.

Выбор	Использовать, когда	Риск
Фиксация целевого языка на сервере	Киоск, учебная аудитория, трансляция, комната поддержки, рабочий процесс совещания.	Менее гибко, но клиент не может изменить настройки перевода.
Разблокировка целевого языка на клиенте	Пользователь должен динамически выбирать язык в браузере.	Требует более строгой валидации, логирования и контроля злоупотреблений.

Промышленный дизайн должен хранить API key на стороне сервера, создавать краткосрочные токены, ограничивать доступные модели, фиксировать целевые языки там, где это возможно, и логировать достаточно метаданных для отладки задержек без излишнего хранения конфиденциальных необработанных аудиоданных.

Ограничения, которые следует учитывать при проектировании

Концепция запуска выглядит убедительно, но официальная документация также содержит практические предостережения. Именно в этих ограничениях качественному приложению требуется поддержка UX.

Ограничение	Официальное предостережение	Реакция продукта
Audio only	Translation mode does not accept text input.	Keep text translation, chat, and function calling in separate flows.
Voice consistency	Voices can shift after long pauses or rapid speaker changes.	Do not promise perfect speaker identity preservation.
Language detection	Heavy accents, similar languages, and fast language switches can affect the input transcript.	Show transcript confidence and let users correct language when needed.
Background audio	Noise and music are filtered, but not every background signal is ignored.	Test real rooms, cars, crowds, and cheap microphones.
Echo artifacts	`echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio.	Default to false unless your UX really needs echoing.

Эталонная архитектура

Пример приложения от Google демонстрирует полезный паттерн трансляции с использованием LiveKit: организатор публикует аудио, мост перевода подписывается на него, для каждого целевого языка создается одна сессия Gemini Live API, а участники подписываются на переведенную аудиодорожку для выбранного ими языка.

Organizer microphone
  -> realtime room audio
  -> translation bridge per target language
  -> Gemini Live API translationConfig
  -> translated 24kHz audio
  -> attendee playback + optional transcript

Самая важная идея масштабирования в этой демонстрации — совместное использование сессий. Если пятьдесят участников выбирают испанский язык, им не нужно создавать пятьдесят идентичных сессий Gemini. Мост может транслировать один поток перевода на испанском, который будут использовать все слушатели.

Официальное изображение от Google, демонстрирующее перевод речи во время видеовстречи. — Официальное изображение от Google для перевода речи на встречах. Google заявляет, что Meet будет использовать 3.5 Live Translate в рамках закрытого предварительного тестирования перед более широким развертыванием.

Развертывание в продуктах Google

Этот запуск — не просто анонс API. Google сообщает, что Gemini 3.5 Live Translate внедряется через три канала: публичное превью для разработчиков через Gemini Live API и AI Studio, закрытое превью для корпоративных клиентов Google Meet, а также приложение Google Translate на Android и iOS.

Платформа	Статус от Google	Основные выводы для разработчиков
Gemini Live API	Публичное превью для разработчиков.	Лучшее место для создания и тестирования пользовательских сценариев перевода в реальном времени.
Google AI Studio	Доступно для тестирования возможностей модели.	Самый быстрый способ протестировать решение перед интеграцией медиа-стека.
Google Meet	Закрытое превью для избранных клиентов Workspace, более широкое развертывание ожидается позже.	Демонстрирует, что модель ориентирована на перевод встреч в реальном времени, а не только на офлайн-дубляж пакетов данных.
Приложение Google Translate	Развертывается по всему миру на Android и iOS.	Хороший ориентир для ожиданий от UX в части использования наушников, режима прослушивания и естественного голосового вывода.

Чек-лист по сборке

Если на этой неделе вы работаете над Live Translate, начните с медиа-конвейера и сценариев сбоев, прежде чем приступать к полировке интерфейса.

1. Start in Google AI Studio to test target languages.
2. Use gemini-3.5-live-translate-preview behind a feature flag.
3. Capture microphone audio and convert to 16kHz mono PCM.
4. Send roughly 100ms chunks over the Live API session.
5. Request input and output transcripts for debugging.
6. Keep API keys on the server; use ephemeral tokens for browser clients.
7. Decide whether target language is locked server-side or user-selectable.
8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches.
9. Add visible latency and transcript status in the UI.
10. Disclose AI-generated translated audio and preserve SynthID expectations.

FAQ

Что такое Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate — это аудиомодель от Google для перевода речи в речь практически в реальном времени. Разработчики используют её через Gemini Live API с моделью `gemini-3.5-live-translate-preview`.

Является ли Live Translate тем же самым, что и Gemini Live Agent?

Нет. Live Translation — это конвейер интерпретатора. В режиме перевода он не поддерживает инструменты, вызов функций, инструкции в свободной форме, текстовый ввод или общее поведение агента.

Какой формат аудио ожидает API?

В документации указан необработанный 16-битный PCM-аудио (little-endian) с частотой 16 кГц (моно) для ввода, переведенный аудиовыход с частотой 24 кГц (моно) и входные фрагменты по 100 мс.

Может ли браузерное приложение вызывать Live Translate напрямую?

Используйте эфемерные токены для клиентских приложений. Документация рекомендует фиксировать конфигурацию перевода на сервере, чтобы браузерный клиент не мог изменить настройки модели или языка.

Стоит ли использовать это в продакшене уже сегодня?

Рассматривайте это как предварительную версию функционала. Она полезна для прототипов и контролируемых пилотных проектов, но для продакшн-приложений требуется тестирование задержек, UX-резервирование, проверка конфиденциальности, контроль качества звука и ограничения по согласованности голоса.

Официальные источники и ссылки

Руководство по Gemini 3.5 FlashОбщий контекст моделей для разработчиков Gemini 3.5.Миграция Gemini CLIКак Google переносит рабочие процессы программирования в Antigravity CLI.Настройка Gemini CLIПолезная справочная информация для рабочих процессов Gemini API и CLI.