Gemini API

Gemini 3.5 Live Translate: руководство по API для голосового перевода в реальном времени

Gemini 3.5 Live Translate — это предварительная модель Live API от Google для низкозадержечного перевода речи в речь на более чем 70 языках. В этом руководстве объясняется, что было выпущено, как работает режим API, какой формат аудио он ожидает, каковы его ограничения и как спроектировать первый безопасный для продакшена прототип.

Официальное изображение Google, анонсирующее Gemini 3.5 Live Translate
Официальное изображение Google, посвященное запуску Gemini 3.5 Live Translate. Детали реализации, приведенные ниже, взяты из документации Gemini Live API и официального поста о запуске от Google.

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Что запустила Google

Gemini 3.5 Live Translate — это не чат-модель с промптом для перевода. Это специализированный режим перевода в Live API: вы передаете потоковый аудиосигнал 16kHz PCM, выбираете целевой язык и получаете переведенный аудиопоток 24kHz, а также опциональные транскрипты от gemini-3.5-live-translate-preview.

Model ID

gemini-3.5-live-translate-preview

Launch

June 9, 2026

Languages

70+ supported

Input

Audio only

Output

Translated audio

Status

Public preview for developers

Что изменилось для разработчиков

В своем посте о запуске Google позиционирует Gemini 3.5 Live Translate как аудиомодель для синхронного перевода речи в речь. Ключевое изменение для разработчиков заключается в том, что теперь перевод в реальном времени доступен через Gemini Live API и Google AI Studio, а не только внутри конечных продуктов Google.

ОбластьЧто изменилосьВлияние на разработчиков
Developer accessGemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio.Developers can prototype speech-to-speech translation without waiting for a separate product surface.
Model IDThe Live API translation model is `gemini-3.5-live-translate-preview`.Treat it as a preview model and isolate it behind config flags before production rollout.
Interaction modelLive Translation behaves like a realtime interpreter, not a conversational Live Agent.Do not design prompts, tools, function calls, or turn-taking flows around this mode.
Audio pipelineInput is audio-only raw PCM at 16kHz; output is translated audio at 24kHz.Your product needs capture, resampling, buffering, playback, and transcript handling.
Safety signalGoogle says model-generated audio is watermarked with SynthID.Apps using generated audio should disclose AI audio and preserve provenance expectations.

Официальная ветка в X и видео

Ветка запуска от Google AI Developers полезна тем, что описывает возможности для разработчиков в продуктовых терминах: многоязычный ввод, автоматическое определение языка, нативная обработка аудио и устойчивость к работе в шумной среде.

Встроенный пост содержит официальное видео запуска от Google. Важный вывод для разработчиков заключается не только в том, что перевод стал быстрее; суть в том, что интерфейс продукта спроектирован для непрерывной речи, где система остается «близко» к говорящему, не дожидаясь завершения фразы.

Ментальная модель: Live Agent против Live Translation

Gemini Live API поддерживает взаимодействие с агентами в реальном времени, но Live Translation — это более узкий режим. В документации Google он описывается как конвейер интерпретатора. Это различие меняет весь дизайн продукта.

ПараметрLive AgentLive Translation
RoleAssistant that listens, reasons, and can act.Interpreter pipeline for speech-to-speech translation.
InteractionTurn-based realtime conversation.Continuous stream processing while the speaker talks.
ToolsCan use Live API tool and agent capabilities.Translation-only; no tools or instructions.
InputsText, audio, video, image depending on feature.Audio input only for translation latency.
Main configGeneration, speech, tools, and instructions.`targetLanguageCode` plus `echoTargetLanguage`.

Практический вывод: не используйте промпты для Live Translate как для многоязычного ассистента. Создавайте медиа-конвейер, а не чат-бота. API ориентирован на аудиофрагменты, языковые коды, транскрипты и воспроизведение вывода.

Минимальная структура API

В документации представлены варианты для Python, JavaScript и работа через WebSocket. Для большинства веб-команд JavaScript SDK является наиболее понятной отправной точкой, однако клиентские приложения должны использовать эфемерные токены, а не раскрывать API ключ.

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({});

const session = await ai.live.connect({
  model: "gemini-3.5-live-translate-preview",
  config: {
    responseModalities: [Modality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
    translationConfig: {
      targetLanguageCode: "es",
      echoTargetLanguage: false,
    },
  },
  callbacks: {
    onmessage: (message) => {
      const content = message.serverContent;
      const transcript = content?.outputTranscription?.text;
      const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);

      if (transcript) console.log("Translated transcript:", transcript);
      if (translatedAudio) {
        // Decode and play the translated PCM audio chunk.
      }
    },
  },
});
ПолеЗначениеПочему это важно
model`gemini-3.5-live-translate-preview`Use the preview Live Translate model.
responseModalities`AUDIO`The API returns translated audio chunks.
inputAudioTranscriptionobjectOptional input transcript stream.
outputAudioTranscriptionobjectOptional translated transcript stream.
targetLanguageCodeBCP-47 codeTarget output language, such as `pl`, `es`, or `ja`. Defaults to English.
echoTargetLanguagebooleanWhen true, target-language input is echoed; when false, the model stays silent for target-language speech.

Аудиоконтракт: PCM на входе, переведенное аудио на выходе

Документация Live Translate четко определяет медиаконтракт. Входное аудио должно быть в формате raw, little-endian, 16-бит PCM с частотой 16 кГц моно. Выходное аудио — raw 16-бит PCM с частотой 24 кГц моно. Google рекомендует использовать фрагменты по 100 мс для потоковой передачи с низкой задержкой.

// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks

session.sendRealtimeInput({
  audio: {
    data: pcm16MonoChunk.toString("base64"),
    mimeType: "audio/pcm;rate=16000",
  },
});

Это означает, что самая сложная часть реального приложения — зачастую не вызов API. Это захват звука, передискретизация, обработка голосовой активности, буферизация, рассинхронизация воспроизведения и обратная связь в UI при проблемах с сетью или микрофоном.

Безопасность клиента с использованием эфемерных токенов

В документации Google рекомендуется использовать эфемерные токены для клиент-серверных приложений, чтобы браузерные клиенты не раскрывали API key. Для перевода более безопасным вариантом по умолчанию является фиксация translationConfig ограничений токена на стороне сервера.

ВыборИспользовать, когдаРиск
Фиксация целевого языка на сервереКиоск, учебная аудитория, трансляция, комната поддержки, рабочий процесс совещания.Менее гибко, но клиент не может изменить настройки перевода.
Разблокировка целевого языка на клиентеПользователь должен динамически выбирать язык в браузере.Требует более строгой валидации, логирования и контроля злоупотреблений.

Промышленный дизайн должен хранить API key на стороне сервера, создавать краткосрочные токены, ограничивать доступные модели, фиксировать целевые языки там, где это возможно, и логировать достаточно метаданных для отладки задержек без излишнего хранения конфиденциальных необработанных аудиоданных.

Ограничения, которые следует учитывать при проектировании

Концепция запуска выглядит убедительно, но официальная документация также содержит практические предостережения. Именно в этих ограничениях качественному приложению требуется поддержка UX.

ОграничениеОфициальное предостережениеРеакция продукта
Audio onlyTranslation mode does not accept text input.Keep text translation, chat, and function calling in separate flows.
Voice consistencyVoices can shift after long pauses or rapid speaker changes.Do not promise perfect speaker identity preservation.
Language detectionHeavy accents, similar languages, and fast language switches can affect the input transcript.Show transcript confidence and let users correct language when needed.
Background audioNoise and music are filtered, but not every background signal is ignored.Test real rooms, cars, crowds, and cheap microphones.
Echo artifacts`echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio.Default to false unless your UX really needs echoing.

Эталонная архитектура

Пример приложения от Google демонстрирует полезный паттерн трансляции с использованием LiveKit: организатор публикует аудио, мост перевода подписывается на него, для каждого целевого языка создается одна сессия Gemini Live API, а участники подписываются на переведенную аудиодорожку для выбранного ими языка.

Organizer microphone
  -> realtime room audio
  -> translation bridge per target language
  -> Gemini Live API translationConfig
  -> translated 24kHz audio
  -> attendee playback + optional transcript

Самая важная идея масштабирования в этой демонстрации — совместное использование сессий. Если пятьдесят участников выбирают испанский язык, им не нужно создавать пятьдесят идентичных сессий Gemini. Мост может транслировать один поток перевода на испанском, который будут использовать все слушатели.

Официальное изображение от Google, демонстрирующее перевод речи во время видеовстречи.
Официальное изображение от Google для перевода речи на встречах. Google заявляет, что Meet будет использовать 3.5 Live Translate в рамках закрытого предварительного тестирования перед более широким развертыванием.

Развертывание в продуктах Google

Этот запуск — не просто анонс API. Google сообщает, что Gemini 3.5 Live Translate внедряется через три канала: публичное превью для разработчиков через Gemini Live API и AI Studio, закрытое превью для корпоративных клиентов Google Meet, а также приложение Google Translate на Android и iOS.

ПлатформаСтатус от GoogleОсновные выводы для разработчиков
Gemini Live APIПубличное превью для разработчиков.Лучшее место для создания и тестирования пользовательских сценариев перевода в реальном времени.
Google AI StudioДоступно для тестирования возможностей модели.Самый быстрый способ протестировать решение перед интеграцией медиа-стека.
Google MeetЗакрытое превью для избранных клиентов Workspace, более широкое развертывание ожидается позже.Демонстрирует, что модель ориентирована на перевод встреч в реальном времени, а не только на офлайн-дубляж пакетов данных.
Приложение Google TranslateРазвертывается по всему миру на Android и iOS.Хороший ориентир для ожиданий от UX в части использования наушников, режима прослушивания и естественного голосового вывода.

Чек-лист по сборке

Если на этой неделе вы работаете над Live Translate, начните с медиа-конвейера и сценариев сбоев, прежде чем приступать к полировке интерфейса.

1. Start in Google AI Studio to test target languages.
2. Use gemini-3.5-live-translate-preview behind a feature flag.
3. Capture microphone audio and convert to 16kHz mono PCM.
4. Send roughly 100ms chunks over the Live API session.
5. Request input and output transcripts for debugging.
6. Keep API keys on the server; use ephemeral tokens for browser clients.
7. Decide whether target language is locked server-side or user-selectable.
8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches.
9. Add visible latency and transcript status in the UI.
10. Disclose AI-generated translated audio and preserve SynthID expectations.

FAQ

Что такое Gemini 3.5 Live Translate?

Gemini 3.5 Live Translate — это аудиомодель от Google для перевода речи в речь практически в реальном времени. Разработчики используют её через Gemini Live API с моделью `gemini-3.5-live-translate-preview`.

Является ли Live Translate тем же самым, что и Gemini Live Agent?

Нет. Live Translation — это конвейер интерпретатора. В режиме перевода он не поддерживает инструменты, вызов функций, инструкции в свободной форме, текстовый ввод или общее поведение агента.

Какой формат аудио ожидает API?

В документации указан необработанный 16-битный PCM-аудио (little-endian) с частотой 16 кГц (моно) для ввода, переведенный аудиовыход с частотой 24 кГц (моно) и входные фрагменты по 100 мс.

Может ли браузерное приложение вызывать Live Translate напрямую?

Используйте эфемерные токены для клиентских приложений. Документация рекомендует фиксировать конфигурацию перевода на сервере, чтобы браузерный клиент не мог изменить настройки модели или языка.

Стоит ли использовать это в продакшене уже сегодня?

Рассматривайте это как предварительную версию функционала. Она полезна для прототипов и контролируемых пилотных проектов, но для продакшн-приложений требуется тестирование задержек, UX-резервирование, проверка конфиденциальности, контроль качества звука и ограничения по согласованности голоса.

Официальные источники и ссылки

Sponsored AI assistant. Recommendations may be paid.