Get the latest on AI, LLMs & developer tools
New MCP servers, model updates, and guides like this one — delivered weekly.
Что запустила Google
Gemini 3.5 Live Translate — это не чат-модель с промптом для перевода. Это специализированный режим перевода в Live API: вы передаете потоковый аудиосигнал 16kHz PCM, выбираете целевой язык и получаете переведенный аудиопоток 24kHz, а также опциональные транскрипты от gemini-3.5-live-translate-preview.
Model ID
gemini-3.5-live-translate-preview
Launch
June 9, 2026
Languages
70+ supported
Input
Audio only
Output
Translated audio
Status
Public preview for developers
Что изменилось для разработчиков
В своем посте о запуске Google позиционирует Gemini 3.5 Live Translate как аудиомодель для синхронного перевода речи в речь. Ключевое изменение для разработчиков заключается в том, что теперь перевод в реальном времени доступен через Gemini Live API и Google AI Studio, а не только внутри конечных продуктов Google.
| Область | Что изменилось | Влияние на разработчиков |
|---|---|---|
| Developer access | Gemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio. | Developers can prototype speech-to-speech translation without waiting for a separate product surface. |
| Model ID | The Live API translation model is `gemini-3.5-live-translate-preview`. | Treat it as a preview model and isolate it behind config flags before production rollout. |
| Interaction model | Live Translation behaves like a realtime interpreter, not a conversational Live Agent. | Do not design prompts, tools, function calls, or turn-taking flows around this mode. |
| Audio pipeline | Input is audio-only raw PCM at 16kHz; output is translated audio at 24kHz. | Your product needs capture, resampling, buffering, playback, and transcript handling. |
| Safety signal | Google says model-generated audio is watermarked with SynthID. | Apps using generated audio should disclose AI audio and preserve provenance expectations. |
Официальная ветка в X и видео
Ветка запуска от Google AI Developers полезна тем, что описывает возможности для разработчиков в продуктовых терминах: многоязычный ввод, автоматическое определение языка, нативная обработка аудио и устойчивость к работе в шумной среде.
Наша новейшая аудиомодель, Gemini 3.5 Live Translate, выводит перевод речи в реальном времени на новый уровень для разработчиков.
— Google AI Developers (@googleaidevs)9 июня 2026 г.
Встроенный пост содержит официальное видео запуска от Google. Важный вывод для разработчиков заключается не только в том, что перевод стал быстрее; суть в том, что интерфейс продукта спроектирован для непрерывной речи, где система остается «близко» к говорящему, не дожидаясь завершения фразы.
Ментальная модель: Live Agent против Live Translation
Gemini Live API поддерживает взаимодействие с агентами в реальном времени, но Live Translation — это более узкий режим. В документации Google он описывается как конвейер интерпретатора. Это различие меняет весь дизайн продукта.
| Параметр | Live Agent | Live Translation |
|---|---|---|
| Role | Assistant that listens, reasons, and can act. | Interpreter pipeline for speech-to-speech translation. |
| Interaction | Turn-based realtime conversation. | Continuous stream processing while the speaker talks. |
| Tools | Can use Live API tool and agent capabilities. | Translation-only; no tools or instructions. |
| Inputs | Text, audio, video, image depending on feature. | Audio input only for translation latency. |
| Main config | Generation, speech, tools, and instructions. | `targetLanguageCode` plus `echoTargetLanguage`. |
Практический вывод: не используйте промпты для Live Translate как для многоязычного ассистента. Создавайте медиа-конвейер, а не чат-бота. API ориентирован на аудиофрагменты, языковые коды, транскрипты и воспроизведение вывода.
Минимальная структура API
В документации представлены варианты для Python, JavaScript и работа через WebSocket. Для большинства веб-команд JavaScript SDK является наиболее понятной отправной точкой, однако клиентские приложения должны использовать эфемерные токены, а не раскрывать API ключ.
import { GoogleGenAI, Modality } from "@google/genai";
const ai = new GoogleGenAI({});
const session = await ai.live.connect({
model: "gemini-3.5-live-translate-preview",
config: {
responseModalities: [Modality.AUDIO],
inputAudioTranscription: {},
outputAudioTranscription: {},
translationConfig: {
targetLanguageCode: "es",
echoTargetLanguage: false,
},
},
callbacks: {
onmessage: (message) => {
const content = message.serverContent;
const transcript = content?.outputTranscription?.text;
const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);
if (transcript) console.log("Translated transcript:", transcript);
if (translatedAudio) {
// Decode and play the translated PCM audio chunk.
}
},
},
});| Поле | Значение | Почему это важно |
|---|---|---|
model | `gemini-3.5-live-translate-preview` | Use the preview Live Translate model. |
responseModalities | `AUDIO` | The API returns translated audio chunks. |
inputAudioTranscription | object | Optional input transcript stream. |
outputAudioTranscription | object | Optional translated transcript stream. |
targetLanguageCode | BCP-47 code | Target output language, such as `pl`, `es`, or `ja`. Defaults to English. |
echoTargetLanguage | boolean | When true, target-language input is echoed; when false, the model stays silent for target-language speech. |
Аудиоконтракт: PCM на входе, переведенное аудио на выходе
Документация Live Translate четко определяет медиаконтракт. Входное аудио должно быть в формате raw, little-endian, 16-бит PCM с частотой 16 кГц моно. Выходное аудио — raw 16-бит PCM с частотой 24 кГц моно. Google рекомендует использовать фрагменты по 100 мс для потоковой передачи с низкой задержкой.
// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks
session.sendRealtimeInput({
audio: {
data: pcm16MonoChunk.toString("base64"),
mimeType: "audio/pcm;rate=16000",
},
});Это означает, что самая сложная часть реального приложения — зачастую не вызов API. Это захват звука, передискретизация, обработка голосовой активности, буферизация, рассинхронизация воспроизведения и обратная связь в UI при проблемах с сетью или микрофоном.
Безопасность клиента с использованием эфемерных токенов
В документации Google рекомендуется использовать эфемерные токены для клиент-серверных приложений, чтобы браузерные клиенты не раскрывали API key. Для перевода более безопасным вариантом по умолчанию является фиксация translationConfig ограничений токена на стороне сервера.
| Выбор | Использовать, когда | Риск |
|---|---|---|
| Фиксация целевого языка на сервере | Киоск, учебная аудитория, трансляция, комната поддержки, рабочий процесс совещания. | Менее гибко, но клиент не может изменить настройки перевода. |
| Разблокировка целевого языка на клиенте | Пользователь должен динамически выбирать язык в браузере. | Требует более строгой валидации, логирования и контроля злоупотреблений. |
Промышленный дизайн должен хранить API key на стороне сервера, создавать краткосрочные токены, ограничивать доступные модели, фиксировать целевые языки там, где это возможно, и логировать достаточно метаданных для отладки задержек без излишнего хранения конфиденциальных необработанных аудиоданных.
Ограничения, которые следует учитывать при проектировании
Концепция запуска выглядит убедительно, но официальная документация также содержит практические предостережения. Именно в этих ограничениях качественному приложению требуется поддержка UX.
| Ограничение | Официальное предостережение | Реакция продукта |
|---|---|---|
| Audio only | Translation mode does not accept text input. | Keep text translation, chat, and function calling in separate flows. |
| Voice consistency | Voices can shift after long pauses or rapid speaker changes. | Do not promise perfect speaker identity preservation. |
| Language detection | Heavy accents, similar languages, and fast language switches can affect the input transcript. | Show transcript confidence and let users correct language when needed. |
| Background audio | Noise and music are filtered, but not every background signal is ignored. | Test real rooms, cars, crowds, and cheap microphones. |
| Echo artifacts | `echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio. | Default to false unless your UX really needs echoing. |
Эталонная архитектура
Пример приложения от Google демонстрирует полезный паттерн трансляции с использованием LiveKit: организатор публикует аудио, мост перевода подписывается на него, для каждого целевого языка создается одна сессия Gemini Live API, а участники подписываются на переведенную аудиодорожку для выбранного ими языка.
Organizer microphone -> realtime room audio -> translation bridge per target language -> Gemini Live API translationConfig -> translated 24kHz audio -> attendee playback + optional transcript
Самая важная идея масштабирования в этой демонстрации — совместное использование сессий. Если пятьдесят участников выбирают испанский язык, им не нужно создавать пятьдесят идентичных сессий Gemini. Мост может транслировать один поток перевода на испанском, который будут использовать все слушатели.

Развертывание в продуктах Google
Этот запуск — не просто анонс API. Google сообщает, что Gemini 3.5 Live Translate внедряется через три канала: публичное превью для разработчиков через Gemini Live API и AI Studio, закрытое превью для корпоративных клиентов Google Meet, а также приложение Google Translate на Android и iOS.
| Платформа | Статус от Google | Основные выводы для разработчиков |
|---|---|---|
| Gemini Live API | Публичное превью для разработчиков. | Лучшее место для создания и тестирования пользовательских сценариев перевода в реальном времени. |
| Google AI Studio | Доступно для тестирования возможностей модели. | Самый быстрый способ протестировать решение перед интеграцией медиа-стека. |
| Google Meet | Закрытое превью для избранных клиентов Workspace, более широкое развертывание ожидается позже. | Демонстрирует, что модель ориентирована на перевод встреч в реальном времени, а не только на офлайн-дубляж пакетов данных. |
| Приложение Google Translate | Развертывается по всему миру на Android и iOS. | Хороший ориентир для ожиданий от UX в части использования наушников, режима прослушивания и естественного голосового вывода. |
Чек-лист по сборке
Если на этой неделе вы работаете над Live Translate, начните с медиа-конвейера и сценариев сбоев, прежде чем приступать к полировке интерфейса.
1. Start in Google AI Studio to test target languages. 2. Use gemini-3.5-live-translate-preview behind a feature flag. 3. Capture microphone audio and convert to 16kHz mono PCM. 4. Send roughly 100ms chunks over the Live API session. 5. Request input and output transcripts for debugging. 6. Keep API keys on the server; use ephemeral tokens for browser clients. 7. Decide whether target language is locked server-side or user-selectable. 8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches. 9. Add visible latency and transcript status in the UI. 10. Disclose AI-generated translated audio and preserve SynthID expectations.
FAQ
Что такое Gemini 3.5 Live Translate?
Gemini 3.5 Live Translate — это аудиомодель от Google для перевода речи в речь практически в реальном времени. Разработчики используют её через Gemini Live API с моделью `gemini-3.5-live-translate-preview`.
Является ли Live Translate тем же самым, что и Gemini Live Agent?
Нет. Live Translation — это конвейер интерпретатора. В режиме перевода он не поддерживает инструменты, вызов функций, инструкции в свободной форме, текстовый ввод или общее поведение агента.
Какой формат аудио ожидает API?
В документации указан необработанный 16-битный PCM-аудио (little-endian) с частотой 16 кГц (моно) для ввода, переведенный аудиовыход с частотой 24 кГц (моно) и входные фрагменты по 100 мс.
Может ли браузерное приложение вызывать Live Translate напрямую?
Используйте эфемерные токены для клиентских приложений. Документация рекомендует фиксировать конфигурацию перевода на сервере, чтобы браузерный клиент не мог изменить настройки модели или языка.
Стоит ли использовать это в продакшене уже сегодня?
Рассматривайте это как предварительную версию функционала. Она полезна для прототипов и контролируемых пилотных проектов, но для продакшн-приложений требуется тестирование задержек, UX-резервирование, проверка конфиденциальности, контроль качества звука и ограничения по согласованности голоса.
