Gemini API

Gemini 3.5 Live Translate:リアルタイム音声翻訳のためのAPIガイド

Gemini 3.5 Live Translateは、70以上の言語に対応した低レイテンシの音声対音声翻訳を実現するGoogleのプレビュー版Live APIモデルです。本ガイドでは、リリースの概要、APIモードの仕組み、要求されるオーディオフォーマット、制限事項、および本番環境を見据えた最初のプロトタイプの設計方法について解説します。

Gemini 3.5 Live Translateを発表するGoogle公式画像
Gemini 3.5 Live TranslateのGoogle公式ローンチ画像。以下の実装詳細は、Gemini Live APIのドキュメントおよびGoogleの公式ローンチ投稿に基づいています。

Get the latest on AI, LLMs & developer tools

New MCP servers, model updates, and guides like this one — delivered weekly.

Googleが発表したこと

Gemini 3.5 Live Translateは、翻訳プロンプトを使用するチャットモデルではありません。 これは専用のLive API翻訳モードです。16kHzのPCM音声をストリーミング入力し、ターゲット言語を選択することで、翻訳された24kHzの音声と、オプションで文字起こしデータを受け取ることができます。 gemini-3.5-live-translate-preview

Model ID

gemini-3.5-live-translate-preview

Launch

June 9, 2026

Languages

70+ supported

Input

Audio only

Output

Translated audio

Status

Public preview for developers

開発者にとっての変更点

Googleのローンチ投稿では、Gemini 3.5 Live Translateをライブ音声対音声翻訳のためのオーディオモデルとして位置づけています。開発者にとっての大きな変化は、リアルタイム翻訳がエンドユーザー向けのGoogle製品内だけでなく、Gemini Live APIやGoogle AI Studioを通じて利用可能になった点です。

領域変更点開発者への影響
Developer accessGemini 3.5 Live Translate is available in public preview through the Gemini Live API and Google AI Studio.Developers can prototype speech-to-speech translation without waiting for a separate product surface.
Model IDThe Live API translation model is `gemini-3.5-live-translate-preview`.Treat it as a preview model and isolate it behind config flags before production rollout.
Interaction modelLive Translation behaves like a realtime interpreter, not a conversational Live Agent.Do not design prompts, tools, function calls, or turn-taking flows around this mode.
Audio pipelineInput is audio-only raw PCM at 16kHz; output is translated audio at 24kHz.Your product needs capture, resampling, buffering, playback, and transcript handling.
Safety signalGoogle says model-generated audio is watermarked with SynthID.Apps using generated audio should disclose AI audio and preserve provenance expectations.

公式Xスレッドおよび動画

Google AI Developersのローンチスレッドは、多言語入力、自動言語検出、ネイティブ音声処理、ノイズの多い環境での堅牢性といった開発者向け機能を製品の観点から整理しており、非常に有益です。

埋め込まれた投稿には、Googleの公式ローンチ動画が含まれています。開発者にとって重要なポイントは、単に翻訳が高速であることだけでなく、製品インターフェースが連続的な発話に対応するように設計されている点です。システムは発話の完了を待つのではなく、話し手に寄り添う形で動作します。

メンタルモデル:Live Agent vs. Live Translation

Gemini Live APIはリアルタイムのエージェント対話をサポートできますが、Live Translationはより限定的なモードです。Googleのドキュメントでは、これを「通訳パイプライン」として説明しています。この違いが、製品設計全体に影響を与えます。

項目Live AgentLive Translation
RoleAssistant that listens, reasons, and can act.Interpreter pipeline for speech-to-speech translation.
InteractionTurn-based realtime conversation.Continuous stream processing while the speaker talks.
ToolsCan use Live API tool and agent capabilities.Translation-only; no tools or instructions.
InputsText, audio, video, image depending on feature.Audio input only for translation latency.
Main configGeneration, speech, tools, and instructions.`targetLanguageCode` plus `echoTargetLanguage`.

実践的な示唆:Live Translateに対して、多言語アシスタントのようなプロンプトを与えないでください。チャットボットではなく、メディアパイプラインを構築しましょう。APIのインターフェースは、オーディオチャンク、言語コード、トランスクリプト、および出力再生を中心に構成されています。

最小限のAPI構成

ドキュメントにはPython、JavaScript、および生のWebSocketを使用するオプションが示されています。多くのWebチームにとって、JavaScript SDKの構成が最も分かりやすい出発点となりますが、クライアントサイドのアプリではAPIキーを公開せず、エフェメラルトークンを使用すべきです。

import { GoogleGenAI, Modality } from "@google/genai";

const ai = new GoogleGenAI({});

const session = await ai.live.connect({
  model: "gemini-3.5-live-translate-preview",
  config: {
    responseModalities: [Modality.AUDIO],
    inputAudioTranscription: {},
    outputAudioTranscription: {},
    translationConfig: {
      targetLanguageCode: "es",
      echoTargetLanguage: false,
    },
  },
  callbacks: {
    onmessage: (message) => {
      const content = message.serverContent;
      const transcript = content?.outputTranscription?.text;
      const translatedAudio = content?.modelTurn?.parts?.find((part) => part.inlineData);

      if (transcript) console.log("Translated transcript:", transcript);
      if (translatedAudio) {
        // Decode and play the translated PCM audio chunk.
      }
    },
  },
});
フィールド重要性
model`gemini-3.5-live-translate-preview`Use the preview Live Translate model.
responseModalities`AUDIO`The API returns translated audio chunks.
inputAudioTranscriptionobjectOptional input transcript stream.
outputAudioTranscriptionobjectOptional translated transcript stream.
targetLanguageCodeBCP-47 codeTarget output language, such as `pl`, `es`, or `ja`. Defaults to English.
echoTargetLanguagebooleanWhen true, target-language input is echoed; when false, the model stays silent for target-language speech.

オーディオコントラクト:PCM入力、翻訳済みオーディオ出力

Live Translateのドキュメントでは、メディアコントラクトについて明記されています。入力音声は、raw、リトルエンディアン、16bit PCM、16kHzモノラルである必要があります。出力音声は、raw、16bit PCM、24kHzモノラルです。Googleは低遅延ストリーミングのために100msのチャンクサイズを推奨しています。

// Browser microphone audio usually needs conversion before sending.
// Target input for Live Translate:
// - raw PCM
// - 16-bit
// - little-endian
// - mono
// - 16kHz sample rate
// - roughly 100ms chunks

session.sendRealtimeInput({
  audio: {
    data: pcm16MonoChunk.toString("base64"),
    mimeType: "audio/pcm;rate=16000",
  },
});

つまり、実際のアプリ開発において難しいのはAPI呼び出しそのものではなく、キャプチャ、リサンプリング、音声アクティビティの処理、バッファリング、再生のズレ、そしてネットワークやマイクの状態が悪化した際のUIフィードバックの管理です。

エフェメラルトークンによるクライアントセキュリティ

Googleのドキュメントでは、ブラウザクライアントがAPIキーを公開しないよう、クライアント・サーバー間アプリケーションにはエフェメラルトークンの使用が推奨されています。翻訳においては、より安全なデフォルト設定として translationConfig サーバー側でトークンの制約をロックすることが挙げられます。

選択肢推奨されるケースリスク
サーバー側でターゲット言語をロックキオスク、教室、放送、サポートルーム、会議のワークフローなど。柔軟性は低下しますが、クライアント側で翻訳設定を改ざんされることはありません。
クライアント側でターゲット言語をアンロックユーザーがブラウザ上で動的に言語を選択する必要があります。より厳格なバリデーション、ログ記録、および不正利用対策が求められます。

本番環境の設計では、APIキーをサーバーサイドに保持し、短期間有効なトークンを発行し、使用可能なモデルを制限し、可能な限りターゲット言語を制約し、機密性の高い生の音声を不必要に保存することなく、レイテンシのデバッグに必要なメタデータを十分に記録するようにすべきです。

設計時に考慮すべき制限事項

ローンチ時の構成は強力ですが、公式ドキュメントには実用上の注意点も記載されています。これらの制限事項こそ、洗練されたアプリにおいてUXによるサポートが必要となる部分です。

制限事項公式の注意点プロダクトとしての対応
Audio onlyTranslation mode does not accept text input.Keep text translation, chat, and function calling in separate flows.
Voice consistencyVoices can shift after long pauses or rapid speaker changes.Do not promise perfect speaker identity preservation.
Language detectionHeavy accents, similar languages, and fast language switches can affect the input transcript.Show transcript confidence and let users correct language when needed.
Background audioNoise and music are filtered, but not every background signal is ignored.Test real rooms, cars, crowds, and cheap microphones.
Echo artifacts`echoTargetLanguage: true` can introduce artifacts when target-language input contains background audio.Default to false unless your UX really needs echoing.

リファレンスアーキテクチャ

Googleのサンプルアプリでは、LiveKitを使用した有用なブロードキャストパターンが示されています。主催者が音声を配信し、翻訳ブリッジがそれをサブスクライブし、ターゲット言語ごとに1つのGemini Live APIセッションを作成し、参加者が選択した言語の翻訳済みオーディオトラックをサブスクライブするという仕組みです。

Organizer microphone
  -> realtime room audio
  -> translation bridge per target language
  -> Gemini Live API translationConfig
  -> translated 24kHz audio
  -> attendee playback + optional transcript

このデモにおける最も重要なスケーリングのアイデアは、セッションの共有です。50人の参加者がスペイン語を選択した場合、50個の同一のGeminiセッションを作成すべきではありません。ブリッジを介して1つのスペイン語翻訳ストリームを配信し、すべてのスペイン語リスナーがそれを共有できるようにします。

ビデオ会議における音声翻訳を示すGoogle公式ビジュアル
会議での音声翻訳に関するGoogle公式ビジュアル。Googleによると、Meetではより広範な展開に先立ち、プライベートプレビューとして3.5 Live Translateが使用される予定です。

Google製品全体への展開

今回の発表は単なるAPIの告知ではありません。Googleによると、Gemini 3.5 Live Translateは、Gemini Live APIおよびAI Studioを通じた開発者向けパブリックプレビュー、Google Meetエンタープライズ顧客向けプライベートプレビュー、そしてAndroidおよびiOS版Google Translateアプリという3つのサーフェスを通じて展開されます。

サーフェスGoogleからのステータス開発者向けの要点
Gemini Live API開発者向けパブリックプレビュー。カスタムのリアルタイム翻訳フローを構築・テストするための最適な場所。
Google AI Studioモデルの機能を試すために利用可能。メディアスタックを構築する前にテストするための最速の方法。
Google Meet一部のWorkspace顧客向けプライベートプレビュー。順次拡大予定。このモデルがオフラインでのバッチ吹き替えだけでなく、ライブ会議の翻訳を目的としていることを示しています。
Google TranslateアプリAndroidおよびiOSでグローバルに展開中。ヘッドフォン、リスニングモード、自然な音声出力に関するUXの期待値を把握するための優れたリファレンス。

ビルドチェックリスト

今週 Live Translate を使用して開発を行う場合は、インターフェースの調整を行う前に、メディアパイプラインと障害モードから着手してください。

1. Start in Google AI Studio to test target languages.
2. Use gemini-3.5-live-translate-preview behind a feature flag.
3. Capture microphone audio and convert to 16kHz mono PCM.
4. Send roughly 100ms chunks over the Live API session.
5. Request input and output transcripts for debugging.
6. Keep API keys on the server; use ephemeral tokens for browser clients.
7. Decide whether target language is locked server-side or user-selectable.
8. Test accents, background music, overlapping speakers, long pauses, and rapid language switches.
9. Add visible latency and transcript status in the UI.
10. Disclose AI-generated translated audio and preserve SynthID expectations.

FAQ

Gemini 3.5 Live Translate とは?

Gemini 3.5 Live Translateは、ほぼリアルタイムの音声対音声翻訳を実現するGoogleのオーディオモデルです。開発者はGemini Live APIを通じて、`gemini-3.5-live-translate-preview`モデルを使用します。

Live TranslateはGemini Live Agentと同じものですか?

いいえ。Live Translationは通訳パイプラインです。翻訳モードでは、ツール、関数呼び出し、自由形式の指示、テキスト入力、または一般的なエージェントの動作はサポートされていません。

APIが要求するオーディオフォーマットは何ですか?

ドキュメントでは、入力には16kHzモノラルのraw little-endian 16-bit PCMオーディオ、出力には24kHzモノラルの翻訳済みオーディオ、および100msの入力チャンクが指定されています。

ブラウザアプリから直接Live Translateを呼び出すことはできますか?

クライアントサイドのアプリケーションにはエフェメラルトークンを使用してください。ブラウザクライアントがモデルや言語設定を改ざんできないよう、翻訳設定はサーバー側で固定することをドキュメントでは推奨しています。

今すぐ本番環境で使用すべきですか?

プレビュー機能として扱ってください。プロトタイプや管理されたパイロット運用には有用ですが、本番アプリではレイテンシテスト、フォールバックUX、プライバシーレビュー、音声品質チェック、および音声の一貫性に関する制限の検討が必要です。

公式ソースおよびリンク

Sponsored AI assistant. Recommendations may be paid.