サポートされているサービス
- イレブンラボ (プライマリまたはフォールバックプロバイダー)
- OpenAI (プライマリまたはフォールバック プロバイダー。要約にも使用されます)
- Edge TTS (プライマリまたはフォールバック プロバイダー、
node-edge-ttsを使用、API キーがない場合のデフォルト)
Edge TTS の注意事項
Edge TTS は、node-edge-tts 経由で Microsoft Edge のオンライン ニューラル TTS サービスを使用します。
図書館。これはホスト型サービス (ローカルではない) であり、Microsoft のエンドポイントを使用し、
API キーは必要ありません。 node-edge-tts は音声設定オプションを公開し、
ただし、すべてのオプションが Edge サービスでサポートされているわけではありません。 引用turn2search0
Edge TTS は公開された SLA やクォータのないパブリック Web サービスであるため、これを扱います。
ベストエフォートとして。保証された制限とサポートが必要な場合は、OpenAI または イレブンラボを使用してください。
Microsoft の Speech REST API では、リクエストあたり 10 分の音声制限が文書化されています。エッジTTS
は制限を公開していないため、同様の制限またはそれより低い制限を想定しています。 引用turn0search3
オプションのキー
OpenAI または イレブンラボが必要な場合:ELEVENLABS_API_KEY(またはXI_API_KEY)OPENAI_API_KEY
messages.tts.edge.enabled=false によって無効にされていない限り)。複数のプロバイダーが構成されている場合、選択したプロバイダーが最初に使用され、他のプロバイダーはフォールバック オプションになります。
自動サマリーは、構成された summaryModel (または agents.defaults.model.primary) を使用します。
そのため、サマリーを有効にする場合はプロバイダーも認証される必要があります。
サービスリンク
- OpenAI Text-to-Speech ガイド
- OpenAI オーディオ API リファレンス
- イレブンラボ テキスト読み上げ
- イレブンラボ認証
- ノードエッジ-tts
- Microsoft Speech 出力形式
デフォルトで有効になっていますか?
いいえ。Auto‑TTS はデフォルトで オフ です。設定で有効にしますmessages.tts.auto または /tts always (エイリアス: /tts on) とのセッションごと。
Edge TTS は、TTS がオンになると デフォルトで有効になり、自動的に使用されます
OpenAI または Celebrities API キーが利用できない場合。
構成
TTS 構成は、openclaw.json の messages.tts の下に存在します。
完全なスキーマは ゲートウェイ構成 にあります。
最小限の構成 (有効化 + プロバイダー)
OpenAI プライマリと イレブンラボ フォールバック
Edge TTS プライマリ (API キーなし)
エッジ TTS を無効にする
カスタム制限 + 設定パス
受信音声メモの後にのみ音声で返信する
長い返信の自動要約を無効にする
ユーザーごとの設定
スラッシュ コマンドは、ローカル オーバーライドをprefsPath に書き込みます (デフォルト:
~/.openclaw/settings/tts.json、OPENCLAW_TTS_PREFS でオーバーライドするか、
messages.tts.prefsPath)。
保存されたフィールド:- enabled
providermaxLength(概要しきい値、デフォルトは 1500 文字)summarize(デフォルトtrue)
messages.tts.* をオーバーライドします。
出力形式 (固定)
- テレグラム: Opus 音声メモ (イレブンラボからの
opus_48000_64、OpenAI からのopus)。- 48kHz / 64kbps は音声とノートの適切なトレードオフであり、丸いバブルに必要です。
- その他のチャンネル: MP3 (イレブンラボの
mp3_44100_128、OpenAI のmp3)。- 44.1kHz / 128kbps は、音声を明瞭にするためのデフォルトのバランスです。
- エッジ TTS:
edge.outputFormat(デフォルトaudio-24khz-48kbitrate-mono-mp3) を使用します。node-edge-ttsはoutputFormatを受け入れますが、すべての形式が利用できるわけではありません エッジサービスから。 引用turn2search0- 出力形式の値は、Microsoft Speech 出力形式 (Ogg/WebM Opus を含む) に従います。 引用turn1search0
- テレグラム
sendVoiceは OGG/MP3/M4A を受け入れます。必要に応じて OpenAI/イレブンラボを使用してください Opus の音声メモを保証します。 引用turn1search1 - 設定された Edge 出力形式が失敗した場合、OpenClaw は MP3 で再試行します。
自動 TTS 動作
有効にすると、OpenClaw は次のことを行います。- 応答にすでにメディアまたはMEDIA: ディレクティブが含まれている場合は、TTS をスキップします。
- 非常に短い返信 (10 文字未満) をスキップします。
agents.defaults.model.primary(またはsummaryModel) を使用して有効にすると、長い返信を要約します。- 生成された音声を返信に添付します。
maxLength を超え、要約がオフの場合 (または、
サマリーモデル)、オーディオ
はスキップされ、通常のテキスト応答が送信されます。
フロー図
スラッシュコマンドの使用法
コマンドは/tts という 1 つだけです。
有効化の詳細については、スラッシュ コマンド を参照してください。
Discord に関する注意: /tts は組み込みの Discord コマンドであるため、OpenClaw は
/voice をネイティブ コマンドとして使用します。テキスト /tts ... は引き続き機能します。
- コマンドには承認された送信者が必要です (許可リスト/所有者のルールが引き続き適用されます)。
commands.textまたはネイティブ コマンドの登録が有効になっている必要があります。off|always|inbound|taggedはセッションごとの切り替えです (/tts onは/tts alwaysのエイリアスです)。limitおよびsummaryは、メイン設定ではなくローカル設定に保存されます。/tts audioは 1 回限りの音声応答を生成します (TTS をオンに切り替えません)。
エージェントツール
tts ツールはテキストを音声に変換し、MEDIA: パスを返します。とき
結果は Telegram と互換性があり、ツールには [[audio_as_voice]] が含まれているため、
Telegram は音声バブルを送信します。
ゲートウェイ RPCゲートウェイ方式
tts.statustts.enabletts.disabletts.converttts.setProvidertts.providers