推奨: LM Studio + MiniMax M2.5 (Responses API, Full-size)
現時点で最高のローカルスタックです。MiniMax M2.5 を LM Studio にロードし、ローカルサーバー(デフォルトhttp://127.0.0.1:1234)を有効にします。さらに、Responses API を使用することで、推論プロセス(Reasoning)を最終回答のテキストから分離して扱うことができます。
- LM Studio をインストール: https://lmstudio.ai
- LM Studio 内で、利用可能な最大の MiniMax M2.5 ビルド をダウンロードしてください(「Small」や過度に量子化されたものは避けてください)。
- サーバーを起動し、
http://127.0.0.1:1234/v1/modelsでモデルがリストされていることを確認します。 - モデルは常にロード(常駐)させておいてください。リクエスト時のロード(コールドスタート)は大きな遅延の原因となります。
- 使用する LM Studio ビルドに合わせて
contextWindow/maxTokensを調整してください。 - WhatsApp 等を利用する場合は、最終テキストのみが送信されるように Responses API の使用を推奨します。
models.mode: "merge" を使用することで、ローカルマシンがダウンした際でもフォールバック(代替)モデルを利用可能に保つことができます。
ハイブリッド構成: ホスト型を優先、ローカルをフォールバックにする例
ローカル優先、ホスト型をセーフティネットにする例
上記のprimary と fallbacks の順序を入れ替えてください。providers ブロックと models.mode: "merge" を維持することで、ローカルマシンが停止した際に Sonnet や Opus へ自動で切り替えることができます。
リージョン指定ホスティング / データのルーティング
- MiniMax, Kimi, GLM 等のバリアントは OpenRouter にも存在し、リージョン固定のエンドポイント(例: US ホスト)が利用可能です。データ流出を特定の法域内に留めたい場合はリージョンバリアントを選択しつつ、
models.mode: "merge"で Anthropic/OpenAI のフォールバックを維持してください。 - 完全にローカルのみで運用するのが最も強力なプライバシー保護となります。ホスト型のリージョン指定ルーティングは、プロバイダーの機能を利用しつつデータフローを制御したい場合の折衷案として有効です。
その他の OpenAI 互換ローカルプロキシ
vLLM, LiteLLM, OAI-proxy, または自作のゲートウェイであっても、OpenAI スタイルの/v1 エンドポイントを公開していれば利用可能です。上記の構成例のプロバイダーブロックを、自身のエンドポイントとモデル ID に書き換えてください:
models.mode: "merge" を維持し、ホスト型モデルを予備として使えるようにしておくことを推奨します。
トラブルシューティング
- ゲートウェイがプロキシに届かない:
curl http://127.0.0.1:1234/v1/modelsで確認してください。 - LM Studio のモデルがアンロードされている: 再ロードしてください。コールドスタートは「応答が返ってこない」ように見える原因の第一位です。
- コンテキストエラー:
contextWindowの設定値を下げるか、サーバー側の制限値を上げてください。 - 安全性: ローカルモデルはプロバイダー側のフィルタリングをスキップします。エージェントの権限範囲を絞り、圧縮(コンパクション)を有効にして、プロンプトインジェクションの影響範囲を限定してください。