
なぜ「1つのAI」にこだわらないのか
Claude Codeだけで仕事は完結できます。実装・調査・スケジュール管理まで、ほぼすべてこなしてくれます。
それでもあえて別のAIを並走させようと思ったのは、「1人に全部考えさせると視野が狭くなる」という感覚があったからです。
これはAIも同じで、壁打ち相手として別のモデルを使うと、出力の質が変わると実感していました。
では何を選ぶか。
Codex・Gemini CLI・ローカルLLMの3択を実際に試しました。
ローカルLLMを試してやめた
最初に試したのはローカルLLMです。「導入してしまえば無料で使い放題」というメリットは大きい。
試したのは Ollama と llama.cpp の2つです。
Ollama(+OllamaGUI)
OllamaGUIはUIが見やすく、直感的に使えて快適でした。
ただ、量子化モデル(GGUF形式)が動かないケースがあったり、モデルによっては正常に動作しないものもありました。
導入のしやすさに比べて、動作の安定性がまだ課題だと感じました。
llama.cpp
CLIでの操作になるので取っつきにくさはあります。
ただ、量子化モデルも問題なく使えて、動作も軽快に感じました。
ローカルLLMをガチで使うならこちらが現時点では堅実な選択肢だと思います。
なお、OllamaもLlama.cppも内部エンジンは共通なので、推論速度そのものはほぼ変わりません。
速度の遅さはツールではなく、モデルのサイズが主な原因です。
試したモデルとサイズ感
Qwen3.5の9B・27B・32Bを試しました。
モデルサイズを上げるほど回答の精度は上がると感じました。
ただ、メモリ使用量もかなりのことになるので、量子化(GGUF形式に圧縮)したものを使用しました。
量子化版でも日本語がところどころおかしかったり、速度が遅かったりと、多少のストレスはあります。
ただ、そこを許容できれば実用できるレベルには来ていると思いました。
Claude等のトップクラスのクラウドAIと比べるとまだ見劣りしますが、進化のスピードは確かです。
それでも、2つの理由でいったんやめました。
1. 速度がクラウドAIの10倍以上遅い
クラウドAIに慣れた状態でローカルモデルを使うと、体感が全然違います。
リアルに体感10倍以上遅いし、回答の精度も落ちる。
壁打ち相手として使うには、レスポンスの遅さがストレスになりすぎました。
2. MacBook Proへの負荷がでかい
これまで聞いたことのないファンの音がし始めました。
正直、びびりました。パソコンの寿命を縮めてまで使うメリットがあるかと考えると、今は違うという結論になりました。
ローカルLLMは進化のスピードが凄まじいので、今後台頭してくると確信しています。
ただ、現時点でのコスパはクラウドAIには及ばないというのが正直な感想です。
Codexを見送った理由
Codexも検討しました。
Codexが活きるのはチーム開発・未経験の技術スタック・大規模案件のとき、というイメージです。
今はWordPressコーディング中心で、Claude Codeで十分まかなえています。
無駄に課金を増やさない判断も設計のうちだと思っているので、今は見送りました。
Gemini CLIを選んだ理由
残ったのがGemini CLIです。
選んだ理由はシンプルで、無料枠で使えること、速度が十分速いこと、の2点です。
実際の使い方もシンプルです。
- 設計の迷い・技術調査 → Gemini CLIに直接投げて壁打ち
- 実装の判断・コーディング → Claude Codeに戻す
ツールを切り替えるコストは低く、コンテキストを分けて考える効果は想像より大きかったです。
特に感じているのはコンテキストの温存です。
調べ物や壁打ちをGeminiに分担するだけで、Claudeのコンテキストが長持ちします。
Claude Codeは長い会話になるほど判断の精度が落ちやすいので、消耗する前にGeminiに逃がす、という感覚です。
「全体把握・探索はGemini、詳細実装と判断はClaude」という分担が今のところ一番しっくりきています。
現在の役割分担
| AI | プラン | 役割 |
|---|---|---|
| Claude Code | Maxプラン(月$100) | 実装・判断・秘書業務 |
| Gemini CLI | 無料枠 | リサーチ・壁打ち・調査 |
現状はMaxプランで十分まかなえています。
今後の展望——ローカルLLMへの期待
ローカルLLMは今後も絶対に台頭してくると思っています。進化のスピードが凄まじいからです。
将来、ローカルLLMをワークフローに組み込むなら、こういう構成を考えています。
Claude Codeを司令塔にして、llama.cppをバックエンドパートナーとして動かす
ユーザーが直接llama.cppを触るわけではなく、Claude Codeが必要に応じてローカルモデルに処理を投げる形です。
CLIで動作させることで、Claude Codeとの連携もやりやすい。
この構成が実現すれば、Claude CodeをProプランに落としてもクオリティを保てる可能性があります。
クラウドAIとローカルLLMのハイブリッド運用です。
現時点では:
- 使用量がMaxプランを超えてきたとき
- ローカルLLMの精度が現在のクラウドAIに近づいてきたとき
このどちらかのタイミングで本格導入を検討するつもりです。
「1つのAIに頼りすぎない」設計は、コストの観点からも、出力の質の観点からも、長期的に正解だと感じています。
まとめ
- ローカルLLM(Ollama / llama.cpp)→ 速度・負荷の問題でいったんやめた。将来性は大きい
- Codex → 今の規模では不要。転職後に再検討
- Gemini CLI → 無料・速い・役割分担がシンプル。現在採用中
現在はClaude Code(Max)+ Gemini CLI(無料)の2本立て。この構成で十分です。

コメント