フリーランスのAI運用設計——Codex・ローカルLLM・Gemini CLIを比較した結果

2026年4月11日2026年7月21日

なぜ「1つのAI」にこだわらないのか

Claude Codeだけで仕事は完結できます。実装・調査・スケジュール管理まで、ほぼすべてこなしてくれます。

それでもあえて別のAIを並走させようと思ったのは、「1人に全部考えさせると視野が狭くなる」という感覚があったからです。
これはAIも同じで、壁打ち相手として別のモデルを使うと、出力の質が変わると実感していました。

では何を選ぶか。
Codex・Gemini CLI・ローカルLLMの3択を実際に試しました。

ローカルLLMを試してやめた

最初に試したのはローカルLLMです。「導入してしまえば無料で使い放題」というメリットは大きい。

試したのは Ollama と llama.cpp の2つです。

Ollama（＋OllamaGUI）

OllamaGUIはUIが見やすく、直感的に使えて快適でした。

ただ、量子化モデル（GGUF形式）が動かないケースがあったり、モデルによっては正常に動作しないものもありました。

導入のしやすさに比べて、動作の安定性がまだ課題だと感じました。

llama.cpp

CLIでの操作になるので取っつきにくさはあります。

ただ、量子化モデルも問題なく使えて、動作も軽快に感じました。

ローカルLLMをガチで使うならこちらが現時点では堅実な選択肢だと思います。

なお、OllamaもLlama.cppも内部エンジンは共通なので、推論速度そのものはほぼ変わりません。

速度の遅さはツールではなく、モデルのサイズが主な原因です。

試したモデルとサイズ感

Qwen3.5の9B・27B・32Bを試しました。

モデルサイズを上げるほど回答の精度は上がると感じました。

ただ、メモリ使用量もかなりのことになるので、量子化（GGUF形式に圧縮）したものを使用しました。

量子化版でも日本語がところどころおかしかったり、速度が遅かったりと、多少のストレスはあります。

ただ、そこを許容できれば実用できるレベルには来ていると思いました。

Claude等のトップクラスのクラウドAIと比べるとまだ見劣りしますが、進化のスピードは確かです。

それでも、2つの理由でいったんやめました。

1. 速度がクラウドAIの10倍以上遅い

クラウドAIに慣れた状態でローカルモデルを使うと、体感が全然違います。

リアルに体感10倍以上遅いし、回答の精度も落ちる。

壁打ち相手として使うには、レスポンスの遅さがストレスになりすぎました。

2. MacBook Proへの負荷がでかい

これまで聞いたことのないファンの音がし始めました。

正直、びびりました。パソコンの寿命を縮めてまで使うメリットがあるかと考えると、今は違うという結論になりました。

ローカルLLMは進化のスピードが凄まじいので、今後台頭してくると確信しています。

ただ、現時点でのコスパはクラウドAIには及ばないというのが正直な感想です。

Codexを見送った理由

Codexも検討しました。

Codexが活きるのはチーム開発・未経験の技術スタック・大規模案件のとき、というイメージです。

今はWordPressコーディング中心で、Claude Codeで十分まかなえています。

無駄に課金を増やさない判断も設計のうちだと思っているので、今は見送りました。

Gemini CLIを選んだ理由

残ったのがGemini CLIです。

選んだ理由はシンプルで、無料枠で使えること、速度が十分速いこと、の2点です。

実際の使い方もシンプルです。

設計の迷い・技術調査 → Gemini CLIに直接投げて壁打ち
実装の判断・コーディング → Claude Codeに戻す

ツールを切り替えるコストは低く、コンテキストを分けて考える効果は想像より大きかったです。

特に感じているのはコンテキストの温存です。

調べ物や壁打ちをGeminiに分担するだけで、Claudeのコンテキストが長持ちします。

Claude Codeは長い会話になるほど判断の精度が落ちやすいので、消耗する前にGeminiに逃がす、という感覚です。

「全体把握・探索はGemini、詳細実装と判断はClaude」という分担が今のところ一番しっくりきています。

現在の役割分担

AI	プラン	役割
Claude Code	Maxプラン（月$100）	実装・判断・秘書業務
Gemini CLI	無料枠	リサーチ・壁打ち・調査

現状はMaxプランで十分まかなえています。

今後の展望——ローカルLLMへの期待

ローカルLLMは今後も絶対に台頭してくると思っています。進化のスピードが凄まじいからです。

将来、ローカルLLMをワークフローに組み込むなら、こういう構成を考えています。

Claude Codeを司令塔にして、llama.cppをバックエンドパートナーとして動かす

ユーザーが直接llama.cppを触るわけではなく、Claude Codeが必要に応じてローカルモデルに処理を投げる形です。

CLIで動作させることで、Claude Codeとの連携もやりやすい。

この構成が実現すれば、Claude CodeをProプランに落としてもクオリティを保てる可能性があります。

クラウドAIとローカルLLMのハイブリッド運用です。

現時点では：

使用量がMaxプランを超えてきたとき
ローカルLLMの精度が現在のクラウドAIに近づいてきたとき

このどちらかのタイミングで本格導入を検討するつもりです。

「1つのAIに頼りすぎない」設計は、コストの観点からも、出力の質の観点からも、長期的に正解だと感じています。

まとめ

ローカルLLM（Ollama / llama.cpp）→ 速度・負荷の問題でいったんやめた。将来性は大きい
Codex → 今の規模では不要。転職後に再検討
Gemini CLI → 無料・速い・役割分担がシンプル。現在採用中

現在はClaude Code（Max）＋ Gemini CLI（無料）の2本立て。この構成で十分です。

フリーランスのAI運用設計——Codex・ローカルLLM・Gemini CLIを比較した結果

なぜ「1つのAI」にこだわらないのか