Ollama インストール手順|Mac・WindowsでローカルLLMを10分で動かす方法
※本記事にはPR・広告リンクが含まれます。
ChatGPTのようなAIを、クラウドに送らず自分のPCの中だけで動かしたい。そう考えたことはありませんか。機密情報を含むプロンプトを外部APIに送れない業務では、ローカルで動くLLM(大規模言語モデル)が現実的な選択肢になります。
この記事では、ローカルLLMのデファクトスタンダードであるOllamaを使い、インストールから最初の対話までを解説します。Mac・Windowsのどちらでも、ダウンロード時間を除けば約10分で動かせます。ターミナルの基本操作ができれば、それ以外の予備知識は不要です。
出典: Unsplash
目次
- この記事を読むと10分後に達成できること
- 動作環境を確認する|対応OS・必要スペック
- MacにOllamaをインストールする手順(約5分)
- WindowsにOllamaをインストールする手順(約5分)
- 最初のモデルを起動して使いこなす
- よくある問題と対処法
- REST API連携(エンジニア向け)
- まとめと次のステップ
この記事を読むと10分後に達成できること
Ollamaは、ローカルLLMを「1コマンドで動かす」ためのオープンソースツールです。しばしば「Docker for LLMs」と表現されるように、複雑なモデルの取得・実行を単純なコマンドに包み込んでくれます(出典: data-engineering.jp / aismiley.co.jp)。
ollama run gemma3:4b のような単一コマンドを実行するだけで、ChatGPTのような対話型AIが起動します(出典: data-engineering.jp)。この記事を最後まで進めると、次の4つを達成できます。
- OllamaをMacまたはWindowsにインストールする
- 最初のモデルをダウンロードして対話する
- 目的に合ったモデルを選んで切り替える
- REST API経由で既存のプログラムから呼び出す
Ollamaは2026-07-04時点でMITライセンスの無料オープンソースです。バックエンドにllama.cppを採用し、GGUF形式(ローカルLLM向けに最適化されたモデルファイル形式)のモデルと互換性があります(出典: GitHub)。なお本稿で扱うのはローカル実行のOllamaのみで、クラウドサービスは対象外です。
動作環境を確認する|対応OS・必要スペック
Ollamaが対応するOSは、macOS 12 Monterey以降・Windows 10/11・主要なLinuxディストリビューションです(出典: data-engineering.jp)。最小動作要件はRAM 8GB・AVX2対応(CPUのSIMD命令拡張の一種でAI計算を高速化する機能)の64ビットCPU・ストレージ10GB以上の空きで、GPUは必須ではありません(出典: localaimaster)。
重要なのは、RAM容量が「動かせるモデルの大きさ」を決める点です。以下はQ4_K_M量子化(モデルの重みを4ビットに圧縮して軽量化する手法で、精度とサイズのバランスが最も良いとされる)を基準としたモデルサイズとRAMの早見表です。
| RAM容量 | 動かせる目安 | 例 |
|---|---|---|
| 8GB | 7Bまで | Gemma 3 4B / Qwen3 7B |
| 16GB | 13〜14Bまで | Qwen3 14B |
| 24GB以上 | 32Bまで | 大型モデル |
| 64GB以上 | 70Bまで | 最上位モデル |
(出典: localaimaster)
CPUだけでも推論は動きますが、GPUがあれば大幅に高速化します。VRAM 8GBがあれば7B(Q4_K_M)モデルを毎秒40トークン以上で実行でき、快適な日常利用の目安は16GB RAMにVRAM 8〜12GB(RTX 3060/4060クラス)です(出典: localaimaster)。
MacのApple Silicon(M1〜M4系)はすべてOllamaに対応し、MetalによるネイティブなGPU加速が設定不要で有効になります。ユニファイドメモリ設計のため、同じメモリ容量でもNVIDIA搭載PCより多くのパラメータを展開できるのが強みです(出典: localaimaster / insiderllm)。
MacにOllamaをインストールする手順(約5分)
方法①公式サイトからDMGで導入(初心者向け・推奨)
最も確実に最新版を入れられるのは公式サイトのインストーラーです。以下の手順で進めます。
- ollama.com にアクセスし「Download for macOS」をクリック
- ダウンロードしたDMGを開き、
Ollama.appをApplicationsフォルダへドラッグ - Ollamaを起動し、メニューバーにラマ(llama)のアイコンが表示されるのを確認
- ターミナルで
ollama --versionを実行し、バージョンが表示されれば成功
2026-07-04時点の最新安定版はv0.31.1(2026-06-30リリース)です(出典: GitHub)。
方法②Homebrewで導入(エンジニア向け)
普段からHomebrewを使っているなら、コマンド一発で導入できます。
brew install ollama
# バックグラウンドサービスとして常時起動させる場合
brew services start ollama
ただしHomebrew版が常に最新バージョンと一致するとは限りません。最新版を確実に使いたい場合は、方法①のDMGインストーラーが確実です。
WindowsにOllamaをインストールする手順(約5分)
Windowsでは.exeインストーラーを実行するだけで、管理者権限も不要です。
- ollama.com にアクセスし「Download for Windows」をクリック
- ダウンロードした
OllamaSetup.exeを実行する - インストール完了後、PowerShellまたはコマンドプロンプトで
ollama --versionを実行して確認
もしコマンドが認識されない場合は、PowerShellを一度閉じて開き直してください。
NVIDIA GPUを活用するための確認事項
WindowsでGPUアクセラレーションを使うには、CUDA Compute 5.0以上(GTX 900シリーズ以降)に対応したNVIDIA GPUが必要です(出典: localaimaster)。CUDA Toolkitを手動でインストールする必要はなく、OllamaがGPUを自動検出します。認識状況はollama psコマンドで確認できます。
なお、AMD GPU(ROCm)の対応状況は変動があるため、利用予定の方は公式リポジトリで最新情報を確認してください。
最初のモデルを起動して使いこなす|コマンドと用途別モデル選び(2026-07-04時点)
ollama run でモデルを起動・対話を始める
インストールが終わったら、いよいよモデルを動かします。ollama runは、モデルのダウンロードと起動を一度に行うコマンドです。
# 初回実行時はモデルのダウンロードも自動で行われる
ollama run gemma3:4b
# 実行後は「>>>」プロンプトが表示され対話開始
>>> 日本語でこんにちはと言って
Gemma 3 4Bは約1.9GBで、初回のみダウンロードが発生します。2回目以降はダウンロードなしで即座に起動します。対話を終えるには/byeと入力するか、Ctrl+Dを押します。
pull / list / rm でモデルを管理する
対話以外の基本操作は、次の4コマンドを覚えれば十分です。
| コマンド | 説明 | 使用例 |
|---|---|---|
ollama pull <モデル名> |
モデルをダウンロードのみ(起動しない) | ollama pull qwen3:7b |
ollama list |
インストール済みモデルの一覧を表示 | ollama list |
ollama rm <モデル名> |
モデルを削除しディスク容量を解放 | ollama rm gemma3:4b |
ollama ps |
現在実行中のモデルを確認 | ollama ps |
(出典: Qiita(Ollamaコマンド早見表))
用途別のおすすめモデル
モデルは目的によって得意分野が異なります。量子化形式は賢さとサイズのバランスが最良な「Q4_K_M」が標準的に推奨されています(出典: aipicks)。
出典: Unsplash
日本語チャット・一般業務向け → Qwen3シリーズ
ollama run qwen3:7bは8GB RAMから動作し、Apache 2.0ライセンスで商用利用もクリアです。日本語トークン効率が高く、同じ速度でより多くの日本語テキストを処理できます。精度を重視するなら16GB RAM環境でqwen3:14bを選びます(出典: alteil)。
コーディング支援向け → Qwen2.5-Coder
ollama run qwen2.5-coder:7bはコード補完・バグ修正・コードレビューに特化しており、GitHub Copilotの代替をローカルで実現できます。
推論・数学・論理問題向け → DeepSeek-R1
ollama run deepseek-r1:7bは思考ステップを明示して推論するReasoning系モデルです。プロンプトに「Step by step」と入れなくても、自動で思考過程を展開します(出典: crystal-method)。
軽量・低スペック環境向け → Gemma 3 1B/4B
ollama run gemma3:1bは約800MBで、RAMの限られたPCでも動作します。gemma3:4bは約1.9GBで、入門・テスト用の最適なバランスです。
| モデル | コマンド | サイズ | 最低RAM | 用途 |
|---|---|---|---|---|
| Gemma 3 1B | gemma3:1b |
約800MB | 4GB | テスト・超軽量 |
| Gemma 3 4B | gemma3:4b |
約1.9GB | 8GB | 入門・日常用 |
| Qwen3 7B | qwen3:7b |
約4GB | 8GB | 日本語業務 |
| Qwen2.5-Coder 7B | qwen2.5-coder:7b |
約4GB | 8GB | コーディング |
| DeepSeek-R1 7B | deepseek-r1:7b |
約4GB | 8GB | 推論・数学 |
| Qwen3 14B | qwen3:14b |
約8GB | 16GB | 高精度日本語 |
Google製のGemma 4やOpenAI製のgpt-ossなど、より新しいモデルも登場しています。ただしOllama上の正確なモデルタグや、gpt-ossの商用利用条件は変動する可能性があるため、公式モデルライブラリで最新のタグとライセンスを確認してください。
よくある問題と対処法
out of memory でモデルが起動しない
RAMまたはVRAMの不足が原因です。次の順で対処します。
- より小さいパラメータのモデルに切り替える(例: 14B → 7B)
- 実行中の他アプリを閉じてメモリを確保する
- モデル名に
:q4_k_mのような量子化タグを指定して軽量版を取得する
Windowsでollamaコマンドが Command not found になる
インストール後にPowerShellを再起動していないか、PATHが通っていない可能性があります。PowerShellを開き直したうえで、$env:Pathにollamaのパスが含まれているか確認してください。
日本語の出力が文字化けする・回答が英語になる
プロンプトの末尾に「日本語で回答してください」と明示すると改善します。日本語対応が弱いモデルを使っている場合は、Qwen3やGemma 3に切り替えるのが確実です。
Mac向け:Ollama.appを起動していないとコマンドが使えない
DMGでインストールしたOllamaは、Ollama.appをApplicationsから起動してメニューバーにラマのアイコンが表示されている状態でないとコマンドが動作しません。command not foundが出た場合は、まずApplicationsフォルダのOllama.appを開いてメニューバーのアイコンを確認してください。Homebrewでインストールした場合はbrew services start ollamaでバックグラウンド起動できます。
REST API連携(エンジニア向け)
Ollamaを起動すると、REST APIサーバーがhttp://localhost:11434/apiで自動的に立ち上がります(エンドポイントは/api/generateと/api/chat)。別ターミナルからcurlで動作確認できます(出典: data-engineering.jp)。
curl http://localhost:11434/api/generate -d '{
"model": "qwen3:7b",
"prompt": "ローカルLLMの利点を1行で教えて",
"stream": false
}'
OllamaはOpenAI SDK互換インターフェースをhttp://localhost:11434/v1で提供します。既存のChatGPT用コードをbase_urlの変更1行で転用できるのが大きな利点です。
from openai import OpenAI
client = OpenAI(
base_url="http://localhost:11434/v1",
api_key="ollama" # 任意の文字列でOK(認証なし)
)
response = client.chat.completions.create(
model="qwen3:7b",
messages=[{"role": "user", "content": "こんにちは"}]
)
print(response.choices[0].message.content)
プロキシやVPN、追加費用なしで、社内の機密情報を含むプロンプトを外部に送らず処理できます。これがローカルLLMを業務に組み込む最大の価値です。
まとめと次のステップ
ここまでで、OllamaのインストールからローカルLLMとの対話、用途別のモデル選び、REST API連携までを一通り達成できました。ChatGPTのようなAIを、自分のPCの中だけで動かせるようになったはずです。
- Open WebUI: ブラウザ上でChatGPT風のUIを追加する
- LangChain・LlamaIndex: RAGパイプラインでローカル文書検索に活用する
- Modelfile: 独自のシステムプロンプトを持つカスタムモデルを作成する
まずは公式モデルライブラリで気になるモデルを探し、ollama runで試してみてください。最新の対応状況やドキュメントは公式GitHubリポジトリで確認できます。なお2026年1月からは画像生成モデル(Z-Image Turbo・FLUX.2 Klein)の試験対応も始まっており、2026-07-04時点ではmacOSのみ対応、Windows・Linuxは対応予定とされています(出典: PC Watch)。今後の広がりにも注目です。
おすすめ商品
記事に関連するおすすめ商品をご紹介します。



