Tutorials

Ollama インストール手順|Mac・WindowsでローカルLLMを10分で動かす方法

※本記事にはPR・広告リンクが含まれます。

ChatGPTのようなAIを、クラウドに送らず自分のPCの中だけで動かしたい。そう考えたことはありませんか。機密情報を含むプロンプトを外部APIに送れない業務では、ローカルで動くLLM(大規模言語モデル)が現実的な選択肢になります。

この記事では、ローカルLLMのデファクトスタンダードであるOllamaを使い、インストールから最初の対話までを解説します。Mac・Windowsのどちらでも、ダウンロード時間を除けば約10分で動かせます。ターミナルの基本操作ができれば、それ以外の予備知識は不要です。

AIチップのクローズアップ

出典: Unsplash

目次

この記事を読むと10分後に達成できること

Ollamaは、ローカルLLMを「1コマンドで動かす」ためのオープンソースツールです。しばしば「Docker for LLMs」と表現されるように、複雑なモデルの取得・実行を単純なコマンドに包み込んでくれます(出典: data-engineering.jp / aismiley.co.jp)。

ollama run gemma3:4b のような単一コマンドを実行するだけで、ChatGPTのような対話型AIが起動します(出典: data-engineering.jp)。この記事を最後まで進めると、次の4つを達成できます。

  • OllamaをMacまたはWindowsにインストールする
  • 最初のモデルをダウンロードして対話する
  • 目的に合ったモデルを選んで切り替える
  • REST API経由で既存のプログラムから呼び出す

Ollamaは2026-07-04時点でMITライセンスの無料オープンソースです。バックエンドにllama.cppを採用し、GGUF形式(ローカルLLM向けに最適化されたモデルファイル形式)のモデルと互換性があります(出典: GitHub)。なお本稿で扱うのはローカル実行のOllamaのみで、クラウドサービスは対象外です。

動作環境を確認する|対応OS・必要スペック

Ollamaが対応するOSは、macOS 12 Monterey以降・Windows 10/11・主要なLinuxディストリビューションです(出典: data-engineering.jp)。最小動作要件はRAM 8GB・AVX2対応(CPUのSIMD命令拡張の一種でAI計算を高速化する機能)の64ビットCPU・ストレージ10GB以上の空きで、GPUは必須ではありません(出典: localaimaster)。

重要なのは、RAM容量が「動かせるモデルの大きさ」を決める点です。以下はQ4_K_M量子化(モデルの重みを4ビットに圧縮して軽量化する手法で、精度とサイズのバランスが最も良いとされる)を基準としたモデルサイズとRAMの早見表です。

RAM容量 動かせる目安
8GB 7Bまで Gemma 3 4B / Qwen3 7B
16GB 13〜14Bまで Qwen3 14B
24GB以上 32Bまで 大型モデル
64GB以上 70Bまで 最上位モデル

(出典: localaimaster

CPUだけでも推論は動きますが、GPUがあれば大幅に高速化します。VRAM 8GBがあれば7B(Q4_K_M)モデルを毎秒40トークン以上で実行でき、快適な日常利用の目安は16GB RAMにVRAM 8〜12GB(RTX 3060/4060クラス)です(出典: localaimaster)。

MacのApple Silicon(M1〜M4系)はすべてOllamaに対応し、MetalによるネイティブなGPU加速が設定不要で有効になります。ユニファイドメモリ設計のため、同じメモリ容量でもNVIDIA搭載PCより多くのパラメータを展開できるのが強みです(出典: localaimaster / insiderllm)。

MacにOllamaをインストールする手順(約5分)

方法①公式サイトからDMGで導入(初心者向け・推奨)

最も確実に最新版を入れられるのは公式サイトのインストーラーです。以下の手順で進めます。

  1. ollama.com にアクセスし「Download for macOS」をクリック
  2. ダウンロードしたDMGを開き、Ollama.appをApplicationsフォルダへドラッグ
  3. Ollamaを起動し、メニューバーにラマ(llama)のアイコンが表示されるのを確認
  4. ターミナルでollama --versionを実行し、バージョンが表示されれば成功

2026-07-04時点の最新安定版はv0.31.1(2026-06-30リリース)です(出典: GitHub)。

方法②Homebrewで導入(エンジニア向け)

普段からHomebrewを使っているなら、コマンド一発で導入できます。

brew install ollama

# バックグラウンドサービスとして常時起動させる場合
brew services start ollama

ただしHomebrew版が常に最新バージョンと一致するとは限りません。最新版を確実に使いたい場合は、方法①のDMGインストーラーが確実です。

WindowsにOllamaをインストールする手順(約5分)

Windowsでは.exeインストーラーを実行するだけで、管理者権限も不要です。

  1. ollama.com にアクセスし「Download for Windows」をクリック
  2. ダウンロードしたOllamaSetup.exeを実行する
  3. インストール完了後、PowerShellまたはコマンドプロンプトでollama --versionを実行して確認

もしコマンドが認識されない場合は、PowerShellを一度閉じて開き直してください。

NVIDIA GPUを活用するための確認事項

WindowsでGPUアクセラレーションを使うには、CUDA Compute 5.0以上(GTX 900シリーズ以降)に対応したNVIDIA GPUが必要です(出典: localaimaster)。CUDA Toolkitを手動でインストールする必要はなく、OllamaがGPUを自動検出します。認識状況はollama psコマンドで確認できます。

なお、AMD GPU(ROCm)の対応状況は変動があるため、利用予定の方は公式リポジトリで最新情報を確認してください。

最初のモデルを起動して使いこなす|コマンドと用途別モデル選び(2026-07-04時点)

ollama run でモデルを起動・対話を始める

インストールが終わったら、いよいよモデルを動かします。ollama runは、モデルのダウンロードと起動を一度に行うコマンドです。

# 初回実行時はモデルのダウンロードも自動で行われる
ollama run gemma3:4b

# 実行後は「>>>」プロンプトが表示され対話開始
>>> 日本語でこんにちはと言って

Gemma 3 4Bは約1.9GBで、初回のみダウンロードが発生します。2回目以降はダウンロードなしで即座に起動します。対話を終えるには/byeと入力するか、Ctrl+Dを押します。

pull / list / rm でモデルを管理する

対話以外の基本操作は、次の4コマンドを覚えれば十分です。

コマンド 説明 使用例
ollama pull <モデル名> モデルをダウンロードのみ(起動しない) ollama pull qwen3:7b
ollama list インストール済みモデルの一覧を表示 ollama list
ollama rm <モデル名> モデルを削除しディスク容量を解放 ollama rm gemma3:4b
ollama ps 現在実行中のモデルを確認 ollama ps

(出典: Qiita(Ollamaコマンド早見表)

用途別のおすすめモデル

モデルは目的によって得意分野が異なります。量子化形式は賢さとサイズのバランスが最良な「Q4_K_M」が標準的に推奨されています(出典: aipicks)。

AIネットワークの抽象ビジュアル

出典: Unsplash

日本語チャット・一般業務向け → Qwen3シリーズ

ollama run qwen3:7bは8GB RAMから動作し、Apache 2.0ライセンスで商用利用もクリアです。日本語トークン効率が高く、同じ速度でより多くの日本語テキストを処理できます。精度を重視するなら16GB RAM環境でqwen3:14bを選びます(出典: alteil)。

コーディング支援向け → Qwen2.5-Coder

ollama run qwen2.5-coder:7bはコード補完・バグ修正・コードレビューに特化しており、GitHub Copilotの代替をローカルで実現できます。

推論・数学・論理問題向け → DeepSeek-R1

ollama run deepseek-r1:7bは思考ステップを明示して推論するReasoning系モデルです。プロンプトに「Step by step」と入れなくても、自動で思考過程を展開します(出典: crystal-method)。

軽量・低スペック環境向け → Gemma 3 1B/4B

ollama run gemma3:1bは約800MBで、RAMの限られたPCでも動作します。gemma3:4bは約1.9GBで、入門・テスト用の最適なバランスです。

モデル コマンド サイズ 最低RAM 用途
Gemma 3 1B gemma3:1b 約800MB 4GB テスト・超軽量
Gemma 3 4B gemma3:4b 約1.9GB 8GB 入門・日常用
Qwen3 7B qwen3:7b 約4GB 8GB 日本語業務
Qwen2.5-Coder 7B qwen2.5-coder:7b 約4GB 8GB コーディング
DeepSeek-R1 7B deepseek-r1:7b 約4GB 8GB 推論・数学
Qwen3 14B qwen3:14b 約8GB 16GB 高精度日本語

Google製のGemma 4やOpenAI製のgpt-ossなど、より新しいモデルも登場しています。ただしOllama上の正確なモデルタグや、gpt-ossの商用利用条件は変動する可能性があるため、公式モデルライブラリで最新のタグとライセンスを確認してください。

よくある問題と対処法

out of memory でモデルが起動しない

RAMまたはVRAMの不足が原因です。次の順で対処します。

  • より小さいパラメータのモデルに切り替える(例: 14B → 7B)
  • 実行中の他アプリを閉じてメモリを確保する
  • モデル名に:q4_k_mのような量子化タグを指定して軽量版を取得する

Windowsでollamaコマンドが Command not found になる

インストール後にPowerShellを再起動していないか、PATHが通っていない可能性があります。PowerShellを開き直したうえで、$env:Pathollamaのパスが含まれているか確認してください。

日本語の出力が文字化けする・回答が英語になる

プロンプトの末尾に「日本語で回答してください」と明示すると改善します。日本語対応が弱いモデルを使っている場合は、Qwen3やGemma 3に切り替えるのが確実です。

Mac向け:Ollama.appを起動していないとコマンドが使えない

DMGでインストールしたOllamaは、Ollama.appをApplicationsから起動してメニューバーにラマのアイコンが表示されている状態でないとコマンドが動作しません。command not foundが出た場合は、まずApplicationsフォルダのOllama.appを開いてメニューバーのアイコンを確認してください。Homebrewでインストールした場合はbrew services start ollamaでバックグラウンド起動できます。

REST API連携(エンジニア向け)

Ollamaを起動すると、REST APIサーバーがhttp://localhost:11434/apiで自動的に立ち上がります(エンドポイントは/api/generate/api/chat)。別ターミナルからcurlで動作確認できます(出典: data-engineering.jp)。

curl http://localhost:11434/api/generate -d '{
  "model": "qwen3:7b",
  "prompt": "ローカルLLMの利点を1行で教えて",
  "stream": false
}'

OllamaはOpenAI SDK互換インターフェースをhttp://localhost:11434/v1で提供します。既存のChatGPT用コードをbase_urlの変更1行で転用できるのが大きな利点です。

from openai import OpenAI

client = OpenAI(
    base_url="http://localhost:11434/v1",
    api_key="ollama"  # 任意の文字列でOK(認証なし)
)

response = client.chat.completions.create(
    model="qwen3:7b",
    messages=[{"role": "user", "content": "こんにちは"}]
)
print(response.choices[0].message.content)

プロキシやVPN、追加費用なしで、社内の機密情報を含むプロンプトを外部に送らず処理できます。これがローカルLLMを業務に組み込む最大の価値です。

まとめと次のステップ

ここまでで、OllamaのインストールからローカルLLMとの対話、用途別のモデル選び、REST API連携までを一通り達成できました。ChatGPTのようなAIを、自分のPCの中だけで動かせるようになったはずです。

  • Open WebUI: ブラウザ上でChatGPT風のUIを追加する
  • LangChain・LlamaIndex: RAGパイプラインでローカル文書検索に活用する
  • Modelfile: 独自のシステムプロンプトを持つカスタムモデルを作成する

まずは公式モデルライブラリで気になるモデルを探し、ollama runで試してみてください。最新の対応状況やドキュメントは公式GitHubリポジトリで確認できます。なお2026年1月からは画像生成モデル(Z-Image Turbo・FLUX.2 Klein)の試験対応も始まっており、2026-07-04時点ではmacOSのみ対応、Windows・Linuxは対応予定とされています(出典: PC Watch)。今後の広がりにも注目です。

おすすめ商品

記事に関連するおすすめ商品をご紹介します。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です