WindowsでGemmaモデルを4bit量子化して動かす！導入手順（CUDA環境構築から）

大規模言語モデル Gemma を、お手持ちの Windows PC で 4bit 量子化して効率的に動作させるための導入手順をまとめました。CUDA 環境の構築から、Python 仮想環境のセットアップ、必要なライブラリのインストールまで、ステップバイステップで解説します。この手順を参考に、Gemma のパワフルな自然言語処理能力をあなたの環境で体験してみてください！

動作確認環境
導入手順
まとめ

動作確認環境

OS: Windows
Python: 3.10.9
CUDA Toolkit: 12.6
cuDNN: 有効
PyTorch: 2.6.0+cu126
Transformers: 4.51.2
Bitsandbytes: 0.45.5

上記環境で動作を確認しています。異なるバージョンのライブラリでは、予期せぬエラーが発生する可能性がありますのでご注意ください。

導入手順

ステップ 1: NVIDIA CUDA Toolkit のインストール

NVIDIA GPU を搭載している場合、Gemma モデルの高速な処理のために CUDA Toolkit をインストールします。

NVIDIA CUDA Toolkit ダウンロードページにアクセスします。
お使いの Windows のバージョンに合わせて、CUDA Toolkit 12.6 を選択し、インストーラーをダウンロードします。
ダウンロードしたインストーラーを実行し、画面の指示に従ってインストールを進めます。
インストール後、環境変数が正しく設定されているか確認します。コマンドプロンプトまたは PowerShell を開き、nvcc --version を実行して CUDA のバージョン情報が表示されれば成功です。

ステップ 2: Python のインストール

Python がまだインストールされていない場合は、以下の手順でインストールします。

Python 公式ダウンロードページにアクセスします。
Python 3.10.x (例: 3.10.9) をダウンロードし、インストールします。インストール時には、「Add Python to PATH」 にチェックを入れることを推奨します。
インストール後、コマンドプロンプトまたは PowerShell を開き、python --version を実行して Python のバージョン情報が表示されれば成功です。

ステップ 3: 仮想環境の構築とアクティベート

プロジェクトごとに独立した環境を作るために、仮想環境を構築します。

コマンドプロンプトまたは PowerShell を開きます。
プロジェクトを作成したいディレクトリに移動します (例: cd C:\Projects\gemma_chat)。
以下のコマンドを実行して、仮想環境を作成します (ここでは gemma_env という名前で作成します)。 python -m venv gemma_env
以下のコマンドを実行して、作成した仮想環境をアクティベートします。 gemma_env\Scripts\activate アクティベートされると、コマンドプロンプトの先頭に (gemma_env) と表示されます。

ステップ 4: 必要なライブラリのインストール

Gemma モデルを動作させるために必要なライブラリをインストールします。

アクティベートされた仮想環境のコマンドプロンプトまたは PowerShell で、以下のコマンドを順番に実行してライブラリをインストールします。特定のバージョンを指定することで、動作確認済みの環境を再現します。

pip install torch==2.6.0+cu126 torchvision torchaudio -f https://download.pytorch.org/whl/torch_stable.html
pip install transformers==4.51.2
pip install bitsandbytes==0.45.5

ステップ 5: Gemma モデルのダウンロードと実行

Hugging Face Transformers ライブラリを使用して、Gemma モデルをダウンロードし、実行します。

以下の Python コードを記述したファイル (例: gemma_inference.py) を作成します。モデルのパスは必要に応じて変更してください。
コマンドプロンプトまたは PowerShell で、作成した Python ファイルを実行します。 python gemma_inference.py
モデルが自動的にダウンロードされ、プロンプトに対する回答が出力されます。

 from transformers import pipeline, BitsAndBytesConfig, AutoModelForCausalLM, AutoTokenizer
import torch

# BitsAndBytesを使用してモデルを4bit量子化してロード
quantization_config = BitsAndBytesConfig(load_in_4bit=True)

# モデル名とパス
model_name = "google/gemma-3-4b-it" # または "google/gemma-3-12b-it" など

# トークナイザーとモデルのロード
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForCausalLM.from_pretrained(
    model_name,
    quantization_config=quantization_config,
    torch_dtype=torch.bfloat16,
    device_map="auto"
).to("cuda" if torch.cuda.is_available() else "cpu")

# パイプラインの作成
pipe = pipeline("text-generation", model=model, tokenizer=tokenizer, device_map="auto")

# プロンプト
prompt = "日本の有名な観光地は？"

# 推論の実行
response = pipe(prompt, max_new_tokens=50, truncation=True)

# 生成されたテキストを表示
print(response[0]['generated_text'])