自分用のAIをyouko-8bを使って作ってみる

自分用のAIを作るために色々やったので備忘録

🔧 ① 環境準備
📦 ② モデル＆ローダー準備
🔁 ③ 起動＆エラー対応
⚠️ ④ 起きたエラーと対応まとめ
🔧【Step 1】Youko 8B（GPTQモデル）を動かすための環境構築まとめ（Windows）
🧩【Step 2】Youko 8B（GPTQモデル）導入＆ローダー設定手順（Windows）
🧠 補足：config.json が無い場合の対応
🚀【Step 3】Youko 8B 初回起動＆トラブル完全ガイド（GPTQモデル編）
⚠️ よくあるエラーとその対処法（完全保存版）
1. 🛠️ モデルが落ちる・応答しない時の対応Tips
✅ モデルの最初の返事を聞くコツ
1. ✅ 終わりに：ここまでくれば「起動成功」！
✨ このステップが終われば…

🔧 ① 環境準備

✅ Python インストール（パス通し完了）
✅ Git & Git LFS 導入
✅ text-generation-webui を Git から clone
✅ 起動に必要な .bat ファイルや依存も整備済み

📦 ② モデル＆ローダー準備

✅ llama-3-youko-8b-instruct-gptq モデルを Hugging Face からダウンロード（.safetensors形式）
✅ GPTQローダーに必要な GPTQ-for-LLaMa を clone（repositories/ 以下に正しく設置）
✅ config.json を自作（貼り付け＆修正で正しく認識）
✅ トークナイザー関連ファイル（tokenizer.model, tokenizer_config.json）をダウンロードして設置

🔁 ③ 起動＆エラー対応

✅ WebUIを --loader gptq で起動
✅ optimum, auto-gptq を仮想環境内にインストール（依存解決）
✅ モデルロード成功 (Successfully loaded)
✅ 初回チャット開始 → 返事中に CUDAタイムアウトエラー発生

⚠️ ④ 起きたエラーと対応まとめ

エラー	原因	対応
`config.json` 読み込みエラー	中身空／構文ミス	手動修正・貼り直しで解決 ✅
Tokenizer not found	`tokenizer.model` 不足	Hugging FaceからDL ✅
`auto-gptq` / `optimum` モジュールエラー	未インストール	pipで仮想環境に導入 ✅
`CUDA timeout`（処理が止まる）	GPUの処理能力オーバー	トークン数制限／CPUモード／軽量化などで対応中

それぞれの詳細

🔧【Step 1】Youko 8B（GPTQモデル）を動かすための環境構築まとめ（Windows）

🖥️ 対象環境：

Windows 10 / 11（64bit）
NVIDIA GPU 搭載（VRAM 6GB以上推奨）
Python 経験が少しでもある人向け

✅ ① Python のインストール

公式サイトから最新版 Python をダウンロード：
👉 https://www.python.org/downloads/
インストーラー実行時に必ずチェックする：
- ✅ Add Python to PATH（←忘れずに！）
インストール後、PowerShellで動作確認： powershellで　python --version → バージョンが表示されればOK！

✅ ② Git と Git LFS のインストール

📦 Git（バージョン管理）

ダウンロード：
👉 https://git-scm.com/
インストーラーを実行 → デフォルト設定でOK

💾 Git LFS（大容量ファイル管理）

ダウンロード：
👉 https://git-lfs.com/
インストール後にpowershellで以下を実行：git lfs install

✅ ③ text-generation-webui を clone する

PowerShell で任意の作業フォルダに移動して：(おすすめは環境が見えやすいのでデスクトップ)

powershellで以下を実行

git clone https://github.com/oobabooga/text-generation-webui.git

クローンしたフォルダに移動：

powershellで以下を実行

cd text-generation-webui

✅ ④ 仮想環境（venv）と依存ライブラリの準備

🔧 one-clickスクリプトで一括セットアップ（Windows）

powershellで以下を実行

.\start_windows.bat

→ 初回実行時に仮想環境が自動生成され、依存もインストールされる！

✅ 自動で以下のフォルダが作られる：

text-generation-webui/
├── installer_files/
│   └── env/    ← これが仮想環境（Python環境）

✅ ⑤ Web UI の基本起動確認

WebUIが正常に立ち上がるかをテスト：

powershellで以下を実行

.\start_windows.bat

起動に成功すると以下のURLが表示される：

Running on local URL: http://127.0.0.1:7860

ブラウザでアクセスして、ページが表示されればOK！

✅ 補足：便利なPowerShellコマンド一覧（よく使う）

cd "C:\Users\ユーザー名\Desktop\text-generation-webui"   # WebUIのフォルダに移動
.\start_windows.bat                                      # 起動
.\start_windows.bat --cpu                                # CPUモードで起動
.\start_windows.bat --loader gptq                        # GPTQローダー指定で起動

🧩【Step 2】Youko 8B（GPTQモデル）導入＆ローダー設定手順（Windows）

🎯 このステップでやること：

Hugging Face から Youkoモデル（GPTQ形式）を取得
WebUIに認識させるためのファイル配置
GPTQローダーの導入と動作確認

✅ ① モデル（Youko 8B GPTQ）のダウンロード

Hugging Face モデルページを開く： 👉 rinna/llama-3-youko-8b-instruct-gptq
以下のファイルを 手動ダウンロード or git lfs で取得：

ファイル名	説明
`model.safetensors`	モデル本体（量子化済み）
`config.json`	モデル構成情報（手動作成も可）
`tokenizer.model`	トークナイザー辞書（必須）
`tokenizer_config.json`	トークナイザー設定
`special_tokens_map.json`（任意）	特殊トークン対応ファイル

💡 ファイル数が多いため、Hugging Face の「Download all」ボタンが便利！

✅ ② モデルの設置パス（これ超重要）

以下のフォルダ構造になるように配置：

text-generation-webui/
└── models/
    └── llama-3-youko-8b-instruct-gptq/
        ├── model.safetensors
        ├── config.json
        ├── tokenizer.model
        ├── tokenizer_config.json
        └── special_tokens_map.json（任意）

⚠️ フォルダ名と config.json 内の記述がズレるとエラーになるので注意！

✅ ③ GPTQローダーの準備

📦 GPTQ-for-LLaMa をcloneする

powershellで以下を実行

git clone https://github.com/oobabooga/GPTQ-for-LLaMa.git -b cuda "text-generation-webui/repositories/GPTQ-for-LLaMa"

💡 正しい配置パス：

text-generation-webui/
└── repositories/
    └── GPTQ-for-LLaMa/
        ├── gptq.py
        ├── quant_cuda.cpp
        └── その他必要ファイル

✅ ④ GPTQ依存モジュールのインストール

WebUIが使う仮想環境内に以下のモジュールを追加：

powershellで以下を実行

C:\Users\ユーザー名\Desktop\text-generation-webui\installer_files\env\Scripts\pip install auto-gptq optimum

💬 これがないと "Loading a GPTQ quantized model requires auto-gptq" エラーが出る！

✅ ⑤ GPTQローダーでの起動確認

PowerShellで WebUI を GPTQ 指定で起動：

powershellで以下を実行

cd "C:\Users\ユーザー名\Desktop\text-generation-webui"
.\start_windows.bat --loader gptq

ブラウザで http://127.0.0.1:7860 を開いて：

「Model」タブへ
モデル名：llama-3-youko-8b-instruct-gptq
ローダー：GPTQ(ない場合はTransformersでもOK)
Load をクリック！

✅ Successfully loaded が出れば、ロード成功✨

🧠 補足：config.json が無い場合の対応

config.json がダウンロードできない・不完全な場合は手動で作成可能
→内容はrinna/llama-3-youko-8b-instruct-gptqにアクセス、File and Versionの中からconfig.jsonを右クリックしたら出るコードをtxtファイルに張り付けして、名前を付けて保存

保存する時には
・名前をconfig.jsonにする(.txtは入らないようにする)
・保存する時にtxtファイルではなくすべてのファイルを選択する
・可能であればUTF-8にする
この3つに注意する

🚀【Step 3】Youko 8B 初回起動＆トラブル完全ガイド（GPTQモデル編）

🎯 このステップでやること：

WebUIでモデルを実際に起動
よくあるエラーへの対処方法
モデルがうまく応答しないときの最適な解決策を知る！

✅ ① WebUI の起動手順（GPTQローダー指定）

powershellで以下を実行

cd "C:\Users\proje\Desktop\text-generation-webui"
.\start_windows.bat --loader gptq

✅ ② モデルの読み込み手順（ブラウザ操作）

ブラウザで開く → http://127.0.0.1:7860
「Model」タブを開く
モデル名：llama-3-youko-8b-instruct-gptq
ローダー：GPTQ（自動で選ばれていない場合は手動で）
Load ボタンをクリック！

✅ Successfully loaded が出ればモデルロード成功！

⚠️ よくあるエラーとその対処法（完全保存版）

エラー	原因	対処法
`config.json` エラー（読み込めない）	JSON構文エラー or 空ファイル	サンプルをコピーして貼り直す（テンプレあり）
`Can't load tokenizer`	`tokenizer.model` などが不足	Hugging Faceから追加ダウンロード＆配置
`auto-gptq` モジュールがない	依存モジュール未導入	`pip install auto-gptq` を仮想環境で実行
`CUDA error: timeout`	GPU処理が重すぎる or 古い	`max_new_tokens` を減らす、CPU起動 or 軽量モデルで対応
`No model is loaded`	モデルロード失敗 or ローダー未指定	`--loader gptq` を付けて再起動

🛠️ モデルが落ちる・応答しない時の対応Tips

✅ 軽くして試す（設定変更）

パラメータ名	おすすめ設定
`max_new_tokens`	128 〜 256
`temperature`	0.7
`top_p`	0.9

長文でクラッシュするなら、出力を短く制限することで改善される！

✅ CPUモードで起動してみる（とにかく動作確認したい場合）

powershellで以下を実行

.\start_windows.bat --cpu

※かなり遅いが、確実に返事は得られる！

✅ 軽量モデルへの切り替えも検討（3Bなど）

8BモデルはGPUにとって重すぎる場合がある
→ Youko 3B GPTQ のようなモデルならVRAM 6GB前後でも快適に動作可能！

✅ モデルの最初の返事を聞くコツ

初回は処理が重いので、できるだけ短いメッセージでスタート！

🗣️ 例：

おはよう

→ 成功すれば、返事が返ってくる

✅ 終わりに：ここまでくれば「起動成功」！

モデルロード完了 ✅
WebUIでチャット可能 ✅

✨ このステップが終われば…

モデル本体、トークナイザー、ローダーが揃って
WebUIからYouko 8Bが動き出せる状態になる！