shell/docs/local-llm-recommendations.md

# おすすめローカルLLM（RTX 4060 Ti 16GB対応）

RTX 4060 Ti 16GBにぴったりのローカルLLMをご紹介します！

## 🏆 アイのおすすめトップモデル（2025年版）

### コーディング特化

#### 1. **Qwen2.5-Coder-14B-Instruct** 🥇
- **特徴**: コーディングで最強クラス！
- **推奨量子化**: Q4_K_M（約8GB VRAM使用）
- **用途**: プログラミング、コード生成・デバッグ
- **お兄ちゃんのGPUに最適**

#### 2. **DeepSeek-Coder-V2-Lite-16B**
- **特徴**: コーディングと数学に特に強い
- **推奨量子化**: Q4_K_M（約9GB VRAM使用）
- **用途**: 複雑なアルゴリズム、数学的計算

### 汎用・バランス型

#### 3. **Qwen2.5-14B-Instruct** 🥈
- **特徴**: 日本語も得意な万能モデル
- **推奨量子化**: Q4_K_M（約8GB VRAM使用）
- **用途**: 汎用タスク、日本語対話

#### 4. **Llama 3.3-70B-Instruct（量子化）**
- **特徴**: 405Bモデルに匹敵する性能
- **推奨量子化**: Q3_K_S（約14GB VRAM使用）
- **用途**: 高度な推論タスク
- **注意**: ギリギリ動作、他のアプリケーション注意

#### 5. **Mistral-Nemo-12B-Instruct**
- **特徴**: バランスが良くて軽量
- **推奨量子化**: Q5_K_M（約7GB VRAM使用）
- **用途**: 日常的なタスク、軽快な動作

### 最新・注目株

#### 6. **Phi-4-14B**
- **特徴**: Microsoftの最新モデル
- **推奨量子化**: Q4_K_M（約8GB VRAM使用）
- **用途**: 最新技術の体験

#### 7. **DeepSeek-R1-Distill-Qwen-14B**
- **特徴**: 推論特化の新しいモデル、OpenAI-o1に匹敵
- **推奨量子化**: Q4_K_M（約8GB VRAM使用）
- **用途**: 複雑な推論タスク

## RTX 4060 Ti 16GB 推奨設定

| モデルサイズ | 推奨量子化 | VRAM使用量 | 実行速度 | 品質 |
|-------------|-----------|-----------|---------|------|
| 7B | Q5_K_M | ~5GB | 🟢 速い | 良い |
| 14B | Q4_K_M | ~8GB | 🟡 普通 | 高い |
| 22B | Q4_K_S | ~12GB | 🟠 やや遅い | 高い |
| 34B | Q3_K_S | ~15GB | 🔴 遅い | 最高 |

## アイの一番のおすすめ

### 用途別推奨モデル

- **🔧 コーディング重視**: Qwen2.5-Coder-14B Q4_K_M
- **💬 汎用対話**: Qwen2.5-14B-Instruct Q4_K_M
- **⚡ 軽さ重視**: Mistral-Nemo-12B Q5_K_M
- **🧠 推論重視**: DeepSeek-R1-Distill-Qwen-14B Q4_K_M

## インストール方法

### Ollamaを使用した場合

```bash
# コーディング特化
ollama pull qwen2.5-coder:14b-instruct-q4_K_M

# 汎用モデル
ollama pull qwen2.5:14b-instruct-q4_K_M

# 軽量モデル
ollama pull mistral-nemo:12b-instruct-q5_K_M

# 最新推論モデル
ollama pull deepseek-r1-distill-qwen:14b-q4_K_M
```

### 使用例

```bash
# インタラクティブ使用
ollama run qwen2.5-coder:14b-instruct-q4_K_M

# APIとして使用
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5-coder:14b-instruct-q4_K_M",
  "prompt": "Pythonでクイックソートを実装して"
}'
```

## パフォーマンスのコツ

### VRAM最適化
- **16GB VRAM**: 14Bモデル Q4_K_M が最適
- **余裕がある場合**: Q5_K_M で品質向上
- **複数モデル併用**: 7Bモデルと組み合わせ

### 速度向上
- **GPU使用確認**: `nvidia-smi` でVRAM使用量チェック
- **量子化レベル調整**: Q4_K_M → Q4_K_S で軽量化
- **コンテキスト長調整**: 応答速度とバランス

## トラブルシューティング

### よくある問題

1. **VRAM不足**
   - より軽い量子化（Q4_K_S, Q3_K_M）を試す
   - モデルサイズを下げる（14B → 7B）

2. **動作が遅い**
   - GPU使用を確認
   - バックグラウンドアプリケーションを終了

3. **品質が低い**
   - より大きなモデルサイズを試す
   - 高品質量子化（Q5_K_M, Q8_0）を使用

## 結論

RTX 4060 Ti 16GBなら、高品質量子化（Q5_K_M, Q8_0）でも快適に動作します。用途に応じてモデルを選択し、最適な設定で楽しいローカルLLM体験をお楽しみください！

---

*このガイドは2025年5月時点の情報に基づいています。新しいモデルが随時リリースされるため、最新情報もチェックしてくださいね〜♪*