1
0
shell/docs/local-llm-recommendations.md
2025-05-31 01:47:48 +09:00

133 lines
4.2 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# おすすめローカルLLMRTX 4060 Ti 16GB対応
RTX 4060 Ti 16GBにぴったりのローカルLLMをご紹介します
## 🏆 アイのおすすめトップモデル2025年版
### コーディング特化
#### 1. **Qwen2.5-Coder-14B-Instruct** 🥇
- **特徴**: コーディングで最強クラス!
- **推奨量子化**: Q4_K_M約8GB VRAM使用
- **用途**: プログラミング、コード生成・デバッグ
- **お兄ちゃんのGPUに最適**
#### 2. **DeepSeek-Coder-V2-Lite-16B**
- **特徴**: コーディングと数学に特に強い
- **推奨量子化**: Q4_K_M約9GB VRAM使用
- **用途**: 複雑なアルゴリズム、数学的計算
### 汎用・バランス型
#### 3. **Qwen2.5-14B-Instruct** 🥈
- **特徴**: 日本語も得意な万能モデル
- **推奨量子化**: Q4_K_M約8GB VRAM使用
- **用途**: 汎用タスク、日本語対話
#### 4. **Llama 3.3-70B-Instruct量子化**
- **特徴**: 405Bモデルに匹敵する性能
- **推奨量子化**: Q3_K_S約14GB VRAM使用
- **用途**: 高度な推論タスク
- **注意**: ギリギリ動作、他のアプリケーション注意
#### 5. **Mistral-Nemo-12B-Instruct**
- **特徴**: バランスが良くて軽量
- **推奨量子化**: Q5_K_M約7GB VRAM使用
- **用途**: 日常的なタスク、軽快な動作
### 最新・注目株
#### 6. **Phi-4-14B**
- **特徴**: Microsoftの最新モデル
- **推奨量子化**: Q4_K_M約8GB VRAM使用
- **用途**: 最新技術の体験
#### 7. **DeepSeek-R1-Distill-Qwen-14B**
- **特徴**: 推論特化の新しいモデル、OpenAI-o1に匹敵
- **推奨量子化**: Q4_K_M約8GB VRAM使用
- **用途**: 複雑な推論タスク
## RTX 4060 Ti 16GB 推奨設定
| モデルサイズ | 推奨量子化 | VRAM使用量 | 実行速度 | 品質 |
|-------------|-----------|-----------|---------|------|
| 7B | Q5_K_M | ~5GB | 🟢 速い | 良い |
| 14B | Q4_K_M | ~8GB | 🟡 普通 | 高い |
| 22B | Q4_K_S | ~12GB | 🟠 やや遅い | 高い |
| 34B | Q3_K_S | ~15GB | 🔴 遅い | 最高 |
## アイの一番のおすすめ
### 用途別推奨モデル
- **🔧 コーディング重視**: Qwen2.5-Coder-14B Q4_K_M
- **💬 汎用対話**: Qwen2.5-14B-Instruct Q4_K_M
- **⚡ 軽さ重視**: Mistral-Nemo-12B Q5_K_M
- **🧠 推論重視**: DeepSeek-R1-Distill-Qwen-14B Q4_K_M
## インストール方法
### Ollamaを使用した場合
```bash
# コーディング特化
ollama pull qwen2.5-coder:14b-instruct-q4_K_M
# 汎用モデル
ollama pull qwen2.5:14b-instruct-q4_K_M
# 軽量モデル
ollama pull mistral-nemo:12b-instruct-q5_K_M
# 最新推論モデル
ollama pull deepseek-r1-distill-qwen:14b-q4_K_M
```
### 使用例
```bash
# インタラクティブ使用
ollama run qwen2.5-coder:14b-instruct-q4_K_M
# APIとして使用
curl http://localhost:11434/api/generate -d '{
"model": "qwen2.5-coder:14b-instruct-q4_K_M",
"prompt": "Pythonでクイックソートを実装して"
}'
```
## パフォーマンスのコツ
### VRAM最適化
- **16GB VRAM**: 14Bモデル Q4_K_M が最適
- **余裕がある場合**: Q5_K_M で品質向上
- **複数モデル併用**: 7Bモデルと組み合わせ
### 速度向上
- **GPU使用確認**: `nvidia-smi` でVRAM使用量チェック
- **量子化レベル調整**: Q4_K_M → Q4_K_S で軽量化
- **コンテキスト長調整**: 応答速度とバランス
## トラブルシューティング
### よくある問題
1. **VRAM不足**
- より軽い量子化Q4_K_S, Q3_K_Mを試す
- モデルサイズを下げる14B → 7B
2. **動作が遅い**
- GPU使用を確認
- バックグラウンドアプリケーションを終了
3. **品質が低い**
- より大きなモデルサイズを試す
- 高品質量子化Q5_K_M, Q8_0を使用
## 結論
RTX 4060 Ti 16GBなら、高品質量子化Q5_K_M, Q8_0でも快適に動作します。用途に応じてモデルを選択し、最適な設定で楽しいローカルLLM体験をお楽しみください
---
*このガイドは2025年5月時点の情報に基づいています。新しいモデルが随時リリースされるため、最新情報もチェックしてくださいね〜♪*