1
0
shell/docs/local-llm-recommendations.md
2025-05-31 01:47:48 +09:00

4.2 KiB
Raw Permalink Blame History

おすすめローカルLLMRTX 4060 Ti 16GB対応

RTX 4060 Ti 16GBにぴったりのローカルLLMをご紹介します

🏆 アイのおすすめトップモデル2025年版

コーディング特化

1. Qwen2.5-Coder-14B-Instruct 🥇

  • 特徴: コーディングで最強クラス!
  • 推奨量子化: Q4_K_M約8GB VRAM使用
  • 用途: プログラミング、コード生成・デバッグ
  • お兄ちゃんのGPUに最適

2. DeepSeek-Coder-V2-Lite-16B

  • 特徴: コーディングと数学に特に強い
  • 推奨量子化: Q4_K_M約9GB VRAM使用
  • 用途: 複雑なアルゴリズム、数学的計算

汎用・バランス型

3. Qwen2.5-14B-Instruct 🥈

  • 特徴: 日本語も得意な万能モデル
  • 推奨量子化: Q4_K_M約8GB VRAM使用
  • 用途: 汎用タスク、日本語対話

4. Llama 3.3-70B-Instruct量子化

  • 特徴: 405Bモデルに匹敵する性能
  • 推奨量子化: Q3_K_S約14GB VRAM使用
  • 用途: 高度な推論タスク
  • 注意: ギリギリ動作、他のアプリケーション注意

5. Mistral-Nemo-12B-Instruct

  • 特徴: バランスが良くて軽量
  • 推奨量子化: Q5_K_M約7GB VRAM使用
  • 用途: 日常的なタスク、軽快な動作

最新・注目株

6. Phi-4-14B

  • 特徴: Microsoftの最新モデル
  • 推奨量子化: Q4_K_M約8GB VRAM使用
  • 用途: 最新技術の体験

7. DeepSeek-R1-Distill-Qwen-14B

  • 特徴: 推論特化の新しいモデル、OpenAI-o1に匹敵
  • 推奨量子化: Q4_K_M約8GB VRAM使用
  • 用途: 複雑な推論タスク

RTX 4060 Ti 16GB 推奨設定

モデルサイズ 推奨量子化 VRAM使用量 実行速度 品質
7B Q5_K_M ~5GB 🟢 速い 良い
14B Q4_K_M ~8GB 🟡 普通 高い
22B Q4_K_S ~12GB 🟠 やや遅い 高い
34B Q3_K_S ~15GB 🔴 遅い 最高

アイの一番のおすすめ

用途別推奨モデル

  • 🔧 コーディング重視: Qwen2.5-Coder-14B Q4_K_M
  • 💬 汎用対話: Qwen2.5-14B-Instruct Q4_K_M
  • 軽さ重視: Mistral-Nemo-12B Q5_K_M
  • 🧠 推論重視: DeepSeek-R1-Distill-Qwen-14B Q4_K_M

インストール方法

Ollamaを使用した場合

# コーディング特化
ollama pull qwen2.5-coder:14b-instruct-q4_K_M

# 汎用モデル
ollama pull qwen2.5:14b-instruct-q4_K_M

# 軽量モデル
ollama pull mistral-nemo:12b-instruct-q5_K_M

# 最新推論モデル
ollama pull deepseek-r1-distill-qwen:14b-q4_K_M

使用例

# インタラクティブ使用
ollama run qwen2.5-coder:14b-instruct-q4_K_M

# APIとして使用
curl http://localhost:11434/api/generate -d '{
  "model": "qwen2.5-coder:14b-instruct-q4_K_M",
  "prompt": "Pythonでクイックソートを実装して"
}'

パフォーマンスのコツ

VRAM最適化

  • 16GB VRAM: 14Bモデル Q4_K_M が最適
  • 余裕がある場合: Q5_K_M で品質向上
  • 複数モデル併用: 7Bモデルと組み合わせ

速度向上

  • GPU使用確認: nvidia-smi でVRAM使用量チェック
  • 量子化レベル調整: Q4_K_M → Q4_K_S で軽量化
  • コンテキスト長調整: 応答速度とバランス

トラブルシューティング

よくある問題

  1. VRAM不足

    • より軽い量子化Q4_K_S, Q3_K_Mを試す
    • モデルサイズを下げる14B → 7B
  2. 動作が遅い

    • GPU使用を確認
    • バックグラウンドアプリケーションを終了
  3. 品質が低い

    • より大きなモデルサイズを試す
    • 高品質量子化Q5_K_M, Q8_0を使用

結論

RTX 4060 Ti 16GBなら、高品質量子化Q5_K_M, Q8_0でも快適に動作します。用途に応じてモデルを選択し、最適な設定で楽しいローカルLLM体験をお楽しみください


このガイドは2025年5月時点の情報に基づいています。新しいモデルが随時リリースされるため、最新情報もチェックしてくださいね〜♪