実施日: 2026-03-20

テスト環境

  • マシン: Raspberry Pi 5 16GB + RTX-5060Ti 16GB
  • Ollama: ローカルGPU実行

テスト項目

1. 日本語会話(AI社会影響の良い点・悪い点) 2. 論理推論(素数ジェネレータ実装) 3. コーディング(Pythonジェネレータ) 4. 創作・表現(春の朝の俳句) ---

結果サマリー

| モデル | サイズ | 平均速度 | 合計時間 | 推論精度 | 創作 | 安定性 | |--------|--------|----------|----------|----------|------|--------| | qwen3:8b | ~5.2GB | 最速 | — | ★★ (誤答あり) | ★★★ | ★★ | | qwen3.5:9b | ~6.6GB | 49.9 tok/s | 477秒 | ★★★ | ★★ | ★★ | | gemma3:12b | ~8.1GB | 41.1 tok/s | 626秒 | ★★★ | ★★★ | ★★★ |

---

詳細結果

qwen3.5:9b vs gemma3:12b

| タスク | qwen3.5:9b | gemma3:12b | |--------|-----------|-----------| | 日本語会話 | 50.9 tok/s (23.9s) | 41.3 tok/s (45.5s) | | 論理推論 | 49.6 tok/s (145.2s) | 41.3 tok/s (192.5s) | | コーディング | 49.6 tok/s (123.4s) | 40.5 tok/s (206.0s) | | 創作・表現 | 49.4 tok/s (184.1s) | 41.3 tok/s (182.2s) | | 平均 | 49.9 tok/s | 41.1 tok/s |

qwen3.5:9b の注意点

  • thinkingモードにより創作タスクで空回答になることがある
  • /no_think プレフィックスで解決可能(速度: 35.5 tok/s)
  • 推論精度は高い

gemma3:12b の特徴

  • 全タスク安定完走
  • コード中の関数名まで日本語化するユニークな挙動
  • 説明が非常に丁寧・詳細
  • RPi5での速度は実用十分
---

総合推薦

| 用途 | 推薦モデル | 理由 | |------|-----------|------| | 総合 | gemma3:12b | 品質・安定性・完走率が最高 | | バランス | qwen3.5:9b | 速度と精度のバランスが良い | | 速度重視 | qwen3:8b | 最速だが推論誤答リスクあり |

---

第2回テスト: 高速モデル評価(~100 tok/s 狙い)

実施日: 2026-03-20

結果サマリー

| モデル | サイズ | 平均速度 | 日本語品質 | コーディング | 創作 | 総合評価 | |--------|--------|----------|------------|--------------|------|----------| | qwen3:1.7b | 1.4GB | 87.1 tok/s | ★★★ | ★★★ | ★★★ | ★★★ | | smollm2:1.7b | 1.8GB | ~108 tok/s* | ★ (支離滅裂) | ★★ | タイムアウト | ★ | | llama3.2:3b | 2.0GB | 82.4 tok/s | ★★ (英単語混入) | ★★ (範囲固定) | ★★ | ★★ | | gemma3:4b | 3.3GB | 41.1 tok/s | ★★★ | ★★★ | ★★★ | ★★★ | | phi4-mini:3.8b | 2.5GB | 32.8 tok/s | ★★★ | ★★★ | ★★★ | ★★ |

*smollm2は日本語会話・コーディングのみ完走(創作タイムアウト)

詳細

| タスク | qwen3:1.7b | smollm2:1.7b | llama3.2:3b | gemma3:4b | phi4-mini:3.8b | |--------|-----------|-------------|------------|----------|--------------| | 日本語会話 | 43.9 tok/s | 60.9 tok/s | 33.3 tok/s | 8.7 tok/s | 2.9 tok/s | | 論理推論 | 108.9 tok/s | 156.2 tok/s | 105.1 tok/s | 59.9 tok/s | 15.5 tok/s | | 創作・表現 | 108.4 tok/s | タイムアウト | 108.7 tok/s | 54.7 tok/s | 80.1 tok/s |

各モデルの特記事項

  • qwen3:1.7b: 速度・品質のバランスが最良。thinkingモデルだが /no_think で安定。87 tok/s は実用十分
  • smollm2:1.7b: 最速クラス(156 tok/s)だが日本語品質が壊滅的。日本語用途には不向き
  • llama3.2:3b: 日本語文に英単語が混入、コードのrange固定など品質に難あり
  • gemma3:4b: 品質は高いが日本語会話が8.7 tok/sと極端に遅い(初回ロード?要再テスト)
  • phi4-mini:3.8b: 全体的に遅い(平均32.8 tok/s)。RPi5では実用的でない
---

総合推薦(全テスト統合)

| 用途 | 推薦モデル | 理由 | |------|-----------|------| | 高速・実用バランス | qwen3:1.7b | 87 tok/s、品質十分、1.4GBと軽量 | | 品質重視 | gemma3:12b (削除済) | 全タスク安定、41 tok/s | | 速度のみ重視 | smollm2:1.7b | 150+ tok/s だが日本語品質× |

結論

100 tok/s クラスで日本語が実用的に使えるモデルは qwen3:1.7b が現時点のベストアンサー。 smollm2:1.7b は速度だけなら上回るが日本語品質が壊滅的で実用不可。 87 tok/s が RPi5 CPU推論での現実的な上限と思われる。