C
ChaoBro

GENERAL365 ベンチマークリリース:汎用推論能力の新基準

GENERAL365 ベンチマークリリース:汎用推論能力の新基準

結論

GENERAL365は2026年4月27日にリリースされた新推理ベンチマーク。K-12知識範囲内で高難度推理問題を解くLLMの能力をテスト。365問すべて人工策划、複雑な制約・ネスト論理・意味的干渉の3タイプをカバー。現最強モデルは10%未満—既存大モデルの「純推理」能力は人間レベルに遠く及ばない。

ベンチマーク設計

特徴 MMLU / GSM8K AIME / FrontierMath GENERAL365
知識依存 大量専門知識 数学競技レベル K-12基礎知識
出典 自動筛选 競技真题 365問人工策划
テスト目標 知識掌握度 数学深度推理 汎用論理推理

3つのテスト次元

  1. 複雑な制約:複数の相互制約条件を同時に追跡
  2. ネスト論理:多層ネスト関係の条件
  3. 意味的干渉:誤解を招く情報で注意力をテスト

選択ガイド

役割 活用法
モデルベンダー 内部評価体系に組み込み、推論能力の向上を追跡
研究者 失敗パターンを分析、推論能力の具体的な短板を特定
開発者 複雑論理が関わる场景(法務・監査)では人間の審査層を設計
企業購買 GENERAL365スコアをモデル選定参考—5%未満は高論理密度業務に不適

出典