C
ChaoBro

評価がいたちごっこになったとき:AI ベンチマークは信頼性を失いつつある

評価がいたちごっこになったとき:AI ベンチマークは信頼性を失いつつある

Hugging Face の Open ASR Leaderboard に「Benchmaxxer Repellant」という機能が最近追加された。この名前自体が十分皮肉だ。評価プラットフォームが被評価者を追い払うために農薬のようなものを必要とする——この分野の信頼がどのレベルまで低下しているかを物語っている。

問題は目新しいものではない。むしろ加速している。

過去 2 年間、MMLU、GSM8K、HumanEval などの主要ベンチマークにおける AI モデルのスコアは目を引くペースで急上昇した。GSM8K は GPT-3 時代の 20% 未満から現在の 98% 以上に達している。MMLU も飽和に近づいている。モデル能力が爆発的に成長しているように見える——しかしよく見ると、成長曲線はベンチマーク問題のリーク速度とほぼ同期している。

スコアの上昇がすべて不正というわけではない。モデルは確実に強くなっている。しかしスコアが天井に近づくにつれ、「本当の能力向上」と「テストセットへの過学習」を区別することが極めて困難になっている。

Benchmaxxer Repellant のアプローチは、評価セットに対抗性サンプルを組み込むことだ。「本当に理解している」と「答えを暗記している」を区別できる問題を意図的に設計する。アイデアは正しいが、これは本質的に軍拡競争だ。スコア稼ぎは対抗性サンプルの分布を分析し、トレーニング戦略を調整して適応する。評価側は対抗戦略をアップグレードし、このサイクルが繰り返される。

より深い問題は、ベンチマークは最初から完璧な能力測定ではなかったということだ。

MMLU は選択式をテストするが、現実世界の作業が 4 択形式で出てくることはほとんどない。HumanEval は関数レベルのコード生成を測定するが、実際のプロジェクトはアーキテクチャ設計、境界条件、デバッグ、メンテナンスを含む数千行のシステム作業だ。これらを測定するベンチマークは存在しない。GSM8K は数学の問題だが、問題を解く能力と数学的直感は別物だ。

モデル企業がベンチマークを最適化するのは当然の商業判断だ。投資家、顧客、メディアは皆ベンチマークスコアを使って判断する。もし MMLU で 5 点遅れていれば、実際の応用での差がわずかでも、マーケティングで不利になる。だからベンチマークスコアの最適化は合理的な商業行動だ。

しかし合理的な個別行動の集合が、集団的非合理性をもたらす。すべてのモデルがベンチマークで高スコアを出すが、実際のシナリオで本当にどうなのかはわからない。

これは検索エンジン最適化の歴史を思い出させる。Google の PageRank は当初、ウェブページの品質を測定する信頼できる指標だった。その後、人々は PageRank を具体的に最適化し始め(リンクの購入、リンクファームの構築)、指標は歪んだ。Google は SEO 不正に対抗するために数百のシグナルを導入し、SEO コミュニティは新しいシグナルに合わせて戦略を調整した——このいたちごっこは 20 年続いている。

AI 評価は同じ道を歩んでいる。

出口はどこにあるのか。注目すべき方向が 3 つある。

第一に動的評価。ベンチマーク問題を固定せず、定期的に更新するか、生成的な方法でリアルタイムに出題する。これによりスコア稼ぎのコストが増加する。

第二にタスクレベルの評価。知識点をテストするのではなく、実際のタスクを完了する能力をテストする。「この財務報告書を分析して投資アドバイスを出す」「この Python 2 プロジェクトを Python 3 に移行してすべての型エラーを修正する」など。これらのタスクは事前に準備できない。

第三にコミュニティの実測データ。最も信頼できる評価は、多くの場合、実際のユーザーフィードバックから得られる。Artificial Analysis のモデル(実際の API 呼び出しのレイテンシ、価格、品質データを収集)は、生のベンチマークスコアよりも説得力がある。

評価の信頼性が完全に回復するまで、読者にはモデルスコアを見る際に一つ問いかけてほしい。このスコアはどのように導き出されたのか?テストセットは公開されているか?モデルはテストセットでファインチューニングされていないか?

答えが不明確なら、そのスコアの参考価値は割り引いて考えるべきだ。

主な情報源: