検証精度について
QuizCheckerの検証精度を、ジャンル・パターン・難易度の複数の分類軸で分析しています。
精度データについて
対象期間: 2026-02-11 〜 2026-03-02(全 864 件)
Web検索による判定率: 92%(うち事実確認OK: 79%、誤り検出: 13%)
各分類軸(ジャンル・パターン・難易度)はLLMによる自動判定で分類しています。
※ 判定率が低いカテゴリは、問題の品質が低いのではなく、Web上の情報源が限られるカテゴリです。また、誤り検出は問題文の事実が間違っている場合だけでなく、検索結果との不一致による誤検出を含む場合があります。
ジャンル別
問題のトピック(何について聞いているか)に基づく分類です。LLMによる自動判定で8つのジャンルに分類しています。
物理・化学・生物・IT・宇宙に関する問題。学術的な事実は信頼性の高い情報源で検証できます。
野球・サッカー・オリンピック・格闘技に関する問題。記録や成績は公式データで検証しやすい分野です。
日本地理・世界地理・都市・自然に関する問題。地名や統計データは公的情報源で検証しやすい分野です。
日本文学・世界文学・言語学・ことわざに関する問題。語源や用法の検証にはWeb上の情報が限られる場合があります。
日本史・世界史・伝統文化・宗教・神話に関する問題。公的資料が豊富で検証しやすい傾向があります。
日本料理・世界料理・飲料・調味料に関する問題。文化的な慣習に関する事実はWeb検証が難しい場合があります。
音楽・映画・アニメ・テレビ・芸能人に関する問題。情報の更新が早く、非公式情報源に依存する場合があります。
上記カテゴリに該当しない一般常識・雑学の問題。多様なトピックを含みます。
パターン別
問題の構造(どのように聞いているか)に基づく分類です。LLMによる自動判定で11のパターンに分類しています。
「〜は何でしょう?」形式の問題。最も一般的なパターンで、事実の正確性が検証の中心です。
「〜とは何でしょう?」形式の問題。定義の正確性と一意性を検証します。
「〜は誰でしょう?」形式の問題。人物の業績や属性の正確性を検証します。
「〜といえば何でしょう?」形式の問題。連想関係の妥当性を検証します。
「AはBですが、Cは?」形式の対比問題。対比される事実の両方を検証します。
「〜はどこでしょう?」形式の問題。地理的事実の正確性を検証します。
「次のうち〜はどれ?」形式の問題。選択肢の正確性と排他性を検証します。
数値を答えさせる問題。統計データや記録の正確性を検証します。
漢字の読みを問う問題。辞書的な正確性を検証しますが、Web上の情報源が限られる場合があります。
「〜はいくつ?」形式の計算問題。数値の正確性を検証します。
上記パターンに該当しない問題。多様な出題形式を含みます。
難易度別
問題の難易度(答えの知名度)に基づく分類です。LLMによる自動判定で3段階に分類しています。
国民的認知度の知識を問う問題(初級)。Web上に豊富な情報があり、検証しやすい傾向があります。
高校教養レベルの知識を問う問題(中級)。一般的な情報源で検証可能な問題が多いです。
専門知識を問う問題(上級)。専門的な情報源が必要で、Web検証の難易度が高い場合があります。