検証精度について

QuizCheckerの検証精度を、ジャンル・パターン・難易度の複数の分類軸で分析しています。

精度データについて

対象期間: 2026-02-11 〜 2026-03-02（全 864 件）

Web検索による判定率: 92%（うち事実確認OK: 79%、誤り検出: 13%）

各分類軸（ジャンル・パターン・難易度）はLLMによる自動判定で分類しています。

※ 判定率が低いカテゴリは、問題の品質が低いのではなく、Web上の情報源が限られるカテゴリです。また、誤り検出は問題文の事実が間違っている場合だけでなく、検索結果との不一致による誤検出を含む場合があります。

ジャンル別

問題のトピック（何について聞いているか）に基づく分類です。LLMによる自動判定で8つのジャンルに分類しています。

科学・技術確認 88%誤り 5%不明 7%

136件

物理・化学・生物・IT・宇宙に関する問題。学術的な事実は信頼性の高い情報源で検証できます。

スポーツ確認 86%誤り 10%不明 4%

63件

野球・サッカー・オリンピック・格闘技に関する問題。記録や成績は公式データで検証しやすい分野です。

地理確認 85%誤り 7%不明 8%

37件

日本地理・世界地理・都市・自然に関する問題。地名や統計データは公的情報源で検証しやすい分野です。

言語・文学確認 80%誤り 11%不明 9%

109件

日本文学・世界文学・言語学・ことわざに関する問題。語源や用法の検証にはWeb上の情報が限られる場合があります。

文化・歴史確認 77%誤り 13%不明 10%

119件

日本史・世界史・伝統文化・宗教・神話に関する問題。公的資料が豊富で検証しやすい傾向があります。

食文化確認 76%誤り 17%不明 7%

40件

日本料理・世界料理・飲料・調味料に関する問題。文化的な慣習に関する事実はWeb検証が難しい場合があります。

エンターテインメント確認 74%誤り 14%不明 12%

230件

音楽・映画・アニメ・テレビ・芸能人に関する問題。情報の更新が早く、非公式情報源に依存する場合があります。

その他確認 74%誤り 18%不明 8%

130件

上記カテゴリに該当しない一般常識・雑学の問題。多様なトピックを含みます。

パターン別

問題の構造（どのように聞いているか）に基づく分類です。LLMによる自動判定で11のパターンに分類しています。

穴埋め型確認 78%誤り 13%不明 9%

423件

「〜は何でしょう？」形式の問題。最も一般的なパターンで、事実の正確性が検証の中心です。

定義型確認 84%誤り 9%不明 7%

151件

「〜とは何でしょう？」形式の問題。定義の正確性と一意性を検証します。

人物特定型確認 79%誤り 10%不明 11%

151件

「〜は誰でしょう？」形式の問題。人物の業績や属性の正確性を検証します。

連想型確認 73%誤り 16%不明 11%

53件

「〜といえば何でしょう？」形式の問題。連想関係の妥当性を検証します。

対比型確認 60%誤り 23%不明 17%

28件

「AはBですが、Cは？」形式の対比問題。対比される事実の両方を検証します。

場所特定型確認 86%誤り 12%不明 2%

21件

「〜はどこでしょう？」形式の問題。地理的事実の正確性を検証します。

選択肢型確認 84%誤り 16%不明 0%

16件

「次のうち〜はどれ？」形式の問題。選択肢の正確性と排他性を検証します。

数値型確認 70%誤り 11%不明 19%

12件

数値を答えさせる問題。統計データや記録の正確性を検証します。

読み方型確認 100%誤り 0%不明 0%

5件

漢字の読みを問う問題。辞書的な正確性を検証しますが、Web上の情報源が限られる場合があります。

計算型確認 0%誤り 80%不明 20%

2件

「〜はいくつ？」形式の計算問題。数値の正確性を検証します。

その他確認 50%誤り 50%不明 0%

2件

上記パターンに該当しない問題。多様な出題形式を含みます。

難易度別

問題の難易度（答えの知名度）に基づく分類です。LLMによる自動判定で3段階に分類しています。

初級確認 79%誤り 13%不明 8%

91件

国民的認知度の知識を問う問題（初級）。Web上に豊富な情報があり、検証しやすい傾向があります。

中級確認 81%誤り 13%不明 6%

350件

高校教養レベルの知識を問う問題（中級）。一般的な情報源で検証可能な問題が多いです。

上級確認 77%誤り 12%不明 11%

423件

専門知識を問う問題（上級）。専門的な情報源が必要で、Web検証の難易度が高い場合があります。