検証精度について

QuizCheckerの検証精度を、ジャンル・パターン・難易度の複数の分類軸で分析しています。

精度データについて

対象期間: 2026-02-112026-03-02(全 864 件)

Web検索による判定率: 92%(うち事実確認OK: 79%、誤り検出: 13%

各分類軸(ジャンル・パターン・難易度)はLLMによる自動判定で分類しています。

※ 判定率が低いカテゴリは、問題の品質が低いのではなく、Web上の情報源が限られるカテゴリです。また、誤り検出は問題文の事実が間違っている場合だけでなく、検索結果との不一致による誤検出を含む場合があります。

ジャンル別

問題のトピック(何について聞いているか)に基づく分類です。LLMによる自動判定で8つのジャンルに分類しています。

科学・技術確認 88%誤り 5%不明 7%
136

物理・化学・生物・IT・宇宙に関する問題。学術的な事実は信頼性の高い情報源で検証できます。

スポーツ確認 86%誤り 10%不明 4%
63

野球・サッカー・オリンピック・格闘技に関する問題。記録や成績は公式データで検証しやすい分野です。

地理確認 85%誤り 7%不明 8%
37

日本地理・世界地理・都市・自然に関する問題。地名や統計データは公的情報源で検証しやすい分野です。

言語・文学確認 80%誤り 11%不明 9%
109

日本文学・世界文学・言語学・ことわざに関する問題。語源や用法の検証にはWeb上の情報が限られる場合があります。

文化・歴史確認 77%誤り 13%不明 10%
119

日本史・世界史・伝統文化・宗教・神話に関する問題。公的資料が豊富で検証しやすい傾向があります。

食文化確認 76%誤り 17%不明 7%
40

日本料理・世界料理・飲料・調味料に関する問題。文化的な慣習に関する事実はWeb検証が難しい場合があります。

エンターテインメント確認 74%誤り 14%不明 12%
230

音楽・映画・アニメ・テレビ・芸能人に関する問題。情報の更新が早く、非公式情報源に依存する場合があります。

その他確認 74%誤り 18%不明 8%
130

上記カテゴリに該当しない一般常識・雑学の問題。多様なトピックを含みます。

パターン別

問題の構造(どのように聞いているか)に基づく分類です。LLMによる自動判定で11のパターンに分類しています。

穴埋め型確認 78%誤り 13%不明 9%
423

「〜は何でしょう?」形式の問題。最も一般的なパターンで、事実の正確性が検証の中心です。

定義型確認 84%誤り 9%不明 7%
151

「〜とは何でしょう?」形式の問題。定義の正確性と一意性を検証します。

人物特定型確認 79%誤り 10%不明 11%
151

「〜は誰でしょう?」形式の問題。人物の業績や属性の正確性を検証します。

連想型確認 73%誤り 16%不明 11%
53

「〜といえば何でしょう?」形式の問題。連想関係の妥当性を検証します。

対比型確認 60%誤り 23%不明 17%
28

「AはBですが、Cは?」形式の対比問題。対比される事実の両方を検証します。

場所特定型確認 86%誤り 12%不明 2%
21

「〜はどこでしょう?」形式の問題。地理的事実の正確性を検証します。

選択肢型確認 84%誤り 16%不明 0%
16

「次のうち〜はどれ?」形式の問題。選択肢の正確性と排他性を検証します。

数値型確認 70%誤り 11%不明 19%
12

数値を答えさせる問題。統計データや記録の正確性を検証します。

読み方型確認 100%誤り 0%不明 0%
5

漢字の読みを問う問題。辞書的な正確性を検証しますが、Web上の情報源が限られる場合があります。

計算型確認 0%誤り 80%不明 20%
2

「〜はいくつ?」形式の計算問題。数値の正確性を検証します。

その他確認 50%誤り 50%不明 0%
2

上記パターンに該当しない問題。多様な出題形式を含みます。

難易度別

問題の難易度(答えの知名度)に基づく分類です。LLMによる自動判定で3段階に分類しています。

初級確認 79%誤り 13%不明 8%
91

国民的認知度の知識を問う問題(初級)。Web上に豊富な情報があり、検証しやすい傾向があります。

中級確認 81%誤り 13%不明 6%
350

高校教養レベルの知識を問う問題(中級)。一般的な情報源で検証可能な問題が多いです。

上級確認 77%誤り 12%不明 11%
423

専門知識を問う問題(上級)。専門的な情報源が必要で、Web検証の難易度が高い場合があります。