前文多次提到「校準度」是衡量機率品質的核心,這一段深入解析校準度的概念與檢驗方法。理解校準度,是分辨「好機率」與「壞機率」的關鍵能力——這比單純看命中率重要得多。
**校準度的定義**:一個機率源「校準良好」,意味它標示的機率與實際發生頻率長期一致。具體說:所有被它標為「20% 機率」的事件,長期下來應該約有 20% 真的發生;標為「70% 機率」的,約有 70% 發生。如果標 20% 的事最後 50% 都發生了,這個機率源就「系統性低估」;反之則「高估」。
**可靠度圖(reliability diagram)**:檢驗校準度的標準工具,是「可靠度圖」。橫軸是「預測的機率」,縱軸是「實際發生的頻率」。把大量預測按機率分組,畫出每組的實際發生頻率。若機率源校準完美,所有點會落在 45 度對角線上(預測 30% 的事,實際就 30% 發生)。偏離對角線越遠,校準越差。
**為何校準度比命中率重要**:命中率只看「最高機率(top 1)猜中冠軍幾次」,完全忽略了「機率分佈的品質」。一個只會押最大熱門的機率源,命中率或許不差,卻無法告訴你「冷門有多冷」、也無法在勢均力敵的對決中提供有用資訊。校準度則檢驗「所有機率標示」的準確性,是更全面的品質指標。
**預測市場的校準優勢**:研究顯示,高流動性的預測市場通常校準良好——標 30% 的事約 30% 發生、標 70% 的約 70% 發生。這意味,你可以信任市場機率的「相對大小」,而不只是「誰是第一名」。這是預測市場相較於主觀專家預測的關鍵優勢。
**校準度的實務應用**:當你評估一個機率源(市場、賠率、模型、專家)是否可信,問一個關鍵問題:「它過去標 30% 的事,是否約 30% 發生?」有公開校準紀錄(calibration record)的來源最可信。本站之所以信任高流動性的預測市場資料,正是因為其長期校準度經得起檢驗。
**校準與銳利度的權衡**:一個好的機率源,不只要「校準」(機率準確),還要「銳利(sharp)」——敢於給出極端機率(如 90% 或 5%),而非永遠保守地給 50%。永遠猜 50% 雖然「不會大錯」,卻毫無資訊量。最理想的機率源,是「在保持校準的前提下,盡可能銳利」。這也是 Brier 分數同時懲罰「過度自信」與「過度保守」的深層原因。Brier 分數的細節,見前文與本頁其他段落。