← К списку уроков
Статистика·Сложный·7 мин

Ошибки I и II рода

False positive vs false negative. Что страшнее.

Матрица решений

                  H0 ВЕРНА        H0 ЛОЖНА
Отвергли H0   |  FP (ошибка I) |   TP ✓
Не отвергли   |   TN ✓         |  FN (ошибка II)

Ошибка I рода (False Positive, α)

Отвергли H0 когда она верна. То есть закричали «эффект есть» когда его нет.

Контролируется через alpha (обычно 0.05) — допустимая вероятность.

Ошибка II рода (False Negative, β)

НЕ отвергли H0 когда она ложна. То есть пропустили реальный эффект.

1 − β = Power — мощность теста. Обычно целятся в 80%+ power.

Trade-off

Уменьшил alpha → меньше FP, но больше FN. Хочешь и меньше FP и меньше FN → нужно больше данных.

Что страшнее зависит от контекста

Медицина: препарат против рака.

  • FP («работает» когда нет) → пациенты пьют пустышку, теряют время → опасно
  • FN («не работает» когда есть) → не дают полезное лекарство → опасно Обычно медики снижают alpha до 0.01.

Продукт: кнопка «купить» зелёная vs красная.

  • FP → выкатили зелёную, конверсия не выросла → откатили, не страшно
  • FN → пропустили рабочую фичу → теряем выручку, но не критично

Power calculation

from statsmodels.stats.power import zt_ind_solve_power
n = zt_ind_solve_power(effect_size=0.1, alpha=0.05, power=0.8)

Дает sample size нужный для 80% шанса поймать эффект 10%.