Статистика·Сложный·7 мин
Ошибки I и II рода
False positive vs false negative. Что страшнее.
Матрица решений
H0 ВЕРНА H0 ЛОЖНА
Отвергли H0 | FP (ошибка I) | TP ✓
Не отвергли | TN ✓ | FN (ошибка II)
Ошибка I рода (False Positive, α)
Отвергли H0 когда она верна. То есть закричали «эффект есть» когда его нет.
Контролируется через alpha (обычно 0.05) — допустимая вероятность.
Ошибка II рода (False Negative, β)
НЕ отвергли H0 когда она ложна. То есть пропустили реальный эффект.
1 − β = Power — мощность теста. Обычно целятся в 80%+ power.
Trade-off
Уменьшил alpha → меньше FP, но больше FN. Хочешь и меньше FP и меньше FN → нужно больше данных.
Что страшнее зависит от контекста
Медицина: препарат против рака.
- FP («работает» когда нет) → пациенты пьют пустышку, теряют время → опасно
- FN («не работает» когда есть) → не дают полезное лекарство → опасно Обычно медики снижают alpha до 0.01.
Продукт: кнопка «купить» зелёная vs красная.
- FP → выкатили зелёную, конверсия не выросла → откатили, не страшно
- FN → пропустили рабочую фичу → теряем выручку, но не критично
Power calculation
from statsmodels.stats.power import zt_ind_solve_power
n = zt_ind_solve_power(effect_size=0.1, alpha=0.05, power=0.8)
Дает sample size нужный для 80% шанса поймать эффект 10%.