← К списку уроков
Статистика·Средний·6 мин

Дисперсия и стандартное отклонение

Как одно число описывает разброс. Объяснение для не-математика.

Идея

Если каждый день продаём ~1000 ₸ ± 50, это стабильно. Если ~1000 ± 800 — рискованно. Стандартное отклонение измеряет это «±».

Формула

$$\sigma = \sqrt{\frac{1}{n}\sum(x_i - \bar{x})^2}$$

  1. Считаем среднее
  2. Каждое значение минус среднее (deviation)
  3. Возводим в квадрат (чтобы убрать знаки)
  4. Среднее всех квадратов = дисперсия
  5. Корень = стандартное отклонение

SQL / Python

SELECT stddev(amount), variance(amount) FROM orders;
df['amount'].std()
df['amount'].var()
np.std(values)

Правило 68-95-99.7 (для нормального распределения)

  • 68% значений в [μ ± σ]
  • 95% в [μ ± 2σ]
  • 99.7% в [μ ± 3σ]

Пример: рост 175 см, std=8. Значит 95% людей в [159, 191] см.

Когда использовать

  • Сравнить два варианта: «продажи A: 1000±50, B: 1000±500» — выбор зависит от риск-толерантности
  • A/B-тесты: чем меньше std, тем легче поймать эффект