← К списку уроков
Статистика·Средний·6 мин

Корреляция: коэффициент Пирсона

Когда две метрики связаны. От -1 до +1.

Идея

Корреляция показывает силу линейной связи двух переменных.

  • +1 — идеальная прямая связь (одна растёт, другая растёт)
  • 0 — нет связи
  • −1 — идеальная обратная (одна растёт, другая падает)

Формула Пирсона

$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \cdot \sum(y_i - \bar{y})^2}}$$

Python / SQL

df['x'].corr(df['y'])
# либо
np.corrcoef(x, y)[0, 1]
SELECT corr(x, y) FROM data;

Интерпретация

rСила связи
0.0 - 0.3Слабая
0.3 - 0.7Средняя
0.7 - 1.0Сильная

Пример

Корреляция между рекламным бюджетом и продажами = 0.85 — сильная положительная. Между ценой и спросом = −0.6 — средняя отрицательная.

Ограничения

  1. Пирсон видит только линейные связи. Для нелинейных (sin/exp) → Spearman.
  2. Чувствителен к выбросам — один кривой клиент исказит корреляцию.
  3. Корреляция ≠ причинность (следующий урок).