Статистика·Средний·6 мин
Корреляция: коэффициент Пирсона
Когда две метрики связаны. От -1 до +1.
Идея
Корреляция показывает силу линейной связи двух переменных.
- +1 — идеальная прямая связь (одна растёт, другая растёт)
- 0 — нет связи
- −1 — идеальная обратная (одна растёт, другая падает)
Формула Пирсона
$$r = \frac{\sum(x_i - \bar{x})(y_i - \bar{y})}{\sqrt{\sum(x_i - \bar{x})^2 \cdot \sum(y_i - \bar{y})^2}}$$
Python / SQL
df['x'].corr(df['y'])
# либо
np.corrcoef(x, y)[0, 1]
SELECT corr(x, y) FROM data;
Интерпретация
| r | Сила связи |
|---|---|
| 0.0 - 0.3 | Слабая |
| 0.3 - 0.7 | Средняя |
| 0.7 - 1.0 | Сильная |
Пример
Корреляция между рекламным бюджетом и продажами = 0.85 — сильная положительная. Между ценой и спросом = −0.6 — средняя отрицательная.
Ограничения
- Пирсон видит только линейные связи. Для нелинейных (sin/exp) → Spearman.
- Чувствителен к выбросам — один кривой клиент исказит корреляцию.
- Корреляция ≠ причинность (следующий урок).