Корреляция ≠ Причинность
Почему мороженое не вызывает утопление. Самая важная мысль аналитика.
Классический пример
Корреляция между продажами мороженого и количеством утоплений = 0.9.
Значит ли это что мороженое → утопления? Нет.
Скрытая переменная: погода. В жару люди и едят мороженое, и плавают (=больше утоплений). Жара вызывает обе вещи.
Виды ложных корреляций
1. Lurking variable
Третья переменная влияет на обе.
2. Reverse causality
Связь есть, но направлена в обратную сторону. «Игроки больше тренируются → побеждают». А может побеждающие тренируются больше для уверенности?
3. Selection bias
Выборка кривая. «Богатые люди едят больше суши». Реально: суши-рестораны в богатых районах.
4. Случайность
Тилл Tyler Vigen собрал случайные корреляции: «Число утоплений в бассейнах коррелирует с количеством фильмов Николаса Кейджа r=0.66».
Как доказать причинность
Корреляция — это только начало. Чтобы доказать причину:
- A/B тест — рандомизированное вмешательство
- Контроль переменных — регрессия с covariates
- DiD (difference-in-differences) — сравнение treatment vs control до/после
Подвох на собесе
«У нас выросла конверсия после редизайна. Значит редизайн помог?» — Не факт. Может был сезон, или менеджер заодно изменил рекламу. A/B тест нужен.