← К списку уроков
Статистика·Средний·6 мин

Корреляция ≠ Причинность

Почему мороженое не вызывает утопление. Самая важная мысль аналитика.

Классический пример

Корреляция между продажами мороженого и количеством утоплений = 0.9.

Значит ли это что мороженое → утопления? Нет.

Скрытая переменная: погода. В жару люди и едят мороженое, и плавают (=больше утоплений). Жара вызывает обе вещи.

Виды ложных корреляций

1. Lurking variable

Третья переменная влияет на обе.

2. Reverse causality

Связь есть, но направлена в обратную сторону. «Игроки больше тренируются → побеждают». А может побеждающие тренируются больше для уверенности?

3. Selection bias

Выборка кривая. «Богатые люди едят больше суши». Реально: суши-рестораны в богатых районах.

4. Случайность

Тилл Tyler Vigen собрал случайные корреляции: «Число утоплений в бассейнах коррелирует с количеством фильмов Николаса Кейджа r=0.66».

Как доказать причинность

Корреляция — это только начало. Чтобы доказать причину:

  1. A/B тест — рандомизированное вмешательство
  2. Контроль переменных — регрессия с covariates
  3. DiD (difference-in-differences) — сравнение treatment vs control до/после

Подвох на собесе

«У нас выросла конверсия после редизайна. Значит редизайн помог?» — Не факт. Может был сезон, или менеджер заодно изменил рекламу. A/B тест нужен.