← К списку уроков
Статистика·Средний·7 мин

Асимметричные и бимодальные распределения

Не всё нормальное. Что делать с log-normal и бимодами.

Скошенное вправо (log-normal)

Хвост уходит направо.

Примеры:

  • Доходы людей
  • Цены на недвижимость
  • Время на сайте

Среднее > медианы. Используй медиану, не среднее.

Трансформация: np.log1p(x) — после логарифмирования получишь нормальное.

df['income_log'] = np.log1p(df['income'])
# Теперь можно применять t-test

Скошенное влево

Хвост уходит налево. Редкое, но бывает: возраст пенсионеров, оценки экзамена где почти все сдали.

Бимодальное

Две вершины. Это сигнал что в данных смесь двух подгрупп.

Пример: гистограмма роста по школьникам — две вершины (мальчики 175, девочки 165). Нужно разделить на сегменты и анализировать отдельно.

Распределения которые встречаются часто

  • Пуассон — количество событий за интервал (заказы в час)
  • Экспоненциальное — время между событиями (время до следующего клика)
  • Бернулли / Биномиальное — бинарные исходы (клик/не клик)

Подвох

Применил t-test к log-normal без трансформации → получил странные результаты. Сначала смотри гистограмму, потом выбирай тест.