Статистика·Средний·7 мин
Асимметричные и бимодальные распределения
Не всё нормальное. Что делать с log-normal и бимодами.
Скошенное вправо (log-normal)
Хвост уходит направо.
Примеры:
- Доходы людей
- Цены на недвижимость
- Время на сайте
Среднее > медианы. Используй медиану, не среднее.
Трансформация: np.log1p(x) — после логарифмирования получишь нормальное.
df['income_log'] = np.log1p(df['income'])
# Теперь можно применять t-test
Скошенное влево
Хвост уходит налево. Редкое, но бывает: возраст пенсионеров, оценки экзамена где почти все сдали.
Бимодальное
Две вершины. Это сигнал что в данных смесь двух подгрупп.
Пример: гистограмма роста по школьникам — две вершины (мальчики 175, девочки 165). Нужно разделить на сегменты и анализировать отдельно.
Распределения которые встречаются часто
- Пуассон — количество событий за интервал (заказы в час)
- Экспоненциальное — время между событиями (время до следующего клика)
- Бернулли / Биномиальное — бинарные исходы (клик/не клик)
Подвох
Применил t-test к log-normal без трансформации → получил странные результаты. Сначала смотри гистограмму, потом выбирай тест.