Статистика·Лёгкий·6 мин
Распределения и гистограммы
Что такое распределение. Зачем смотреть форму данных.
Что такое распределение
Это форма данных — как часто встречаются разные значения.
Гистограмма
import matplotlib.pyplot as plt
plt.hist(df['amount'], bins=30)
plt.show()
Высота столбика = сколько значений попало в этот диапазон.
Зачем смотреть
- Перед средним — если распределение скошенное, среднее обманет.
- Найти выбросы — резкие пики далеко от центра.
- Выбрать тест — для нормального → t-test, для не-нормального → Mann-Whitney.
Типичные формы
- Нормальное (колокол) — симметричное
- Скошенное вправо — доходы, время сессии (long-tail)
- Скошенное влево — возраст пенсионеров
- Бимодальное (две горки) — намёк на смешанные подгруппы
Bin size
Слишком мало bin → теряешь детали. Слишком много → noise.
Хорошее правило Sturges: bins = log2(n) + 1.