← К списку уроков
Статистика·Лёгкий·6 мин

Распределения и гистограммы

Что такое распределение. Зачем смотреть форму данных.

Что такое распределение

Это форма данных — как часто встречаются разные значения.

Гистограмма

import matplotlib.pyplot as plt
plt.hist(df['amount'], bins=30)
plt.show()

Высота столбика = сколько значений попало в этот диапазон.

Зачем смотреть

  1. Перед средним — если распределение скошенное, среднее обманет.
  2. Найти выбросы — резкие пики далеко от центра.
  3. Выбрать тест — для нормального → t-test, для не-нормального → Mann-Whitney.

Типичные формы

  • Нормальное (колокол) — симметричное
  • Скошенное вправо — доходы, время сессии (long-tail)
  • Скошенное влево — возраст пенсионеров
  • Бимодальное (две горки) — намёк на смешанные подгруппы

Bin size

Слишком мало bin → теряешь детали. Слишком много → noise. Хорошее правило Sturges: bins = log2(n) + 1.