← К списку уроков
Python·Лёгкий·5 мин

Pandas: DataFrame с нуля

DataFrame — главная структура для работы с табличными данными в Python. С него начинается любой анализ.

Что такое DataFrame

DataFrame — это таблица в памяти Python. Колонки + строки, как Excel.

Создаём DataFrame

import pandas as pd

df = pd.DataFrame({
    'name': ['Айгерим', 'Ерлан', 'Дана'],
    'salary': [180000, 220000, 195000],
    'city': ['Алматы', 'Астана', 'Алматы'],
})
print(df)

Чтение из CSV

В реальности данные приходят файлом:

df = pd.read_csv('employees.csv')
df.head()  # первые 5 строк

Базовые операции

df.info()              # типы колонок и количество NaN
df.describe()          # статистика по числовым колонкам
df[df.salary > 200000] # фильтрация
df.salary.mean()       # средняя зарплата

Дальше

В следующем уроке — groupby для агрегации, merge для объединения двух DataFrame, и работа с пропущенными значениями.