Python·Лёгкий·5 мин
Pandas: DataFrame с нуля
DataFrame — главная структура для работы с табличными данными в Python. С него начинается любой анализ.
Что такое DataFrame
DataFrame — это таблица в памяти Python. Колонки + строки, как Excel.
Создаём DataFrame
import pandas as pd
df = pd.DataFrame({
'name': ['Айгерим', 'Ерлан', 'Дана'],
'salary': [180000, 220000, 195000],
'city': ['Алматы', 'Астана', 'Алматы'],
})
print(df)
Чтение из CSV
В реальности данные приходят файлом:
df = pd.read_csv('employees.csv')
df.head() # первые 5 строк
Базовые операции
df.info() # типы колонок и количество NaN
df.describe() # статистика по числовым колонкам
df[df.salary > 200000] # фильтрация
df.salary.mean() # средняя зарплата
Дальше
В следующем уроке — groupby для агрегации, merge для объединения двух DataFrame, и работа с пропущенными значениями.