Power Query и ETL: подготовка данных
Как подключаться к источникам, чистить «грязные» данные и автоматизировать преобразования в Power Query.
Что такое Power Query
Power Query — это движок подготовки данных внутри Power BI (и Excel). Здесь происходит ETL: Extract (извлечь), Transform (преобразовать), Load (загрузить). Открывается кнопкой «Преобразовать данные».
Главное правило аналитика: данные чистятся в Power Query, а не в отчёте. Каждый шаг записывается в Applied Steps и автоматически повторяется при следующем обновлении.
1. Extract — подключение к источнику
Power Query умеет тянуть данные из десятков источников:
- Файлы: Excel, CSV, JSON, папка с файлами.
- Базы данных: PostgreSQL, SQL Server, MySQL.
- Веб и API.
При подключении к папке можно автоматически склеить десятки одинаковых файлов (например, продажи по месяцам) в одну таблицу.
2. Transform — очистка и преобразование
Типичные шаги:
- Типы данных. Первым делом проверь иконку типа у каждого столбца (ABC — текст, 123 — число, календарь — дата). Если дата пришла как текст — график по времени не построится.
- Удаление мусора: пустые строки, дубликаты, лишние столбцы.
- Split / Merge columns: разбить «Город, Страна» на два столбца или склеить.
- Unpivot: превратить «широкую» таблицу (месяцы по столбцам) в «длинную» — это критично для нормальной модели.
- Заменить значения, привести регистр, обрезать пробелы (Trim).
3. Merge vs Append
- Append (Добавить) — складывает таблицы одинаковой структуры друг под друга (как
UNIONв SQL). Пример: Q1 + Q2 + Q3. - Merge (Объединить) — соединяет по ключу вбок (как
JOIN). Пример: к продажам подтянуть категорию из справочника товаров.
Почему это важно
80% времени аналитика — это подготовка данных. Грамотный Power Query = быстрый refresh, чистая модель и отчёт, который не разваливается при обновлении. Все шаги повторяемы: загрузил новый файл — отчёт пересобрался сам.