Обзор
Пошаговые гайды по инструментам и технологиям для работы с данными. Каждая статья — самостоятельный материал, который можно читать отдельно.
Клик по узлу слоя раскрывает связанные темы. Повторный клик сворачивает слой обратно.
Граф ниже показывает рекомендуемый порядок изучения: основной путь идёт снизу вверх, параллельная ветка — инструменты и контейнеризация.
Языки
| Страница |
Описание |
| Обзор слоя |
Базовый язык для работы с реляционными данными |
| SQL: основы и SELECT |
Таблицы, фильтрация, сортировка, LIMIT, NULL, порядок выполнения |
| SQL: JOIN и связи |
INNER/LEFT/RIGHT/FULL JOIN и соединение нескольких таблиц |
| SQL: агрегаты и CASE |
COUNT/SUM/AVG, GROUP BY, HAVING и условия CASE |
| SQL: подзапросы и CTE |
IN/EXISTS, коррелированные подзапросы, WITH и рекурсия |
| SQL: оконные функции |
ROW_NUMBER, RANK, LAG/LEAD, накопительные итоги, фреймы |
| SQL: операции над наборами |
UNION ALL, UNION, INTERSECT, EXCEPT |
| SQL: DML и транзакции |
INSERT/UPDATE/DELETE, RETURNING, BEGIN/COMMIT/ROLLBACK, индексы |
| Python: основы для DE |
Виртуальные окружения, работа с файлами, библиотеки DE-стека |
| Python: pandas |
DataFrame, чтение CSV/Parquet/SQL, merge, дедупликация |
| Python: работа с API |
requests, авторизация, пагинация, retry, JSON → DataFrame |
Инструменты разработки
| Страница |
Описание |
| Обзор слоя |
Git, Bash и IDE для ежедневной инженерной работы |
| Git для дата-инженера |
Ветки, merge, rebase, .gitignore, Gitflow и trunk-based |
| Bash |
Пайпы, grep, jq, скрипты, cron, переменные окружения |
| IDE и окружение |
VS Code, DBeaver, tmux, SQLFluff, pre-commit |
Контейнеризация и инфра
Хранилища
Моделирование данных
| Страница |
Описание |
| Обзор слоя |
Проектирование моделей данных для аналитики |
| Нормализация |
1NF, 2NF, 3NF, BCNF и денормализация |
| Star Schema |
Факты, измерения, суррогатные ключи |
| Data Vault |
Hubs, Links, Satellites |
| SCD |
Slowly Changing Dimensions — историзация измерений |
Трансформация
Оркестрация
Источники и интеграции
| Страница |
Описание |
| Обзор слоя |
Интеграции с API и внешними системами |
| DummyJSON |
Обзор публичного API для практики |
| Kafka: основы |
Brokers, topics, partitions, consumer groups |
| Kafka Connect |
JDBC Source, Debezium CDC, S3 Sink — интеграция без кода |
Качество и наблюдаемость
| Страница |
Описание |
| Обзор слоя |
Практики качества данных и наблюдаемости |
| Качество данных |
6 измерений качества, SQL-проверки, обзор инструментов |
| Great Expectations |
Фреймворк валидации: expectations, Data Docs, Checkpoints |