Обзор

Пошаговые гайды по инструментам и технологиям для работы с данными. Каждая статья — самостоятельный материал, который можно читать отдельно.

Клик по узлу слоя раскрывает связанные темы. Повторный клик сворачивает слой обратно.

Граф ниже показывает рекомендуемый порядок изучения: основной путь идёт снизу вверх, параллельная ветка — инструменты и контейнеризация.

Языки¶

Страница	Описание
Обзор слоя	Базовый язык для работы с реляционными данными
SQL: основы и SELECT	Таблицы, фильтрация, сортировка, LIMIT, NULL, порядок выполнения
SQL: JOIN и связи	INNER/LEFT/RIGHT/FULL JOIN и соединение нескольких таблиц
SQL: агрегаты и CASE	COUNT/SUM/AVG, GROUP BY, HAVING и условия CASE
SQL: подзапросы и CTE	IN/EXISTS, коррелированные подзапросы, WITH и рекурсия
SQL: оконные функции	ROW_NUMBER, RANK, LAG/LEAD, накопительные итоги, фреймы
SQL: операции над наборами	UNION ALL, UNION, INTERSECT, EXCEPT
SQL: DML и транзакции	INSERT/UPDATE/DELETE, RETURNING, BEGIN/COMMIT/ROLLBACK, индексы
Python: основы для DE	Виртуальные окружения, работа с файлами, библиотеки DE-стека
Python: pandas	DataFrame, чтение CSV/Parquet/SQL, merge, дедупликация
Python: работа с API	requests, авторизация, пагинация, retry, JSON → DataFrame

Страница	Описание
Обзор слоя	Git, Bash и IDE для ежедневной инженерной работы
Git для дата-инженера	Ветки, merge, rebase, .gitignore, Gitflow и trunk-based
Bash	Пайпы, grep, jq, скрипты, cron, переменные окружения
IDE и окружение	VS Code, DBeaver, tmux, SQLFluff, pre-commit

Страница	Описание
Обзор слоя	Контейнеризация сервисов и базовые инфраструктурные практики
Docker: установка	Установка Docker шаг за шагом
Docker: Portainer	Установка и настройка Portainer

Страница	Описание
Обзор слоя	Реляционные и MPP-хранилища для аналитических задач
PostgreSQL: основы	Архитектура, объекты и базовые принципы
PostgreSQL: план запроса	Как читать EXPLAIN и находить узкие места
Greenplum: архитектура	Основы архитектуры и распределения
Greenplum: полезные запросы	Практические запросы для работы

Страница	Описание
Обзор слоя	Проектирование моделей данных для аналитики
Нормализация	1NF, 2NF, 3NF, BCNF и денормализация
Star Schema	Факты, измерения, суррогатные ключи
Data Vault	Hubs, Links, Satellites
SCD	Slowly Changing Dimensions — историзация измерений

Страница	Описание
Обзор слоя	Инструменты для преобразования и подготовки данных
dbt: введение	Что такое dbt, архитектура проекта, ref() и source()
dbt: модели и материализации	view, table, incremental, ephemeral — Jinja, макросы, структура
dbt: тесты и документация	Встроенные и кастомные тесты, schema.yml, CI/CD

Страница	Описание
Обзор слоя	Автоматизация и управление пайплайнами данных
Airflow: быстрый старт	Официальный docker-compose, первый DAG за 15 минут
Airflow: локальная разработка	Кастомный образ, LocalExecutor, два Postgres, DAG-пример
Airflow: архитектура	Scheduler, Executor, Metadata DB, DAG lifecycle, XCom

Страница	Описание
Обзор слоя	Интеграции с API и внешними системами
DummyJSON	Обзор публичного API для практики
Kafka: основы	Brokers, topics, partitions, consumer groups
Kafka Connect	JDBC Source, Debezium CDC, S3 Sink — интеграция без кода

Страница	Описание
Обзор слоя	Практики качества данных и наблюдаемости
Качество данных	6 измерений качества, SQL-проверки, обзор инструментов
Great Expectations	Фреймворк валидации: expectations, Data Docs, Checkpoints