Перейти к содержанию

Обзор

Пошаговые гайды по инструментам и технологиям для работы с данными. Каждая статья — самостоятельный материал, который можно читать отдельно.

Клик по узлу слоя раскрывает связанные темы. Повторный клик сворачивает слой обратно.
Граф ниже показывает рекомендуемый порядок изучения: основной путь идёт снизу вверх, параллельная ветка — инструменты и контейнеризация.

Языки

Страница Описание
Обзор слоя Базовый язык для работы с реляционными данными
SQL: основы и SELECT Таблицы, фильтрация, сортировка, LIMIT, NULL, порядок выполнения
SQL: JOIN и связи INNER/LEFT/RIGHT/FULL JOIN и соединение нескольких таблиц
SQL: агрегаты и CASE COUNT/SUM/AVG, GROUP BY, HAVING и условия CASE
SQL: подзапросы и CTE IN/EXISTS, коррелированные подзапросы, WITH и рекурсия
SQL: оконные функции ROW_NUMBER, RANK, LAG/LEAD, накопительные итоги, фреймы
SQL: операции над наборами UNION ALL, UNION, INTERSECT, EXCEPT
SQL: DML и транзакции INSERT/UPDATE/DELETE, RETURNING, BEGIN/COMMIT/ROLLBACK, индексы
Python: основы для DE Виртуальные окружения, работа с файлами, библиотеки DE-стека
Python: pandas DataFrame, чтение CSV/Parquet/SQL, merge, дедупликация
Python: работа с API requests, авторизация, пагинация, retry, JSON → DataFrame

Инструменты разработки

Страница Описание
Обзор слоя Git, Bash и IDE для ежедневной инженерной работы
Git для дата-инженера Ветки, merge, rebase, .gitignore, Gitflow и trunk-based
Bash Пайпы, grep, jq, скрипты, cron, переменные окружения
IDE и окружение VS Code, DBeaver, tmux, SQLFluff, pre-commit

Контейнеризация и инфра

Страница Описание
Обзор слоя Контейнеризация сервисов и базовые инфраструктурные практики
Docker: установка Установка Docker шаг за шагом
Docker: Portainer Установка и настройка Portainer

Хранилища

Страница Описание
Обзор слоя Реляционные и MPP-хранилища для аналитических задач
PostgreSQL: основы Архитектура, объекты и базовые принципы
PostgreSQL: план запроса Как читать EXPLAIN и находить узкие места
Greenplum: архитектура Основы архитектуры и распределения
Greenplum: полезные запросы Практические запросы для работы

Моделирование данных

Страница Описание
Обзор слоя Проектирование моделей данных для аналитики
Нормализация 1NF, 2NF, 3NF, BCNF и денормализация
Star Schema Факты, измерения, суррогатные ключи
Data Vault Hubs, Links, Satellites
SCD Slowly Changing Dimensions — историзация измерений

Трансформация

Страница Описание
Обзор слоя Инструменты для преобразования и подготовки данных
dbt: введение Что такое dbt, архитектура проекта, ref() и source()
dbt: модели и материализации view, table, incremental, ephemeral — Jinja, макросы, структура
dbt: тесты и документация Встроенные и кастомные тесты, schema.yml, CI/CD

Оркестрация

Страница Описание
Обзор слоя Автоматизация и управление пайплайнами данных
Airflow: быстрый старт Официальный docker-compose, первый DAG за 15 минут
Airflow: локальная разработка Кастомный образ, LocalExecutor, два Postgres, DAG-пример
Airflow: архитектура Scheduler, Executor, Metadata DB, DAG lifecycle, XCom

Источники и интеграции

Страница Описание
Обзор слоя Интеграции с API и внешними системами
DummyJSON Обзор публичного API для практики
Kafka: основы Brokers, topics, partitions, consumer groups
Kafka Connect JDBC Source, Debezium CDC, S3 Sink — интеграция без кода

Качество и наблюдаемость

Страница Описание
Обзор слоя Практики качества данных и наблюдаемости
Качество данных 6 измерений качества, SQL-проверки, обзор инструментов
Great Expectations Фреймворк валидации: expectations, Data Docs, Checkpoints