Выставки/Фестивали

Курс "AIRF: Apache AirFlow"

Интернет

Отзывов: 0

Завершилось 11 мар 2021
ещё события

Time4
07-ноя-2020 23:59 / Всем

Описание мероприятия
2-дневный практический курс по Apache AirFlow разработан для специалистов, инженеров данных и архитекторов, отвечающих за настройку и сопровождение потоков данных (Data Flow) в организации и озёрах данных под управление Hadoop и Apache AirFlow.

Аудитория: системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по управлению потоковыми данными с использованием Apache AirFlow.

Предварительный уровень подготовки:

- начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен);
- начальный опыт программирования Python/bash.

Продолжительность: 2 дня, 16 академических часов.

Соотношение теории к практике 60/40.

Введение в Data Flow. История появления, на чем написан (python).Основной объект (DAG).Операторы и таски. Worker. Scheduler, schedule interval и execution date. Pool’ы. Приоритезация. Метаданные. Airflow UI и Webserver. Мониторинг (средства Airflow и кастомные варианты).Алерты Введение в Apache AirFlow. Логирование. Разработка Data Flow с Apache AirFlow. Создание и основные параметры DAG. Operators и plugins. Hooks, connections, и variables. Работающие из коробки и уже написанные community операторы, хуки и т.п.Создание тасков. Макросы (Jinja).Управление зависимостями (внутри DAG, внешние зависимости, timedelta).Визуализация в Web UI. Настройка расписания. Контекст (выполнения task).Обмен сообщениями между tasks, DAGS (xcom).Добавление настраиваемых операторов, сенсоров, хуков и т.п.Развёртывание и настройка Airflow. Установка Airflow в конфигурации по умолчанию (SQLite, SequentialExecutor).Установка Redis, Celery. Настройка airflow.cfg (PostgreSQL, Celery, Redis, parallel degree…).Запуск (service,н-рsystemctl, doker).Кластеризация (масштабируемость, безотказность).Особенности и проблемы в Airflow. Версии python (2 или 3).Debug. Тестирование. Логирование.

- Настройка окружения (Pycharm, python, библиотеки для окружения в Virtualenv).
- Создание DAG с задачами BashOperator / PythonOperator для получения данных из Kafka.
- Создание кастомного оператора, осуществляющего по заданным параметрам выгрузку из Kafka.
- Создание DAG, использующего созданный оператор.