Выставки/Фестивали

Курс "HDDE: Hadoop для инженеров данных"

Интернет

Отзывов: 0

Завершилось 15 фев 2021
ещё события

Time4
24-ноя-2020 01:15 / Всем

Описание мероприятия
Основные концепции Hadoop. Основы Hadoop. Жизненный цикл аналитики больших данных. Хранение, накопление, подготовка и процессинг больших данных. Тенденции развития Hadoop. Архитектура HDFS. Операции чтения и записи, назначения HDFS. Блоки HDFS. Основные команды работы с HDFS. Ведение в MapReduce. Компоненты MapReduce. Работа программы MapReduce. Архитектура YARN. Способы обработки распределённых данных с использованием Apache Spark, YARN и MapReduce v2/v3.Управление ресурсами и очередями задач. FIFO/Capacity/Fair scheduler. Инструменты управления кластером. Выполнение базовых операций с Cloudera Manager/Apache Ambari. Настройка компонент Apache ZooKeeper. Создание и управление запросами и данными с использованием сервиса Hue. Хранение данных в HadoopDFS. Хранение файлов в HDFS: сжатие, sequence файлы. Формат AVRO, RCfile, ORC, Parquet. Введение в Apache Pig: формат хранения данных, сложные и вложенные типы данных, синтаксис Pig Latin, оптимизация операций Join. Apache Spark. Архитектура Apache Spark. Введение в Spark: RDD & Datasets. Доступ к внешним данным из Spark. Интеграция с Hadoop, запуск приложений. Spark streaming. Spark SQL. Datasets, Dataframes. Импорт/экспорт данных в кластер Hadoop. Импорт и обработка данных в кластере Hadoop. Интеграция с реляционными базами данных. Структура хранения данных в таблицах. Технологии NoSQL. Сравнительная характеристика решений Hadoop SQL. Введение в Sqoop: импорт и экспорт данных Sqoop, формат файлов, инкриментальный импорт, Hive экспорт Apache Hive. Apache Hive. Введение в Hive: структура Hive таблиц, синтаксис HiveQL, формат хранения файлов, работа с внешними и внутренними таблицами Hive, оптимизация Join операций. Операции импорта и экспорта данных и взаимодействия с внешними источниками. Настройка производительности. Cloudera Impala. Введение в Cloudera Impala: архитектура и компоненты, Impala синтаксис, типы данных, написание запросов, загрузка данных, взаимодействие Spark, Hive. Оптимизация Impala запросов. Потоковые данные. Event Processing System. Импорт потоковых данных в кластер. Использование Kafka для работы с потоковыми данными. Использование Flume для работы с потоковыми данными. Визуализация потоковых данных.

- Автоматическая установка 3х-узлового кластера в облаке Amazon Web Services с использованием Cloudera Managerи поддержка базовых операций с кластером Hadoop и HDFS.
- Управление ресурсами и запуском задач с использованием YARN MapReduce.
- Использование Apache Pig для подготовки данных, операции JOIN.
- Использование Apache Hive для анализа данных.
- Оптимизация запросов JOIN в Apache Hive.
- Настройка partition и bucket в Apache Hive.
- Инкрементальный импорт/экспорт данных с помощью Apache sqoop.
- SQL аналитика данных с помощью Cloudera Impala.
- Batch процессинг данных с использованием Apache Spark.
- Потоковая обработка данных с использованием Apache Spark.
- Импорт данных с помощью Apache Flume.
- Построение Event Processing System с использованием Apache Flume и Kafka.
- Создание и управление запросами sqoop, MapReduce, Hive, Impala с использованием веб-интерфейса B.