Выставки/Фестивали

Курс "INTR: Основы Hadoop"

Интернет

Отзывов: 0

Завершилось 30 ноя 2020
ещё события

Time4
07-ноя-2020 21:54 / Всем

Описание мероприятия
Основы Hadoop и Big Data. Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределённых вычислений Hadoop. Концепция Data Lake. Архитектура Apache Hadoop. Hadoop сервисы и основные компоненты: Name node, Data Node, YARN, HDFS. Отказоустойчивость и высокая доступность. Batch процессинг. Потоковая обработкаРаспределённая файловая система HDFS. Основы HDFS: Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Дисковые квоты. Архитектура HDFS. Управление репликацией. Политики гибридного хранения данных HDFS. Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Влияние компрессии на производительность. Кодеки компрессии. Импорт(загрузка) данных на HDFS. MapReduce. Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2. Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce. Установка кластера Hadoop. Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Оптимизация Java, JVM, Heap size, Garbage Collection. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Настройка подключений Hadoop клиентов. Установка кластера Hadoop в облаке. Особенности настройки кластера Hadoop на физическом сервере (on-premises).Топология кластера Hadoop. Tiering — многоуровневое хранение данных (Cold, Warm, Hot, RAM disk). Storage policy — политики хранения. Метки конфигураций узлов. RACK awareness. Архитектура YARN — планировщик и менеджер ресурсов. Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность. FIFO scheduler. Capacity scheduler (Планировщик по мощности).Fair scheduler (Гранулярное управление ресурсами).Защита очередей и доминантное управление ресурсами DRF. Инструментарий Hadoop экосистемы. Графический интерфейс сервиса HUE/Zeppelin. Базовые операции в Apache Pig. Использование Apache Hive для доступа к данным на HDFS по SQL интерфейсу, понятие Hive таблицы, HiveQL — базовый синтаксис. Импорт и экспорт SQL таблиц с применением Apache sqoop. Настройка агентов для управления потоковыми операциями с Apache Flume. Базовые операции в Apache Spark.

- Установка 3-узлового кластера в облаке Amazon Web Services с использованием Cloudera Manager/Apache Ambari.
- Базовые операции обслуживания кластера Hadoop и файловые операции HDFS.
- Управление ресурсами и запуском задач с использованием YARN и MapReduce.
- ETL операции преобразования с использованием Apache Pig.
- Знакомство с SQL интерфейсом доступа Apache Hive.
- Выполнение базовых операций импорта/экспорта с применением Apache sqoop.
- Настройка агента потоковой обработки Apache Flume (опционально).
- Применение веб-интерфейса HUE/Zeppelin (опционально).