Выставки/Фестивали

Вебинар "HADM: администрирование кластера Hadoop"

Интернет

Отзывов: 0

Завершилось 30 ноя 2020
ещё события

Time4
02-ноя-2020 21:19 / Всем

Описание мероприятия
5 дней практического обучения администрирования кластера Hadoop, установке и настройке кластера Hadoop под управлением Apache Ambari на платформе HortonWorks Data Platform или Arenadata Hadoop, безопасность Kerberos, Apache Ranger, Atlas, Knox, мониторинг, репликация и резервное копирование, взаимодействие с компонентами экосистемы Hadoop: Spark, Hive/Tez, sqoop, HDFS, MapReduce, Zeppelin, NiFi.

Примечание: с 1 января 2019 года данный курс проводится в объединённом формате по дистрибутивам Hadoop версии 2 компаний Cloudera/HortonWorks/ArenaData на выбор для пользователей. Для корпоративного формата обучения возможна выделенная программа по одной версии дистрибутива Hadoop (уточняйте у менеджера).

Системные администраторы, системные архитекторы, разработчики Hadoop, желающие получить практические навыки по установке, конфигурированию, обслуживанию и администрированию кластером Hadoop с использованием дистрибутива HortonWorks или ArenaData Hadoop по выбору.

- Начальный опыт работы в Unix, опыт работы с текстовым редактором vi (желателен).

Продолжительность: 5 дней, 40 академических часов.

Apache Hadoop является наиболее популярной открытой платформой для распределённого хранения больших данных и параллельных вычислений. В рамках данного курса вы получите теоретические знания и практические опыт по планированию и развёртыванию распределённых вычислительных кластеров на базе Hadoop на базе дистрибутива HortonWorks Data Platform, мониторингу и оптимизации производительности системы, резервному копированию и аварийному восстановлению узлов кластера и отдельных компонент, настройки безопасности системы Kerberos на базе Hadoop.

Курс построен на сквозных практических примерах развёртывания и администрирования Hadoop кластера, в том числе в облачной инфраструктуре; использования компонент Hadoop для запуска задач распределённых вычислений с тестовыми данными. Практические занятия выполняются в кластерной среде Amazone Web Services с использованием дистрибутивов Arena Data/HortonWorks Data Platform программного обеспечения Apache Ambari.

Соотношение теории к практике 40/60.

Введение в Big Data. Что такое Big Data. Понимание проблемы Big Data. Эволюция систем распределённых вычислений Hadoop. Принципы формирование pipelines и Data Lake. Архитектура Apache Hadoop. Hadoop сервисы и основные компоненты. Name node. Data Node. YARN-сервис. Планировщик. HDFS. Отказоустойчивость и высокая доступность. Hadoop Distributed File System. Блоки HDFS. Основные команды работы с HDFS. Операции чтения и записи, назначения HDFS. Архитектура HDFS. Дисковые квоты. Поддержка компрессии. Основные форматы хранения данных TXT, AVRO, ORC, Parquet, Sequence файлы. Импорт(загрузка) данных на HDFS. MapReduce. Ведение в MapReduce. Компоненты MapReduce. Работа программ MapReduce. YARN MapReduce v2.Ограничения и параметры MapReduce и YARN. Управление запуском пользовательских задач (jobs) под MapReduce. Дизайн кластера Hadoop. Сравнение дистрибутивов и версий Hadoop 2/3 (HortonWorks Data Platform, Cloudera Distributed Hadoop, MapR, Arenadata Hadoop): различия и ограничения. Требования программного и аппаратного обеспечения. Планирование кластера. Масштабирование кластера Hadoop. Отказоустойчивость Hadoop. Federated NameNode. Hadoop в облаке. Сравнение Cloud решений для Hadoop. Amazon EMR. Интеграция с другими решениями: streaming (DataFlow), NoSQL. Установка кластера. Установка Hadoop кластера. Выбор начальной конфигурации. Оптимизация уровня ядра для узлов. Начальная конфигурация HDFS и MapReduce. Файлы логов и конфигураций. Установка Hadoop клиентов. Установка Hadoop кластера в облаке. Автоматическая установка. Установка и настройка кластера Hadoop в изолированном окружении (offline).Операции обслуживания кластера Hadoop. Дисковая подсистема. Квоты. Остановка, запуск, перезапуск. Управление узлами. Сетевая топология. Управление обновлениями и создание локального репозитория. Оптимизация и управление ресурсами. Поиск узких мест. Производительность. Файловая система. Data Node. Сетевая производительность. Планировщики: FIFO scheduler. Планировщик ёмкости (Capacity scheduler). Гранулярное управление ресурсами (Fair scheduler). Защита очередей и доминантное управление ресурсами DRF. 9. Управление кластером Hadoop с использованием Apache Ambari. Установка Apache Ambari. Интерфейс управления Apache Ambari. Базовые операции обслуживания и управление задачами с использованием Apache Ambari. Диагностика и trobleshooting с Apache Ambari. Безопасность Hadoop. Безопасность по умолчанию. Встроенные компоненты безопасности дистрибутива HortonWorks/ ArenadataHadoop: Apache Ranger, Apache Atlas, Apache Knox. Многопользовательский режим. Аутентификация и авторизация. Kerberos, keytabs, principals. Установка и конфигурирование Kerberos в Hadoop. Аудит доступа. Резервное копирование и аварийное восстановление. Репликация данных и snapshoting. Конфигурирование высокой доступности Name node (HA).Best practices HortonWorks/Arenadata Hadoop. Мониторинг. Apache Zookeeper. Встроенные средства мониторинга Apache Ambari Metrics. Логи сервисов и компонент. Внешние системы мониторинга: Zabbix, JMX. Troubleshooting. Data Node. Name Node. Восстановление Name Node. Инструментарий Hadoop экосистемы дистрибутива HortonWorks/ Arenadata Hadoop. Графический интерфейс сервиса Zeppelin. Введение Apache Pig. Введение Apache Zookeeper. Введение в Apache Hive/Tez, понятие Hive таблицы, установка Hive/Tez. Введение в Apache sqoop — установка и выполнение базовых операций. Введение в Apache Flume — установка и выполнение базовых операций. Введение в Apache Spark — установка и выполнение базовых операций. Обзор и назначение компонент: Apache Kafka, Apache HBase, Apache NiFi, Apache Flink, Apache Zookeeper.

- Ручная установка кластера Hadoop с дистрибутива HortonWorks Data Platform/Arenadata Hadoop на локальной системе 3-узловый кластер.
- Установка 3-узлового кластера в облаке Amazon Web Services с использованием Apache Ambari.
- Базовые операции с кластером Hadoop и файловые операции HDFS.
- Управление ресурсами и запуском задач с использованием YARN MapReduce.
- Управление кластером с использованием Apache Ambari (развёртывание сервисов, репликация, мониторинг, alerting и т.д.).
- Настройка аутентификации Kerberos для кластера Hadoop под управление Apache Ambari.
- Установка и выполнение базовых операций в Apache Hive, Apache sqoop, Apache Flume, Apache Spark.
- Выполнение задач в веб-интерфейсе Zeppelin.
- Настройка мониторинга кластера Hadoop с использованием Zabbix (опционально).
- Настройка высокой доступности Name Node (опционально).

- Доступ к лабораторному стенду на Amazon Web Services предоставляется на время учебных курсов с 8:30 до 18:30 (возможно продление времени по запросу).
- Практические занятия с меткой (опционально) выполняются по желанию и при наличии свободного времени у слушателей.