Выставки/Фестивали

Курс "Анализ данных с Apache Spark"

Интернет

Отзывов: 0

Завершилось 30 ноя 2020
ещё события

Time4
07-ноя-2020 21:58 / Всем

Описание мероприятия
Экосистема Apache Spark — Spark RDD. Архитектура Spark. Принципы работы Resilent Data Distribution (Spark RDD).Обзор компонентов Spark и их назначения. Конфигурация Spark из Java. Запуск на одной или нескольких машинах. Запуск поверх hadoop. Основные классы и базовый workflow — Spark RDD. Spark core — работа с аккумуляторами и переменными среды. Apache Spark SQL. Расширение базовой системы классов- DataSet и DataFrame. Получение данных из SQL-источников с помощью Spark SQL. Отправка данных в SQL СУБД и работа с Hive QL. Spark SQL и Hadoop. Планы выполнения. Logical и physical планы. Настройки планов выполнения. Spark Streaming. Разница работы в режимах OLAP и OLTP. Основной workflow. Виды Spark Stream-ов. Особенности исполнения streaming кода. Windows в Spark Streaming. Кеширование в Spark Streaming. Checkpoint-ы в Spark Streaming. GraphX. Задачи графов в программировании. Место графов в модели распределённых вычислений. Представление графов в GraphX. Создание графов. Операции с графами в GraphX. Выбор модели распределения графа в GraphX.