Конференции

Семинар "DPREP: Подготовка данных для Data Mining на Python"

Интернет

Отзывов: 0

Завершилось 08 фев 2021
ещё события

Time4
24-ноя-2020 01:04 / Всем

Описание мероприятия
1. Продвинутые возможности библиотек языка Python для обработки и визуализации данных.

Цель: познакомить участников с продвинутыми возможностями основных библиотек языка Python для обработки и визуализации данных и сформировать необходимые навыки по работе с данными в рассматриваемых библиотеках.

Теоретическая часть:

- изучение возможностей библиотек языка Python для обработки (Pandas, NumPy, SciPy, Sklearn) и визуализации (matplotlib, seaborn) данных.
- обзор основных приёмов по работе с данными:первичный анализ данных;получение описательных статистик;изменение типа данных;построение сводных таблиц;визуализация статистических характеристик данных (гистограммы, графики плотностей распределений, тепловые карты, "ящики с усами" и "виолончели").

Практическая часть: решение практических задач обработки и визуализации данных на примере табличных данных.

2. Библиотеки Python в корректировании типичных особенностей в данных.

Цель: познакомить участников с основными особенностями в данных, с которыми приходится сталкиваться в реальных задачах, и научить успешно их корректировать с использованием библиотек языка Python. Продемонстрировать применение указанных подходов в случае промышленного варианта подготовки данных на примере использования Apache Spark (PySpark).

Теоретическая часть:

- обзор типичных особенностей в данных и подходов к их корректировке:отсутствующие значения;выбросы;дубликаты.
- подготовка данных для использования в алгоритмах машинного обучения:нормализация числовых данных;преобразование категориальных значений;работа с текстовыми данными.

Практическая часть: подготовка "сырых" данных для использования в алгоритме машинного обучения с подробным анализом влияния каждой особенности датасета на конечный результат работы алгоритма.

3. Подходы к построению дополнительного признакового пространства на основе исходных данных.

Цель: познакомить участников с основными подходами получения дополнительных и наиболее значимых характеристик из исходных данных. Продемонстрировать влияние дополнительных признаков на улучшение метрик качества работы алгоритмов машинного обучения с использованием библиотеки Sklearn.

Теоретическая часть:

- обзор подходов формирования дополнительного признакового пространства и выбора наиболее значимых характеристик:увеличение размерности исходного признакового пространства:постановка задачи в случае обучения с учителем — с использованием целевой переменной;постановка задачи в случае обучения без учителя. уменьшение размерности исходного признакового пространства.
- подробный анализ задачи увеличения размерности исходного признакового пространства в случае обучения с учителем:статистические методы фильтрации признаков в задачах классификации и регрессии;методы машинного обучения как инструменты для получения наиболее значимых признаков в данных.

Практическая часть: решение прикладной задачи построения дополнительного признакового пространства и получения наиболее значимых признаков с подробным анализом влияния рассмотренных теоретических подходов на конечный результат работы алгоритмов машинного обучения.

4. Проектная работа.

Цель: закрепить полученные слушателями курса знания по подготовке данных.

Теоретическая часть: краткий обзор пройденного материала со ссылками на рабочие блокноты, в которых решалась та или иная задача подготовки данных.

Практическая часть: самостоятельное решение задачи подготовки датасета для машинного обучения с использованием собственной базы данных или на лабораторном наборе от организаторов курса. Итоговый разбор работ слушателей курса.