Практический курс «Основы Data Mining»
Ориентирован на менеджеров, маркетологов, аналитиков и других специалистов.
Цель курса – изучение основ и получение практических навыков быстрого анализа больших массивов разнородных данных с использованием аналитических инструментов Data Mining для решения конкретных задач из различных предметных областей.
Предварительный уровень подготовки: общеобразовательный уровень, знание интерфейса Windows 95/98/2000/XP/7/10, знание Excel в объеме базового курса, в том числе работа с формулами и функциями, а также навыки работы в сети Интернете, обладать навыками программирования не требуется.
Желательно, но не обязательно знание таких дисциплин как аналитическая геометрия и математическая статистика.
Доступные режимы обучения: базовый, консультативный (индивидуальная программа).
Продолжительность: базовый – 20 часов, консультативный – в зависимости от программы.
Буквальный перевод Data Mining означает - добыча, раскопка данных. Эта наука зародилась достаточно давно (термину Data Mining в 70-80гг. предшествовал термин распознавание образов, который, кстати говоря, еще и поныне достаточно активно используется), сейчас она становится все более востребованный. Так, по данным социальной сети деловых контактов LinkedIn, в 2015 г. «Statistical Analysis and Data Mining» занимал 2-е место в глобальном списке 25-ти наиболее востребованных навыков (источник данных). С помощью методов Data Mining, овеществленных в виде компьютерных программ можно решать самые разнообразные задачи: оценивать состояние здоровья человека по его голосу, предсказывать зарплату по описанию вакансии, предлагать пользователю музыку на основании его анкеты в интернете.
Вместе с ростом количества данных, которые необходимо обрабатывать, растет и требуемое количество специалистов по их обработке. По расчётам McKinsey Global Institute к 2018 году только в США понадобится дополнительно 190 тысяч специалистов по анализу данным. Кроме того, базовые навыки работы с данными и их аналитической обработкой, в том числе и на основе методов Data Mining понадобятся более 70% менеджерам. Обладание такими навыками существенно влияет на востребованность специалиста, уровень оплаты труда и профессиональный рост. Например, по уровню заработной платы специалисты в Data Mining входят в тройку наиболее высокооплачиваемых специалистов.
Самым перспективным подходом к анализу данных считается применение машинного обучения — набора методов Data Mining, благодаря которым можно находить в массивах данных изначально неизвестные взаимосвязи и закономерности в задачах из различных предметных областей.
В этом курсе вы изучите основные типы задач, решаемых с помощью методов Data Mining, узнаете об особенностях этих методов и ознакомитесь с возможностями их использования.
Обучение будет сопровождаться выполнением практических работ, в которых мы будем использовать данные из реальных задач. После успешного усвоения курса слушатели смогут практически использовать предлагаемый арсенал средств для решения своих задач - исследовательских, маркетинговых, проектных, управленческих и т.д.
Программы курса
Базовый:
- Введение.
-
Анализ данных с помощью методов Data Mining.
- Изучение среды и предметной области.
- Выбор признаков для анализа данных методами Data Mining.
- Качественное описание задач анализа данных.
- Две основные задачи – кластеризация и классификация.
-
Кластеризация.
- Общие сведения о кластеризации. Примеры задач.
- Понятия признака, признакового пространства, объекта, кластера, таблицы объект-свойство (ТОС).
- Визуализация. Примеры использования инструментов визуализации.
- Методы кластеризации. Примеры использования инструментов кластеризации.
-
Классификация.
- Примеры задач.
- Понятия классификационного признака, класса, обучающей выборки (ОВ), экзаменационной выборки (ЭВ).
- Качество ОВ и ЭВ.
- Основная задача классификации - построение решающего правила (РФ) и минимизация описания (выявление знаний - законов, закономерностей).
- Критерии информативности признаков и групп признаков.
- Понятие решающей (распознающей) функции.
- Линейные решающие функции.
- Структурно-логический подход: решающее дерево.
- Оценка надежности полученных результатов.
Мы уверены, что этот курс будет полезен каждому, кто хочет постичь искусство интеллектуального анализа данных, а также хочет улучшить понимание причинно-следственных связей в своей предметной области.