Предварительная обработка данных
Данные, используемые для бизнес-анализа, чаще всего плохого качества. В них содержится много ошибок: дублирование, несоответствия, противоречия, пропуски, аномалии и множество других проблем. Исключить их полностью невозможно: данные нужно очищать. Очистка данных - одна из наиболее актуальных задач анализа. На ее выполнение тратится большая часть времени при создании решений (иногда до 80% всего времени, отведенного на весь проект. Это необходимый этап работ в любом проекте. Инструменты очистки данных не избавляют пользователя от работы, некоторые грязные данные вообще не поддаются автоматической очистке.
Перед тем как принимать решение об очистке данных, необходимо рассчитать ее стоимость, т.е. определить, оправдан ли будет этот процесс. Если принято решение, что очистка данных необходима, аналитик получает гарантию того, что процесс Data Mining будет проведен на основе достоверных и качественных данных.
Для улучшения качества исходной информации приходится использовать все возможные способы как организационные, так и программные.
Плохое качество данных является одной из самых больших проблем при построении аналитических решений, т.к. на основе некорректной информации делаются неверные выводы. Даже самые совершенные методы анализа не помогают, необходимо использовать специальные механизмы очистки. С применением наших инструментов решаются следующие задачи очистки данных:
- Обнаружение ошибок: пропуски в упорядоченных и неупорядоченных данных, выявление аномальных отклонений и противоречивых сведений.
- Исправление ошибок. Есть возможность не просто обнаружить ошибки, но и исправить их, например, заполнить пропуски или отредактировать аномальные значения.
Вы также можете воспользоваться сервисом на сайте sciencehunter.net для предварительной обработки данных.
Для получения более подробных сведений Вы можете обратиться к нашему электронному учебнику в раздел Предварительная обработка данных, а также решить предложенные там же задачи, задать интересующие Вас по этому разделу вопросы и получить на них ответы.