- Интеллектуальный анализ данных
-
Интеллектуальный анализ данных
Интеллектуальный анализ данных (англ. Data Mining) — выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах необработанных данных. Подразделяется на задачи классификации, моделирования и прогнозирования и другие. Термин «Data Mining» введен Григорием Пятецким-Шапиро в 1989 году.
Английский термин «Data Mining» не имеет однозначного перевода на русский язык (добыча данных, вскрытие данных, информационная проходка, извлечение данных/информации) поэтому в большинстве случаев используется в оригинале. Наиболее удачным непрямым переводом считается термин «интеллектуальный анализ данных» (ИАД).
ИАД включает методы и модели статистического анализа и машинного обучения, дистанцируясь от них в сторону автоматического анализа данных. Инструменты ИАД позволяют проводить анализ данных предметными специалистами (аналитиками), не владеющими соответствующими математическими знаниями.
Содержание
Задачи, решаемые ИАД
- Классификация — отнесение входного вектора (объекта, события, наблюдения) к одному из заранее известных классов.
- Кластеризация — разделение множества входных векторов на группы (кластеры) по степени «похожести» друг на друга.
- Сокращение описания — для визуализации данных, лаконизма моделей, упрощения счета и интерпретации, сжатия объемов собираемой и хранимой информации.
- Ассоциация — поиск повторяющихся образцов. Например, поиск «устойчивых связей в корзине покупателя» (англ. market basket analysis) — вместе с пивом часто покупают орешки.
- Прогнозирование
- Анализ отклонений — Например, выявление нетипичной сетевой активности позволяет обнаружить вредоносные программы.
- Визуализация
В литературе можно встретить еще ряд классов задач. Базовыми задачами являются первые три. Остальные задачи сводятся к ним тем или иным способом.
Также можно использовать сводные задачи под основу
Алгоритмы обучения
Для задач классификации характерно «обучение с учителем», при котором построение (обучение) модели производится по выборке содержащей входные и выходные векторы.
Для задач кластеризации и ассоциации применяется «обучение без учителя», при котором построение модели производится по выборке, в которой нет выходного параметра. Значение выходного параметра («относится к кластеру …», «похож на вектор …») подбирается автоматически в процессе обучения.
Для задач сокращения описания характерно отсутствие разделения на входные и выходные векторы. Начиная с классических работ К. Пирсона по методу главных компонент, основное внимание здесь уделяется аппроксимации данных.
Этапы обучения
Можно выделить типичный ряд этапов решения задач методами ИАД:
- Формирование гипотезы;
- Сбор данных;
- Подготовка данных (фильтрация);
- Выбор модели;
- Подбор параметров модели и алгоритма обучения;
- Обучение модели (автоматический поиск остальных параметров модели);
- Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
- Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.
См. также
- Прикладная статистика
- Искусственная нейронная сеть
- Нейронная сеть Кохонена
- Метод опорных векторов
- Netflix Prize
- Вертикальный поиск
- ДСМ-метод
Литература
- Паклин Н.Б., Орешков В.И. Бизнес-аналитика: от данных к знаниям (+ СD).. — СПб: Изд. Питер, 2009. — 624 с.
- Айвазян С.А., Бухштабер В.М., Енюков Е.С., Мешалкин Л.Д. Прикладная статистика. Классификация и снижение размерности. — М.: Финансы и статистика, 1989. — 608 с.
- Дюк В., Самойленко А. Data Mining: учебный курс (+CD).. — СПб: Изд. Питер, 2001. — 368 с.
- Журавлёв Ю.И., Рязанов В.В., Сенько О.В. "РАСПОЗНАВАНИЕ.Математические методы.Программная система.Практические применения", к книге прилагается компакт-диск с демоверсией программной системы «РАСПОЗНАВАНИЕ». — М.: Изд. «Фазис», 2006. — 176 с. — ISBN 5-7036-0106-8
- Зиновьев А. Ю. Визуализация многомерных данных. — Красноярск: Изд. Красноярского государственного технического университета, 2000. — 180 с.
- Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7
Ссылки
- SPSS
- SAS
- Solutions-Center
- BaseGroup
- Ridel
- Statsoft
- Businessdataanalytics
- Forecsys
- University of Central Florida
- KXEN
- ИБХФ им. Н. М. Эмануэля
Wikimedia Foundation. 2010.