Интеллектуальный анализ данных

Мы живем в веке информации. Трудно переоценить значение данных, которые мы непрерывно собираем в процессе нашей деятельности, в управлении бизнесом или производством, в банковском деле, в решении научных, инженерных и медицинских задач.

Мощные компьютерные системы, хранящие и управляющие огромными базами данных, стали неотъемлемым атрибутом жизнедеятельности, как крупных корпораций, так и даже небольших компаний.

Тем не менее, наличие данных само по себе еще недостаточно для улучшения показателей работы. Нужно уметь трансформировать «сырые» данные в полезную для принятия важных бизнес решений информацию.

В этом и состоит основное предназначение технологий Data mining.

Глава 1. Интеллектуальный анализ данных

Data Mining переводится как «добыча» или «раскопка данных». Нередко рядом с Data Mining встречаются слова «обнаружение знаний в базах данных» (knowledge discovery in databases) и «интеллектуальный анализ данных». Их можно считать синонимами Data Mining. Возникновение всех указанных терминов связано с новым витком в развитии средств и методов обработки данных.

В связи с совершенствованием технологий записи и хранения данных на людей обрушились колоссальные потоки информационной руды в самых различных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Что делать с этой информацией? Стало ясно, что без продуктивной переработки потоки сырых данных образуют никому не нужную свалку.

Специфика современных требований к такой переработке следующая:

  • Данные имеют неограниченный объем;
  • Данные являются разнородными (количественными, качественными, текстовыми);
  • Результаты должны быть конкретны и понятны;
  • Инструменты для обработки сырых данных должны быть просты в использовании.

Традиционная математическая статистика, долгое время претендовавшая на роль основного инструмента анализа данных, откровенно спасовала перед лицом возникших проблем. Методы математической статистики оказались полезными главным образом для проверки заранее сформулированных гипотез (verification-driven data mining) и для “грубого” разведочного анализа, составляющего основу оперативной аналитической обработки данных (on-line analytical processing, OLAP).

Важное положение Data Mining — нетривиальность разыскиваемых шаблонов. Это означает, что найденные шаблоны должны отражать неочевидные, неожиданные регулярности в данных, составляющие так называемые скрытые знания (hidden knowledge).

3 стр., 1306 слов

Методы эмпирического сбора научных данных

... шагов: 1. Подготовка эмпирического исследования. 2. Получение исходных данных. 3. Формирование научных фактов, на основе полученных данных. 4. Первичная рациональная обработка научных фактов (систематизация, ... с изучаемым объектом. Материальные модели выполняются из вещественных материалов. Метод моделирования позволяет получить информацию о различных свойствах изучаемых явлений на основе опытов ...

К обществу пришло понимание, что сырые данные содержат глубинный пласт знаний, при грамотной раскопке которого могут быть обнаружены настоящие самородки.На рисунке 1 показаны уровни знаний и инструменты для их извлечения.

Рисунок 1. Уровни знаний, извлекаемых из данных.

Data Mining — это процесс обнаружения в сырых данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.

1.1. Стадии ИАД

В общем случае процесс интеллектуального анализа данных (ИАД) состоит из трёх стадий (рис. 2):

1) выявление закономерностей (свободный поиск);

2) использование выявленных закономерностей для предсказания неизвестных значений (прогностическое моделирование);

3) анализ исключений, предназначенный для выявления и толкования аномалий в найденных закономерностях.

Рисунок 2. Стадии процесса интеллектуального анализа данных

1.2. Методы ИАД

Все методы ИАД подразделяются на две большие группы по принципу работы с исходными обучающими данными.

В первом случае исходные данные могут храниться в явном детализированном виде и непосредственно использоваться для прогностического моделирования и/или анализа исключений; это так называемые методы рассуждений на основе анализа прецедентов. Главной проблемой этой группы методов является затрудненность их использования на больших объемах данных, хотя именно при анализе больших хранилищ данных методы ИАД приносят наибольшую пользу.

Во втором случае информация вначале извлекается из первичных данных и преобразуется в некоторые формальные конструкции (их вид зависит от конкретного метода).

Согласно предыдущей классификации, этот этап выполняется на стадии свободного поиска, которая у методов первой группы в принципе отсутствует. Таким образом, для прогностического моделирования и анализа исключений используются результаты этой стадии, которые гораздо более компактны, чем сами массивы исходных данных. При этом полученные конструкции могут быть либо «прозрачными» (интерпретируемыми), либо «черными ящиками» (нетрактуемыми).

Две эти группы и примеры входящих в них методов представлены на рисунке 3.

Рисунок 3. Классификация технологических методов ИАД

1.3. Типы закономерностей

Выделяют пять стандартных типов закономерностей, которые позволяют выявлять методы Data Mining: ассоциация, последовательность, классификация, кластеризация и прогнозирование.

Ассоциация имеет место в том случае, если несколько событий связаны друг с другом. Например, исследование, проведенное в супермаркете, может показать, что 65% купивших кукурузные чипсы берут также и «кока-колу», а при наличии скидки за такой комплект «колу» приобретают в 85% случаев. Располагая сведениями о подобной ассоциации, менеджерам легко оценить, насколько действенна предоставляемая скидка.

6 стр., 2821 слов

Анализ статьи «Методы организации учебно-творческой деятельности ...

... студентов в разнообразные формы и виды профессиональной проектной деятельности дизайнера, в рамках самостоятельной аудиторной и внеаудиторной работы. Мы предлагаем адаптированную классификацию методов обучения Ю. К. Бабанского для организации учебно-творческой деятельности в рамках ...

Если существует цепочка связанных во времени событий, то говорят о последовательности. Так, например, после покупки дома в 45% случаев в течение месяца приобретается и новая кухонная плита, а в пределах двух недель 60% новоселов обзаводятся холодильником.

С помощью классификации выявляются признаки, характеризующие группу, к которой принадлежит тот или иной объект. Это делается посредством анализа уже классифицированных объектов и формулирования некоторого набора правил.

Кластеризация отличается от классификации тем, что сами группы заранее не заданы. С помощью кластеризации средства Data Mining самостоятельно выделяют различные однородные группы данных.

Основой для всевозможных систем прогнозирования служит историческая информация, хранящаяся в БД в виде временных рядов. Если удается построить, найти шаблоны, адекватно отражающие динамику поведения целевых показателей, есть вероятность, что с их помощью можно предсказать и поведение системы в будущем.

Особенно широко методы ИАД применяются в бизнес-приложениях аналитиками и руководителями компаний. Для этих категорий пользователей разрабатываются инструментальные средства высокого уровня, позволяющие решать достаточно сложные практические задачи без специальной математической подготовки. Актуальность использования ИАД в бизнесе связана с жесткой конкуренцией, возникшей вследствие перехода от «рынка производителя» к «рынку потребителя». В этих условиях особенно важно качество и обоснованность принимаемых решений, что требует строгого количественного анализа имеющихся данных. При работе с большими объемами накапливаемой информации необходимо постоянно оперативно отслеживать динамику рынка, а это практически невозможно без автоматизации аналитической деятельности.

1.4. Типовые задачи для методов ИАД

Прогнозирование – одна из самых распространенных задач ИАД. В частности, при планировании и составлении бюджета необходимо прогнозировать объемы продаж и другие параметры с учетом многочисленных взаимосвязанных факторов – сезонных, региональных, общеэкономических и т.д. Можно также выявлять корреляции в продажах, например «покупке компьютера, как правило, сопутствует покупка блока бесперебойного питания».

Маркетинговый анализ. Чтобы разработать эффективный маркетинговый план, нужно знать, каким образом на уровень продаж влияют такие факторы как стоимость товара, затраты на продвижение продукции и рекламу. Нейросетевые модели позволяют менеджерам и аналитикам прогнозировать подобное влияние.

Анализ работы персонала. Производительность труда служащих зависит от уровня подготовки, от оплаты труда, опыта работы, взаимоотношений с руководством и т.д. Проанализировав влияние этих факторов, можно выработать методику повышения производительности труда, а также предложить оптимальную стратегию подбора кадров в будущем.

Анализ эффективности продажи товаров по почте. Если компания занимается рассылкой рекламы и образцов продукции по почте, то имеет смысл оценить эффективность подобной деятельности. При этом можно выявить круг потенциальных покупателей, и оценить вероятность совершения ими покупки. Кроме того, можно опробовать различные формы переписки и выбрать наиболее удачные.

Профилирование клиентов. С помощью нейросетевых моделей можно среди многочисленных клиентов фирмы выбрать тех, сотрудничество с которыми наиболее выгодно – получить портрет «типичного клиента компании». Кроме того, можно выяснить, почему работа с некоторыми из заказчиков стала неэффективной, и выработать стратегию поиска подходящих клиентов в будущем. Эта задача чаще всего решается менеджерами по продажам, а для банков, например, особый интерес представляет возможность оценки кредитоспособности клиентов.

Оценка потенциальных клиентов. Планируя предварительные переговоры имеет смысл определить, с какой долей вероятности они закончатся заключением договора (или продажей продукции).

Анализ опыта работы с клиентами позволяет выявить характерные особенности тех заявок, которые закончились реальными продажами. Используя результаты данного анализа, менеджеры могут остановиться на более перспективных заявках клиентов.

Анализ результатов маркетинговых исследований. Чтобы оценить реакцию покупателей на политику компании в области распространения продукции, ценообразования, а также на характеристики самой продукции, необходимо, наряду с анализом продаж, проводить опросы покупателей. Это позволяет усовершенствовать процесс принятия решений по ценам и характеристикам выпускаемой продукции (дизайн, функциональность, упаковка).

Анализ работы региональных отделений компании. С помощью нейросетевых моделей можно сравнивать результаты деятельности региональных отделений или филиалов компании и определять, от чего зависит эффективность их работы (географическое положение, численность персонала, ассортимент продукции/услуг и т.д.).

Результаты используются для оптимизации работы «отстающих» отделений, а также при планировании создания новых филиалов.

Сравнительный анализ конкурирующих фирм. Почему некоторые компании процветают и удерживают прочные позиции на рынке, а другие нет? Какие сферы бизнеса самые выгодные? Чтобы ответить на эти вопросы можно сравнить деятельность конкурирующих компаний и выяснить, какие факторы определяют прибыльность их бизнеса.

Очевидно, что перечисленные виды задач актуальны практически для всех отраслей бизнеса: банковского дела и страхования (выявление злоупотреблений с кредитными карточками, оценка кредитных рисков, оценка закладных, выявление профилей пользователей, оценка эффективности региональных отделений, вероятность подачи заявки на выплату страховки и др.), финансовых рынков (прогнозирование, анализ портфелей, моделирование индексов), производства (прогнозирование спроса, контроль качества, оценка дизайна продукции), торговли и т. д.

Почему растет популярность Data mining?

Необходимость автоматизированного интеллектуального анализа данных стала очевидной в

1. первую очередь из-за огромных массивов исторической и вновь собираемой информации. Трудно даже приблизительно оценить объем ежедневных данных, накапливаемых различными компаниями, государственными, научными и медицинскими организациями. Человеческий ум, даже такой тренированный, как ум профессионального аналитика, просто не в состоянии своевременно анализировать столь огромные информационные потоки.

2. Другой причиной роста популярности data mining является объективность получаемых результатов. Человеку-аналитику, в отличие от машины, всегда присущ субъективизм, он в той или иной степени является заложником уже сложившихся представлений. Иногда это полезно, но чаще приносит большой вред.

3. И, наконец, data mining дешевле. Оказывается, что выгоднее инвестировать деньги в решения data mining, чем постоянно содержать целую армию высокоподготовленных и дорогих профессиональных статистиков.

Data mining вовсе не исключает полностью человеческую роль, но значительно упрощает процесс поиска знаний, делая его доступным для более широкого круга аналитиков, не являющихся специалистами в статистике, математике или программировании.

Глава 2. Области применения Data mining

1.

Маркетинг

Рыночная сегментация, идентификация целевых групп, построение профиля клиента

2.

Банковское дело:

Анализ кредитных рисков, привлечение и удержание клиентов, управление ресурсами

3.

Кредитные компании

Детекция подлогов, формирование «типичного поведения» обладателя кредитки, анализ достоверности клиентских счетов, cross-selling программы

4.

Страховые компании

Привлечение и удержание клиентов, прогнозирование финансовых показателей

5.

Розничная торговля

Анализ деятельности торговых точек, построение профиля покупателя, управление ресурсами

6.

Биржевые трейдеры

Выработка оптимальной торговой стратегии, контроль рисков

7.

Телекоммуникация и энергетика

Привлечение клиентов, ценовая политика, анализ отказов, предсказание пиковых нагрузок, прогнозирование поступления средств

8.

Налоговые службы и аудиторы

Детекция подлогов, прогнозирование поступлений в бюджет

9.

Фармацевтические компании

Предсказание результатов будущего тестирования препаратов, программы испытания

10.

Медицина

Диагностика, выбор лечебных воздействий, прогнозирование исхода хирургического вмешательства

11.

Управление производством

Контроль качества, материально-техническое обеспечение, оптимизация технологического процесса

12.

Ученые и инженеры

Построение эмпирических моделей, основанных на анализе данных, решение научно-технических задач