Проблемы, связанные с использованием Data Mining DM-технологии

Конечно, возможности DM велики, но уже сейчас аналитики предупреждают потенциальных инвесторов, что этот еще не устоявшийся сегмент рынка ПО может быть чрезмерно разрекламирован.
Сложность инструментов Data Mining
Сложность — существенный барьер для внедрения DM. Существует такое шутливое мнения, что DM — настолько сложная технология, что для ее освоения необходимо иметь три высших образования: одно в области статистики или вычислительных методов, другое в области бизнеса, чтобы понимать клиентов, и еще одно по вычислительной технике.
Фактически DM — это результат совместных усилий специалистов во всех трех областях. Управление проектом должны брать на себя бизнес-специалисты, задачей которых является формирование набора бизнес-задач и последующая интерпретация полученных результатов. Разработчик-аналитик, разбирающийся в методах DM , в статистике и инструментах должен создать надежную модель. А специалисты по информационным технологиям обеспечивают обработку данных, а также техническую поддержку.
IT-команды увлеклись мифом о том, что средства DM просты в использовании. Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. На самом деле, успешный DM проект требует понимания сути деятельности, знания данных и инструментов, а также процесса анализа данных.
Опытность пользователя DM
Различные инструменты DM имеют свои сильные и слабые стороны. Поэтому конкретные программы должны четко соответствовать уровню подготовленности пользователя и его конкретным целям. Кроме того, DM , как правило, подразумевает употребление определенного технического жаргона, который может сильно усложнить для неопытного пользователя понимание работы программы, ее сути, практических результатов, а также того, какой продукт и каким способом лучше всего использовать для достижения определенных бизнес-целей. Это вызывает замешательство, и часто потенциальный клиент может вообще отказаться от использования DM . Еще хуже, если клиент вложит большие средства и пойдет неверным путем или потратит деньги на освоение различных инструментов для того, чтобы, наконец, понять, как нужно было применять DM в данной области деятельности.
Если DM применяется неправильно, то это может разорить компанию — использование DM должно быть неразрывно связано с повышением квалификации пользователя». Применение сложных инструментов предъявляет все большие требования к людям, которые необходимы компании, однако специалистов по DM , которые бы хорошо разбирались в бизнесе, очень не много. Извлечение полезных сведений невозможно без хорошего понимания сути данных. Кроме того, во многих случаях необходима тщательная интерпретация тех зависимостей или шаблонов, которые были обнаружены. Поэтому работа с этими средствами требует тесного сотрудничества между бизнес-экспертом и специалистом по инструментам DM .
Правильное использование прогнозирующих моделей должно быть грамотно интегрировано в реальные бизнес процессы, с тем, чтобы можно было четко оценивать и обновлять модели.
Трудозатраты
Результаты DM в большой мере зависят от уровня подготовки данных, а не от „чудесных возможностей“ некоего алгоритма или набора алгоритмов. Успешный анализ требует очищенных и подготовленных данных. По утверждению аналитиков и пользователей очистка клиентских записей, разделение их на поддающиеся обработке, но статистически достоверные образцы, а затем тестирование и уточнение всех результатов, занимает до 80% процентов всего DM-процесса. Таким образом, чтобы заставить технологию работать на себя потребуется много времени. Много усилий тратится на анализ предварительных данных и корректировку прогнозирующих моделей.
Неграмотно применив некоторые инструменты, предприятие может бессмысленно растратить свой потенциал, а иногда и миллионы долларов.
Высокий процент ложных результатов
Инструменты, занимающиеся поиском трудно обнаруживаемых зависимостей в БД, могут раскрыть действительно драгоценные «самородки» информации, которые дадут хорошие дивиденды в плане финансовой и конкурентной выгоды. Но, к сожалению, DM очень часто порождает множество вводящих в заблуждение и не имеющих существенного значения открытий. Многие пользователи и аналитики утверждают, что DM-средства могут выдавать тысячи ложных, статистически недостоверных или бессмысленных результатов. При этом пользователь должен понимать, какие из результатов имеют реальный смысл.
Пример:
Компания Chase Manhattan, однажды получила неверное значение для среднего баланса нескольких клиентов, пользующихся кредитными карточками. Причина оказалась в том, что данные были некорректно переданы. Неправильная сортировка файлов привела к тому, что в качестве прогнозирующего параметра, определяющего интерес клиентов к планируемой маркетинговой кампании, были выбраны идентификаторы клиентов. Конечно, такой результат не имел никакого смысла.

Несоответствие результато в прогнозировани я реально й ситуации
Есть одна сложнейшая задача, вставшая перед DM , которую многие эксперты считают неразрешимой и которая оправдывает тот скептицизм, который часто слышен в адрес этой ниши рынка. Средства DM хорошо прогнозируют поведение потребителя на основе данных за прошлые периоды, то есть дают информацию о том, что человек, исходя из его предыдущих приобретений, демографических данных и других параметров, захочет купить с наибольшей вероятностью. Но, по мнению критиков, DM никогда четко не предскажет, что же человек захочет купить на самом деле.
Пример.
DM-приложение может определить, что 34-х летная домохозяйка, имеющая двоих детей, вероятнее всего каждые три года в ближайшее десятилетие будет покупать отдельную микроволновую печку. Но такое ПО не может определить, что именно эта клиентка скорее купила бы более дорогую печь, где комбинируются микроволновый и конвекционный режимы, если бы та подошла ее по цене.

Конфиденциальность
Это одно из самых существенных возражений против DM. Сам по себе аналитический DM-процесс применяется к накопленным анонимным данным, при этом выявляются возможности использования, тенденции приобретения и десятки, если не сотни, других факторов. Но вот выполнение следующего этапа обработки данных — попытка связать их с характером поведения конкретного клиента, чтобы извлечь некий личный опыт взаимодействия с этим человеком, — вызывает настороженность среди сторонников прав на неприкосновенность частной жизни. Защитники конфиденциальности говорят о том, как важно быть честными с клиентами и сообщать им о собираемых данных и целях их использования.
Директивы кажутся простыми, но на практике их реализация сложна. В целом они звучат так.
Директивы:

сообщить людям, какие собираются данные и как планируется их использовать;
дать возможность эту информацию о себе не указывать;
обеспечить просмотр и корректировку личных сведений.

Именно таким, самым трудным путем, решили пойти поставщики ПО для DM, пропагандируя возможность клиентов выполнять директивы.
Использование специальной БД — базы данных
Обычно поставщики DM продуктов требуют использования дорогой специализированной БД, витрины данных или аналитического сервера, которые позволят исследовать информацию, прежде всего потому, что для эффективной обработки необходимо привести данные к некоему специальному формату.
Чтобы максимально использовать мощность масштабируемых инструментов DM коммерческого уровня, предприятию необходимо выбрать, очистить и преобразовать данные, иногда интегрировать информацию, добытую из внешних источников и установить специальную среду для работы DM алгоритмов.
Высокая стоимость
Хорошая DM программа обходится в сумму от 500 тыс. до 1,5 млн. долл., которая необходима на программное, аппаратное обеспечение и техническую поддержку. Вкладывая средства в такой проект, необходимо убедиться, что эффективность инвестиций будет достаточно высокой. Неплохой проверкой является небольшой DM-проект (от 100 тыс. до 200 тыс. долл.), который позволит выяснить, достаточно ли того объема и качества данных, которые имеются в наличии, чтобы сделать DM полезным для предприятия.
Несмотря на множество рассмотренных недостатков и проблем, связанных с DM , всё больше и больше программных продуктов этого класса находят свое применение. Конкурентные преимущества, которые дает DM , не позволяют игнорировать эту технологию. Но, чтобы получить полезные результаты требуются детальные знания данных и длительные проверки методом «проб и ошибок».
Очевидно, что идея, лежащая в основе этой технологии, имеют массу плюсов. А критики заслуживают отдельные методы ее реализации.

‹ Телекоммуникации
Вверх
OLAP-системы оперативной аналитической обработки данных ›

Айтистанция
Добавить комментарий

Adblock
detector