Корниенко (1214588), страница 4
Текст из файла (страница 4)
Эффективный доступ к информации в Интернете обеспечивают такие зарубежные поисковые системы, как Альта-Виста (AltaVista), "Lycos", "Yahoo", "Google", "OpenText", "Wais", "WebCrawler" и др. Их адреса в Интернете: www.altavista.com, www.yahoo.com, www.gogle.com, www.opentext.com,
К отечественным поисковым машинам относятся: Апорт ("Aport" АО Агама), Rambler (фирма Stack Ltd.), Яндех ("Yandex" фирма CompTek Int), "Русская машина поиска", "Новый русский поиск", и др. Их адреса в Ин-тернете: www.aport.ru, www.rambler.ru, www.yandex.ru, search.interrussia.com, www.openweb.ru соответственно) и др.
Все эти поисковые машины позволяют по ключевым словам, тематическим рубрикам и даже отдельным буквам оперативно находить в сети, например, все или почти все тексты, где эти слова присутствуют. При этом пользователю сообщаются адреса сайтов, где найденные ИР постоянно присутствуют. Однако ни одна из них не имеет подавляющих преимуществ перед другими. Для проведения надежного поиска по сложным запросам специалисты рекомендуют использовать последовательно или параллельно различные ИПС.
Полнотекстовая поисковая машина индексирует все слова видимого пользователю текста. Наличие морфологии дает возможность находить искомые слова во всех склонениях или спряжениях. Кроме этого, в языке HTML существуют тэги, которые также могут обрабатываться поисковой машиной.
Несмотря на общие принципы построения, поисковые системы отличаются тематикой, ее объемом, классификацией и интерфейсами. Для удобства перемещения (навигации) по имеющимся на поисковых машинах разделам некоторые из них используют специальный раздел "Карта".
Зачастую пользователю требуется текстовая и картографическая информация одновременно. В 80-е годы XX века эксперименты по решению этой проблемы начали проводить в Канаде, так появились первые географические информационные системы (ГИС) - компьютерные системы, позволяющие эффективно работать с пространственно-распределенной картографической информацией. ГИС - закономерное расширение концепции БД, дополняющее их наглядностью представления и возможностью решать задачи пространственного анализа. Они применяются для землеустройства, контроля ресурсов, экологии, муниципального управления, транспорта, экономики, решения социальных задач и др. До 80-90% всей информации, с которой обычно имеют дело пользователи, может быть представлено в ГИС. ГИС - этап перехода к безбумажной технологии обработки информации.
При проведении поиска поисковые серверы обычно используют данные, хранящиеся в веб-страницах в тегах метаданных. Формируя свои страницы, следует отражать в этих тегах сведения о назначении сайта и его тематике.
При этом необходимо знать, что чем меньше количество ключевых слов включено в эти теги, тем с большей частотой они могут встречаться в текстах страниц сайта и, следовательно, тем выше их релевантность. Оптимальным считается частота таких слов не более 5%. Ключевых слов должно быть не очень много, они в большей степени должны состоять из одного или двух слов, образуя наиболее употребляемые термины. Чем большую релевантность имеют ключевые слова, тем большую конкурентоспособность они придают документу с точки зрения поисковых машин.
Полноту и точность ответа пользователь получает в зависимости от точности сформулированного им запроса. В результате поиска ему обычно предоставляется гораздо больше информации, чем ему необходимо, часть которой может вообще не иметь отношение к сформированному запросу. Очевидно, что многое зависит не только от грамотно сформулированного запроса, но и от возможностей поисковых систем, которые весьма различны. При этом достаточно ярко проявляется "лесной синдром", заключающийся в том, что в полученных данных можно пропустить главные сведения. Очевидно, никакие меры не являются исчерпывающими в условиях постоянного расширения среды и появления новых разнообразных ИР, что подтверждает трудности поиска.
Простые запросы в виде отдельных достаточно распространенных терминов приводят к извлечению тысяч документов, абсолютное большинство которых пользователю не требуется.
Важным аспектом также является возможность таких систем поддерживать многоязычность, то есть способность обрабатывать запросы на различных языках. Пользователям предлагаются двуязычные словари, электронный переводчик и др. Кроме того, появились системы, осуществляющие мгновенный ("на лету") перевод информационных ресурсов.
Актуальным является использование машиночитаемых тезаурусов. Применение поисковых машин основано на использовании ключевых слов, которые передаются поисковым серверам в качестве аргументов поиска: что искать. Если делать все правильно, то формирование списка ключевых слов требует предварительной работы по составлению тезауруса.
Электронный тезаурус - словарь, предназначенный для анализа текста и информационного поиска, включающий широкий набор семантических отношений между составляющими его терминами.
Создаются системы, позволяющие эффективно вести поиск в полнотекстовых БД. Они базируются на использовании технологий синтаксического и морфологического анализа текста и оперативной обработки текстов на естественных языках.
Разработчики поисковых систем пытаются адаптировать их под начинающих и "средних" пользователей Интернета. В канадской системе (www.web-help.com), пользователям предлагается набор ссылок, подготовленных сотрудниками интернет-компании. На запрос пользователя сотрудник в реальном режиме времени находит и подключает на экран пользователя соответствующий сайт. Метод удобен для нахождения конкретных фактов, статистики и т.п., которые другими способами непросто найти.
При организации одинакового запроса на разных поисковых машинах возможно получение различных по содержанию и широте охвата материалов. Искусство построения запроса требует знаний особенностей каждой конкретной поисковой системы и наличия опыта работы с Интернетом вообще. Некоторые поисковые машины предлагают квазиинтеллектуальные средства, позволяющие менее опытному пользователю, традиционно задавая вопросы на естественном языке, получать достаточно релевантные данные.
Обычно поиск в полнотекстовых БД осуществляется с использованием морфологических анализаторов, позволяющих автоматически находить существующие словоформы по фрагменту слова, слову, фразе, даже если в словах запроса присутствуют некоторые опечатки.
Используются метапоисковые системы, обеспечивающие в результате поиска получение суммарных данных с десятка поисковых систем, но при этом объем информации может быть весьма значительным. Частично данная проблема решается предоставлением ими общего списка, в начале которого будут данные, наиболее релевантные запросу. Другим способом удовлетворения потребностей пользователей явилось создание тематически узконаправленных поисковых систем на вебсайтах - порталов.
Важность проблемы информационного поиска в Интернете породила целую отрасль, задача которой заключается в том, чтобы помочь пользователю в его навигации в киберпространстве. Составляют эту отрасль специальные поисковые инструменты. Условно их можно разделить на поисковые средства справочного типа или просто справочники и поисковые системы в чистом виде[3].
1.2.6 Метапоисковые системы
Увеличение числа поисковых систем в Интернете обусловило появление "метапоисковых систем". Они дают возможность пользователю одновременно в едином пользовательском интерфейсе, используя индексы обычных поисковых систем, работать с несколькими БД. Пока еще "мета-поисковые системы" не позволяют реализовать все возможности отдельных поисковых систем, но в большинстве своем он обладают существенными быстродействием и степенью охвата Web-пространства, что определяет их все более возрастающие значение и популярность.
2 Разработка алгоритма исследования
2.1 Постановка задачи
Разработать математический метод анализа цен в аптеках по данным выборок из специальных баз данных(БД).
Задачи:
-
Анализ интернет ресурсов (БД фармации)
-
Алгоритмы сбора данных технология Data Mining
-
Разработать алгоритм применения математического метода анализа для принятия решения
-
Представление данных для Data Mining
-
Анализ результатов
2.2 Математические методы
2.2.1 Data Mining
Data Mining — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности.
Технология Data Mining позволяет выявить среди больших объемов данных закономерности, которые не могут быть обнаружены стандартными способами обработки сведений, но являются объективными и практически полезными. Методы Data Mining основываются на базе различных научных дисциплин: статистки, теории баз данных, искусственного интеллекта, алгоритмизации, визуализации и других наук.
Традиционные статистические методы анализа баз данных или системы оперативной аналитической обработки (OLAP) направлены на проверку заранее поставленных задач и гипотез.
По определению Data Mining предназначен для выявления нетривиальных закономерностей. Принципиальное отличие описанной технологии заключено в возможности самостоятельно обнаруживать такие закономерности и выстраивать гипотезы. Таким образом, методы интеллектуальной обработки информации справляются с более сложной задачей: формулировкой самой гипотезы.
Задачи Data Mining
-
Классификация – обнаружение определенных признаков у объектов, позволяющих отнести их к тому или иному ранее известному классу.
-
Кластеризация – это более сложная задача, решаемая инструментами интеллектуального анализа, логически продолжает идеи классификации. Позволяет группировать объекты при изначальном отсутствии самих классов.
-
Ассоциация – поиск закономерностей между связанными событиями. Например, ассоциативное правило, определяющее, что за событием X следует событие Y. В отличие от вышеописанных задач – это ассоциативное выявление закономерностей основывается не на анализе характеристик объекта, а на рассмотрении нескольких событий, происходящих в один момент времени.
-
Последовательность – это установление закономерностей между связанными по времени событиями. Также называется нахождением последовательных шаблонов. Правило последовательности говорит, что через определенное время после события X наступит событие Y.
-
Регрессия и прогнозирование. Обнаружение зависимости выходных данных от переменных входных сведений.
-
Визуализация – графическое представление анализируемой информации. Аналитик данных (data analyst) использует сырые данные для поиска осмысленных, практически важных сведений методами «просева» информации. Задачи, решаемые data scientist, обширны и затрагивают различные научные отрасли, но в то же время дают превосходные результаты.
Методы Data Mining приобретают все большую популярность в качестве инструмента для анализа экономической информации, особенно в тех случаях, когда предполагается, что из имеющихся данных можно будет извлечь знания для принятия решений в условиях неопределенности. Хотя в последнее время возрос интерес к разработке новых методов анализа данных, специально предназначенных для сферы бизнеса (например, Деревья классификации), в целом системы Data Mining по-прежнему основываются на классических принципах разведочного анализа данных (РАД) и построения моделей и используют те же подходы и методы.
Методы Data mining могут быть применены как для работы с большими данными, так и для обработки сравнительно малых объемов данных (полученных, например, по результатам отдельных экспериментов, либо при анализе данных о деятельности компании). В качестве критерия достаточного количества данных рассматривается как область исследования, так и применяемый алгоритм анализа.
Развитие технологий баз данных сначала привело к созданию специализированного языка — языка запросов к базам данных. Для реляционных баз данных — это язык SQL, который предоставил широкие возможности для создания, изменения и извлечения хранимых данных. Затем возникла необходимость в получении аналитической информации (например, информации о деятельности предприятия за определённый период), и тут оказалось, что традиционные реляционные базы данных, хорошо приспособленные, например, для ведения оперативного учёта на предприятии, плохо приспособлены для проведения анализа. Это привело, в свою очередь, к созданию т. н. «хранилищ данных», сама структура которых наилучшим способом соответствует проведению всестороннего математического анализа.
Ряд этапов решения задач методами Data Mining:
-
Постановка задачи анализа;
-
Сбор данных;
-
Подготовка данных (фильтрация, дополнение, кодирование);
-
Выбор модели (алгоритма анализа данных);
-
Подбор параметров модели и алгоритма обучения;
-
Обучение модели (автоматический поиск остальных параметров модели);
-
Анализ качества обучения, если неудовлетворительный переход на п. 5 или п. 4;
-
Анализ выявленных закономерностей, если неудовлетворительный переход на п. 1, 4 или 5.
2.2.2 Критерий множественных сравнений Шеффе
Двухфакторный дисперсионный анализ позволяет обнаружить разные значения уровней факторов, однако не даёт возможности указывать, какой именно уровень выделяется в ряду остальных уровней. Для решения этой задачи нельзя выполнять серию последовательных попарных сравнений с помощью, например, парного критерия Стьюдента, поскольку в серии попарных сравнений резко возрастает групповая вероятность отклонения нулевой гипотезы в случае её истинности. Попарные сравнения следует выполнять с помощью критерия множественных сравнений Шеффе.
Статистическая модель. Имеется двухмерная выборка, состоящая из выборочных значений ; индекс i соответствует уровню
i фактора
, индекс j соответствует уровню
фактора
. Пусть фактор
имеет r уровней, а фактор
уровней; выборка имеет размерность
Таким образом, каждое выборочное значение
можно представить в виде