Корниенко (1214588), страница 3

Файл №1214588 Корниенко (Современные технологии анализа данных DataMining в бизнесе) 3 страницаКорниенко (1214588) страница 32020-10-04СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

ИПС фактически являются системами информационного обеспечения и представляют собой базы и банки данных. В качестве объекта в них выступает индивид, организация, регион и т.п. Субъектом информационного обеспечения является специалист-информатик, любой потребитель информации.

1.2.3 Организация поиска

Предлагается процедуру поиска необходимой информации разделить на девять основных этапов:

  • Определение области знаний;

  • Выбор типа и источников данных;

  • Сбор материалов необходимых для наполнения информационной модели;

  • Отбор наиболее полезной информации;

  • Выбор метода обработки информации;

  • Выбор алгоритма поиска закономерностей;

  • Поиск закономерностей, формальных правил и структурных связей в собранной информации;

  • Творческая интерпретация полученных результатов;

  • Интеграция извлеченных "знаний".

Для проведения поиска первоначально на компьютере пользователя загружается интерфейс работы с соответствующей БД. Это может быть локальная или удалённая БД. Первоначально следует определиться с видом поиска. Затем с набором предлагаемых для поиска полей. ИПС могут предложить для ввода одно или несколько полей. В последнем случае это обычно поля: автора, заглавия, временного периода, вида документа, ключевых слов, рубрик и др. При формировании запроса практически все системы позволяют использовать логические элементы "И", "ИЛИ", "НЕТ".

1.2.4 Технологии поиска информации

Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса и функциональных возможностей системы как инструмента. В целом эти факторы обычно сводятся к понятию "профессионализма" - информационного и предметного "профессионализма".

Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.

Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или организовав процесс так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.

Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются поисковый образ документа (ПОД) и ПОЗ, соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне. Адекватность образа действительному содержанию документа определяется качеством процесса свертки информации и уровнем знания субъектом средств отражения - концептуальной схемы предметной области и возможностей ИПЯ.

Поисковый образ документа - описание документа, выраженное средствами ИПЯ и характеризующее основное смысловое содержание или какие-либо другие признаки этого документа, необходимые для его поиска.

Большинство ПС изначально предлагают пользователям либо БО, либо ссылки на полные или частичные документы, их описание и другое, хранящиеся в различных АИПС. Современные ПС позволяют определиться и указать какой и в каком виде источник информации интересует пользователя.

По характеру преобразований методы обработки результатов поиска можно условно разделить на две группы:

  • Структурно-форматные преобразования;

  • Структурно-семантические преобразования (информационно-аналитические, логико-семантические).

Что обычно ищут в Интернете: персональные данные об индивидуумах и организациях; различные адресные данные; конкретные материалы в том числе место их хранения; где и сколько стоят те или иные материалы, услуги, продукты и т.п.; информационные сайты и порталы и др.

Общепринята организация поиска по начальным фрагментам слова, например, вместо слова "библиотечный" можно ввести его фрагмент "библиоте*". При этом будут найдены документы, в которых содержится не только слово "библиотечный", но и "библиотека", "библиотекарь" и др. В каждом случае пользователь должен представлять, что именно он хочет найти, так как в предложенном ему варианте будет найдено гораздо большее количество документов, чем при задании данного слова полностью. В подобном случае возможно в полученном массиве информации провести уточняющий поиск и в результате получить более релевантные и пертинентные данные.

С точки зрения ИПС результат поиска в ней есть совокупность найденных документов или ссылок на них. Обычно он представляется пользователю в виде списка. То есть простейшей выходной формой в данном случае будет список ссылок в виде полных или частичных БО, найденных ИР. Такой список может быть тут же послан на какой-либо адрес электронной почты, если такая возможность предоставляется ИПС и пользователь подключен к Интернету.

Графические и полнотекстовые ЭИР могут предлагаться пользователю только для просмотра, для копирования в различных форматах и масштабах, причём полностью или частично. Графические ИР обычно существуют в общепринятых форматах типа: JPG, GIFF, TIFF, BMP и др., а для текстовых материалов обычно используют текстовые форматы TXT, DOC и др., HTML и PDF - фактически графический формат, в котором могут сохраняться как текстовые, так и графические данные.

Полученные в результате поиска документы сохраняют.

Критерием результата поиска является получение пользователем списка документов, одного документа или их частей, максимально удовлетворяющего его потребностям, сформулированным в поисковом запросе. В ИПС принято формировать список полученных в результате поиска документов по их релевантности. Различают критерии смыслового и формального соответствия между поисковым предписанием и выдаваемым документом.

Полнота и точность поиска являются взаимосвязанными показателями. Увеличение одного из них ведёт к снижению другого. В современных ИПС при сбалансированном поиске их значения составляет примерно 70%. Следует учитывать ситуацию, при которой список выданных поисковой системой ссылок содержит несколько, а порой и десятки разных адресов с одним и тем же текстом. Подобные ссылки характеризуются как дубликаты. Из них, при подсчёте коэффициентов учитывается только один документ.

Учитывая, что идеальный результат поиска должен удовлетворять требованиям единственности, полноты и непротиворечивости, получаем, что различные виды поиска определяют различные требования к функциональным возможностям системы в части оценивания результата. Однако, для случая предметного поиска доказательство полноты является тривиальным: непустой результат поиска подтверждает факт существования объекта, обладающего искомыми свойствами. При этом результат тематического поиска множественен и требует последующей систематизации - ещё одного процедурного шага для упорядочения полученного множества объектов по значениям не определённого явно основания. В свою очередь, проблемный поиск предполагает уже двухуровневую систематизацию.

Развитие процесса поиска осуществляется путём модификации выражения ПОЗ, путем реформулирования запроса и проведения повторного поиска в том же массиве данных или в подмассиве, полученном в результате осуществления первоначального поиска.

Интерфейсные средства обработки результата и развития поиска используют два типа операционных объектов - отдельные документы или коллекции документов.

1.2.5 Интернет-поисковые системы

Для получения информации в среде Интернета создаются специальные поисковые системы. Как правило, они общедоступны и обслуживают пользователей в любой точке планеты, где имеется возможность работы с интернетом. Непосредственно для поиска используются поисковые машины, число которых в мире исчисляется несколькими сотнями. Они ориентируются на определенные типы запросов или их сочетание. Кроме того, бывают полнотекстовые, смешанные и другие поисковые машины.

Для проведения поиска в Интернете функционирует множество сайтов и поисковых систем, поэтому необходимо не только ориентироваться в таких системах, но и уметь осуществлять в них эффективный поиск, то есть использовать соответствующие технологии.

"Технология поиска" означает совокупность правил и процедур, в результате выполнения которых пользователь получает ИР. При поиске в Интернете рекомендуется обращать внимание на две составляющие: полноту и точность. Обычно соответствие найденных материалам этим критериям называют релевантностью, то есть соответствием ответа вопросу.

Поисковые системы характеризуются также временем выполнения поиска, интерфейсом, предоставляемым пользователю и видом отображаемых результатов. При выборе поисковых систем обращают внимание на такие их параметры, как охват и глубина. Под охватом понимается объём базы поисковой машины, измеряемый тремя показателями: общим объёмом проиндексированной информации, количеством уникальных серверов и количеством уникальных документов. Под глубиной понимается - существует ли ограничение на количество страниц или на глубину вложенности директорий на одном сервере.

Каждая поисковая машина имеет свои алгоритмы сортировки результатов поиска. Чем ближе к началу списка, полученного в результате проведения поиска, оказывается нужный документ, тем выше релевантность и лучше работает поисковая машина.

Поисковые машины используют общие принципы работы, ориентированные на выполнение двух основных функций. Первая функция реализуется программой-роботом, автоматически просматривающей различные сервера в Интернете. Находя новые или изменившиеся документы, она осуществляет их индексацию и передаёт на базовый компьютер поисковой машины. "Робот" - автоматизированный браузер, загружающий веб-страницу, изучающий её и, при необходимости, переходящим к одной из её гиперсвязей. Когда ему попадается страница, не содержащая связей, робот возвращается на одну-две ступени назад и переходит по адресу, указанному в одной из обнаруженных ранее связей. Запущенный робот проходит огромные расстояния в среде Интернета, ориентируясь на развитие веб-сети и изменяя в соответствии с этим свои маршруты. Индексирующие роботы обрабатывают лишь HTML-файлы, игнорируя изображения и другие мультимедийные файлы. Они могут: обнаруживать связи с уже несуществующими страницами; устанавливать связь с наиболее популярными узлами, подсчитывая количество ссылок на них в других веб-страницах; регистрировать веб-страницы для оценки роста системы и др. Чаще всего роботы просматривают сервера самостоятельно, находя новые внешние ссылки в уже обследованных документах. Вторая функция заключается в обработке выявленных документов. При этом учитывается все содержание страниц. Индексации подвергаются все слова в документе, что дает возможность использовать поисковые системы для детального поиска по самой узкой тематике. Образуемые гигантские индексные файлы, хранящие информацию о том, какое слово, сколько раз, в каком документе и на каком сервере употребляется, составляют БД, к которой собственно и обращаются пользователи, вводя в поисковую строку ПОЗ. Выдача результатов осуществляется с помощью специальной подсистемы, производящей интеллектуальное ранжирование результатов. В своих расчетах она опирается на местоположение термина, частоту его повторения в тексте, процентное соотношение данного термина с остальным текстом на данной странице и другие параметры, характеризующие возможности конкретной поисковой машины.

"Роботы" имеют ряд разновидностей, одной из которых является "паук". Он непрерывно "ползает по сети", переходя с одной веб-страницы к другой с целью сбора статистических данных о самой "паутине" и (или) формирования некоторой БД с индексами содержимого веб.

Автоматизированные агенты "спайдеры" регулярно сканируют веб-страницы и актуализируют БД адресов, средства индексирования информации, расположенные по указанным адресам. Полученные индексы используются для быстрого и эффективного поиска по набору терминов, задаваемых пользователем.

В разных системах эта цель достигается различным образом. Одни посылают "агентов" на каждую попадающуюся веб-страницу, индексируя все встречающиеся слова. Другие сначала анализируют БД адресов, определяя наиболее популярные. Именно эти веб-страницы в различной степени индексируются.

Все чаще применяются "интеллектуальные агенты" - небольшие программы, обладающие способностью самообучаться, и действовать самостоятельно от имени своего владельца. Имея связь с компьютером пользователя, они выступают в роли персональных помощников, выполняющих ряд задач с применением знаний о потребностях и интересах пользователя. Интеллектуальные роботы-агенты ведут самостоятельный поиск в сети по собственным уникальным алгоритмам. Некоторые из них не только просматривают ключевые слова, но и осуществляют в Интернете семантический анализ информации, выявляя степень ее смыслового соответствия поставленной задаче.

Характеристики

Тип файла
Документ
Размер
2,73 Mb
Высшее учебное заведение

Список файлов ВКР

Современные технологии анализа данных DataMining в бизнесе
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6547
Авторов
на СтудИзбе
300
Средний доход
с одного платного файла
Обучение Подробнее