Диплом Английский (1209256), страница 4
Текст из файла (страница 4)
Поисковые средства и технологии, используемые для реализации информационных потребностей, определяются типом и состоянием решаемой пользователем задачи основной деятельности: соотношением его знания и незнания об исследуемом объекте. Кроме того, процесс взаимодействия пользователя с системой определяется уровнем знания пользователем содержания ресурса (полноты представления, достоверности источника и т.д.) и функциональных возможностей системы как инструмента.
Процесс поиска информации обычно носит эмпирический характер. Он представляет последовательность шагов, приводящих при посредстве системы к некоторому результату, позволяющих оценить его полноту. При этом поведение пользователя, как организующее начало управления процессом поиска, мотивируется не только информационной потребностью, но и разнообразием стратегий, технологий и средств, предоставляемых системой.
Обычно пользователь не имеет исчерпывающих знаний об информационном содержании ресурса, в котором проводит поиск, поэтому оценить адекватность выражения запроса, как и полноту получаемого результата, он может, отыскав дополнительные сведения, или организовав процесс так, чтобы часть результатов поиска могла использоваться для подтверждения или отрицания адекватности другой части.
Операционными объектами, непосредственно участвующими во взаимодействии пользователей с поисковой системой являются поисковый образ документа (ПОД) и ПОЗ, соответствие которых устанавливается поисковым механизмом АИПС на формальном уровне.
Поисковые инструменты, применяемые на Интернет порталах можно условно разделить на 4 класса.
-
Тематические каталоги материалов представленных на самом портале. Информационный контент, представленный на портале структурируется по разделам, содержащим тематически близкие ресурсы. Отметим, что классификация может быть многомерной, т.е. документы могут классифицироваться по нескольким признакам, и перекрывающейся - документ может классифицироваться в несколько рубрик. Кроме того, в тематические каталоги входит контекстный и атрибутный (по атрибутам характерным для данного раздела) поиск документов данной рубрики (раздела).
-
Рубрикаторы ресурсов Интернет. Каталог ссылок на интернет-ресурсы разбитый по тематической направленности.
-
Система контекстного поиска по документам на портале. Может интегрироваться с классификатором для проведения поиска не по всей совокупности документов портала, а по набору разделов (тематик).
-
Система контекстного поиска в Интернет. Поиск по части сети или набору проиндексированных ресурсов, соответствующих тематике портала. Также может интегрироваться с классификатором для сужения области поиска.
Особенностью поисковых инструментов применяемых на портале является их интеграция на базе единого пользовательского интерфейса, т.е. через один набор поисковых форм пользователю доступен контекстный, атрибутный поиск, поиск по тематическому рубрикатору. Причем, поиск осуществляется как по материалам, представленным на самом портале, так и по отобранному набору ресурсов Интернет, признанному релевантным тематике портала. Благодаря этому пользователь ощущает себя находящимся в едином информационном пространстве и может, выбрав один из сценариев поиска, найти интересующую его информацию, где бы она ни находилась.
Важно также учитывать, что информация, обрабатываемая на входе поисковой системой, может быть представлена в разных форматах (HTML, текст, графика). Поэтому подсистема индексации должна содержать средства конвертации информации из разных форматов в формат, в котором она хранит информацию внутри себя, или содержать в себе средства работы с такой информацией в ее родном формате.
С точки зрения функционирования поисковой системы можно оценивать и оптимизировать следующие ее параметры:
-
охват документной коллекции – количество информации используемой системой для определения релевантности документа запросу. Кроме полнотекстового индекса ресурса, можно использовать данные разнообразных рубрикаторов, ключевые слова из метаописаний. Кроме того, поисковый индекс может содержать весовые коэффициенты для встречающихся в документах терминов, определенные по положению слова в документе или их значимости как носителей основной тематики документа – на основе статистического анализа или на основе экспертных оценок.
-
время задержки – время необходимое для обработки запроса пользователя (определяется производительностью поисковой машины и ее способность обрабатывать одновременно много запросов параллельно);
-
форма предоставления результатов поиска пользователю – должна быть удобной, в идеальном случае настраиваемой, для удовлетворения пользователей разных целевых групп;
-
усилие, которое надо приложить пользователю для получения ответа на свой запрос. Пользователю должны быть предоставлены удобные средства для формулирования и уточнения своего запроса. Например, кроме списка ключевых слов, пользователю должна быть предоставлена возможность уточнить запрос путем выбора раздела тематического рубрикатора, или путем указания группы аудитории, к которой принадлежит пользователь;
-
масштабируемость – система должна быть устойчива к росту документной коллекции и введению дополнительных атрибутов поиска и осей классификации;
-
качества поиска – механизм определения релевантности должен обеспечивать качественный отсев нерелевантных документов.
Следует заметить, что хотя порталы начали развиваться из поисковых машин, переход от поисковой машины к информационному порталу был произведен путем добавления новых информационных сервисов, без изменения основного ядра поисковой машины (алгоритмы ранжирования, методики индексирования и анализа документов).
Исследование влияния непосредственно портальной специфики на разработку поисковой системы, предназначенной для использования в качестве поискового инструмента (сервиса) на портале, практически не проводились. Хотя портальную специфику полезно учесть при разработке поисковой системы для портала или, при адаптации имеющихся поисковых средств, для их применения в качестве ядра поискового сервиса информационного портала (в т.ч. образовательного).
Алгоритм поиска системы построенной подобным образом использует, как возможности тематического ранжирования результатов, поиска путем использования кластерного поиска, так и ранжирования на основе анализа встречаемости слов в документах коллекции.
В дополнение, система поиска Yandex имеет интеллектуальное дополнение части запросов наиболее подходящим продолжением. На рисунке 2.1 представлен запрос, состоящий из словосочетания «Базы данных» автоматически дополняемый наиболее оптимальным окончанием фразы.
Рисунок 2.1 - Образец интерфейса поисковой системы Yandex
За основу поискового интерфейса был взят принцип обработки запросов в системе интернет портала Yandex. Каждый новый введенный символ в строку поиска позволяет пользователю в режиме реального времени (или online) отслеживать все возможные варианты готовых запросов.
По мере введения данных в строку начинается выстраивание выпадающего списка в зависимости от релевантности информации. Релевантность в данном случае представляет собой упорядоченный список информации, который выстроен на основе наиболее частых запросов среди других пользователей данной системы. Другими словами, результат отображается по популярности просмотра того или иного ресурса.
Для сравнения принципа обработки поисковых запросов системой Yandex и других систем, на рисунке 2.2 представлен интерфейс и поисковая строка машины Google.
Рисунок 2.2 - Oбразец интерфейса поисковой системы Google
Описанный метод в полной мере подходит для приложений баз данных в работе с таблицами. При вводе каждого последующего символа может происходить как отсеивание неподходящих результатов, так и подсвечивание строки искомых. Именно поэтому он был заимствован как часть интерфейса поиска.
3 Интегрированные интерфейсы поиска: вопросы организации, спецификации и встраивания в приложениях баз данных
3.1 Элементы «пошагового» интерфейса
Прежде чем приступать к разработке какого-либо интерфейса, необходимо изучить его основные базовые составляющие – какие функции они выполняют и какие ограничения в них присутствуют. Также необходимо оценить рационализацию использования каждого из них, провести некие параллели с аналогами и только потом принимать решение о возможности их внедрения.
Для более подробного рассмотрения элементов интерфейса необходимо наглядно убедиться в местоположении каждого из них и сделать соответствующую оценку уместности их применения.
Поисковая строка (элемент 1) позволяет производить отбор содержимого таблицы, используя критерии персональных данных. Поиск выполнен путем выделения наиболее подходящих запросу данных отдельным цветом.
Кнопка добавления/заимствования данных (элемент 2) находится в верхней части окна приложения и позволяет вносить в базу данных новые значения посредством обращения к ней через диалоговое окно. Если необходимый для вставки элемент присутствует в базе данных, то, путем конструирования шаблона информации о личности, происходит заимствование. Если же искомых значений не обнаружено, оператору приложения необходимо вручную добавить новые значения, используя все тот же инструмент вставки.
В открывшемся диалоговом окне вводятся значения полей, которые затем при закрытии приложения автоматически либо по согласию пользователя сохраняются в базе данных.
Рядом располагается инструмент модификации данных (элемент 3) который позволяет изменять уже существующие значения в таблице. Модификация происходит также сначала в таблице, с которой работает пользователь, затем происходит изменение в самой базе данных. По двойному щелчку на любую запись из списка происходит процедура ее заимствования в таблицы нижнего порядка.
Поисковая строка расположена в нижней части экрана. Каждый столбец поиска отвечает за соответствующую информацию в таблице выше над ним. При многократном обращении к этой строке поиска пользователю необходимо будет непрерывно следить за изменением значений в основной таблице, что не лучшим образом скажется на результативности самого процесса.
Рисунок 3.1 - Образец расположения элементов поиска-вставки-заимствования
Важно заметить, что кнопки модификации данных находятся в верхней части окна приложения. Возможно при небольших объемах обработки данных это бы не вызвало нареканий, но если речь идет об обработке сотен или тысяч элементов, то такое позиционирование инструментов неприемлемо. К тому же, попытки добавления элементов управления задачами вставки и заимствования вблизи поисковой строки приведут к дополнительному дискомфорту в общей картине интерфейса.
Столбцы «Дата рождения» и «Пол» не являются хранителями уникальной информации. Для их функционирования используется календарь и режим переключателя. Как правило, эти данные не модифицируются на протяжении всего жизненного цикла программы, а удаляются вместе с содержимым всей строки. На рисунке 3.1 представлен пример поискового интерфейса таблицы базы данных «Личности».
На рисунке 3.2 представлен образец диалоговых окон, с помощью которых происходит операция добавления новой фамилии в список уже существующих. Именно таким образом происходит пополнение содержимого базы данных. На этапах формирования целостно-информационной базы происходит добавление новых записей, каждая из которых должна быть уникальна в своем роде. На этом примере можно разобраться в принципе неизбыточности или частичной избыточности данных. Для избавления от многократного хранения одних и тех же данных как раз и используется определение уникальности каждого поля. При попытке ввода пользователем дублирующей информации это действие либо должно быть запрещено, либо имеет смысл снабдить приложение информационным окном, сообщающем об этом дублировании. Список может иметь как единую структуру, так и ветвящуюся. Например, при выборе фамилий, пользователь имеет возможность сортировать данные по различным признакам. Другими словами, распределение может происходить как сочетанием условий выборки, так и использованием дополнительных характеристик. Все это позволяет избежать ошибок при исполнении OLTP-задач.
Рисунок 3.2 - Образец диалоговых окон приложения баз данных
Главным недостатком этого интерфейса можно считать как раз разобщенность OLTP-задач между собой. Работа с каждым инструментом неизбежно влечет за собой открытие десятков диалоговых окон для установления связи с таблицами базы данных. Каждое новое окно занижает временные показатели и способствует затруднению работы с системой в целом из-за отсутствия справок и указателей.
В процессе поиска путей модернизации и оптимизации приложения были исследованы и проверены многие способы комбинации инструментов поиска-вставки-заимствования. Наиболее удачной конфигурацией оказалось возможность объединения вышеуказанных задач в едином поле. Все действия можно с легкостью производить поэтапно, не перемещая курсор из одной части экрана в другую.
3.2 Процесс поиска
Рассмотрим пошаговое устройство функций поиска-вставки-заимствования на примере интерфейса, представленного на рисунке 3.3. Поисковый запрос не обозначен каким-либо шагом, а представлен частью введенного запроса в соответствующий элемент таблицы. Поиск реализован с использованием контекстного механизма обработки информации.
При введении запроса полностью система либо отображает присутствие искомого элемента в базе данных, либо его полное отсутствие, тем самым, показывая пользователю необходимость добавления новой информации. Поиск в данном случае может производиться по любой части целого слова, с условием, что присутствует совпадение информации.















