Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 11
Текст из файла (страница 11)
Дескрипторов 1-го уровня обычно не более 5.Дескрипторы 2-го уровня коррелируют с фактором полноты индексирования,обычно повышают полноту поиска, отражают большую специфичность и показываютнесколько аспектов основной темы.Таким образом, мы видим, что ручное индексирование документов поинформационно-поисковому тезаурусу является сложной процедурой, требующей оченьхорошего знания структуры и состава тезауруса.Серьезной проблемой ручного индексирования является также субъективность,непоследовательность индексирования: один индексатор может поставить в соответствиетексту дескриптор более низкого уровня, другой - дескриптор более высокого уровня.Кроме того, определенную сложность представляет собой последовательный учеттематической структуры связного текста: один индексатор может счесть обсуждаемое вкаком-то фрагменте текста важным и отразить в приписываемых ключевых словах илидескрипторах тезауруса, другой индексатор для того же или похожего текста посчитаетэту «локальную тему» неважной и не отразит ее в терминах индексирования.В результате исследований, проходивших в рамках известного Крэнфилдскогоэксперимента в начале 60-х годов, было показано, что значимый процент неудач поискасвязан с неправильным индексированием документа, что до трети неудач поиска можнобыло бы избежать, если бы индексаторы индексировали последовательным образом.Точнее, индексаторы допускали ошибку в каждых пяти документах их ста, и эта ошибкаобычно состояла в неуказании релевантного понятия (Tonta, 1992), то есть полнотаиндексирования была недостаточной.Кроме того, данные других экспериментов по анализу неудач в информационномпоиске в 60-70-х годах обнаружили, что у неподготовленного пользователя имеютсяпроблемы с использованием нормализованных словарей (тезаурусов) и языков запросов,что приводит к большому количеству неудач поиска.
Большинство пользователей незнали роли нормализованных словарей в информационных системах, не понималиструктуру нормализованного индексирования и языков индексирования. Пользователипытались выразить свои запросы собственными словами, которые не совпадали сприписанными документу дескрипторами, что и вызывало неудачи поиска.Взаимодействие всех этих факторов приводит к тому, что серьезные усилия поразработке и ведению информационно-поисковых тезаурусов, обеспечению качественногоручного индексирования не привели к лучшим показателям информационного поиска посравнению с поиском по словам (Salton, 1986; Sparck Jones, 1981).
Вместе с тем, как мыувидим в разделе 1.6.3., использование комбинированных технологий, сочетающихпословный поиск и поисковые образы документов, содержащих дескрипторы тезауруса,приводит к значительному улучшению качества поиска.1.6. Информационно-поисковые тезаурусы в приложениях автоматическойобработки документов1.6.1. Автоматическое индексирование по информационно-поисковым тезаурусам.Поскольку основными элементамиинформационно-поискового тезаурусаявляются термины предметной области, описанные как дескрипторы и аскрипторы, томожет показаться, что сопоставление информационно-поискового тезауруса и документа41осуществить достаточно просто путем непосредственного сопоставления едиництезауруса с документами.Однако для большинства документов такое автоматическое сопоставление несможет отразить основное содержание документа:- важные термины документа могут быть не найдены в тезаурусе, посколькувыражены в нем несколько иначе,- менее значимые термины найдут прямое отражение в тезаурусе и выйдут напервый план и т.п.В работе (Pouliquen и др., 2003) приводятся данные, полученные на основе 587документов, проиндексированных вручную дескрипторами тезауруса EUROVOC.
Только31 процент документов явно содержит в тексте дескрипторы, приписанные документуиндексаторами. При этом в 9 из 10 случаев дескрипторы, найденные в тексте документа,не приписаны индексаторами.Поэтому исследуются более сложные методы автоматизации индексирования поинформационно-поисковым тезаурусам.В работе (Hlava, Heinebach, 1996) излагается подход к автоматическомуиндексированию по тезаурусу EUROVOC, основанному на правилах. Правила могут бытьпростыми и сложными.
Простые правила не содержат условий. Сложные правиласодержат такие условия как Близость (на расстоянии трех слов по тексту, в одномпредложении, в том же самом поле, например, поле реферата), Местонахождение (взаголовке, в тексте реферата или документа, начало предложения, конец предложения),Формат (с большой буквы, все большими буквами).Примеры сложных правил:IF (near "Technology" AND with "Development")USE Community programmeUSE development aidENDIFIF (near "Technology" AND with "Regional Innovation" AND with "Development")USE Community programmeUSE common regional policyUSE technology transferENDIFОсновная процедура создания сложных правил заключается в следующем:- создается множество простых правил, заключающихся в представлениидескрипторов и синонимов тезауруса EUROVOC в виде текстовых строк,- на основе простых правил обрабатываются документы Европейскогопарламента и автоматически полученные дескрипторы, сравниваются снаборами дескрипторов EUROVOC, проставленных в ручной работеиндексаторами.- простые правила, производящие слишком много шума, то есть проставляющиедескрипторы автоматически значительно чаще, чем ставят люди,преобразуются в сложные правила, путем снабжения их дополнительнымиусловиями.Всего было создано около 40 тысяч правил.При обработке текста отбираются 20 наиболее частотных дескрипторов,порожденных по документу, они и рассматриваются как автоматически приписанныедескрипторы.
Для оценки качества работы описанной системы автоматическогоиндексирования для разных типов документов проводилось сравнение с наборамидескрипторов, приписанных вручную. Приводятся данные, что было показано 42%полноты автоматического индексирования.42Архивы поисковых образов документов могут быть использованы для реализациистатистических методов автоматического индексирования по информационно-поисковымтезаурусам.В работе (Steinberger и др., 2000) автоматическое приписывание дескрипторовтезауруса EUROVOC полнотекстовым документам основывается на предварительномнахождении соответствия между словами документа и дескрипторами тезауруса на основестатистических мер (chi-square или log-likelihood) (Manning, Shutze, 1999).
Вессоответствия отдельного слова ключевому слову тем выше, чем выше совместнаячастотность использования данного слова и данного ключевого слова относительночастотности во всей коллекции.Например, дескриптору тезауруса FISHERY MANAGEMENT (управлениерыболовством) соответствуют следующие слова (в порядке убывания веса): fishery, fish,stock, fishing, conservation, management, vessel, и т.д.На второй стадии (собственно, индексирование) для каждого слова документапроверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторыимеются, то слово добавляет к весу дескриптора для данного текста натуральныйлогарифм веса, полученного на первом этапе. После обработки всех слов текущего текстаполучается суммированный вес дескрипторов тезауруса.Например, для Резолюции по правам языковых и культурных меньшинств вЕвропейском союзе были получены следующие дескрипторы (в порядке убывания веса).Community programme, Young person, cultural policy, CEEC, European Union и т.д.В статье (Pouliquen и др., 2003) для автоматического индексирования по тезаурусуEUROVOC процедура автоматического индексирования рассматривается как процедураопределения сходства векторов, один из которых вектор слова текста, а второй векторслов, ассоциированных с дескрипторами тезауруса, по одной из статистических мерсовместной встречаемости в документе и его поисковом образе (частотность,нормализованная частотность, log-likelihood).
Для процедуры сопоставления векторовиспользовались такие меры, как формула косинусов (Salton, 1989), формула OKAPI(Robertson и др., 1994), скалярного произведения (формула косинусов без нормализации),линейные комбинации этих формул.При сравнении результатов с дескрипторами, приписанными людьми для 6дескрипторов, получивших наиболее высокий вес, были получены следующиерезультаты: 46, 2 точность, 49,9 полнота, 48.0 F-мера (см. главу 13).Также в рамках этой работы был выполнен эксперимент по вторичномуиндексированию человеком. Было получено, что согласие между индексатораминаходилось в пределах 74-84 процентов для английских и испанских текстов.В работе (Montejo-Raez и др., 2004) задача приписывания документамдескрипторов информационно-поискового тезауруса рассматривается как задачаавтоматической рубрикации, в которой рубрикатором является набор дескрипторовтезауруса. Предлагается использовать подходы машинного обучения, при которых вкачествеположительныхпримеров приписывания конкретного дескрипторарассматриваются документы, к которому индексаторы приписали этот дескриптор, и какотрицательные примеры, документы, к которым данный дескриптор не приписан.Эксперименты проводились на коллекции рефератов по ядерной физике,использовался тезаурус DESY (http://www-library.desy.de/schlagw2.html).1.6.2.
Проблема вариантности терминов и автоматическое индексированиеЧасть проблем с сопоставлением терминов тезауруса и текста связана с тем, что втексте они употреблены в несколько иной форме (термин разбит дополнительным словом,употреблена однородная конструкция и т.п.), поэтому многими исследователями делаютсяусилия найти наиболее эффективные способы автоматического сопоставления тезауруса идокумента (Большакова, Васильева, 2008; Bolshakova, 2004).43Авторы статьи (Nenadic и др., 2004) классифицируют вариантность терминов наследующие 5 групп:- орфографические варианты – использование пробелов или дефисов,орфографические варианты (tumour – tumor), разная (латинская или греческая)транскрипция (oestrogen vs. Estrogen),- морфологические и словообразовательные варианты: cellular gene - cell gene;- лексические варианты - включают лексические синонимы - carcinoma –cancer;- структурные варианты – посессивное использование существительных илииспользование существительных с предлогом (clones in human – human clones))варианты предлогов (cell in blood cell from blood), использованиесочинительных конструкций (adrenal glands and gonads);- аббревиатуры (DNA – deoxyribonucleic acid).В статье (Jacquemin, Tzoukermann, 1999) описывается система Fastr, котораяпозволяет находить в тексте варианты терминов информационно-поискового тезауруса.Система содержит набор правил, описывающих совокупность трансформаций,которые могут происходить с терминами ИПТ в реальных текстах.Эти трансформации делятся на два класса: синтаксические вариации иморфосинтаксические вариации.Синтаксические трансформации включают следующие виды:- слабые синтаксические вариации, при которых происходит замена предлогавнутри термина (drying by vacuum, drying under vacuum) или включениеопределителей: артиклей или указательных местоимений (milk from cows – milkfrom these cows);- вариация включения, когда прилагательное или наречие помещаются внутритермина.