Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 11

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 11 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 112020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 11)

Дескрипторов 1-го уровня обычно не более 5.Дескрипторы 2-го уровня коррелируют с фактором полноты индексирования,обычно повышают полноту поиска, отражают большую специфичность и показываютнесколько аспектов основной темы.Таким образом, мы видим, что ручное индексирование документов поинформационно-поисковому тезаурусу является сложной процедурой, требующей оченьхорошего знания структуры и состава тезауруса.Серьезной проблемой ручного индексирования является также субъективность,непоследовательность индексирования: один индексатор может поставить в соответствиетексту дескриптор более низкого уровня, другой - дескриптор более высокого уровня.Кроме того, определенную сложность представляет собой последовательный учеттематической структуры связного текста: один индексатор может счесть обсуждаемое вкаком-то фрагменте текста важным и отразить в приписываемых ключевых словах илидескрипторах тезауруса, другой индексатор для того же или похожего текста посчитаетэту «локальную тему» неважной и не отразит ее в терминах индексирования.В результате исследований, проходивших в рамках известного Крэнфилдскогоэксперимента в начале 60-х годов, было показано, что значимый процент неудач поискасвязан с неправильным индексированием документа, что до трети неудач поиска можнобыло бы избежать, если бы индексаторы индексировали последовательным образом.Точнее, индексаторы допускали ошибку в каждых пяти документах их ста, и эта ошибкаобычно состояла в неуказании релевантного понятия (Tonta, 1992), то есть полнотаиндексирования была недостаточной.Кроме того, данные других экспериментов по анализу неудач в информационномпоиске в 60-70-х годах обнаружили, что у неподготовленного пользователя имеютсяпроблемы с использованием нормализованных словарей (тезаурусов) и языков запросов,что приводит к большому количеству неудач поиска.

Большинство пользователей незнали роли нормализованных словарей в информационных системах, не понималиструктуру нормализованного индексирования и языков индексирования. Пользователипытались выразить свои запросы собственными словами, которые не совпадали сприписанными документу дескрипторами, что и вызывало неудачи поиска.Взаимодействие всех этих факторов приводит к тому, что серьезные усилия поразработке и ведению информационно-поисковых тезаурусов, обеспечению качественногоручного индексирования не привели к лучшим показателям информационного поиска посравнению с поиском по словам (Salton, 1986; Sparck Jones, 1981).

Вместе с тем, как мыувидим в разделе 1.6.3., использование комбинированных технологий, сочетающихпословный поиск и поисковые образы документов, содержащих дескрипторы тезауруса,приводит к значительному улучшению качества поиска.1.6. Информационно-поисковые тезаурусы в приложениях автоматическойобработки документов1.6.1. Автоматическое индексирование по информационно-поисковым тезаурусам.Поскольку основными элементамиинформационно-поискового тезаурусаявляются термины предметной области, описанные как дескрипторы и аскрипторы, томожет показаться, что сопоставление информационно-поискового тезауруса и документа41осуществить достаточно просто путем непосредственного сопоставления едиництезауруса с документами.Однако для большинства документов такое автоматическое сопоставление несможет отразить основное содержание документа:- важные термины документа могут быть не найдены в тезаурусе, посколькувыражены в нем несколько иначе,- менее значимые термины найдут прямое отражение в тезаурусе и выйдут напервый план и т.п.В работе (Pouliquen и др., 2003) приводятся данные, полученные на основе 587документов, проиндексированных вручную дескрипторами тезауруса EUROVOC.

Только31 процент документов явно содержит в тексте дескрипторы, приписанные документуиндексаторами. При этом в 9 из 10 случаев дескрипторы, найденные в тексте документа,не приписаны индексаторами.Поэтому исследуются более сложные методы автоматизации индексирования поинформационно-поисковым тезаурусам.В работе (Hlava, Heinebach, 1996) излагается подход к автоматическомуиндексированию по тезаурусу EUROVOC, основанному на правилах. Правила могут бытьпростыми и сложными.

Простые правила не содержат условий. Сложные правиласодержат такие условия как Близость (на расстоянии трех слов по тексту, в одномпредложении, в том же самом поле, например, поле реферата), Местонахождение (взаголовке, в тексте реферата или документа, начало предложения, конец предложения),Формат (с большой буквы, все большими буквами).Примеры сложных правил:IF (near "Technology" AND with "Development")USE Community programmeUSE development aidENDIFIF (near "Technology" AND with "Regional Innovation" AND with "Development")USE Community programmeUSE common regional policyUSE technology transferENDIFОсновная процедура создания сложных правил заключается в следующем:- создается множество простых правил, заключающихся в представлениидескрипторов и синонимов тезауруса EUROVOC в виде текстовых строк,- на основе простых правил обрабатываются документы Европейскогопарламента и автоматически полученные дескрипторы, сравниваются снаборами дескрипторов EUROVOC, проставленных в ручной работеиндексаторами.- простые правила, производящие слишком много шума, то есть проставляющиедескрипторы автоматически значительно чаще, чем ставят люди,преобразуются в сложные правила, путем снабжения их дополнительнымиусловиями.Всего было создано около 40 тысяч правил.При обработке текста отбираются 20 наиболее частотных дескрипторов,порожденных по документу, они и рассматриваются как автоматически приписанныедескрипторы.

Для оценки качества работы описанной системы автоматическогоиндексирования для разных типов документов проводилось сравнение с наборамидескрипторов, приписанных вручную. Приводятся данные, что было показано 42%полноты автоматического индексирования.42Архивы поисковых образов документов могут быть использованы для реализациистатистических методов автоматического индексирования по информационно-поисковымтезаурусам.В работе (Steinberger и др., 2000) автоматическое приписывание дескрипторовтезауруса EUROVOC полнотекстовым документам основывается на предварительномнахождении соответствия между словами документа и дескрипторами тезауруса на основестатистических мер (chi-square или log-likelihood) (Manning, Shutze, 1999).

Вессоответствия отдельного слова ключевому слову тем выше, чем выше совместнаячастотность использования данного слова и данного ключевого слова относительночастотности во всей коллекции.Например, дескриптору тезауруса FISHERY MANAGEMENT (управлениерыболовством) соответствуют следующие слова (в порядке убывания веса): fishery, fish,stock, fishing, conservation, management, vessel, и т.д.На второй стадии (собственно, индексирование) для каждого слова документапроверяется, каким дескрипторам тезауруса оно соответствует. Если такие дескрипторыимеются, то слово добавляет к весу дескриптора для данного текста натуральныйлогарифм веса, полученного на первом этапе. После обработки всех слов текущего текстаполучается суммированный вес дескрипторов тезауруса.Например, для Резолюции по правам языковых и культурных меньшинств вЕвропейском союзе были получены следующие дескрипторы (в порядке убывания веса).Community programme, Young person, cultural policy, CEEC, European Union и т.д.В статье (Pouliquen и др., 2003) для автоматического индексирования по тезаурусуEUROVOC процедура автоматического индексирования рассматривается как процедураопределения сходства векторов, один из которых вектор слова текста, а второй векторслов, ассоциированных с дескрипторами тезауруса, по одной из статистических мерсовместной встречаемости в документе и его поисковом образе (частотность,нормализованная частотность, log-likelihood).

Для процедуры сопоставления векторовиспользовались такие меры, как формула косинусов (Salton, 1989), формула OKAPI(Robertson и др., 1994), скалярного произведения (формула косинусов без нормализации),линейные комбинации этих формул.При сравнении результатов с дескрипторами, приписанными людьми для 6дескрипторов, получивших наиболее высокий вес, были получены следующиерезультаты: 46, 2 точность, 49,9 полнота, 48.0 F-мера (см. главу 13).Также в рамках этой работы был выполнен эксперимент по вторичномуиндексированию человеком. Было получено, что согласие между индексатораминаходилось в пределах 74-84 процентов для английских и испанских текстов.В работе (Montejo-Raez и др., 2004) задача приписывания документамдескрипторов информационно-поискового тезауруса рассматривается как задачаавтоматической рубрикации, в которой рубрикатором является набор дескрипторовтезауруса. Предлагается использовать подходы машинного обучения, при которых вкачествеположительныхпримеров приписывания конкретного дескрипторарассматриваются документы, к которому индексаторы приписали этот дескриптор, и какотрицательные примеры, документы, к которым данный дескриптор не приписан.Эксперименты проводились на коллекции рефератов по ядерной физике,использовался тезаурус DESY (http://www-library.desy.de/schlagw2.html).1.6.2.

Проблема вариантности терминов и автоматическое индексированиеЧасть проблем с сопоставлением терминов тезауруса и текста связана с тем, что втексте они употреблены в несколько иной форме (термин разбит дополнительным словом,употреблена однородная конструкция и т.п.), поэтому многими исследователями делаютсяусилия найти наиболее эффективные способы автоматического сопоставления тезауруса идокумента (Большакова, Васильева, 2008; Bolshakova, 2004).43Авторы статьи (Nenadic и др., 2004) классифицируют вариантность терминов наследующие 5 групп:- орфографические варианты – использование пробелов или дефисов,орфографические варианты (tumour – tumor), разная (латинская или греческая)транскрипция (oestrogen vs. Estrogen),- морфологические и словообразовательные варианты: cellular gene - cell gene;- лексические варианты - включают лексические синонимы - carcinoma –cancer;- структурные варианты – посессивное использование существительных илииспользование существительных с предлогом (clones in human – human clones))варианты предлогов (cell in blood cell from blood), использованиесочинительных конструкций (adrenal glands and gonads);- аббревиатуры (DNA – deoxyribonucleic acid).В статье (Jacquemin, Tzoukermann, 1999) описывается система Fastr, котораяпозволяет находить в тексте варианты терминов информационно-поискового тезауруса.Система содержит набор правил, описывающих совокупность трансформаций,которые могут происходить с терминами ИПТ в реальных текстах.Эти трансформации делятся на два класса: синтаксические вариации иморфосинтаксические вариации.Синтаксические трансформации включают следующие виды:- слабые синтаксические вариации, при которых происходит замена предлогавнутри термина (drying by vacuum, drying under vacuum) или включениеопределителей: артиклей или указательных местоимений (milk from cows – milkfrom these cows);- вариация включения, когда прилагательное или наречие помещаются внутритермина.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее