Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 12
Текст из файла (страница 12)
Также допускается вставка в термин более сложнойпоследовательности слов: Legislation in production – legislation in certain areas ofproduction;- вариации координации, при которой внутрь термина вставляется фрагментсочинительной конструкции (transfer of energy – transfer of mass and energy).Морфо-синтаксические вариации включают случаи, когда хотя бы одно словотермина перешло в другую часть речи, и одновременно возможно произошласинтаксическая вариация. Различаются четыре вида таких вариаций:- переход прилагательного в существительное,- переход существительного в прилагательное,- переход существительного в однокоренное существительное,- переход существительного в глагол.Проведенные эксперименты показали 78% точности распознавания исходныхтерминов в случае синтаксических вариаций.
Оценка морфосинтаксических вариацийпоказала, что их точность значительно меньше и составляет 54.7 % точности. Такимобразом, естественной платой за более гибкое сопоставление дескрипторов тезауруса сдокументами является снижение точности распознавания единиц тезауруса.Авторы работы (Nenadic и др., 2004) пишут об улучшении качества извлечениятерминов на базе учета орфографических и морфологических вариантов, аббревиатур, иуказывают на проблемы работы с предложными и сочинительными конструкциями,поскольку среди предложных конструкций имеется множество нетерминологическихконструкций, что увеличивает шум при извлечении терминов, а нормализациясочинительных конструкций порождает множество лишних вариантов.441.6.3. Сочетание свободных запросов и запросов наоснове информационно-поисковых тезаурусовВ настоящее время в мире существует достаточно много информационных систем,предоставляющих пользователям как возможности поиска информации по свободномузапросу на естественном языке, так и с помощью дескрипторов информационнопоисковых тезаурусов, сопоставленных документам профессиональным индексаторами.Одним из направлений использования поисковых образов документов являетсяпривлечение этой информации при обработке свободных запросов пользователей,сформулированных на естественном языке.
Первым шагом на таком пути может бытьнахождение корреляций между словами документов и дескрипторами тезауруса илирубриками рубрикатора, подобно описанным в разделе 1.6.1. (Plaunt, Norgard, 1998).Появление таких корреляций дает возможность при обработке свободного запросапользователя определить наиболее соответствующие этому запросу рубрики и/илидескрипторы и предложить их пользователю, который может тем или иным образомвключить их в запрос.
Например, можно сложить веса дескрипторов (рубрик),соответствующих каждому слову запроса и получить упорядоченный список наиболеерелевантных запросу дескрипторов (рубрик) (French и др., 2002).Так, если пользователь ищет по запросу струйные принтеры в информационнойсистеме, в которой документы прорубрицированы по американскому рубрикатору«Стандартная промышленная классификация», то такая обработка запроса позволитпоказать наиболее соответствующие запросу рубрики такие как,3579 Офисная техника и детали3825 Инструменты для измерения и тестирования электричества и сигналов2893 Чернила для принтеров.Тезаурусные поисковые образы документов могут быть использованы и дляавтоматического расширения свободного запроса пользователя дескрипторами тезауруса(Petras 2004; Petras 2005).Описанные в работе эксперименты проводились на двуязычной коллекциинемецких и английских документов по общественным наукам.
База содержит более 150тысяч немецких документов и 26 тысяч английских документов. Документыреферативного характера содержат заголовок публикации, реферат и дескрипторыТезауруса по общественным наукам (Schott, 2000), приписанных индексаторами.Эксперименты выполнялись в рамках предметно-ориентированного задания форума помногоязыковым информационным системам CLEF (Kluck, 2003).Для каждого слова запроса выявлялись два наиболее коррелирующих с этимсловом дескриптора тезауруса и добавлялись в запрос.
Было получено, что в этом случаеисходные показатели эффективности поиска для 25 запросов (средняя точность – см. п.11.2) возросла с 0.4547 до 0.5144, то есть более чем на 13 процентов для немецкого языка,и с 0.4513 до 0.4818 для английского языка.1.7. Почему традиционный информационно-поисковый тезаурус сложноиспользовать как ресурс для автоматической обработки текстов в задачахинформационного поискаОсновной целью разработки традиционных информационно-поисковых тезаурусовявляется использование их единиц (дескрипторов) для описания основных темдокументов в процессе ручного индексирования. При этом сам процесс индексированияпо такому тезаурусу базируется на лингвистических, грамматических знаниях, а такжезнаниях о предметной области, которые имеются у профессиональных индексаторовтекстов. Индексатор сначала должен прочитать текст, понять его и затем изложить45содержание текста, пользуясь дескрипторами, указанными в информационно-поисковомтезаурусе.
Индексатор должен хорошо понимать всю терминологию, использованную втексте, - для описания основной темы текста ему понадобится значительно меньшееколичество терминов.При автоматической обработке текстов человека-посредника между текстом иописанием его содержания в виде дескрипторов нет. Есть только автоматический процесси Тезаурус, который должен содержать и те знания, которые содержатся в традиционныхинформационно-поисковых тезаурусах, и те знания (насколько это возможно), которыеиспользует индексатор для определения основной темы текста.Таким образом, информационно-поисковый тезаурус, предназначенный дляавтоматической обработки текстов, должен содержать значительно больше информации оязыке предметной области.
Кроме того, отношения между терминами, указанные втезаурусе, должны быть значительно более формализованы для использования их вавтоматических режимахВ следующих разделах мы рассмотрим эти проблемы подробнее.Наибольшая часть примеров, приводимых нами в следующих разделах, будетосновываться на тезаурусе EUROVOC. Мы рассматриваем этот тезаурус как типичныйпример информационно-поискового тезауруса, при разработке которого многие решенияобусловлены направленностью на ручное индексирование документов и удобством длячеловека-индексатора, и, по большей мере, наш выбор этого тезауруса как источникапримеров обусловлен следующими обстоятельствами:- тезаурус EUROVOC – это рабочий инструмент информационных службпарламентов европейских государств;- имеется русскоязычный перевод тезауруса, что позволяет использоватьрусскоязычные эквиваленты дескрипторов как примеры;- тезаурус EUROVOC – это один из немногих тезаурусов, который реальноиспользуется для ручного индексирования документов в настоящее время вРоссии.1.7.1.
Нехватка информации о языке предметной областиНехватка информации о языке предметной области в информационно-поисковыхтезаурусах проявляется несколькими разными способами.Во-первых, как мы указывали в разделах 1.1.1 и 1.5, некоторые дескрипторыснабжены подробными правилами их использования, которые предназначаются дляиндексаторов и наличие этих правил говорит о том, что в текстах предметной области теже термины употребляются по-другому. Так, в разделе 1.5.
указывалось, что документможет относиться к статистическим данным, но дескриптор STATISTICAL DATAтезауруса UNBIS используется только, когда документ действительно используетстатистические данные, а не просто упоминает их.Во-вторых, как указывалось в разделе 1.3., разработчики тезаурусов предпочитаютне включать в синонимичные ряды дескрипторов синонимы, которые являютсяочевидными для человека, однако для компьютера эти варианты должны бытьобозначены.Так, например, дескриптор ОХРАНА ОКРУЖАЮЩЕЙ СРЕДЫ помимо указанныхв тезаурусе EUROVOC вариантов и синонимов может быть выражен также следующимисловами и терминами, не описанными в тезаурусе, но встречающимися в текстахроссийских правовых актов: защита природы, природозащитный, природоохранный,природоохранительный (меры, деятельность, процесс); дескриптор ОХРАНА ЛЕСОВ защита лесов, защита лесного фонда, лесозащитный (деятельность, мероприятия),лесоохрана, лесоохранный; дескриптор СУДЕБНЫЕ РАСХОДЫ – судебные издержки,дескриптор РАСХОДЫ НА ОБОРОНУ – оборонные расходы, военные расходы, военныйбюджет, оборонный бюджет и еще сотни примеров.46В третьих, как также указывалось в разделе 1.3., разработчики тезаурусов в своемизложении иерархии понятий стараются остановиться на достаточно высоком уровнеиерархии и не включать более конкретные термины.Так, в тезаурусе EUROVOC отсутствуют такие конкретные термины как минтай,солдаты, пшеница.
Между тем, например, среди законодательных документов широкопредставлены такие документы, в которых обсуждается минтай, но нет слова рыба,обсуждаются солдаты, но нет слова военнослужащий, обсуждается пшеница, но нет словазерно и многие другие подобные примеры. Такие тексты не могут быть проиндексированыправильно из-за нехватки информации в тезаурусе.Наконец, в традиционном информационно-поисковом тезаурусе не указананеоднозначность некоторых терминов, описанных в тезаурусе только в одном иззначений, что несущественно для человека-индексатора, но необходимо дляавтоматической обработки.Примеры неоднозначных терминов тезауруса, включенных в русскую версиюEUROVOC в одном значении, таковы: кожа (как кожевенная продукция и кожа человека),печать (как СМИ, как штамп, как процесс печатания), питание (еда и электрическоепитание), корма (питание животных и часть корабля), образование (как обучение и каксоздание чего-либо).
Средства описания и работы с многозначностью лексикинеобходимы для любого ресурса, использующегося для автоматической обработкитекстовДля преодоления различий между реальными текстами и информационнопоисковыми тезаурусами при автоматическом индексировании необходимо применятьалгоритмы, подобные описанным в разделе 1.6.1. Однако нужно отметить, что такаяпроцедура автоматического индексирования является по сути процедурой автоматическойрубрикации по сверхбольшому рубрикатору, качественная реализация которойчрезвычайно сложна (см.
главу 13).1.7.2. Использование отношений между дескрипторами вавтоматическом режимеАвтоматическое индексирование предполагает и автоматизацию поиска, то естьпоиск с автоматическим расширением запроса. Рассмотрим проблемы автоматическогоприменения отношений между дескрипторами тезауруса на примере тезаурусаEUROVOC.Традиционно исследователи (Tudhope, Taylor, 1997; Chen и др., 1993) указывают напроблемы использования отношения ассоциации при автоматическом расширениизапросов. Действительно, и в тезаурусе EUROVOC можно найти многочисленныепримеры ассоциативных отношений, на которые невозможно уверенно опереться приавтоматическом расширении запроса:ОХРАНА ДЕТСТВААСЦПРОСТИТУЦИЯИщем тексты о детях, получаем тексты о проституции, из которых лишь некоторыео детях.