Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf), страница 3
Описание файла
PDF-файл из архива "Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 3 страницы из PDF
Нехватказнаний приводит к снижению качества при автоматической фильтрации и рубрикациидокументов, к излишним повторам или нарушению связности при автоматическоманнотировании и др.Еще одним типом обычно не достаточно используемых лингвистических знаний вприложениях информационного поиска является неучет структурных свойств связноготекста. Как известно, связный текст имеет сложную иерархическую структуру.Существенным проявлением связности текста является так называемая глобальнаясвязность текста, когда в тексте имеется одна главная тема, а вся остальная информацияподчинена изложению этой основной темы.
Одним из проявлений глобальной связноститекста является его лексическая связность, когда в тексте содержится множество близкихпо смыслу слов и выражений. Между тем подавляющее большинство подходоврассматривает текст как совокупность независимых друг от друга слов,характеризующихся частотностью встречаемости в документе и коллекции.В настоящее время знания о языке и мире описываются в таких компьютерныхресурсах как онтологии и тезаурусы. Однако на практике применение тезаурусов ионтологий в промышленных информационных системах, основанных на автоматическойобработке текстов, не слишком распространено.Такая ситуация связана с целым рядом обстоятельств.Во-первых, если предлагается использовать некоторый лингвистический ресурс, тоон должен включать описания десятков тысяч слов и словосочетаний. Процент ошибокресурса должен быть настолько мал, чтобы не испортить возможные улучшения,получаемые от применения этого ресурса.
При этом нужно понимать, что ведение любоголингвистического ресурса всегда будет отставать от развития предметной области, то естьдаже наиболее качественный лингвистический ресурс будет всегда неполон.Во-вторых, применение тезаурусов и онтологий в информационном поиске требуетвысокого качества разрешения многозначности слов текста. Однако тестирование12качества разрешения лексической многозначности, проводимых наконференцияхSemEval и Senseval, показало, что качество разрешения многозначности для всехмногозначных слов текста пока не достигает уровня, достаточного для эффективногоприменения тезаурусов и онтологий в приложениях информационного поиска.В-третьих, применение отношений тезауруса или онтологии для расширениязапросов может столкнуться с проблемой неточно описанных отношений или отношений,которые не соответствуют контексту запроса.
Применение таких отношений часто ведет кзначительному снижению точности поиска. Так, в последнее время глобальные поисковыесистемы Яндекс и Google стали активно применять расширение запросов однокореннымисловами, что может рассматриваться как минимальный тезаурус, но во многих случаяхдаже такое минимальное расширение запроса может оказаться нерелевантным.Наконец, существует мнение, что применяемые статистические методыимплицитно учитывают лингвистическую информацию, что текст – это лишь наборхарактеристик (features), которые хорошо учитываются статистическими моделями. Вкачестве примеров моделирования лингвистических подходов статистическими методамиХелен Ворхес (Voorhees, 1999) приводит следующие примеры: морфологический анализможет быть приближен стеммингом, извлечение словосочетаний - выявлением частовстречающихся пар слов, процедуры разрешения многозначности могут бытьсмоделированы мерами сходства контекстов.Вместе с тем, как показали эксперименты в рамках конференции поинформационному поиску TREC и семинаре «Надежный доступ к информации» (ReliableInformation Access), проведенном в 2003 году, существуют типы запросов к поисковымсистемам, которые являются сложными для современных технологий информационногопоиска и, следовательно, качество поиска по этим запросам достаточно низкое.
Средипотенциальных методов, которые могли бы улучшить выдачу поисковых систем по такимзапросам, указывались методы расширения запросов, в том числе, и с использованиемспециальных ресурсов – тезаурусов.При поиске в отличных от Интернета коллекциях документов, таких какпрофессиональные информационные базы, внутрикорпоративные ресурсы, отличающиесяотносительно небольшим (по сравнению с Интернет) размером, возможностьнесоответствия языка запроса и языка документов считается достаточно серьезнойпроблемой.Таким образом, важным является вопрос о том, каково должно быть внутреннееустройство лингвистических ресурсов, содержащих знания о понятиях, терминах,значениях языковых выражений в широких предметных областях, которые не только быне ухудшали характеристики информационного поиска, а, напротив, сделали его болеесодержательным.
Кроме того, необходимо понять, каким образом описанные влингвистических ресурсах знания могут быть встроены в современные моделиинформационного поиска.Рассмотрим основные направления использования разного рода лингвистических итерминологических ресурсов в информационном поиске.Как известно, в 1960 – 1980е годы в информационном поиске активноиспользовались так называемые информационно-поисковые тезаурусы, которыепредназначались для описания содержания документов нормализованными ключевымисловами в процессе ручного индексирования людьми-индексаторами.В то время большинство информационных систем не являлись полнотекстовыми, ахранили достаточно ограниченный набор информации о документе: библиографическиеданные, реферат. Добавление списка ключевых слов, характеризующих основноесодержание документа, существенно расширяло возможности поиска документов.
Сначала семидесятых годов создаются национальные и международные стандартыразработки информационно-поисковых тезаурусов.13Появление полнотекстовых информационно-поисковых систем, а такжевозможностей поиска по всем словам текста с помощью методов ранжированногоинформационного поиска значительно снизило значимость разработки и использованияинформационно-поисковых тезаурусов, поскольку давало возможность поиска текстанеподготовленному пользователю в любых предметных областях без дополнительныхпосредников в виде специально разработанных тезаурусов и профессиональныхиндексаторов.Многочисленные исследования по определению эффективности различныхметодов представления документов при информационном поиске показали, чтоэффективность пословного индексирования сравнима с эффективностью поиска,использующего ручное индексирование по качественному информационно-поисковомутезаурусу (Salton, 1986; Sparck Jones, 1981), для создания которого нужно было ещезатратить достаточно много средств и усилий,а, кроме того, нужно было ещеосуществлять качественное ручное индексирование документов по этому тезаурусу.Действительно, использование хорошо разработанного тезауруса при ручноминдексировании должно снимать проблемы синонимии, близких понятий,многозначности.
Однако при этом могут возникнуть существенные различия междупонятиями, используемыми в тезаурусе, и информационной потребностью пользователя,когда пользователю трудно сформулировать описание нужных ему текстов посредствомпонятий тезауруса, или тезаурус действительно не содержит адекватных понятий. В этихслучаях пословное индексирование имеет преимущество из-за больших выразительныхвозможностей в том смысле, что пользователь может сформулировать запрос наестественном языке без всяких дополнительных ограничений.Кроме того, при ручном индексировании серьезную проблему составляет факторсубъективности, когда приписывание тексту терминов тезауруса зависит от умения иопыта индексаторов, от количества текстов, которые необходимо проиндексировать и т.п.Тем не менее, и в настоящее время существуют информационные службы,имеющие и разрабатывающие информационно-поисковые тезаурусы, а также имеющиештат профессиональных индексаторов, индексирующих документы на основе тезаурусов.Примерами таких организаций являются Исследовательская служба Конгресса США,индексирующая по тезаурусу Legislative Indexing Vocabulary, Продовольственная иСельскохозяйственная организация при ООН (ФАО), которая развивает тезаурусAGROVOC, службы Европейского сообщества, использующие для индексированияЕвропейского законодательства тезаурус EUROVOC.
Деятельность таких служб наиболееблизка к библиотечной деятельности, в рамках которой книги и документыклассифицируются по библиотечным классификаторам типа УДК.Происходит и процесс обновления стандартов разработки тезаурусов. Так,например, американский национальный стандарт по разработке и ведениюконтролируемых словарей Z39.19 последний раз обновлялся в 2003 году.Современные стандарты разработки и использования информационно-поисковыхтезаурусов четко ограничивают сферу их применения. Так, например, международныйстандарт по разработке одноязычных тезаурусов (ISO 2788) указывает, что стандартдолжен применяться в организациях, имеющих людей-индексаторов, которыеанализируют содержание документов и описывают основные темы документов спомощью терминов тезауруса. «Применение стандарта не предполагает его применение втех организациях, которые используют полностью автоматические методыиндексирования».Возникает вопрос, почему существующая парадигма разработки информационнопоисковых тезаурусов не дает возможности использовать созданные ресурсы вавтоматических режимах индексирования текста.