Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 66
Текст из файла (страница 66)
При этом для каждогоконкретного многозначного слова достаточно трудно предсказать, существуют ли для егозначений однозначные синонимы-словосочетания. Их существование приходитсяпроверять по текстовым корпусам и в сети Интернет.Поскольку владение такими синонимами-словосочетаниями кажется значимымфактором при автоматическом разрешении многозначности, то мы, разрабатывая Тезаурусрусского языка РуТез, предназначенный для автоматической обработки текстов,специально ищем такие однозначные словосочетания и добавляем их в синонимическиеряды соответствующих значений. Критерием добавления служит нахождение более 100интернет-страниц, в которых упомянуто такое словосочетание.-16.6.4.
Описание многозначности языковых единиц в тезаурусе РуТезВ Тезаурусе РуТез существуют два основных способа представления значениймногозначных терминов.Первым способом представления многозначности является задание одного и тогоже текстового входа разным понятиям тезауруса (М-многозначность). Так, например,текстовый вход пилот сопоставлен двум разным понятиям понятию ЛЕТЧИК и понятиюАВТОГОНЩИК.Такое представление используется для задания разных видов лексическоймногозначности:- омонимии: слово брак соответствует таким понятиям как СУПРУЖЕСТВО иПРОИЗВОДСТВЕННЫЙ БРАК,- терминов из разных предметных областей: слово прокат соответствует такимпонятиям как ПРОКАТНОЕ ПРОИЗВОДСТВО (металлургия), КИНОПРОКАТ(кинематография), ПРОКАТ ИМУЩЕСТВА (аренда).- метонимии: слово балет относится к таким понятиям как БАЛЕТНОЕИСКУССТВО (развитие балета), БАЛЕТНЫЙ СПЕКТАКЛЬ (смотретьбалет), БАЛЕТНАЯ ТРУППА (приезд балета).
Отметим, что обычно понятия,которым соответствует один и тот же текстовый вход, образованный на основеявления метонимии, связаны между собой тезаурусными отношениями.- метафоры: слово сотовый соответствует понятиям СОТОВАЯ СВЯЗЬ иПЧЕЛИНЫЕ СОТЫ.Второй способ представления многозначности используется в тех случаях, когдаслово представлено в Тезаурусе в одном значении, но если известно, что оно можетупотребляться и в других значениях в целевых текстах, то ему ставится специальнаяпометка многозначности (А-многозначность).Например, для слова уклонист – Большой толковый словарь дает толкование: тот,кто уклоняется от участия в чем-либо.
Однако в текстах современной деловой прозыимеется практически единственное употребление в смысле «уклонист от призыва в245армию». В таких случаях можно помещать слово уклонист как текстовый вход ксоответствующему понятию с пометкой многозначности: превалирующее значениеотражено, а при появлении этого слова в другом контексте, соответствующее понятиевыводиться не будет.Пометка многозначности часто используется для отметки географическихназваний, которые могут совпадать с фамилиями и именами людей, сокращениями и др.,например, Львов (город), Владимир (город), Павлово (город в Нижегородской области).В настоящее время тезаурус РуТез содержит более 15 тысяч многозначных единиц,из них для более 11 тысяч слов представлено несколько значений (М-многозначность),многозначность остальных отмечена пометкой.В составе Общественно-политического тезауруса насчитывается около 6.5 тысячмногозначных терминов. Для 2204 терминов представлено два и более значений.В качестве примера покрытия газетного текста единицами тезауруса РуТез иОбщественно-политического тезауруса рассмотрим следующий фрагмент статьи из«Независимой газеты» от 23 ноября 2003 года под названием «Первый бриллиантАлександра Волошина»:В понедельник на сцене Большого театра сверкали "Бриллиантыамериканского балета".
Концерт был посвящен 70-летию установлениядипломатических отношений между Россией и США. В зале сидели всемыслимые и немыслимые дипломаты с обеих сторон. В этот вечер спектакльразыгрывался по обе стороны рампы, точнее, оркестровой ямы. И второй, надосказать, был ничуть не менее захватывающим. Пока на сцене звездыамериканского балета показывали чудеса хореографической техники, впротивоположной стороне партера, в царской ложе, светила другая, кудаболее загадочная звезда.Полужирным шрифтом выделены слова, которые включены в качестве единиц втезаурус РуТез. Видно, что практически вся содержательная лексика включена в анализ.Подчеркнутые слова входят в тематический подтезаурус – Общественнополитический тезаурус.
Фрагмент содержит группы единиц тезауруса, относящихся кзрительному залу: сцена, зал, рампа, оркестровая яма, ложа, партер, а также кискусству: концерт, балет, Большой театр, хореографический, что дает возможностьиспользования этой информации для разрешения многозначности.Относительно Общественно-политического тезауруса фрагмент содержит 25тезаурусных единиц, из них 15 многозначных. Такие слова, как звезда (небесное тело),техника (техническое устройство), зал (общественное помещение), партер (зрительногозала) представляют пример А-многозначности, то есть их другие значения не входят всостав Общественно-политического тезауруса, а многозначность отмечена толькоспециальной пометкой.Относительно Тезауруса РуТез все многозначные слова имеют М-многозначность,за исключением слова партер, другие значения которого на момент обработки еще небыли описаны.Заключение к главе 16.Развивая тезаурус РуТез как лингвистическую онтологию, мы пытаемся следоватьдвум, вообще говоря, противоречивым критериям.С одной стороны, мы формируем понятия тезауруса максимально близко кзначениям языковых выражений, поскольку считаем, что чрезмерное обобщение,кластеризация значений ведет к искажению системы отношений, проблемам вприложениях автоматической обработки текстов.С другой стороны, мы стараемся, чтобы понятие тезауруса было действительнопонятием, то есть было отличимо от близких по смыслу понятий.246Во многих случаях использованием реально существующих многословныхвыражений позволяет нам смягчить эти противоречивые требования.
Введение понятия набазе значения многословного выражения не меняет суть лингвистической онтологии, ново многих случаях позволяет ввести более отчетливо отделимые понятия.Использование в качестве единиц тезауруса таких отличимых понятий позволяетединым образом представлять лексические значения литературного языка и значениятерминов предметной области, более последовательно описывать систему отношениймежду понятиями и тем самым облегчает формальный вывод на отношениях.Для понятия онтологии, которое четко отделимо от других близких понятий,значительно легче найти эквивалентные названия на языках, отличных от исходногоязыка лингвистической онтологии. Таким образом, хорошо отличимые понятия делаютлингвистическую онтологию более языково-независимой.
В то же время учет переводныхэквивалентов в других языках позволяет лучше увидеть недостаточную отделимостьпонятий лингвистической онтологии.Онтологические синонимы, то есть текстовые выражения, сопоставленные одномуи тому же понятию, не всегда являются синонимами в том смысле, что не всегдавозможны замены в предложении одного онтологического синонима на другой,сохраняющие грамматическую правильность и логическую истинность предложения.Однако онтологические синонимы понятия должны быть эквивалентны относительноотношений этого понятия с другими понятиями тезауруса.
Как показала практика,нарушение этого принципа, неаккуратное объединение языковых выражений в рамкахряда онтологических синонимов, рано или поздно проявляет себя в ошибках приавтоматической обработке текстов, рано или поздно находится приложение, для которогонеучтенное различие языковых выражений оказывается существенным.Ряды онтологических синонимов формируются с максимальной степеньюподробности. Эквивалентность некоторых типов словосочетаний может показатьсячеловеку очевидной, однако практически нет правил, которые работают со стопроцентнойточностью. Некоторые словосочетания, полученные в результате «очевидных»трансформаций, почему-то в реальности не употребляются, другие употребляются совсемв другом смысле, чем исходное словосочетание.Онтологические синонимы демонстрируют огромное разнообразие лексикосинтаксических схем.
Особенно интересными оказались однозначные словосочетания,которые достаточно часто употребляются как синонимы однозначных многозначных слов.Эти словосочетания выглядят иногда тавтологичными, однако польза их в том, что вслучае необходимости они позволяют называть сущности совершенно однозначно.247Глава 17. Отношения между понятиями в тезаурусе РуТезОтношения между понятиями, описываемые в онтологическом ресурсе,предназначенном для автоматической обработки текстов в рамках информационнопоисковых приложений должны выполнять разнообразные функции.Во-первых, эти отношения должны использоваться в классических функцияхинформационно-поисковых тезаурусов для расширения поискового запроса или выводарубрики документа.Во-вторых, отношения важны для разрешения многозначности языковых единиц,включенных в ресурс, поскольку естественным методом реализации автоматическойпроцедуры разрешения многозначности является сопоставление контекста употреблениямногозначной единицы в тексте и контекста соответствующего понятия в онтологическомресурсе.В-третьих, отношения в онтологическом ресурсе могут использоваться длявыявления лексической связности в текстах, и использованию выявленной структурытекста для улучшения качества обработки текстов.Для реализации любой из этих функций необходимо осуществление своеобразногологического вывода: встретив вхождение некоторого понятия в тексте, нужно делатьмногошаговые проходы по отношениям.В первых главах мы рассматривали различные онтологические ресурсы, которые вбольшей или меньшей степени используются при автоматической обработке текста врамках различных приложений информационного поиска.