Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 66

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 66 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 662020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 66)

При этом для каждогоконкретного многозначного слова достаточно трудно предсказать, существуют ли для егозначений однозначные синонимы-словосочетания. Их существование приходитсяпроверять по текстовым корпусам и в сети Интернет.Поскольку владение такими синонимами-словосочетаниями кажется значимымфактором при автоматическом разрешении многозначности, то мы, разрабатывая Тезаурусрусского языка РуТез, предназначенный для автоматической обработки текстов,специально ищем такие однозначные словосочетания и добавляем их в синонимическиеряды соответствующих значений. Критерием добавления служит нахождение более 100интернет-страниц, в которых упомянуто такое словосочетание.-16.6.4.

Описание многозначности языковых единиц в тезаурусе РуТезВ Тезаурусе РуТез существуют два основных способа представления значениймногозначных терминов.Первым способом представления многозначности является задание одного и тогоже текстового входа разным понятиям тезауруса (М-многозначность). Так, например,текстовый вход пилот сопоставлен двум разным понятиям понятию ЛЕТЧИК и понятиюАВТОГОНЩИК.Такое представление используется для задания разных видов лексическоймногозначности:- омонимии: слово брак соответствует таким понятиям как СУПРУЖЕСТВО иПРОИЗВОДСТВЕННЫЙ БРАК,- терминов из разных предметных областей: слово прокат соответствует такимпонятиям как ПРОКАТНОЕ ПРОИЗВОДСТВО (металлургия), КИНОПРОКАТ(кинематография), ПРОКАТ ИМУЩЕСТВА (аренда).- метонимии: слово балет относится к таким понятиям как БАЛЕТНОЕИСКУССТВО (развитие балета), БАЛЕТНЫЙ СПЕКТАКЛЬ (смотретьбалет), БАЛЕТНАЯ ТРУППА (приезд балета).

Отметим, что обычно понятия,которым соответствует один и тот же текстовый вход, образованный на основеявления метонимии, связаны между собой тезаурусными отношениями.- метафоры: слово сотовый соответствует понятиям СОТОВАЯ СВЯЗЬ иПЧЕЛИНЫЕ СОТЫ.Второй способ представления многозначности используется в тех случаях, когдаслово представлено в Тезаурусе в одном значении, но если известно, что оно можетупотребляться и в других значениях в целевых текстах, то ему ставится специальнаяпометка многозначности (А-многозначность).Например, для слова уклонист – Большой толковый словарь дает толкование: тот,кто уклоняется от участия в чем-либо.

Однако в текстах современной деловой прозыимеется практически единственное употребление в смысле «уклонист от призыва в245армию». В таких случаях можно помещать слово уклонист как текстовый вход ксоответствующему понятию с пометкой многозначности: превалирующее значениеотражено, а при появлении этого слова в другом контексте, соответствующее понятиевыводиться не будет.Пометка многозначности часто используется для отметки географическихназваний, которые могут совпадать с фамилиями и именами людей, сокращениями и др.,например, Львов (город), Владимир (город), Павлово (город в Нижегородской области).В настоящее время тезаурус РуТез содержит более 15 тысяч многозначных единиц,из них для более 11 тысяч слов представлено несколько значений (М-многозначность),многозначность остальных отмечена пометкой.В составе Общественно-политического тезауруса насчитывается около 6.5 тысячмногозначных терминов. Для 2204 терминов представлено два и более значений.В качестве примера покрытия газетного текста единицами тезауруса РуТез иОбщественно-политического тезауруса рассмотрим следующий фрагмент статьи из«Независимой газеты» от 23 ноября 2003 года под названием «Первый бриллиантАлександра Волошина»:В понедельник на сцене Большого театра сверкали "Бриллиантыамериканского балета".

Концерт был посвящен 70-летию установлениядипломатических отношений между Россией и США. В зале сидели всемыслимые и немыслимые дипломаты с обеих сторон. В этот вечер спектакльразыгрывался по обе стороны рампы, точнее, оркестровой ямы. И второй, надосказать, был ничуть не менее захватывающим. Пока на сцене звездыамериканского балета показывали чудеса хореографической техники, впротивоположной стороне партера, в царской ложе, светила другая, кудаболее загадочная звезда.Полужирным шрифтом выделены слова, которые включены в качестве единиц втезаурус РуТез. Видно, что практически вся содержательная лексика включена в анализ.Подчеркнутые слова входят в тематический подтезаурус – Общественнополитический тезаурус.

Фрагмент содержит группы единиц тезауруса, относящихся кзрительному залу: сцена, зал, рампа, оркестровая яма, ложа, партер, а также кискусству: концерт, балет, Большой театр, хореографический, что дает возможностьиспользования этой информации для разрешения многозначности.Относительно Общественно-политического тезауруса фрагмент содержит 25тезаурусных единиц, из них 15 многозначных. Такие слова, как звезда (небесное тело),техника (техническое устройство), зал (общественное помещение), партер (зрительногозала) представляют пример А-многозначности, то есть их другие значения не входят всостав Общественно-политического тезауруса, а многозначность отмечена толькоспециальной пометкой.Относительно Тезауруса РуТез все многозначные слова имеют М-многозначность,за исключением слова партер, другие значения которого на момент обработки еще небыли описаны.Заключение к главе 16.Развивая тезаурус РуТез как лингвистическую онтологию, мы пытаемся следоватьдвум, вообще говоря, противоречивым критериям.С одной стороны, мы формируем понятия тезауруса максимально близко кзначениям языковых выражений, поскольку считаем, что чрезмерное обобщение,кластеризация значений ведет к искажению системы отношений, проблемам вприложениях автоматической обработки текстов.С другой стороны, мы стараемся, чтобы понятие тезауруса было действительнопонятием, то есть было отличимо от близких по смыслу понятий.246Во многих случаях использованием реально существующих многословныхвыражений позволяет нам смягчить эти противоречивые требования.

Введение понятия набазе значения многословного выражения не меняет суть лингвистической онтологии, ново многих случаях позволяет ввести более отчетливо отделимые понятия.Использование в качестве единиц тезауруса таких отличимых понятий позволяетединым образом представлять лексические значения литературного языка и значениятерминов предметной области, более последовательно описывать систему отношениймежду понятиями и тем самым облегчает формальный вывод на отношениях.Для понятия онтологии, которое четко отделимо от других близких понятий,значительно легче найти эквивалентные названия на языках, отличных от исходногоязыка лингвистической онтологии. Таким образом, хорошо отличимые понятия делаютлингвистическую онтологию более языково-независимой.

В то же время учет переводныхэквивалентов в других языках позволяет лучше увидеть недостаточную отделимостьпонятий лингвистической онтологии.Онтологические синонимы, то есть текстовые выражения, сопоставленные одномуи тому же понятию, не всегда являются синонимами в том смысле, что не всегдавозможны замены в предложении одного онтологического синонима на другой,сохраняющие грамматическую правильность и логическую истинность предложения.Однако онтологические синонимы понятия должны быть эквивалентны относительноотношений этого понятия с другими понятиями тезауруса.

Как показала практика,нарушение этого принципа, неаккуратное объединение языковых выражений в рамкахряда онтологических синонимов, рано или поздно проявляет себя в ошибках приавтоматической обработке текстов, рано или поздно находится приложение, для которогонеучтенное различие языковых выражений оказывается существенным.Ряды онтологических синонимов формируются с максимальной степеньюподробности. Эквивалентность некоторых типов словосочетаний может показатьсячеловеку очевидной, однако практически нет правил, которые работают со стопроцентнойточностью. Некоторые словосочетания, полученные в результате «очевидных»трансформаций, почему-то в реальности не употребляются, другие употребляются совсемв другом смысле, чем исходное словосочетание.Онтологические синонимы демонстрируют огромное разнообразие лексикосинтаксических схем.

Особенно интересными оказались однозначные словосочетания,которые достаточно часто употребляются как синонимы однозначных многозначных слов.Эти словосочетания выглядят иногда тавтологичными, однако польза их в том, что вслучае необходимости они позволяют называть сущности совершенно однозначно.247Глава 17. Отношения между понятиями в тезаурусе РуТезОтношения между понятиями, описываемые в онтологическом ресурсе,предназначенном для автоматической обработки текстов в рамках информационнопоисковых приложений должны выполнять разнообразные функции.Во-первых, эти отношения должны использоваться в классических функцияхинформационно-поисковых тезаурусов для расширения поискового запроса или выводарубрики документа.Во-вторых, отношения важны для разрешения многозначности языковых единиц,включенных в ресурс, поскольку естественным методом реализации автоматическойпроцедуры разрешения многозначности является сопоставление контекста употреблениямногозначной единицы в тексте и контекста соответствующего понятия в онтологическомресурсе.В-третьих, отношения в онтологическом ресурсе могут использоваться длявыявления лексической связности в текстах, и использованию выявленной структурытекста для улучшения качества обработки текстов.Для реализации любой из этих функций необходимо осуществление своеобразногологического вывода: встретив вхождение некоторого понятия в тексте, нужно делатьмногошаговые проходы по отношениям.В первых главах мы рассматривали различные онтологические ресурсы, которые вбольшей или меньшей степени используются при автоматической обработке текста врамках различных приложений информационного поиска.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее