Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 67

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 67 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 672020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 67)

Эти ресурсы характеризуютсяразными наборами отношений между своими единицами.В исходном наборе отношений Принстонского WordNet многие исследователиотмечали нехватку отношений, что проявлялось, например, в возникновении «тенниснойпроблемы» (см. п. 2.5.3.1). Сделанная впоследствии жесткая разметка синсетов WordNetобластями-доменами до некоторой степени смягчает, но не решает эту проблему.Такие отношения WordNet как часть-целое (мероним-холоним) описаны так, чтопозволяется одновременная принадлежность синсета-части многим синсетам-целым (см.п.

8.6.2.). Это означает, что прежде, чем использовать такого рода отношения дляавтоматического логического вывода, необходимо установить, о каком целом идет речь вданном контексте, что не всегда возможно.В большинстве информационно-поисковых тезаурусов используется оченьнебольшой набор отношений между дескрипторами: отношение ВЫШЕ-НИЖЕ иотношение АССОЦИАЦИИ.Как указывалось в разделе 1.2.2, отношение АССОЦИАЦИИ часторассматривается как проблемное отношение по следующим причинам:- по принципам установления это отношение является симметричным, а частообозначаемые им отношения явно не симметричны,- это отношения часто устанавливается субъективно,- с этим отношением возникают серьезные проблемы при использовании вавтоматических режимах расширения запроса, вывода рубрики и т.п.Поэтому в литературе имеется много предложений по замене отношенияАССОЦИАЦИИ на более подробные наборы отношений, что была реализовано в рядетезаурусов, например, медицинской тематики.В последнее время активно обсуждается вопрос о преобразовании существующихинформационно-поисковых тезаурусов в более формализованные онтологическиересурсы, с более подробной системой отношений, с возможностью логического вывода набазе аксиом, связанных с каждым отношением (см.

п.4.5.3).Однако, на наш взгляд, существуют серьезные проблемы на пути преобразованияинформационно-поискового тезауруса в такого рода онтологию и использование в248приложениях информационного поиска, поскольку при автоматическом анализе текстадалеко не всегда можно быть уверенным в том, что в тексте упомянуто именноопределенное отношение между сущностями, а это значит, что сложные онтологическиеформализмы, построенные на шатком базисе, не смогут работать эффективно.Таким образом, мы полагаем, что среди потенциального множества отношенийпонятия наиболее стабильно можно опираться на те отношения, которые не исчезают, неменяются в течение всего срока существования любого или подавляющего большинстваэкземпляров понятия (Loukachevitch, Dobrov, 2004а; Лукашевич, Добров, 2004b; Добров,Лукашевич, 2008).

Например, любой лес всегда состоит из деревьев.Наиболее известным типом отношения, которое выполняется для всехэкземпляров, является таксономическое отношение. Так, если С1 упомянуто в тексте, и С1является видом С2, это означает, что в тексте упомянуто и С2. Если данный текстрелевантен запросу о С1, то он будет релевантен и запросу о С2.В условиях невозможности использования сложных правил вывода дляосуществления вывода по тексту важно найти и описывать в тезаурусе другие типыотношений, которые, с одной стороны, минимально зависят от контекста упоминанияпонятия, с другой стороны, обладающие свойствами транзитивности и наследования,подобно таксономическим отношениям.17.1.

Принципы описания отношенийВ результате исследований и экспериментов мы пришли к набору отношенийресурса, предназначенного для эффективной автоматической работы в информационнопоисковых приложениях.В тезаурусе РуТез имеется четыре основных типа отношений.Первый тип отношений – родовидовое отношение НИЖЕ-ВЫШЕ, представляетсобой отношение таксономии, обладает свойствами транзитивности и наследования.Второе тип отношений – отношение ЧАСТЬ-ЦЕЛОЕ. Используется не только дляописания физических частей, но и для других внутренних сущностей понятия, таких каксвойства или роли для ситуаций. Важным условием при установлении этого отношенияявляется то, что понятия-части должны быть жестко связаны со своим целым, то естькаждый пример понятия-части должен в течение всего времени своего существованияявляться частью для понятия-целого, и не относиться к чему-либо другому.В этих условиях удается выполнить свойство транзитивности введенного такимобразом отношения ЧАСТЬ-ЦЕЛОЕ, что очень важно для автоматического вывода впроцессе автоматической обработки текстов.Еще один тип отношения, называемого несимметричной ассоциацией АСЦ2АСЦ1, связывает два понятия, которые не могут быть связаны выше рассмотреннымиотношениями, но когда одно из которых не существовало бы без существования другого.Например, понятие САММИТ требует существования понятия ГЛАВА ГОСУДАРСТВА.

Вонтологических исследованиях такое отношение называется отношением онтологическойзависимости (см. пп.9.2, 17.4).Последний тип отношений – симметричная ассоциация связывает, например,понятия очень близкие по смыслу, но которые разработчики не решились соединить водно понятие (см.п. 17.5).Отношения ВЫШЕ-НИЖЕ, ЧАСТЬ-ЦЕЛОЕ и несимметричная ассоциацияявляются иерархическими отношениями.

Таким образом, на основе свойствиерархичности, транзитивности и наследования для каждого понятия может бытьопределена совокупность понятий, которые являются для него нижестоящими понятиямипо иерархии – так называемое «дерево-вниз», а также может быть определенасовокупность понятий, которые являются для него вышестоящими по иерархии – такназываемое «дерево-вверх». Эти иерархические деревья не обязательно являютсядеревьями в строгом математическом смысле слова.249Рассмотрим далее принципы описания отношений в тезаурусе РуТез болееподробно.17.2. Описание родовидовых отношений в тезаурусе РуТез17.2.1. Принципы описания родовидовых отношенийОтношения ВЫШЕ-НИЖЕ, устанавливаемые в информационно-поисковыхтезаурусах, не обязательно являются таксономическими отношениями в смыслеонтологического моделирования.

Так, например, в некоторых тезаурусах в качествеотношений ВЫШЕ-НИЖЕ могут записываться отношения ЧАСТЬ-ЦЕЛОЕ (см. например,AGROVOC, EUROVOC).При разработке ресурсов для автоматической обработки текста, пригодных длялогического вывода, важно, чтобы отношения, называемые одинаково, обладалиодинаковыми свойствами. В тезаурусе РуТез мы используем отношение ВЫШЕ-НИЖЕдля обозначения онтологических отношений, который обладают свойствамионтологических отношений класс-подкласс, описанных в главе 6, а именно:- каждый пример видового понятия в любой момент своего существованиядолжен быть примером родового понятия,- видовое понятие должно относиться к тому же семантическому классу, что иродовое понятие,- видовое понятие должно наследовать основные свойства родового понятия.Помимо отношений класс-подкласс такими же свойствами обладают отношениямежду ролевым понятием и понятием-классом в тех случаях, когда экземпляры толькоэтого понятия-класса могут выступать в данной роли (РАБОТНИК - ЧЕЛОВЕК).Другим типом отношений, обладающим такими свойствами, является отношениемежду фазой какой-либо физической сущности и собственно этой сущностью (ЩЕНОК –СОБАКА).Таким образом, мы предполагаем, у отношения ВЫШЕ-НИЖЕ свойстванесимметричности и транзитивности:ВЫШЕ(X,Y)  ВЫШЕ (Y,Z)  ВЫШЕ(X,Z)НИЖЕ (Х,Y)  НИЖЕ (Y,Z)  НИЖЕ(X,Z)ВЫШЕ (Х,Y)  НИЖЕ (Y,X)Одной из серьезных проблем описания таксономических отношений в онтологияхявляется их смешение с описанием ролевых отношений (см.

главу 7.). В следующемразделе мы рассмотрим причины возникновения этой частой проблемы и методыописания ролевых отношений в тезаурусе РуТез.17.2.2 Принципы описания ролевых отношений вТезаурусе русского языка РуТезПроблема смешения таксономических и ролевых отношений связана с тем, что втекстах эти отношения часто выражаются сходными языковыми конструкциями.

Приразработке ресурса для автоматической обработки текстов приходится много информациивводить в тезаурус на основе знаний, полученных из текстов (Лукашевич, 2007b;Лукашевич, 2007c).Например, следующий фрагмент (http://www.giord.ru/0705211117391.php):наиболее используемыми консервантами являются: поваренная соль, этиловыйспирт, уксусная, сернистая, сорбиновая, бензойная кислоты и некоторые их соли250может показаться хорошим источником информации для того, чтобы описать видыконсервантов.Определение электролита:Электролит - проводник второго рода; вещество, обладающиепроводимостью.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6552
Авторов
на СтудИзбе
299
Средний доход
с одного платного файла
Обучение Подробнее