Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 24

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 24 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 242020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 24)

Знания о мире могут быть представлены с помощью онтологий систем понятий, для которых описаны отношения и заданы правила вывода (Нариньяни,2001; Рубашкин, Лахути, 1998; Рубашкин, Лахути, 1999).Чтобы применить онтологию для автоматической обработки текстов, в частностидля решения задач информационного поиска, необходимо понятиям онтологиисопоставить набор языковых выражений (слов и словосочетаний), которыми понятиямогут выражаться в тексте.Процедура сопоставления понятий онтологий и языковых выражений может бытьосуществлена различными способами:Во-первых, онтология может быть сделана заранее, путем логическойклассификации, а затем к ее единицам могут быть приписаны языковые единицы (Gruber,1993).

При этом предлагается создавать онтологию путем логического анализа, «сверхувниз». Имена вводимых понятий (желательно) должны отражать те признаки, которыезаложены в основу деления. В результате получаются имена понятий достаточно89громоздкие, неестественные, с ними трудно оперировать как разработчикам, так ивозможным пользователям.Другой проблемой такого подхода является то, что при приписывании языковыхвыражений к логически обоснованной системе понятий получается, что одно и то жеслово может соответствовать слишком большому количеству таких «правильных»понятий в зависимости от контекста, возникает излишняя многозначность лексическойединицы.Поскольку в настоящее время существуют тезаурусы типа ворднет, содержащиебольшой объем лексической информации, то активно обсуждаются методыавтоматического приписывания некоторой формальной онтологии языковых единиц изэтих тезаурусов (Reed, Lenat, 2002; Pazienza, Stellato, 2006, Peter и др., 2006; Prevot и др.,2006).Лингвистические онтологии отличаются от формальных онтологий по степениформализации.

Поэтому второй путь предполагает, что разработчики такого родаресурсов разрабатывают иерархию лексических значений естественного языка, а дляболее строгого описания знаний о мире необходимо снабдить эти ресурсы отношениямииз формальных онтологий.Так, содержанием одного из проектов является установление отношений междуWordNet, c одной стороны, и формальной онтологией верхнего уровня SUMO –Standartized Upper Merged Ontology, с другой стороны (Niles, Pease, 2003). Проект состоитв том, чтобы установить соответствие между синсетами WordNet и понятиями онтологии,при котором каждый синсет WordNet либо напрямую сопоставляется с понятиемонтологии, либо является гипонимом для некоторого понятия, либо примером понятияонтологии.Участники другого проекта OntoWordNet (Gangemi и др., 2003) считают, чтонедостаточно провести формальную склейку ресурса типа WordNet и формальнойонтологии, необходима значительная реструктуризация исходного лексического ресурса.Третий путь – попытаться разработать единый ресурс, в котором были бысбалансированы обе части: система понятий – и система лексических значений, чтозаключается в разумном разделении этих единиц в создаваемом ресурсе и аккуратномописании их взаимосвязей (Mahesh, Nirenburg, 1996, Nirenburg, Raskin, 2004, Hirst, 2003).При создании такого сбалансированного ресурса ввод понятий в онтологию требуетнепременного учета существующих лексических значений, то есть необходимо создаватьсбалансированный ресурс, который должен являться лингвистической онтологией.Таким образом, мы видим, что все обсуждаемые в настоящее время основные путиадаптации созданных формальных онтологий к приложениям автоматической обработкитекстов включают в себя сопоставление этих онтологий с лингвистическими онтологиями.В следующих разделах мы опишем лингвистические ресурсы MicroKosmos иFrameNet, которые также могут рассмариваться как лингвистические онтологии и которыепонадобятся нам в дальнейшем рассмотрении.4.5.1.

Онтология MicrokosmosОнтология МикроКомос (более позднее название OntoSem) является одним изизвестнейших онтологических ресурсов. Эта онтология разрабатываются в рамкахподхода, называемого «онтологическая семантика» (Nirenburg, Raskin, 2004). Онтологияпредназначается для использования в приложениях автоматической обработки текста ипостроениюсемантического,языково-независимогопредставениясодержанияпредложений текста. Для поступающего текста производится предобработка,морфологический анализ, синтаксический анализ, семантический анализ, результатыкоторого представляются как Представление текст-смысл (Text-Meaning Representation TMR).90Все сущности в онтологии Микрокосмос разделены на объекты, события исвойства.

Объекты, события и свойства являются концептами (понятиями) онтологии,которые описываются фреймами. Фреймы – это наборы слотов с одним или болеефасетов. Слоты в совокупности описывают понятия, определяя, как данное понятиесоотносится с другими понятиями онтологии (посредством отношений) и буквенным ичисловым ограничениям (посредством атрибутов). Лексикон системы описывает значенияслов и словосочетаний, устанавливая ссылки от них на понятия онтологии.Каждый слот – атрибут или отношение – определен как понятие в своейсобственной иерархии.Основными особенностями онтологии являются:- независимость от конкретного естественного языка;- независимость мотивации. Добавление понятий в онтологию не диктуетсялексиконом языка. Развитие онтологии и пополнение лексикона системы - дваравноправных взаимодействующих процесса, которые помогают друг другу и вто же время ограничивают друг друга;- хорошая структурированность;- последовательность и сочетаемость с лексиконом, семантическим анализатороми т.п.;- понятность и простота.

Онтологию должно быть легко обходить ипредставлять. Например, онтология не использует And-Or деревья сдизъюнктивным наследованием, поскольку такое наследование достаточнотрудно воспринимать.Имена в онтологии могут выглядеть как английские слова или фразы, но ихсемантика отличается и выражается набором четко определенных отношений междупонятиями.Понятие языковой зависимости (независимости) значения демонстрируется напримере существования в немецком языке слова schimmel – белая лошадь. Авторыонтологии подчеркивают, что нет необходимости вводить отдельное понятие дляотражения значения данного слова, для описания значения этого слова правильнее ввестисловарную статью с ссылкой на понятие ЛОШАДЬ и с описанием значения свойстваЦВЕТ - «белый».Словарная статья языкового значения в онтологии может иметь простуюструктуру, представляя собой ссылку на понятие онтологии, и достаточно сложнуюструктуру, содержащую и ссылку на понятие онтологии и особенности конкретнойлексической единицы (Nirenburg и др., 2004: Nirenburg, Raskin, 2004).Например, все глаголы изменения в онтологии приписаны одному и тому жепонятию Change-event.

Особенности слов описываются в словарной статье, например, дляглагола увеличить (increase) указывается, что в семантической роли ТЕМА этого глаголадолжна выступать СКАЛЯРНАЯ_ВЕЛИЧИНА (например, цена или высота) иуказывается, что значение этой величины меняется на большее.Значение слова сионист представлено в словаре как POLITICAL ROLE(политическая роль), которая является агентом (AGENT_OF) a SUPPORT_EVENT, темойкоторого является Израиль. Значение слова асфальтировать описывается какCOVER_EVENT (событие покрывания), инструментом которого является понятиеАСФАЛЬТ.Авторы указывают, что нет необходимости иметь отдельные понятия для описаниязначений слов sibling (родные брат или сестра), brother (родной брат), sister (роднаясестра).

Вводится одно понятие SIBLING, и с помощью значений атрибута gender(мужской или женский пол) в словаре системы могут быть описаны значения слов sister иbrother.Поскольку авторами сделаны значительные усилия по ограничению величиныонтологии, то размер онтологии МикроКосмос (OntoSem) составлет порядка 6 тысяч91понятий, каждое из которых описывается в среднем 16 свойствами. Лексикон системысоставляет несколько десятков тысяч слов и выражений.Основные этапы разработки онтологии, по мнению разработчиков, должнысостоять в следующем:1) установление того, является ли значение слова достаточным основанием длявведения нового понятия,2) нахождение места понятия в онтологии, определение того, какиесуществующие понятия онтологии могут служить наилучшими родовымипонятиями для нового понятия;3) описание свойств нового понятия, которые должны отличаться от свойствродовых понятий, видовых понятий, не только заполнением слотов, но и болеесодержательным образом, наличием других свойств.Таким образом, провозглашаемая языковая независимость не должна вводить взаблуждение.

По своей сути онтологии OntoSem и MikroKosmos являются, несомненно,лингвистическими онтологиями, поскольку основным принципом, обосновывающимвведение новых понятий, является существование слов с таким значением в большомколичестве языков.При этом принцип языковой независимости этих онтологий подчеркивает, что припостроении лингвистической онтологии необязательно жесткое следование системезначений конкретного языка. Лингвистическая онтология может учитывать системузначений конкретного языка или совокупности языков, и при этом следовать принципамвведения понятий, провозглашаемых в формальных онтологиях (см. главу 5).4.5.2.

FrameNet как лингвистическая онтологияОдним из известных в настоящее время проектов в области описания лексическойсемантики является лингвистический ресурс FrameNet, который создавался подруководством известного лингвиста Чарльза Филмора (Fillmore, Atkins, 2000; Fillmore идр., 2003) в рамках концепции фреймовой семантики. Цель проекта – создать онлайновыйлексический ресурс, основанный на фреймовой семантике, и обеспечить его базой в видетекстового корпуса. Проект направлен на описание семантической и синтаксическойсочетаемости слов – валентностей – для каждого слова в каждом известном смысле.В 2009 году ресурс содержал 960 иерархически организованных фреймов, скоторыми ассоциировано более 11 тысяч лексических единиц.Например, фрейм APPLY_HEAT (НАГРЕВАНИЕ ЕДЫ) описывает ситуацию, всостав которой входят такие слоты, как ПОВАР, ЕДА, НАГРЕВАТЕЛЬНОЕОБОРУДОВАНИЕ.

Данный фрейм вызывается такими словами как bake, blanch, boil,broil, brown, simmer, steam, etc. Слоты фрейма называются фреймовыми элементами FE, авызывающие фрейм слова – лексическими единицами (LU) этого фрейма. В качествекорпусных данных для этих описаний размечено более 135 тысяч предложенийПо сути FrameNet представляет собой онтологию ситуаций, представленных в видефреймов и связанных между собой иерархическими отношениями.

FrameNet – это,несомненно, лингвистическая онтология, поскольку для описания нового фрейманеобходимым условием является существование лексических единиц, которые вызываютэтот фрейм.Основными иерархическими отношениями между фреймами являются следующие:Отношение Is_A устанавливается в тех случаях, когда каждый фреймовый элементродительского фрейма связан с соответствующим элементом нижестоящего фрейма.Например, фрейм МЕСТЬ (REVENGE) является нижестоящим для фреймаREWARDS_AND_PUNISHMENTS (НАГРАДЫ И НАКАЗАНИЯ).Отношение Using указывается, если нижестоящий фрейм предполагаетродительский фрейм как бэкграунд, например, фрейм СКОРОСТЬ предполагает фрейм92ДВИЖЕНИЯ, однако не все фреймовые элементы родительского фрейма должны бытьсвязаны с фреймовыми элементами нижестоящего фрейма.Отношение Subframe описывает нижестоящий фрейм какподсобытиевышестоящего события, например, фрейм КРИМИНАЛЬНЫЙ ПРОЦЕСС имеетподфреймы АРЕСТ, СУД, и ПРИГОВОР.Отношение Perspective on показывает, что нижестоящий фрейм описывает точкузрения вышестоящего, не ориентированного на определенные точки зрения фрейма.Например, фреймы НАНЯТЬ_НА_РАБОТУ и ПОЛУЧИТЬ_РАБОТУ являются такимиподфреймами для фрейма ТРУДОУСТРОЙСТВО (EMPLOYMENT_START) с точкизрения нанимателя и работника соответственно.Также используются отношения предшествования Precedes, отношение причиныCausative_of.4.5.3.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее