Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 19

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 19 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 192020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 19)

Общие принципы организации EuroWordNetПервым проектом, который провозгласил цель построения ворднетов длянескольких европейских языков и в котором были сделаны попытки внести улучшения вструктуру такого рода лингвистических ресурсов, был проект EuroWordNet, которыйвключал в себя два этапа. На первом этапе (1996-1999) ворднеты создавались дляголландского, испанского и итальянского языков. На втором этапе – для французского,чешского, немецкого и эстонского языков (Vossen, 1998; Vossen, 2003; Climent и др.,1996).Поскольку проект EuroWordNet был многоязычным, то перед разработчикамистоял серьезный выбор, нужно ли стремиться к разработке языково-независимойструктуры, с которой необходимо сопоставить единицы каждого языка, или, может быть,нужно иметь единую систему синсетов – новая единица в иерархической сети может бытьвключена, если хотя бы один язык из рассматриваемых имеет лексему или устойчивыйоборот с таким значением.68По принятому в проекте решению каждый ворднет должен сохранять спецификусвоего языка.

При этом каждый ворднет должен содержать отсылки на значенияПринстонского WordNet, что позволяет сравнивать ворднеты, обнаруживатьнепоследовательности в построении ворднетов и видеть различия в устройстве разныхязыковых систем (рис. 3.1).Одновременно в рамках проекта была создана небольшая классификация верхнегоуровня, к которой должен был приписан каждый создаваемый ворднет.Wordnet 1.5Dutch Wordnetobjectvoorwerp{object}artifact, artefact(a man-made object)blocknatural object(an objectoccurring naturally)instrumentalitylichaam{body}werktuig{tool}bodydeviceimplementblok{block}bak{box}lepel{spoon}tas{bag}containertoolinstrumentboxspoonbagРис.3.1.

Различия в классификации объектов ванглоязычном и голландском ворднетах (Vossen, 2003)Основные предполагаемые применения ворднетов – это предсказание той или инойвозможной замены лексических единиц в тексте для целей информационного поиска,генерации текстов, машинного перевода, разрешения лексической многозначности.Отношения между лексемами должны выявляться в процессе примененияклассических лингвистических тестов (см. раздел 2.1. и Cruse, 1986).Учитывая сложности, которые возникали при применении тезауруса WordNet вкомпьютерных приложениях, разработчики европейских ворднетов предложили рядсущественных нововведений в структуре создаваемых ворднетов.Большой класс изменений касается описания отношений между синсетами,которые можно разделить на следующие группы:- приписывание дополнительных атрибутов отношениям,- введение отношений между частями речи,- введение дополнительных отношений.3.2.

Отношения в EuroWordNet3.2.1. Атрибуты дизъюнктивности/конъюктивностиПриписанные синсету отношения могут выполняться одновременно (возможнаконъюнкция отношений) или выборочно (отношения дизъюнктивны). Так, обычноотношения «часть» конъюктивны – все части автомобиля одновременно составляютавтомобиль. Гипонимы синсета обычно дизъюнктивны. Таким образом, обычноимплицитно предполагается конъюнктивность меронимов и гиперонимов, идизъюнктивность гипонимов.69Вместе с тем могут возникать ситуации, когда явно полезно указатьдизъюнктивность или конъюнктивность какой-либо совокупности отношений. Например,полезно иметь возможность отражения дизъюнктивность таких частей как пропеллер иреактивный двигатель у самолетов.Для возможности отражения таких отношений между отношениями введеныатрибуты отношений: ci - для отражения конъюнктивности, di - для отражениядизъюнктивности.Тогда, фрагмент описания частей самолета можно выглядеть таким образом:{ самолетHAS PART: c1дверьHAS PART: c2d1реактивный двигательHAS PART: c2d2пропеллер}Информация о том, что собака является и животным, и домашним питомцемзаписывается так:{ собакаHYPERONYM: c1млекопитающееHYPERONYM: c1домашний питомец}Возможность нахождения дверей в разных объектах можно отразить так:{ дверьPART OF: d1автомобильPART OF: d2помещениеPART OF: d3вход}А то, что альбинос может быть животным или растением:{альбиносHYPERONYM: d1растениеHYPERONYM: d1животное}Авторы EuroWordNet считают, что такое описание отношений позволит внекоторых случаях уменьшить число различных значений.

Кроме того, такая возможностьполезна для описания валентностей глаголов, то есть сочетаемости глаголов с другимисловами в предложении.3.2.2. Отношения между разными частями речиКак уже указывалось, первоначально в Принстонском WordNet не былиустановлены отношения между различными частями речи.Поскольку это вызывало серьезные проблемы в приложениях, в проектеEuroWordNet были введены дополнительные отношения между частями речи:- xpos-synonymy – частеречная синонимия,- xpos-antonymy – частеречная антонимия,- xpos-hyponymy - частеречная гипонимия.Таким образом, упомянутые в разделе 2.5.1 отношения между синсетамиadornment2 (процесс украшения) и adorn1 (украсить) могли быть описаны отношениемчастеречной синонимии:70{adorn V}XPOS_SYNONYM {adornment N}3.2.3.

Новые отношенияСущественным дополнением в описание отношений между синсетами сталовведение семантических отношений (ролей) таких как агент, инструмент, объект, местои обратные к ним отношения (Табл. 3.1). Подобные отношения в настоящее времявводятся и в Принстонский WordNet 3.0. (Clark, 2007).{hammer-молоток}{to hammer –прибивать молотком}{school - школа}{to teach - учить}ROLE_INSTRUMENT{to hammer – прибиватьмолотком}INVOLVED_INSTRUMENT{hammer - молоток}ROLE_LOCATIONINVOLVED_LOCATION{to teach - учить}{school - школа}Таблица 3.1. Примеры семантических ролей между синсетами в EuroWordNetКроме того, были введены отношения типа Co-role relations, которые выражаютиспользование лексем из синсетов при описании ролей в одних и тех же ситуациях (Табл.3.2.).гитаристHAS_HYPERONYMисполнительCO_AGENT_INSTRUMENTгитараHAS_HYPERONYMигрокROLE_AGENTCO_AGENT_INSTRUMENTиграть музыкуHAS_HYPERONYMROLE_INSTRUMENTчеловекиграть музыкумузыкальныйинструментto make (создавать)музыкальныйинструментТаблица 3.2.

Примеры отношений между синсетами, которые участвуют в одних итех же ситуациях3.2.4. Описание предметных областей (domains)EuroWordNet включает в свою структуру также описание предметных областей –доменов. Это нововведение призвано преодолеть проблему WordNet, описываемую кактеннисная проблема, когда принадлежащие одной предметной области, сфередеятельности, ситуации синсеты, оказываются далеко друг от друга в структуре WordNet(см.п. 2.5.3.1.).Именно в рамках проекта EuroWordNet было предложено упоминавшееся решение,сгруппировать синсеты в домены. Предполагалось, что введение доменов должно бытьособенно полезно для информационно-поисковых задач. Домены представляют собойотдельные объекты и могут быть организованы между собой в иерархии.Эксперименты с доменами в ворднетах были продолжены и в следующемевропейском проекте, связанном с ворднетами, Meaning (Atserias и др., 2004; Castillo и др.,2004).713.2.5 Межъязыковой индекс ILIДля того, чтобы установить связи между различными языками в проектеEuroWordNet, синсеты каждого ворднета имеют отсылку на так называемый межязыковойиндекс (interlingual index - ILI), в качестве которого выбираются синсеты ПринстонскогоWordNet.

Индекс представляет собой неупорядоченный список синсетов с толкованиями.Для наиболее точного описания соответствия конкретных синсетов каждого языкаи преодоления лексических пропусков, которые могут возникнуть в том или ином языке,предоставляется возможность использования нескольких разных отношенийэквивалентности от синсетов конкретного языка к индексу ILI:- EQ_SYNONYM: имеется прямое соответствие между синсетом языка и синсетоминдекса;- EQ_NEAR_SYNONYM: синсету соответствует несколько синсетов индекса,- HAS_EQ_HYPERONYM: синсет является более специфичным, чем имеющиесясинсеты индекса,- HAS_EQ_HYPONYM: синсет может быть связан только с более специфичнымисинсетами индекса.Так, испанское слово dedo, соответствующее русскогому слову палец, находится вотношении HAS_EQ_HYPONYM таким английским синсетам из индекса ILI как toe(палец ноги) и finger (палец руки).3.3.

Ворднеты для других языковВ данном разделе будут рассмотрены особенности представления лексическойинформации, предлагаемые разработчиками разных ворднетов.3.3.1. Немецкий ворднет GermaNetGermaNet является ресурсом, созданным по принципам WordNet, а не простонемецким вариантом синсетов Принстонского WordNet (Kunze, Wagner, 1999).Характеристики GermaNet на дату апрель 2010 года: 61659 синсетов, 84586лексических единиц, 76709 разных лексических единиц, отношений между синсетами 73686 (http://www.sfs.uni-tuebingen.de/GermaNet/).Особенностью описания существительных в GermaNet является вводискусственных синсетов со специальной пометкой для объединения в отдельные классыгипонимов, разделяемых по одному и тому же признаку.

Например, такими синсетамиявляются синсет ?Abstammender Mensch – Люди по происхождению, или?ausgebildeter_Mensch – Обученные люди. Для того, чтобы включить понятие дилетанта –вводитсяещеоднопонятие?ausgebildeter_Mensch?,чтоозначает(Человек_по_образованию), которое, таким образом, разделяется на три гипонима:учащиеся, обученные люди, необученные люди.Рассматривая примеры регулярной полисемии существительных (такие каквместилище – его содержимое, процесс - результат, место - жители) (см.

раздел 2.5.2.1),разработчики ресурса указывают, что используют два метода ее описания в GermaNet:- создание отдельных синсетов для каждого такого значения, что приводит кдополнительным значениям, которые необходимо автоматически разрешатьпри обработке текста,- установление нескольких отношений гипоним – гипероним, но в таких случаяхнеобходимо, чтобы все нижестоящие гипонимы имели такую же полисемию.Для описания глаголов в GermaNet добавлено отношение каузации междуглаголом и прилагательным, отражающим состояние, к которому приводит обозначаемоеглаголом действие, например, zerschleißen (изнашивать) – zerstört (изношенный).72В отличие от WordNet в GermaNet используется множественная классификацияглаголов (например, глаголы движения) классифицируются по субъекту движения,одновременно по свойству транзитивности, а также по направлениям движения, чтоделает сеть классификаций более плотной.Кластерный подход описания прилагательных, предложенный в WordNet, измененна иерархическую структуру описания прилагательных, подобно существительным иглаголам.3.3.2.

Датский ворднет DanNetРазработка датского ворднета началась в 2005 году. В период до 2007 годапланировалось разработать ворднет величиной 40 тысяч понятий, 30 тысяч понятий изкоторых соответствуют существительным (Pedersen, Sorensen 2006; Pedersen и др. 2006).Разработка DanNet базируется на толковом словаре современного датского языка DDO исемантическом лексиконе датского языка SIMPLE (Lenci и др., 2000, McShane и др.,2004).Разработчики датского ворднета особое внимание обращают на построениеправильной структуры таксономий, поскольку, как мы уже упоминали в разделе 2.5.3.2.,одной из проблем Принстонского WordNet‘а является смешение нескольких разныхотношений под одним и тем же названием гипоним-гипероним.Рис.3.2.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее