Главная » Просмотр файлов » Тезаурусы в задачах информационного поиска. Лукашевич (2010)

Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 16

Файл №1185451 Тезаурусы в задачах информационного поиска. Лукашевич (2010) (Тезаурусы в задачах информационного поиска. Лукашевич (2010).pdf) 16 страницаТезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451) страница 162020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 16)

Такие отношения обозначаются RELATED_TO (Miller, Fellbaum, 2003):Adorn#v1 -- RELATED TO -> adornment#n2Abandon#v1 -- RELATED TO -> abandonment#n3Rule#v6 -- RELATED TO -> ruler#n1Catch#v4 ---- RELATED TO -> catcher#n1Всего было размечено 21.5 тысячи пар синсет существительного – синсет глагола.В настоящее время выполнена автоматизированная семантическая разметкаотношений между синсетами разных частей речи (Clark и др., 2008), которая указываетспецифическое семантическое отношение между существительным и глаголом:abandonment#n3EVENTofabandon#v1ruler#n1INSTRUMENTofrule#v6catcher#n1AGENTofcatch#v4.2.5.2. Слишком много значений в WordNetСерьезное обсуждение возникло по поводу описания значений многозначных словв WordNet. Во многих работах признается, что различия значений в WordNet слишкомтонки для таких компьютерных приложений как машинный перевод, информационныйпоиск, классификация текстов, вопросно-ответные системы и др.

В (Chugur и др., 2002)было показано, что среднее количество значений в WordNet больше, чем в традиционныхлексикографических словарях.Особенно большое количество значений имеют глаголы и прилагательные. Так,глагол give имеет 44 значения, а прилагательное good – 21 значение.Некоторые из описанных значений плохо отделимы друг от друга. Например,значения глагола give: give5 и give 21. В обоих случаях в определении присутствует одно ито же слово bestow в том же значении:Give5: give, pay -- (convey, as of a compliment, regards, attention, etc.; bestow; ``Don'tpay him any mind"; "give the orders"; "Give him my best regards"; "pay attention'' )Give21: give, render -- (bestow; ``give homage"; "render thanks'' )Часть выделенных значений сочетается только с узким набором слов, например,значение give19:Give19: give - (give (as medicine); ``I gave him the drug'' ) – дать (как лекарство)Как известно, число значений тех или иных лексических единиц можетзначительно различаться в различных лексических ресурсах, словарях.

Но большоеколичество значений в WordNet препятствует его применению в приложенияхавтоматической обработки текстов. Кроме того, проблема лексической многозначностидля компьютерных приложений усугубляется тем, что синсеты WordNet,соответствующие близким по смыслу значениям многозначных слов, в большинствеслучаев, не имеют между собой никаких отношений.Эти проблемы привели к постановке вопроса о том, каким образом и какие типызначений многозначного слова могут быть объединены («кластеризованы») (Chugur и др.,2000, Peters и др., 2000; Agirre, Lacalle, 1996; McCarthy, 2006) для целей работы вприложениях автоматической обработки текстов, когда для значений многозначного59слова из кластера можно не делать различий, и это не приведет к снижению качестваработы этого приложения.Для рассмотрения предложенных подходов кратко остановимся на выделяемыхтипах отношений между значениями отдельного слова.2.5.2.1.

Отношения между значениями одного и того же словаЛингвисты выделяют несколько типов отношений между парами значений одногои того же слова (Апресян, 1995; Кобозева, 2000; Зализняк 2006).Омонимией называется случайное внешнее совпадение двух разных слов, чтопроявляется в том, что между значениями нет общих элементов смысла, например,Лук (оружие) – лук (растение)Брак (изъян) – брак (женитьба)Значения слова называются полисемичными, если между ними существуютобщий элемент смысла, например, значения слова клапан в словосочетаниях:Клапан мотора – клапан фагота – сердечный клапан – клапан карманаимеют общий элемент - «часть предмета, закрывающая отверстие в нем».Содержательно отношения между значениями многозначного слова делятся наследующие основные типы (Кобозева, 2000).Метафорическое отношение между значениями характеризуется как основанноена сходстве, подобии обозначемых явлений.

Так, язык пламени, язык колокола и язык ворту человека похожи по форме.Метонимические отношения между значениями основаны на смежностиобозначаемых объектов и явлений. Так, работой называется не только определенный виддеятельности, но и место, где эта деятельность происходит, а также ее результат.Метонимические переносы достаточно часто бывают регулярными – регулярнаяполисемия (Апресян, 1995; Кронгауз, 2001). Среди наиболее частых метонимическихпереносов отмечаются следующие:- действие – результат действия: сочинение, остановка, украшение,- вместилище – содержимое: стакан, кастрюля,- населенный пункт – люди, живущие в населенном пункте: город, деревня,поселок,- наука – предмет науки: семантика, синтаксис и др.

(Апресян, 1995).Использование данной классификации отношений между значениями словаявлялось одним из важных направлений в попытках исследователей найти полезную дляприложений кластеризацию значений WordNet.2.5.2.2. Подходы к кластеризации значений WordNetОдной из первых идей по объединению значений WordNet для компьютерныхприложений было исследование, насколько явление регулярной многозначности можетслужить основой для такой процедуры.Работа (Buitellar, 1998) была посвящена изучению масштабов регулярнойполисемии в WordNet. Для этого все многозначные существительные былирасклассифицированы по их основным семантическим типам, задаваемым наиболеевысоким гиперонимом, к которым они относятся, таким как артефакт, каузальный агент,форма, действие и др. Далее все такие существительные были разбиты на группы всоответствии с наборами семантических типов, в которые попадают их значения.

Так,например, существительное банан, которое имеет значение пищевого продукта ирастения, попадает в ту же группу, что и такие слова как кориандр, грейпфрут и др.Всего было выделено 126 семантических типов, которые охватывают 39937существительных в 317 регулярных классах полисемии.60В работе (Peters и др., 2000) рассматриваются возможные направлениякластеризации значений в WordNet, основанные на различных типах лексическоймногозначности. Рассматривается три возможных типа многозначности, которые могутбыть использованы для кластеризации значений.Первое направление – обобщение, которое заключается в том, что если различныезначения одного и того же слова имеют один и тот же гипероним, то можно попытатьсянайти общее между всеми этими значениями, которое и рассматривать каккластеризованное значение. Такие значения могут располагаться в сети WordNet друг поддругом (одно является гиперонимом для другого) – явление, называемоеавтогипонимией.В таких случаях более высокое по иерархии значение может представлять значениекластера.Также обобщение может быть сделано для значений, являющихся такназываемыми «сестрами», т.е.

значениями, являющимися гипонимами одного и того жегиперонима. Например, в WordNet значения слова table (table2 и table3) имеют один и тотже гипероним piece of furniture – предмет мебели:Table2 – a piece of furniture having a smooth flat top supported by one or more verticallegs ―it was a sturdy table‖Table3 – a piece of furniture with tableware for a meal laid out on it: ―I reserved a tableat my favourite restaurant‖.Наконец, еще одной возможностью формального обнаружения обобщающегозначения являются так называемые синсеты-близнецы (twins) - т.е. те синсеты, в которыхпо крайней мере три синонима совпадают.Например, близецами являются такие синсеты как:violate, go against, break -- (fail to agree with; be in violation of; as of rules or patterns;"This sentence violates the rules of syntax")иtransgress, offend, infract, violate, go against, breach, break -- (act in disregard of laws,rules, contracts, or promises; "offend all laws of humanity"; "violate the basic laws orhuman civilization"; "break a law"; "break a promise").Второй тип возможного кластерного значения – это кластер, основанный наметонимии.

Этот тип покрывает случаи так называемой регулярной полисемии:организация - здание, дерево - древесина, материал - продукт, вместилище – содержимоевместилища и др. В данном исследовании такие пары задавались вручнуюТретий тип семантической кластеризации основан на явлении диатезы вариативности в управлении глаголов, во многих случаях различия между транзитивным(нетранзитивным), каузативным (инхоативным) использованием нужны лишь длявыражения некоторых сторон предиката, в то время как базисное значение остается одними тем же.В (Chugur и др., 2000) исследуется вопрос, какая группировка значений была быполезной для задач информационного поиска. Предполагается, что некоторые значениямогут быть кластеризованы для разных приложений, в то же время существуют примерыпар значений, кластеризация которых была бы полезна в информационно-поисковыхприложений, при этом в других приложениях было бы полезно их различать.

Примеромтакой пары значений являются следующие синсеты:Bet1. The act of gambling (ставить - вкладывать в банк в азартных играх)2. The money risked on a gamble (ставка в азартных играх).61Отмечается, что исследования регулярной многозначности не приводят квыделению полезных кластеров для информационно-поисковых задач, так как, какпредставляется авторам данной работы, некоторые образцы регулярной полисемиихорошо бы не различать для задач информационного поиска, в то время как другиехорошо бы сохранить отдельно. Так, например, полезно было бы кластеризовать такиепары регулярной полисемии как container/quantity (вместилище – объем вместилища) иmusic/dance (музыка – танец).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6363
Авторов
на СтудИзбе
310
Средний доход
с одного платного файла
Обучение Подробнее