Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 16
Текст из файла (страница 16)
Такие отношения обозначаются RELATED_TO (Miller, Fellbaum, 2003):Adorn#v1 -- RELATED TO -> adornment#n2Abandon#v1 -- RELATED TO -> abandonment#n3Rule#v6 -- RELATED TO -> ruler#n1Catch#v4 ---- RELATED TO -> catcher#n1Всего было размечено 21.5 тысячи пар синсет существительного – синсет глагола.В настоящее время выполнена автоматизированная семантическая разметкаотношений между синсетами разных частей речи (Clark и др., 2008), которая указываетспецифическое семантическое отношение между существительным и глаголом:abandonment#n3EVENTofabandon#v1ruler#n1INSTRUMENTofrule#v6catcher#n1AGENTofcatch#v4.2.5.2. Слишком много значений в WordNetСерьезное обсуждение возникло по поводу описания значений многозначных словв WordNet. Во многих работах признается, что различия значений в WordNet слишкомтонки для таких компьютерных приложений как машинный перевод, информационныйпоиск, классификация текстов, вопросно-ответные системы и др.
В (Chugur и др., 2002)было показано, что среднее количество значений в WordNet больше, чем в традиционныхлексикографических словарях.Особенно большое количество значений имеют глаголы и прилагательные. Так,глагол give имеет 44 значения, а прилагательное good – 21 значение.Некоторые из описанных значений плохо отделимы друг от друга. Например,значения глагола give: give5 и give 21. В обоих случаях в определении присутствует одно ито же слово bestow в том же значении:Give5: give, pay -- (convey, as of a compliment, regards, attention, etc.; bestow; ``Don'tpay him any mind"; "give the orders"; "Give him my best regards"; "pay attention'' )Give21: give, render -- (bestow; ``give homage"; "render thanks'' )Часть выделенных значений сочетается только с узким набором слов, например,значение give19:Give19: give - (give (as medicine); ``I gave him the drug'' ) – дать (как лекарство)Как известно, число значений тех или иных лексических единиц можетзначительно различаться в различных лексических ресурсах, словарях.
Но большоеколичество значений в WordNet препятствует его применению в приложенияхавтоматической обработки текстов. Кроме того, проблема лексической многозначностидля компьютерных приложений усугубляется тем, что синсеты WordNet,соответствующие близким по смыслу значениям многозначных слов, в большинствеслучаев, не имеют между собой никаких отношений.Эти проблемы привели к постановке вопроса о том, каким образом и какие типызначений многозначного слова могут быть объединены («кластеризованы») (Chugur и др.,2000, Peters и др., 2000; Agirre, Lacalle, 1996; McCarthy, 2006) для целей работы вприложениях автоматической обработки текстов, когда для значений многозначного59слова из кластера можно не делать различий, и это не приведет к снижению качестваработы этого приложения.Для рассмотрения предложенных подходов кратко остановимся на выделяемыхтипах отношений между значениями отдельного слова.2.5.2.1.
Отношения между значениями одного и того же словаЛингвисты выделяют несколько типов отношений между парами значений одногои того же слова (Апресян, 1995; Кобозева, 2000; Зализняк 2006).Омонимией называется случайное внешнее совпадение двух разных слов, чтопроявляется в том, что между значениями нет общих элементов смысла, например,Лук (оружие) – лук (растение)Брак (изъян) – брак (женитьба)Значения слова называются полисемичными, если между ними существуютобщий элемент смысла, например, значения слова клапан в словосочетаниях:Клапан мотора – клапан фагота – сердечный клапан – клапан карманаимеют общий элемент - «часть предмета, закрывающая отверстие в нем».Содержательно отношения между значениями многозначного слова делятся наследующие основные типы (Кобозева, 2000).Метафорическое отношение между значениями характеризуется как основанноена сходстве, подобии обозначемых явлений.
Так, язык пламени, язык колокола и язык ворту человека похожи по форме.Метонимические отношения между значениями основаны на смежностиобозначаемых объектов и явлений. Так, работой называется не только определенный виддеятельности, но и место, где эта деятельность происходит, а также ее результат.Метонимические переносы достаточно часто бывают регулярными – регулярнаяполисемия (Апресян, 1995; Кронгауз, 2001). Среди наиболее частых метонимическихпереносов отмечаются следующие:- действие – результат действия: сочинение, остановка, украшение,- вместилище – содержимое: стакан, кастрюля,- населенный пункт – люди, живущие в населенном пункте: город, деревня,поселок,- наука – предмет науки: семантика, синтаксис и др.
(Апресян, 1995).Использование данной классификации отношений между значениями словаявлялось одним из важных направлений в попытках исследователей найти полезную дляприложений кластеризацию значений WordNet.2.5.2.2. Подходы к кластеризации значений WordNetОдной из первых идей по объединению значений WordNet для компьютерныхприложений было исследование, насколько явление регулярной многозначности можетслужить основой для такой процедуры.Работа (Buitellar, 1998) была посвящена изучению масштабов регулярнойполисемии в WordNet. Для этого все многозначные существительные былирасклассифицированы по их основным семантическим типам, задаваемым наиболеевысоким гиперонимом, к которым они относятся, таким как артефакт, каузальный агент,форма, действие и др. Далее все такие существительные были разбиты на группы всоответствии с наборами семантических типов, в которые попадают их значения.
Так,например, существительное банан, которое имеет значение пищевого продукта ирастения, попадает в ту же группу, что и такие слова как кориандр, грейпфрут и др.Всего было выделено 126 семантических типов, которые охватывают 39937существительных в 317 регулярных классах полисемии.60В работе (Peters и др., 2000) рассматриваются возможные направлениякластеризации значений в WordNet, основанные на различных типах лексическоймногозначности. Рассматривается три возможных типа многозначности, которые могутбыть использованы для кластеризации значений.Первое направление – обобщение, которое заключается в том, что если различныезначения одного и того же слова имеют один и тот же гипероним, то можно попытатьсянайти общее между всеми этими значениями, которое и рассматривать каккластеризованное значение. Такие значения могут располагаться в сети WordNet друг поддругом (одно является гиперонимом для другого) – явление, называемоеавтогипонимией.В таких случаях более высокое по иерархии значение может представлять значениекластера.Также обобщение может быть сделано для значений, являющихся такназываемыми «сестрами», т.е.
значениями, являющимися гипонимами одного и того жегиперонима. Например, в WordNet значения слова table (table2 и table3) имеют один и тотже гипероним piece of furniture – предмет мебели:Table2 – a piece of furniture having a smooth flat top supported by one or more verticallegs ―it was a sturdy table‖Table3 – a piece of furniture with tableware for a meal laid out on it: ―I reserved a tableat my favourite restaurant‖.Наконец, еще одной возможностью формального обнаружения обобщающегозначения являются так называемые синсеты-близнецы (twins) - т.е. те синсеты, в которыхпо крайней мере три синонима совпадают.Например, близецами являются такие синсеты как:violate, go against, break -- (fail to agree with; be in violation of; as of rules or patterns;"This sentence violates the rules of syntax")иtransgress, offend, infract, violate, go against, breach, break -- (act in disregard of laws,rules, contracts, or promises; "offend all laws of humanity"; "violate the basic laws orhuman civilization"; "break a law"; "break a promise").Второй тип возможного кластерного значения – это кластер, основанный наметонимии.
Этот тип покрывает случаи так называемой регулярной полисемии:организация - здание, дерево - древесина, материал - продукт, вместилище – содержимоевместилища и др. В данном исследовании такие пары задавались вручнуюТретий тип семантической кластеризации основан на явлении диатезы вариативности в управлении глаголов, во многих случаях различия между транзитивным(нетранзитивным), каузативным (инхоативным) использованием нужны лишь длявыражения некоторых сторон предиката, в то время как базисное значение остается одними тем же.В (Chugur и др., 2000) исследуется вопрос, какая группировка значений была быполезной для задач информационного поиска. Предполагается, что некоторые значениямогут быть кластеризованы для разных приложений, в то же время существуют примерыпар значений, кластеризация которых была бы полезна в информационно-поисковыхприложений, при этом в других приложениях было бы полезно их различать.
Примеромтакой пары значений являются следующие синсеты:Bet1. The act of gambling (ставить - вкладывать в банк в азартных играх)2. The money risked on a gamble (ставка в азартных играх).61Отмечается, что исследования регулярной многозначности не приводят квыделению полезных кластеров для информационно-поисковых задач, так как, какпредставляется авторам данной работы, некоторые образцы регулярной полисемиихорошо бы не различать для задач информационного поиска, в то время как другиехорошо бы сохранить отдельно. Так, например, полезно было бы кластеризовать такиепары регулярной полисемии как container/quantity (вместилище – объем вместилища) иmusic/dance (музыка – танец).