Тезаурусы в задачах информационного поиска. Лукашевич (2010) (1185451), страница 19
Текст из файла (страница 19)
Общие принципы организации EuroWordNetПервым проектом, который провозгласил цель построения ворднетов длянескольких европейских языков и в котором были сделаны попытки внести улучшения вструктуру такого рода лингвистических ресурсов, был проект EuroWordNet, которыйвключал в себя два этапа. На первом этапе (1996-1999) ворднеты создавались дляголландского, испанского и итальянского языков. На втором этапе – для французского,чешского, немецкого и эстонского языков (Vossen, 1998; Vossen, 2003; Climent и др.,1996).Поскольку проект EuroWordNet был многоязычным, то перед разработчикамистоял серьезный выбор, нужно ли стремиться к разработке языково-независимойструктуры, с которой необходимо сопоставить единицы каждого языка, или, может быть,нужно иметь единую систему синсетов – новая единица в иерархической сети может бытьвключена, если хотя бы один язык из рассматриваемых имеет лексему или устойчивыйоборот с таким значением.68По принятому в проекте решению каждый ворднет должен сохранять спецификусвоего языка.
При этом каждый ворднет должен содержать отсылки на значенияПринстонского WordNet, что позволяет сравнивать ворднеты, обнаруживатьнепоследовательности в построении ворднетов и видеть различия в устройстве разныхязыковых систем (рис. 3.1).Одновременно в рамках проекта была создана небольшая классификация верхнегоуровня, к которой должен был приписан каждый создаваемый ворднет.Wordnet 1.5Dutch Wordnetobjectvoorwerp{object}artifact, artefact(a man-made object)blocknatural object(an objectoccurring naturally)instrumentalitylichaam{body}werktuig{tool}bodydeviceimplementblok{block}bak{box}lepel{spoon}tas{bag}containertoolinstrumentboxspoonbagРис.3.1.
Различия в классификации объектов ванглоязычном и голландском ворднетах (Vossen, 2003)Основные предполагаемые применения ворднетов – это предсказание той или инойвозможной замены лексических единиц в тексте для целей информационного поиска,генерации текстов, машинного перевода, разрешения лексической многозначности.Отношения между лексемами должны выявляться в процессе примененияклассических лингвистических тестов (см. раздел 2.1. и Cruse, 1986).Учитывая сложности, которые возникали при применении тезауруса WordNet вкомпьютерных приложениях, разработчики европейских ворднетов предложили рядсущественных нововведений в структуре создаваемых ворднетов.Большой класс изменений касается описания отношений между синсетами,которые можно разделить на следующие группы:- приписывание дополнительных атрибутов отношениям,- введение отношений между частями речи,- введение дополнительных отношений.3.2.
Отношения в EuroWordNet3.2.1. Атрибуты дизъюнктивности/конъюктивностиПриписанные синсету отношения могут выполняться одновременно (возможнаконъюнкция отношений) или выборочно (отношения дизъюнктивны). Так, обычноотношения «часть» конъюктивны – все части автомобиля одновременно составляютавтомобиль. Гипонимы синсета обычно дизъюнктивны. Таким образом, обычноимплицитно предполагается конъюнктивность меронимов и гиперонимов, идизъюнктивность гипонимов.69Вместе с тем могут возникать ситуации, когда явно полезно указатьдизъюнктивность или конъюнктивность какой-либо совокупности отношений. Например,полезно иметь возможность отражения дизъюнктивность таких частей как пропеллер иреактивный двигатель у самолетов.Для возможности отражения таких отношений между отношениями введеныатрибуты отношений: ci - для отражения конъюнктивности, di - для отражениядизъюнктивности.Тогда, фрагмент описания частей самолета можно выглядеть таким образом:{ самолетHAS PART: c1дверьHAS PART: c2d1реактивный двигательHAS PART: c2d2пропеллер}Информация о том, что собака является и животным, и домашним питомцемзаписывается так:{ собакаHYPERONYM: c1млекопитающееHYPERONYM: c1домашний питомец}Возможность нахождения дверей в разных объектах можно отразить так:{ дверьPART OF: d1автомобильPART OF: d2помещениеPART OF: d3вход}А то, что альбинос может быть животным или растением:{альбиносHYPERONYM: d1растениеHYPERONYM: d1животное}Авторы EuroWordNet считают, что такое описание отношений позволит внекоторых случаях уменьшить число различных значений.
Кроме того, такая возможностьполезна для описания валентностей глаголов, то есть сочетаемости глаголов с другимисловами в предложении.3.2.2. Отношения между разными частями речиКак уже указывалось, первоначально в Принстонском WordNet не былиустановлены отношения между различными частями речи.Поскольку это вызывало серьезные проблемы в приложениях, в проектеEuroWordNet были введены дополнительные отношения между частями речи:- xpos-synonymy – частеречная синонимия,- xpos-antonymy – частеречная антонимия,- xpos-hyponymy - частеречная гипонимия.Таким образом, упомянутые в разделе 2.5.1 отношения между синсетамиadornment2 (процесс украшения) и adorn1 (украсить) могли быть описаны отношениемчастеречной синонимии:70{adorn V}XPOS_SYNONYM {adornment N}3.2.3.
Новые отношенияСущественным дополнением в описание отношений между синсетами сталовведение семантических отношений (ролей) таких как агент, инструмент, объект, местои обратные к ним отношения (Табл. 3.1). Подобные отношения в настоящее времявводятся и в Принстонский WordNet 3.0. (Clark, 2007).{hammer-молоток}{to hammer –прибивать молотком}{school - школа}{to teach - учить}ROLE_INSTRUMENT{to hammer – прибиватьмолотком}INVOLVED_INSTRUMENT{hammer - молоток}ROLE_LOCATIONINVOLVED_LOCATION{to teach - учить}{school - школа}Таблица 3.1. Примеры семантических ролей между синсетами в EuroWordNetКроме того, были введены отношения типа Co-role relations, которые выражаютиспользование лексем из синсетов при описании ролей в одних и тех же ситуациях (Табл.3.2.).гитаристHAS_HYPERONYMисполнительCO_AGENT_INSTRUMENTгитараHAS_HYPERONYMигрокROLE_AGENTCO_AGENT_INSTRUMENTиграть музыкуHAS_HYPERONYMROLE_INSTRUMENTчеловекиграть музыкумузыкальныйинструментto make (создавать)музыкальныйинструментТаблица 3.2.
Примеры отношений между синсетами, которые участвуют в одних итех же ситуациях3.2.4. Описание предметных областей (domains)EuroWordNet включает в свою структуру также описание предметных областей –доменов. Это нововведение призвано преодолеть проблему WordNet, описываемую кактеннисная проблема, когда принадлежащие одной предметной области, сфередеятельности, ситуации синсеты, оказываются далеко друг от друга в структуре WordNet(см.п. 2.5.3.1.).Именно в рамках проекта EuroWordNet было предложено упоминавшееся решение,сгруппировать синсеты в домены. Предполагалось, что введение доменов должно бытьособенно полезно для информационно-поисковых задач. Домены представляют собойотдельные объекты и могут быть организованы между собой в иерархии.Эксперименты с доменами в ворднетах были продолжены и в следующемевропейском проекте, связанном с ворднетами, Meaning (Atserias и др., 2004; Castillo и др.,2004).713.2.5 Межъязыковой индекс ILIДля того, чтобы установить связи между различными языками в проектеEuroWordNet, синсеты каждого ворднета имеют отсылку на так называемый межязыковойиндекс (interlingual index - ILI), в качестве которого выбираются синсеты ПринстонскогоWordNet.
Индекс представляет собой неупорядоченный список синсетов с толкованиями.Для наиболее точного описания соответствия конкретных синсетов каждого языкаи преодоления лексических пропусков, которые могут возникнуть в том или ином языке,предоставляется возможность использования нескольких разных отношенийэквивалентности от синсетов конкретного языка к индексу ILI:- EQ_SYNONYM: имеется прямое соответствие между синсетом языка и синсетоминдекса;- EQ_NEAR_SYNONYM: синсету соответствует несколько синсетов индекса,- HAS_EQ_HYPERONYM: синсет является более специфичным, чем имеющиесясинсеты индекса,- HAS_EQ_HYPONYM: синсет может быть связан только с более специфичнымисинсетами индекса.Так, испанское слово dedo, соответствующее русскогому слову палец, находится вотношении HAS_EQ_HYPONYM таким английским синсетам из индекса ILI как toe(палец ноги) и finger (палец руки).3.3.
Ворднеты для других языковВ данном разделе будут рассмотрены особенности представления лексическойинформации, предлагаемые разработчиками разных ворднетов.3.3.1. Немецкий ворднет GermaNetGermaNet является ресурсом, созданным по принципам WordNet, а не простонемецким вариантом синсетов Принстонского WordNet (Kunze, Wagner, 1999).Характеристики GermaNet на дату апрель 2010 года: 61659 синсетов, 84586лексических единиц, 76709 разных лексических единиц, отношений между синсетами 73686 (http://www.sfs.uni-tuebingen.de/GermaNet/).Особенностью описания существительных в GermaNet является вводискусственных синсетов со специальной пометкой для объединения в отдельные классыгипонимов, разделяемых по одному и тому же признаку.
Например, такими синсетамиявляются синсет ?Abstammender Mensch – Люди по происхождению, или?ausgebildeter_Mensch – Обученные люди. Для того, чтобы включить понятие дилетанта –вводитсяещеоднопонятие?ausgebildeter_Mensch?,чтоозначает(Человек_по_образованию), которое, таким образом, разделяется на три гипонима:учащиеся, обученные люди, необученные люди.Рассматривая примеры регулярной полисемии существительных (такие каквместилище – его содержимое, процесс - результат, место - жители) (см.
раздел 2.5.2.1),разработчики ресурса указывают, что используют два метода ее описания в GermaNet:- создание отдельных синсетов для каждого такого значения, что приводит кдополнительным значениям, которые необходимо автоматически разрешатьпри обработке текста,- установление нескольких отношений гипоним – гипероним, но в таких случаяхнеобходимо, чтобы все нижестоящие гипонимы имели такую же полисемию.Для описания глаголов в GermaNet добавлено отношение каузации междуглаголом и прилагательным, отражающим состояние, к которому приводит обозначаемоеглаголом действие, например, zerschleißen (изнашивать) – zerstört (изношенный).72В отличие от WordNet в GermaNet используется множественная классификацияглаголов (например, глаголы движения) классифицируются по субъекту движения,одновременно по свойству транзитивности, а также по направлениям движения, чтоделает сеть классификаций более плотной.Кластерный подход описания прилагательных, предложенный в WordNet, измененна иерархическую структуру описания прилагательных, подобно существительным иглаголам.3.3.2.
Датский ворднет DanNetРазработка датского ворднета началась в 2005 году. В период до 2007 годапланировалось разработать ворднет величиной 40 тысяч понятий, 30 тысяч понятий изкоторых соответствуют существительным (Pedersen, Sorensen 2006; Pedersen и др. 2006).Разработка DanNet базируется на толковом словаре современного датского языка DDO исемантическом лексиконе датского языка SIMPLE (Lenci и др., 2000, McShane и др.,2004).Разработчики датского ворднета особое внимание обращают на построениеправильной структуры таксономий, поскольку, как мы уже упоминали в разделе 2.5.3.2.,одной из проблем Принстонского WordNet‘а является смешение нескольких разныхотношений под одним и тем же названием гипоним-гипероним.Рис.3.2.