Диссертация (1137511), страница 4
Текст из файла (страница 4)
Он является гипонимом синсета car, auto, automobile, machine,motorcar (a motor vehicle with four wheels; usually propelled by an internal combustionengine), для которого задан мероним roof (protective covering on top of a motorvehicle). В то же время для синсета jeep, landrover (a car suitable for travelingover rough terrain), указано только одно отношение: его гиперонимом является car,auto, automobile, machine, motorcar. Таким образом, пользователь WordNet не может с уверенностью утверждать о меронимо-холонимических отношениях синсета, гипероним которого состоит в меронимо-холонимических отношениях с другим синсетом.Несмотря на описанные трудности, PWN оказался важным инструментомдля автоматической обработки текстов на естественных языках, что будет проиллюстрировано ниже. Создание и успешное использование PWN в системах АОТвдохновило многие коллективы и многих авторов на создание аналогичных семантических сетей для разных языков.Были созданы ассоциации, поставившие своей задачей создание ворднетовдля разных семейств языков.
В частности, был создан Global WordNet Association,16который поставил своей целью отслеживать и способствовать созданию подобных PWN электронных тезаурусов для различных языков. Подобными PWN былиназваны семантические сети, обладающие хотя бы следующими тремя свойствами:– описаны узлы хотя бы для имён существительных,– среди связей существует хотя бы гипо-гиперонимическое отношение,– для многих узлов установлено соответствие с узлом PWN или другой семантической сети, для которого установлено соответствие с узлом PWN.Следует отметить, что данными свойствами обладают не только обсуждаемые вработе тезаурусы, но и такие онтологии верхнего уровня как SUMO или такиекраудсорсинговые ресурсы как Wikipedia.1.1.4Семантические сети для языков мираОсобый интерес как для исследователей языка и лексической типологии,так и для прикладных задач, таких, как машинный перевод, представляют тезаурусы, для лексических значений которых установлено соответствие с синсетами WordNet [46; 101].
Вслед за появлением нескольких таких ресурсов, началипоявляться комитеты, координирующие развитие таких ресурсов. Такими сталиEuroWordNet [110], организующий взаимосвязь тезаурусов для языков Европы,MLSN [51], CWN [66], курирующий развитие тезаурусов сино-тибетских и дальневосточных языков, BalkaNet [104], проект UWN [52], стремящийся объединитьвсе опубликованные электронные тезаурусы.Проект EuroWordNet, впервые опубликованный в 1998 году [109], ставитсвоей целью создание выровненных тезаурусов для всех европейских языков.Проект включает в себя тезаурусы для голландского, итальянского, испанского,немецкого, французского, чешского, эстонского и английского языков.Вслед за EuroWordNet в 2004 был создан проект BalkaNet [104], включающий в себя болгарский, греческий, румынский, сербский и турецкий языки.171.1.5Русскоязычные электронные тезаурусыПервые попытки создать русскоязычный тезаурус, аналогичный PWN,предприняла группа Азаровой [3; 39] в проекте RussNet3 .
Группа использовала «объединяющий подход»: первым шагом лексикографы создают ядро базовых концептов совмещая частотные лексемы русского языка и так называемое«ядро национального ментального лексикона», а затем устанавливают связи сEuroWordNet. На момент написания текста на сайте RussNet говорится о существовании 5500 синонимических групп, однако в свободном доступе они не представлены.Коллектив авторов [40] опубликовал сведения о том, что им успешно удалось создать полноценный WordNet-образный тезаурус, содержащий 145 000 синонимических наборов. Проект основан на гибридном подходе, включающем использование переводных и толковых словарей и ручной труд лексикографов. Нужно заметить, что сами полученные данные тезауруса не опубликованы и такимобразом говорить о том, что в доступе учёных имеется тезаурус, аналогичныйWordNet, не представляется возможным.Проект WordNet2 [60] основан на полностью автоматическом переводеPWN на русский язык с использованием электронных словарей.
Данный ресурсимеет целый ряд недостатков. То, что он получен автоматически, само по себевлечет множество различных ошибок. В частности, он содержит ряд не вполнеадекватных переводов, например корневой синсет «entity» переведён как «бытие». Кроме того он содержит ошибочные связи между лексемами, поскольку неучитывает полисемию. Например, тезаурус содержит следующую гиперонимическую цепочку: «пища, питание → твердое тело → вещество».
При этом значенияполисемичной лексемы в одном языке не соответствуют значениям ее переводного эквивалента в другом.Проект РуТез (RuThes, [81]) посвящён созданию лингвистическимотивированной онтологии и потому значительно отличается от WordNetподобных тезаурусов. Проект был ориентирован на создание лингвистическойонтологии для применения в системах АОТ и, согласно разработчикам [81],совмещает свойства сразу трех типов ресурсов: информационно-поисковыхтезаурусов, ресурсов типа WordNet, а также формальных онтологий. Единицами3 http://project.phil.spbu.ru/RussNet/18этого ресурса являются термины различных предметных областей, включаямногословные термины. Синсеты включают общепринятые в информационнопоисковых тезаурусах синонимы, например, сокращения (ср.
«автозаправочнаястанция АЗС»). При выделении отношений учитываются разные типы релевантных для информационного поиска отношений, в частности, различныетипы отношений онтологической зависимости (например, «пианино–пианист»).Авторы РуТез выделяют в качестве понятийных единиц значения реально существующих языковых единиц, не объединяя в одну единицу похожие значения,если для каждого из них существует свой синоним. В основе ресурса лежитлогико-терминологическая иерархия понятий; используемые в нем отношенияимеют формальные определения и формальные свойства. Принципы выделения синсетов несколько отличаются от принципов PWN, авторы РуТез вводятпонятие онтологических синонимов.Проект YARN основан на коллективном составлении тезауруса силамиочень большого числа непрофессиональных аннотаторов, т. н. подход «краудсорсинг» [105].
На момент написания текста результат работы проекта насчитывалболее 46 500 синсетов, включающих более 119 500 лексем, но не включает ниодной связи между синсетами.Таким образом, при разработке тезаурусов актуальными являются следующие вопросы:– между какими единицами устанавливаются тезаурусные отношения;– исходя из каких принципов задается набор единиц, между которыминеобходимо установить отношения;– каков набор отношенийДля данной работы существенными являются следующие принципы, принятые в вышеописанных ресурсах.
Входами тезауруса являются отдельные лексические значения. Это позволяет при автоматизации процедуры составлениятезауруса опираться на лексические значения в толковых словарях. Тезаурусдолжен представлять иерархию понятий, что соответствует тому, что в центревнимания настоящего исследования преимущественно методы извлечения гипогиперонимических отношений.191.1.6Применение семантических сетейPWN активно используется для решения самых разных задач АОТ. Ниже мыперечислим лишь несколько примеров его применения.Во многих задачах АОТ используются различные метрики семантическойблизости лексем, предложений или текстов. Одно из наиболее распространенныхприменений WordNet это расчет расстояния между значениями или лексемамив иерархии WordNet. Простейшим подходом к построению таких метрик является метрика, предложенная в [98], равная длине кратчайшего пути по связям вWordNet между синсетами, содержащими две заданных лексемы.В то же время, в качестве базы лексических значений, используемых для аннотации корпусов WordNet остаётся главным инструментом наравне с электронными онтологиями.Одним из ключевых применений для семантических сетей были и остаютсязадачи разрешения анафоры, корефененции, бриджинга, см.
[84].В качестве метрики близости WordNet используется и в других задачах, таких как извлечение фактов или отношений [77].При наличии семантических сетей для двух языков, между которыми установлено соответствие на уровне синсетов, становится возможным их применениедля машинного перевода [32].Ещё одно полезное свойство WordNet состоит в возможности заменять слово на обобщающее и, наоборот, определять значимость данного слова. Наряду сопределением значимости предложения это свойство используется для автоматического реферирования [43].Ресурсы, предоставляющие структурированные представления семантикипредложения являются одним из ключевых для генерации текста, и, в особенности, для генерации текста в диалоговых системах [93].
Как правило, структурированные представления используют в качестве способа представления семантических единиц семантическую сеть: тезаурус или онтологию.201.1.7Постановка задачиИтак, как было показано выше, электронный тезаурус является одним изважнейших инструментов, используемых при автоматической обработке текста.В последние годы появились несколько электронных тезаурусов для русского языка, применимых для решения задач АОТ.
Несмотря на это задача построения электронных тезаурусов остаётся важной:– Большой интерес для АОТ представляет обработка не только корпусов собщей лексикой, но и специальных корпусов. При этом электронные тезаурусы на момент написания настоящего текста существуют лишь дляобщей лексики. Таким образом, задача упрощения составления электронных тезаурусов для специальной лексики представляет интерес. На примере русского языка нетрудно перечислить множество качественных толковых словарей различных предметных областей, и это даёт основанияполагать, что для задачи построения таких тезаурусов возможно найтирешение, требующее ограниченного количества усилий экспертов.– Как было показано выше, для большинства современных языков электронных тезаурусов не создано. В то же время для некоторых из них ужесозданы другие структурированные лексикографические ресурсы, такиекак толковые словари, использование которых позволяет упростить создание электронного тезауруса.