Диссертация (1137511), страница 5
Текст из файла (страница 5)
Для таких языков упрощение созданияэлектронного тезауруса позволит сильно расширить доступные инструменты АОТ. В качестве примера такого языка можно привести татарскийязык, для которого опубликован [119] толковый словарь, однако электронный тезаурус находится только в стадии разработки.– Лексические ресурсы, составление которых было в значительной мереавтоматизировано, могут содержать ошибки. Одним из простых способов выявления таких ошибок является сравнение ресурсов сходной структуры, составленных различными методами. Таким образом, составлениеновых электронных тезаурусов полезно и для улучшения качества ужесуществующих ресурсов.Как уже было отмечено во введении, цель настоящей работы в том, чтобыразработать метод, который позволяет получить качественный корпус тезаурусных отношений, применимый для составления электронного тезауруса.21Здесь необходимо сделать ряд уточнений относительно цели работы.
В работе исследуется вопрос о том, насколько малых ресурсов как экспертных, так иэлектронных, достаточно для получения приемлемого результата.В рамках настоящей работы мы не ставим целью получение полноценного тезауруса: Не все этапы процесса создания электронного тезауруса поддаютсяполной автоматизации при сохранении качества результата: даже после значительного уменьшения необходимой работы эксперта создание полноценного тезауруса остаётся чрезвычайно сложной и трудоёмкой задачей, выходящей далеко за рамки представленного исследования. Наша задача: исследование методовбыстрого первичного наполнения тезауруса. Поэтому мы накладываем следующие ограничения, позволяющие значительно уменьшить как количество необходимого труда экспертов, так и сложность применяемого аппарата, при этом непротиворечащие достижению цели:– Мы рассматриваем лишь часть тезауруса, основанную на именах существительных.– Мы не рассматриваем лексические значения, описанные именными группами, содержащими более одного словоупотребления.– Мы ограничиваем каждый синсет одним примером, но допускаем дублирование фактически идентичных синсетов.Итак, основная задача настоящей работы состоит в разработке метода создания множеств тезаурусных отношений, требующего малого количества человеческих и лингвистических ресурсов, но при этом помогающего создать электронный тезаурус высокого качества, лишённый интерференции других языков.Не менее важной частью задачи является верификация разработанного метода путём создания и изучения корпуса тезаурусных отношений между лексическимизначениями, представленными именем существительным и его толкованием.
Наконец, третьей частью задачи настоящей работы является исследование свойствразработанного метода подкрепление утверждения о его соответствии выдвинутым критериям не только путём исследования описанных в литературе методов,но и путём непосредственного экспериментального сравнения различных методов.Эти уточнения оказывают решающее влияние на весь последующий ход работы, начиная с выбора метода.221.2Методы построения электронных тезаурусов1.2.1Методы, основанные на ручном трудеТрадиционно тезаурусы создавались ручным трудом лексикографов с опорой на существующие лексикографические ресурсы, полевую и картотечную работу. Результатом ручного труда эксперта-лексикографа являются такие идеографические словари, как тезаурус Роже [99], идеографический словарь русскогоязыка под ред.
Баранова О. С. [14], Большой толковый словарь русских существительных под ред. Бабенко Л. Г. [16] и некоторые другие. Частично такой подходприменялся и для создания PWN.Многие современные ресурсы, используемые в системах АОТ также основаны на ручном труде экспертов. Необходимость привлечения экспертов для создания высококачественных семантических сетей отмечается, в частности, в [19].Ручная работа экспертов-лексикографов положена в основу работы группы Азаровой по созданию электронного тезауруса, хотя для некоторых задач применялась некоторая автоматизация, в частности, некоторые решения принимались сучетом частотного распределения языковых единиц.
Ручная работа экспертов положена в основу тезауруса РуТез. Принципиальной для разработчиков этого тезауруса является ручная проверка лексического состава тезауруса, его пополнение.Процесс создания семантической сети экспертами трудоемок, занимаетмного времени, на их создание иногда уходит более десяти лет. Так развитие тезауруса РуТез началось в 1994 году [26]. Недостатком такого подхода нередко является сравнительно небольшой объем ресурса. Так, тезаурус RussNet являетсянебольшим (меньше 20000 синсетов) и в открытом доступе находятся лишь егофрагменты (приблизительно 1500 синсетов).1.2.2Методы, основанные на массовых опросахСуществует несколько тезаурусов, разработанных также полностью ручным трудом, но при этом участвовать в их разработке может любой желающий, а23не только профессиональный лексикограф.
Такой подход к разработке тезаурусаназывается «краудсорсинг». К таким тезаурусам можно отнести Wiktionary и частично проект YARN [105]. При создании YARN принцип краудсорсинга положенв основу редактирования данных. В рамках данного проекта разметчику предлагается автоматически полученные из разнородных источников синсеты. Несмотря на то, что оба тезауруса находятся в открытом доступе, необходимо отметитьтрудности с тем, чтобы использовать отношения из этих тезаурусов: отношенияуказаны лишь для доли словаря и для них не проведена дизамбигуация, т.
е. говорить о соответствии словаря подходам PWN невозможно.1.2.3 Методы, использующие существующие структурированные ресурсыНекоторые тезаурусы созданы конвертацией существующих ресурсов: например, словаря с размеченными семантическими связями, как при созданииDanNet [38] или на базе онтологии, например, на базе онтологии, имеющей значительную лексическую составляющую (например, RuWordNet).Так, для целей настоящей работы представляется интересным опыт по созданию DanNet. Разработчики ресурса [38], с одной стороны, используют в качестве основы лексико-семантический ресурс SIMPLE-DK (порядка 10 тысяч концептов, семантика которых описана на специальном формальном языке), с другойстороны, данные словаря.Данный подход использовался при создании RuWordNet4 . Этот ресурс представляет собой трансформацию тезауруса RuThes (см.
раздел 1.1.5) в форматWordNet5 . Для русского языка соответствующий проект был опубликован в 2016.К сожалению, полностью свободного доступа к материалам ресурс не предоставляет.4 http://ruwordnet.ru/ru/5 https://wordnet.princeton.edu/241.2.4Методы, использующие переводные структурированные ресурсыОдним из наиболее популярных подходов к построению новых тезаурусов на сегодняшний момент является перевод существующих с использованиеммашинно-читаемых двуязычных словарей. Типичным примером такого подходаявляется Турецкий WordNet [44], тезаурус итальянского языка MultiWordNet6 [96].Данный подход основан на предположении, что большинство синсетовPWN соответствуют независимым от языка концептам, относящимся к объектамреального мира, а также, что онтологическая картина мира у носителей разныхязыков устроена подобным образом.
Авторы финского Ворднета [78] провели тестирование такого подхода. FinnWordNet был создан путем перевода 200000 лексических значений из PWN на финский силами профессиональных переводчиков.В [78] утверждается, что в результате экспертного перевода качество ресурса непострадало.Для русского языка также существуют ресурсы, представляющий собой автоматический перевод PWN (WordNet2 [60] или [40], подробнее см.
1.1.5.Несмотря на то, что в литературе приводятся отдельные примеры успешного применения данного метода (ср. FinnWordNet), при использовании автоматического перевода нередко качество ресурса оказывается низким, что затрудняет егоприменение в системах АОТ. Как считают многие эксперты, это связано с тем, чтоструктура лексических отношений в разных языках не изоморфна (о недостаткахтакого подхода указывается, например, в [26]).Иными словами, качество полученного ресурса в значительной степени зависит от качества перевода. Кроме того, такой подход фактически полностью исключает использование тезауруса в качестве инструмента для исследования различий таксономической организации представлений носителей разных языков.1.2.5Методы, использующие толковые словариТолковый словарь является ресурсом, который выделяет ограниченное множество лексических значений. Кроме того, два самых частых типа определений6 http://multiwordnet.itc.it25в современных толковых словарях — родовидовые и партитивные — напрямуюсоответствуют двум основным тезаурусным отношениям: гипо-гиперонимии имеронимо-холонимии.
Таким образом, толковый словарь является ценным ресурсом, содержащим значительную часть информации, необходимой для составления электронного тезауруса.В 1994 году Иде и Вернуа [69] провели исследование возможности использования толковых словарей как источника лексической информации для построения англоязычного WordNet. Для начала они показали, что в каждом отдельновзятом словаре может значительно не хватать гиперонимических связей для восстановления WordNet (не удаётся извлекать порядка 50%–70% гиперонимическихсвязей в зависимости от словаря).
Затем они собрали гиперонимические ссылкииз объединённого набора словарей, и в результирующем объединении для построения выбранного фрагмента WordNet лишь 5% связей были пропущены или несовпадали с их определением в WordNet. Работа выполнялась полностью вручную экспертами на небольшом заранее заданном наборе словарных толкований.Работа Иде и Вернуа явилась основанием для работы Херста [63], которыйвпервые исследовал возможность составления правил, позволяющих извлекатьтезаурусные отношения из каждого описанного лексикографами типа определений.Примерами применения данного подхода служат Бразильский WordNetпортугальского языка, который построен на основе извлечения отношений измашинно-читаемых словарей [54]., а также WordNet.PT [91] — тезаурус португальского языка.