Диссертация (1137511), страница 24
Текст из файла (страница 24)
Отношения, полученные применением корректных алгоритмов к некорректным входным данным, были проигнорированы при измеренииточности различных алгоритмов, однако остаются в полученных в результате работы гиперонимических цепочках. Исследование вопроса о том, в каких случаяхалгоритм классификации должен вовсе отказаться от принятия решения, можетспособствовать улучшению получаемых в результате данных.Полезно заметить, что дизамбигуация гипо-гиперонимических отношенийне является произвольно выбранным примером применения универсальных подходов.
Например, для дизамбигуации отношений синонимии предложенные подходы могут показывать значительно более низкие результаты, так как контексты,в которых в словаре описаны синонимические наборы, содержат слишком малослов. Одновременно для объединения синсетов доступен куда более подходящийисточник данных: уже построенные гипо-гиперонимические цепочки. Само положение какого-либо значения слова в окружении известных для него гипонимови гиперонимов является гораздо более значимым источником контекстной информации.
В то же время мы предполагаем, что для меронимо-холонимических отношений между существительными те же методы, которые приводятся в настоящейглаве, должны показать сходные результаты, хотя и не подкрепляем в это предположение экспериментальной проверкой.1224.7ЗаключениеВ настоящей главе проведено сравнение нескольких методов разрешениянеоднозначности на корпусе тезаурусных отношений, полученном в главе 3.В результате работы, описанной в настоящей главе, получен набор из 42556гипо-гиперонимических пар с разрешённой неоднозначностью.
Полученный массив данных легко представляется в виде гипо-гиперонимических цепочек, наборов ко-гипонимов или вовсе в виде графа. Его можно применять для решения задач автоматической обработки текстов: в качестве меры семантической близостии в качестве инструмента для обобщения. Однако делать это следует с осторожностью, так как точность полученных данных недостаточна для доверия длиннымгиперонимическим цепочкам.123ЗаключениеПредставленная работа преследует общую цель изучения методов частичной автоматизации труда экспертов при создании электронного тезауруса. Основное внимание в работе уделяется части тезауруса, состоящей из лексических значений существительных, связанных отношениями гипо-гиперонимии.Работа базируется на подробном исследовании существующих электронных тезаурусов и методов их построения, проведённом в главе 1. На основанииобзора методов в работе выбран общий подход к построению тезауруса на основе извлечения отношений из толкового словаря.
Основными этапами построениятезауруса в рамках этого подхода являются:– извлечение омонимичных тезаурусных отношений из цифрового представления толкового словаря;– дизамбигуация омонимичных отношений;– построение синсетов, объединение отношений в связный граф;– верификация, ручное исправление ошибок, и дальнейшее пополнение тезауруса.Из описанного подхода в фокусе работы находятся первые два шага: извлечениеомонимичных отношений и их дизамбигуация.Основным источником информации для построения тезауруса в работе выбраны толковые словари. В главе 2 исследуются свойства, которыми обладаюттолковые словари в качестве корпуса на ограниченном подмножестве естественного языка. Для этого рассматриваются классификации толковых словарей, описываются возможные характеристики словарных статей.
Ключевую роль для последующей работы играет исследование типологий словарных толкований; именно оно ложится в основу последующих экспериментов по извлечению отношений.Результатами главы являются: описание требований к толковому словарю для использования в работах, аналогичных описываемой; и выбор толкового словаря,используемого в качестве основного материала для дальнейшей работы.Глава 3 описывает основную часть исследования: извлечение отношений изсловарных толкований. В главе приведён обзор существующих методов извлечения отношений и их свойств как в применении к толковым словарям, так и к традиционным корпусам. Важную роль в главе занимает описание подготовки толкового словаря для использования в качестве корпуса толкований.
В главе описано124два метода извлечения отношений: пилотный метод для определения нижнего порога допустимой точности метода и основной метод. В качестве основного предложен новый метод извлечения, ранее не описанный в литературе. Предложенныйметод отталкивается от широко применяемого метода лексико-грамматическихшаблонов и преследует цели: ускорить составление шаблонов и увеличить точность извлечения. Предложенный метод состоит из двух шагов: кластеризациятолкований и извлечение из них отношений при помощи лексико-грамматическихшаблонов. Предложенный для кластеризации толкований тип признаков: лексикограмматические триграммы — также почти не встречается в литературе.
В главеописана серия экспериментов, которая показывает применимость предложенныхметодов для извлечения отношений. Практическим результатом, полученным входе экспериментов, описанных в главе, является корпус тезаурусных отношениймежду существительными, связанных отношениями:– гипо-гиперонимия,– меро-холонимия,– синонимия,– домен-экземпляр,Указанный тезаурусных отношений омонимичен: каждый тип отношенийв нём представлен набором пар [лексическое значение – лексема]. Для построения из него семантической сети необходимо преобразовать его в корпус, в котором отношения представлены наборами пар [лексическое значение – лексическоезначение], то есть дизамбигуировать. Этому преобразованию посвящена глава 4.Отправной точкой главы является подробное описание выбранной для решения внастоящей главе задачи.
Для исследования выбрана задача широкого автоматического перебора возможных сочетаний методов, применимых на различных этапахдизамбигуации. В рамках описываемых в главе экспериментов принято решениеограничиться только гипо-гиперонимическими отношениями. В главе проводится обзор методов дизамбигуации и выбор методов, исследуемых в настоящей работе.
Большой частью описываемого исследования являлась разработка инструмента для аннотации и организация процесса аннотации корпуса омонимичныхотношений, описанию этого уделено соответствующее внимание в тексте главы.Ключевой частью главы является описание постановки и результатов эксперимента.Практическим результатом работы является создание и описание фрагментов семантической сети, содержащих лексические значения существительных125связанных отношением гипо-гиперонимии. Представленный результат требуетпродолжения работы для объединения фрагментов семантической сети в единуюкомпоненту связности.
На данный момент это представляется разумным делатьлишь с помощью ручного труда лексикографа и осталось за пределами представленной работы.Другим важным открытым практическим вопросом является включение впостроенные фрагменты семантической сети других типов отношений, присутствующих в омонимичном корпусе. Интересной темой для исследования являетсясравнение различных методов дизамбигуации в применении к различным типамотношений. Наиболее интересным её аспектом является поиск особенных признаков, позволяющим значительно улучшить результаты по сравнению с корпусными методами дизамбигуации: так, например, для Задача пополнения синсетови отождествления синонимичных фрагментов полученной семантической сети.Представленные цепочки возможно использовать в качестве ограниченного инструмента для определения семантической близости и без дополнительнойобработки: но в этом случае ответ о расстояниями между двумя понятиями возможно получить лишь для семантически близких лексем.В то же время множество интересных подходов к задаче построения тезауруса осталось за рамками рассмотрения.
Все из описанных подходов либо требуют привлечения дополнительных лингвистических ресурсов, либо показываютнизкие результаты. Кажется возможным использовать в качестве такого ресурсафрагменты электронного тезауруса, являющиеся результатом работы. Интересной задачей является исследование возможности зацикливания процедуры создания тезауруса и получения улучшенного тезауруса за счёт привлечения толькочто полученного. Эту задачу предстоит решить в будущем. Одновременно с этимактивно развиваются подходы, основанные на использовании нейронных сетей ивекторных семантических моделей. Хотя на данный момент эти подходы не показывают достаточно высоких результатов и требуют значительных лингвистических ресурсов, их развитие и применение безусловно является интересным направлением для последующей работы.Все данные, полученные в результате работы, а также исходные тексты программ, использованных для получения данных, опубликованы также в электронном виде: http://web-corpora.net/wsgi3/thesaurus-relations/126Список литературы1.
Апресян В. Ю., Апресян Ю. Д., Бабаева Е. Э. [и др.]. Активный словарь русского языка. Т. 3. Москва, Санкт-Петербург : Общество с ограниченной ответственностью «Нестор-История», 2017. ISBN: 978-5-4469-1187-5.2. Апресян В. Ю., Апресян Ю. Д., Бабаева Е. Э. [и др.]. Проспект Активногословаря русского языка. Языки славянских культур М, 2010. ISBN: 978-59551-0452-2.3. Азарова ИВ, Синопальникова АА, Яворская МВ. Принципы построенияwordnet-тезауруса RussNet // Компьютерная лингвистика и интеллектуальные технологии: труды международной конференции Диалог / Под ред.ИМ Кобозева, АС Нариньяни, ВП Селегей.
2004. С. 542–547.4. Апресян Юрий Дереникович. Избранные труды: Интегральное описание языка и системная лексикография. Москва : Школа «Языки русской культуры»,1995. Т. 2 из Язык, семиотика, культура. ISBN: 978-5-88766-045-5.5. Герд Александр Сергеевич. Прикладная лингвистика. Санкт-Петербург : Издательство С.-Петербургского университета, 2005. ISBN: 978-5-288-03920-1.6. Даль Владимир Иванович. Толковый словарь живаго великорускаго языка.
Втипографии А. Семена, 1865. Т. 3.7. Волин БМ, Ушаков ДН. Толковый словарь русского языка. Москва, 1940.8. Щерба Лев Владимирович. Опыт общей теории лексикографии // Щерба ЛВЯзыковая система и речевая деятельность. 1974. С. 265–304.9. Шелов Сергей Дмитриевич. Термин. Терминологичность. Терминологические определения. Санкт-Петербург : Филологический факультет СанктПетербургского государственного университета, 2003. ISBN: 5-8465-0093-5.10. Ожегов СИ. О трех типах толковых словарей современного русского языка //Вопросы языкознания.
1952. Т. 2. С. 85–103.11. Добров Б.В., Иванов В.В., Лукашевич Н.В., Соловьев В.Д. Онтологии и тезаурусы // Казань: КГУ. 2006.12712. Иомдин Борис Леонидович, Лопухина Анастасия А., Носырев Григорий В. Ксозданию частотного словаря значений слов.
// Материалы ежегодной Международной конференции «Диалог». Бекасово, Россия : РГГУ, 2014. С. 199–212.13. Ожегов Сергей Иванович, Шведова Наталья Юльевна. Толковый словарьрусского языка. Москва : АЗЪ, 1995.14. Баранов О С. Идеографический словарь русского языка. ETS polyglossumdictionaries, 1995. ISBN: 5-86455-050-7.15. Шведова Н.