Резюме (1137513), страница 3
Текст из файла (страница 3)
Примеромтакого словаря может служить Der Danske Oordbog. Самое сложное требованиелексикографии — своевременное пополнение словаря неологизмами. Большинство словарей описывает состояние, в котором язык находился за несколько летдо момента публикации словаря. Примером словаря, который развивается по мерепоступления неологизмов, может послужить Wiktionary,однако при этом нужноотметить, что в силу своей природы этот словарь уступает большинству вышеперечисленных словарей в строгости соблюдения структуры организации словарных статей и текстов толкований.Настоящая работа посвящена извлечению данных из словарных толкований.Выбор такого материала мотивирован, среди прочего, тем, что такой корпус использует ограниченное подмножество естественного языка.
Современная лексикография описывает несколько классификаций словарных толкований. В работеприводятся современные классификациии в главе III они сравниваются с классификациями, имплицируемыми выбранными методами выделения отношений.В качестве основного источника для настоящей работы использован Большойтолковый словарь под ред. Кузнецова (далее БТС). Этот словарь основан на требованиях к составлению, очень схожих с теми, на которых основывал свой словарьС.
И. Ожегов, однако при этом описывает более современное состояние русского языка. Словарь имеет богатую структуру и включает морфологическую, словоизменительную, словообразовательную, фонетическую, этимологическую информацию. Согласно описанию, смыслы слов описаны в рамках трёхуровневойиерархии. В работе показано, что с практической точки зрения словарь использует более сложную иерархию смыслов. В качестве лексикографических свидетельств толкования сопровождаются примерами употребления слов, цитатами изклассической литературы и поговорками.В работе описана типичная схема подготовки словаря для использования в качестве корпуса толкований и подробно описаны особенности обработки БТС врамках настоящей работы.
Для использования толкового словаря применяют такую последовательность шагов:• сканирование, распознавание текста и исправление ошибок распознавания;10• выделение в тексте словарных статей и помет секционирования словарнойстатьи;• восстановление иерархической структуры словарной статьи;• определение необходимого для исследования набора данных и выделениевыбранных частей словарных статей.Для некоторых толковых словарей, в том числе и для БТС, опубликованоихпредставление в электронном виде с некоторыми пометами секционирования. Поэтому в работе подробно рассматриваются последние два этапа обработки: восстановление иерархической структуры словарной статьи и выделение необходимых частей информации из полученного структурированного представления.В работе описан алгоритм восстановления иерархической структуры словарной статьи, основанный на использовании информации о ранге различных пометсекционирования.
Приведены примеры словарных статей и показано, что для интерпретации приведённых примеров необходимо использование иерархии болеесложной, чем описанная в инструкции по использованию словаря.Для настоящей работы в качестве материала выбраны толкования имён существительных. В работе описаны сложности, связанные с определением частиречи по пометам, использованным в словаре. В рамках работы проведён эксперимент по измерению точности работы морфологического анализатора mystemдляопределения частей речи заглавных слов и приведены результаты: на выбранномподмножестве из 1000 слов точность определения части речи составляет 98.0%.Конечным результатом предобработки словаря является корпус толкований имён существительных.
Корпус являет собой набор пар «определяемое–определение» и «определяемое–ссылка на определение» при ограничении, чтоопределяемое является одним именем существительным. Определение представлено в кратком и полном виде. Краткий вид содержит лишь само толкование; полный вид содержит толкование, часть словарных помет и примеры употребленияопределяемого. В таком виде корпус толкований используется во всех последующих экспериментах.11***В главе III «Выделение отношений» описаны эксперименты по автоматическомувыделению отношений из корпуса словарных толкований. Извлечение отношенийв рамках этой главы ограничено указанием типа отношения и лексемы, состоящейс определяемым значением в заданном отношении. Выбор конкретного значениялексемы оставлен для отдельного исследования в следующей главе.В главе приводится краткий обзор методов извлечения отношений, применимых к корпусу словарных толкований.
В обзоре приводятся работы, показывающие принципиальную возможность извлечения отношений из такого корпуса припомощи небольшого набора лексико-морфологических правил. Основная трудность практического применения такого подхода связана с дискриминирующейспособностью таких правил.В главе описывается два эксперимента, проведённых в рамках настоящей работы. Материалом для обоих экспериментов является корпус толкований имёнсуществительных, описанный в главе II.Первый эксперимент показывает ограниченную практическую применимостьизвлечения гиперонимических отношений с использованием одного правила.
Врамках эксперимента применено правило: первое существительное в именительном падеже является гиперонимом определяемого. Для проверки правила размечен тестовый корпус. Показано, что точность извлечения гиперонимических отношений при помощи такого правила составляет 0.5. Проведён анализ проблемописанного подхода, подкрепленный.Второй эксперимент посвящён исследованию возможности улучшения результатов правилового подхода за счёт предварительной кластеризации корпусатолкований. Выбранный подход к извлечению отношений состоит из трёх шагов: кластеризация корпуса словарных толкований, экспертная аннотация каждого кластера с присвоением кластеру одного или нескольких правил извлеченияотношений, применение присвоенных правил и оценка качества.Цель этапа кластеризации состоит в том, чтобы уменьшить количество экспертного труда при аннотации словаря.
Поэтому одно из требований к кластеризации состоит в том, чтобы результатом кластеризации было как можно меньшекластеров. Существует фактор, ограничивающий уменьшение количества кластеров: в один кластер не должны попадать толкования разного типа — например,12имеющие разную синтаксическую структуру.На этапе аннотации эксперт должен ответить на следующие вопросы про каждый из представленных ему кластеров:• возможно ли извлечь тезаурусное отношение одним лексико-морфологическим правилом из большинства толкований, присутствующих в кластере,• какого типа это отношение,• какое морфосинтаксическое правило позволяет извлечь отношение,• после применения правила к толкованиям в кластере, в скольких случаяхприменение указанного правила даёт правильный ответ?Для кластеризации использованы следующие признаки:• лексические униграммы: словоформа (word), лемма (lemma),• минимальные морфологические униграммы: часть речи (pos), наличие каждого из возможных морфологических признаков у слова по отдельности(gr_atom),• составные морфологические униграммы: полный морфологический разборслова в виде неделимого строкового описания (gr), изменяемые морфологические признаки слова в виде неделимого строкового описания (mutable_gr),неизменяемые морфологические признаки слова в виде неделимого строкового описания (immutable_gr),• смешанные триграммыс шаблонами:(lemmas, immutable_gr, immutable_gr),(immutable_gr, lemmas, immutable_gr),(immutable_gr, immutable_gr, lemmas).Для каждого из описанных признаков составлен его частотный словарь по корпусу толкований, и в качестве признака для кластеризации использовано наличиелибо отсутствие каждого из 200 самых частотных значений соответствующегопризнака.13POS1234VPRSPROSотчего-л.кусок.word Отколовшийся(POS, word) bigram(Vот)( PR чего-л.
)( SPROкусок. )Рис. 1: Пример фразы и её смешенных биграмм с шаблоном (pos, word)Традиционно под n-граммой понимается кортеж из n последовательных элементов взятых из одного списка сущностей. Аналогичным образом, имея набориз n различных списков сущностей одинаковой длины, в которых одна и та же позиция описывает разные признаки одной и той же сущности, мы можем определить смешенную n-грамму как кортеж из n последовательных элементов, взятыхиз этих списков таким образом, что каждый следующий элемент кортежа берётсякак из следующей позиции, так и из следующего списка сущностей.Пример смешенной n-граммы приведён на рис.
1. В случае лингвистическихданных мы будем называть набор использованных списков шаблоном n-граммы.Russian.WNотношениеOnto.PTколичество точность количество точностьгипероним5324685.54%29,56359.10%синоним1004475.69%11,86286.10%мусор7175100.00%синонимы гиперонима416076.11%гипоним276153.71%холоним1017100.00%1,28752.60%домен49551.72%инстанциация25361.26%гипероним второго уровня125100.00%мероним10592.38%5862183.93%3789876.64%словарьТаблица 1: Оценка количества извлечённых отношений и точность извлечения отношений в сравнении с Onto.PT.14Для оценки качества полученных правил кластеры были сгруппированы потому, какое отношение может быть из них извлечено.
Для каждой такой группыкластеров посчитано общее число толкований в группу и совместная оценка точности. Опираясь на гипотезу, что каждый узел тезауруса имеет в среднем приблизительно один гипероним, можно использовать в качестве приближённой оценкиполноты долю определений, из которых выделены гипонимо-гиперонимическиеотношения среди всех определений. Для оценки качества использованных алгоритмов результаты сравниваются с Onto.PTкак одного из лучших на сегодняшнийдень тезауруса, среди построенных с помощью извлечения тезаурусных отношений из словарей.
В табл. 1 приведены результаты работы описанного выше гибридного подхода и их сравнение с выдержкой из результатов извлечения отношений из словарей для Onto.PT.В работе приводится подробное описание результатов эксперимента, анализрезультатов. По приведённой выдержке из результатов видно, что для некоторыхтипов отношений предварительная кластеризация помогает увеличить качествоизвлечения отношений.***Глава IV «Дизамбигуация тезаурусных отношений» посвящена двум экспериментам по автоматической дизамбигуации аннотированных слов.В главе представлен обзор существующих алгоритмов дизамбигуации, которые можно грубо разделить на три класса:• алгоритмы, основанные на простых эвристиках,• алгоритмы, основанные на машинном обучении,• алгоритмы, использующие модели дистрибутивной семантики.В работе особое внимание обращено к двум семействам алгоритмов: алгоритм Лескаи его модификации, как не требующий никаких дополнительных ресурсов для решения задачи дизамбигуации; и алгоритмы использующие предсказания векторных семантических моделей word2vecи adagramв качестве признаков для машинного обучения — это семейство подходов является одним из15наиболее точных.