Диссертация (1137511), страница 11
Текст из файла (страница 11)
Для целейисследования следует выделять больше уровней иерархии. В качестве лексикографических свидетельств толкования сопровождаются примерами употреблениялексем, цитатами из классической литературы и поговорками.Можно говорить о наличии в словарной статье неявных ссылок: каждое словоупотребление в тексте словарной статьи, если для него так же имеется толкование в словаре, является неявной ссылкой на соответствующую словарную статью.Как и в случае с имплицитными ссылками, имплицитные ссылки являются ссылками на лексему, а не на конкретное значение, и нуждаются в дизамбигуации.С этой точки зрения для выделения отношений должны быть выполнены следующие шаги: выделить из словарной статьи ссылки на другие словарные статьи,далее выбрать среди них ссылки на существительные, далее выбрать среди нихссылки, соответствующие тезаурусным отношениям, и определить тип тезаурусной связи.
Следует отметить, что существующие методы дизамбигуации и определения части речи вносят дополнительные ошибки, которые накапливаются накаждом этапе обработки. Это обусловило отличие общей схемы построения настоящей работы от описанного идеала.3.2.2 Электронная версия словаряВ работе использована электронная версия словаря, предоставленная компанией ABBYY.
Электронная версия словаря получена распознаванием печатнойверсии, вычитки, исправления ошибок распознавания. Итоговый текст имеет высокое качество: не более одной ошибки на 1000 словоупотреблений. Электроннаяверсия использует разметку для секционирования разделов. Разметка секционирования имеет более низкое качество, количество ошибок находится в диапазоне1–10 ошибок на 1000 использований помет секционирования среди помет, которые составляют интерес для настоящей работы. Пример предобработанной статьипредставлен на рисунке 3.2.53@A@N@P@h@i@k@v@w@y@y@v@w@y@y@y@y@w@~@~@Q@p@yР\'ЕБУС,-а;м.[от лат.rebus буквально "вещами, предметами, при помощи вещей, предметов"]1.Загадка, в которой разгадываемые слова даны в виде рисунков ...Замысловатый р.Решать, разгадать р.-2.О ком-, ч\"ем-л.
загадочном, непонятном.Этот человек представляет собой р.Мир полон ребусов.Загадать р. кому-л.Говорить с ребусами(непонятно, с нам\"еками).<Р\'ебусный,-ая, -ое.(1 зн.).Р. отдел в журнале.Рисунок 3.2 –– Пример входного формата словаря БТСВ таблице 2 представлена частота наиболее частотных тегов. Из таблицывидно, что соотношение количества словарных статей и толкований примерноодин к двум. Однако степень многозначности существительных может быть выше, чем некоторых других частей речи.3.2.3 Восстановление структуры словарной статьиПервый этап подготовки словаря — восстановление вложенной структурысловарной статьи по представленной плоской сегментации. На рисунке 3.3 представлены размеченная статья и статья с восстановленной исходной структурой54обозначение@y@w@A@∼@v@P@Nчастота2606461413227817074056584364443844058@u@D4002431264@M@x3107424012@Q21262@m@r1750117290@p12908@i10047……значениепримеропределениезаголовок словарной статьиначало словарного гнезданомер толкованиярод, число имени лексемы-существительногоморфологические и грамматическая информацияо лексеме-существительномтип употребленияморфологическая и грамматическая информациядля глаголовзалог глаголазамечания в скобках в словарной статье (даты,разъяснения смысла, область применения, гиперонимия, дополнение, антоним, ссылки на словарные статьи, источник цитирования и др.)морфологическая и грамматическая информациядля прилагательныхсловообразовательные пометыместоимения в примерах для обозначения склоненияномер толкования внутри ссылки на словарнуюстатьюэтимологическая помета: слово-источник заимствования…Таблица 2 –– Количество вхождений различных типов словарной информации вмашиночитаемой форме БТСВ ходе работы разработан препроцессор для Большого толкового словаря.Препроцессор получает на вход толковый словарь в описанном формате и возвращает уникальный идентификатор лексического значения, определяемая лексема55@A 1.
АККОРД,@N -а;@P м.@h [итал.@i accordo]@w Одновременное сочетание нескольких музыкальных звуков различной ...@y Взять два-три аккорда.@y Прозвучал последний, заключительный а.@\} <>@\} Аккорд струн.@w Полный набор струн для смычкового или щипкового музыкального инструмента.@\} Заключительный аккорд.@w Завершающее что-л. действие, событие.@~ <@~ Аккордовый,@Q -ая, -ое.@y А-ое вступление.[ ('A', '1. АККОРД,'),('N', ('-а;',)), ('i', 'accordo]'), ('h', '[итал.'), ('P', ('м.',)),[ ( 'w', 'Одновременное сочетание нескольких музыкальных звуков ...')],[('y', 'Взять два-три аккорда.')],[('y', 'Прозвучал последний, заключительный а.')],[('\\}', '<>')],[ ('\\}', 'Аккорд струн.'),[ ( 'w', 'Полный набор струн для смычкового или щипкового ...')]],[ ('\\}', 'Заключительный аккорд.'),[('w', 'Завершающее что-л. действие, событие.')]],[('~', '<')],[('~', 'Аккордовый,'), ('Q', ('-ая, -ое.',)), [('y', 'А-ое вступление.')]]]Рисунок 3.3 –– Словарная статья и её восстановленная структура.или словосочетание, её краткое и полное толкование и ссылки на другие словарные статьи в виде таблицы в формате CSV.Для обработки процессор делит все пометы на две категории: обозначающие начало раздела и размечающие только своё содержимое.
Пометы, отвечающие за секционирование словарной статьи, ранжируются согласно инструкциисловаря: начало раздела более высокого ранка обозначает завершение всех разде56ПометаA∼l}v{z|yxwРанг012345666799Разделотдельная словарная статьяотдельная словарная статьясловообразовательное гнездоделение словарной статьи по грамматической функции лексемыустойчивые выражения, фразеологические сочетаниялексическое значениерубрика: смысловой сдвигрубрика: смысловое варьированиерубрика: грамматические особенности в употреблении словапримерыэнциклопедическая справкатолкованиеТаблица 3 –– Ранжирование словарных разделовлов более низкого и равного ранга; начало раздела более низкого ранка обозначаетначало раздела, вложенного в текущий раздел.На этапе препроцессинга словарных статей возникают ошибки сегментирования и ряд других ошибок. При выборе алгоритмов последующей обработкинеобходимо иметь в виду критерий устойчивости алгоритма к ошибкам3.2.4Выделение толкований из словарной статьиВторой этап подготовки словаря — выделение из словарных статей пар[определяемое – определение].
После того, как словарь приведён к виду с восстановленной вложенной структурой, выделение словарных пар сводится к выборунабора словарных разделов, которые могут выступать определяемыми лексическими единицами и выделению из них текстуально первого раздела, который может выступать толкованием или ссылкой на другую статью. Кроме того, лишь наэтом же этапе доступна вся необходимая информация для раскрытия сокращённой формы определяемого понятия в толковании.57@A@u@m@P@u@>@p@y@x@~@~@a@wМАТЕРЬ,(устар.только им и вин. п.)ж.Высок.=Мать(1 зн.).М. Божия(о Богоматери).<<Матерь божья!в зн. межд.Выражение изумления, восхищения и т.п.лексемаМАТЕРЬкраткое толкованиеМ. Божия(о Богоматери).Матерь божья! Выражение изумления, восхищения и т.п.полное толкование)(устар.
Высок. М. Божия (оБогоматери).(о Богоматери).Выражение изумления, восхищения и т.п.ссылка=МатьРисунок 3.4 –– Исходная словарная статья с максимальным разнообразиемтипов разделов и её разбор на пары.Результатом второго этапа подготовки словаря является набор пар [определяемое – толкование], либо [определяемое – ссылка на определение], представленный в виде таблицы.
Толкование представлено в двух видах: краткий — собственно толкование, и полный — толкование, сопровождённое примерами и комментариями. См. пример 3.4Так как эксплицитные ссылки из большинства описаний существительныхуказывают на описания других частей речи, то их рассмотрение выходит за рамкинастоящей работы.3.2.5Определение частей речиТретий этап подготовки словаря — определение частей речи словарных лексем.58Часть речи лексемы определена с помощью морфологического анализатораmystem версии 3.1 [102].Распределение частот в корпусе лексем словаря (равномерное) отличаетсяот распределения частот слов, типичного для корпусов (распределение Ципфа).Так как mystem разрабатывался для морфологического анализа корпусов, необходимо проверить его применение к корпусу лексем словаря.
Для установленияприменимости mystem к разным типам определяемых единиц и выбора подмножества единиц, которые обеспечивают одновременно и достаточно большое покрытие материала словаря, и достаточно высокую точность работы mystem проведён вспомогательный эксперимент.Эксперимент в общем состоит из следующих этапов: выбор порога допустимой точности, выдвижение гипотезы, определение выборки, разметка частейречи в выборке с помощью mystem, выделение тестовой выборки, аннотация натестовой выборке частей речи экспертом, сравнение частеречных разметок, анализ точности определения части речи на разных выборках и их представленности.Экспериментальная выборка составляет 1000 лексических значений, взятых случайным образом из множества всех определяемых единиц в словарномкорпусе.
Выборка размечена аннотатором и морфологическим анализатором.Если синтаксическая вершина определяемого словосочетания имеет ту жечасть речи, которую подразумевает толкование, аннотатор приписывает определяемому словосочетанию соответствующую часть речи. Если части речи расходятсяили толкование содержит ошибки разбора, мешающие определить часть речи, аннотатор приписывает определяемому словосочетанию ответ «ошибка».Для разметки с помощью mystem каждая определяемая лексема трактуется как предложение. Частью речи определяемого словосочетания считается частьречи первого разбора последнего слова в нём.Результат:– 1000 толкований размечено,– из них 968 определений не содержат ошибок разбора и не вызывают сомненийу аннотатора,– для 894 определяемых словосочетаний часть речи назначена правильно,– точность: 89.4% среди всех определяемых словосочетаний, 92.4% среди определяемых словосочетаний, не содержащих ошибки.Определяемое словосочетание может быть как заголовочным словом статьи, так и заголовочным словом гнездовой статьи.
Среди заголовочных словосо59четаний статьи, состоящих из одного словоупотребления, точность определениячасти речи выше:– 836 заголовочных словосочетаний из одного слова,– из них 830 толкований не содержат ошибок разбора и не вызывают сомнений уаннотатора,– для 814 заголовочных словосочетаний часть речи определена верно,– точность: 97.4% среди всех таких словосочетаний, 98.0% среди таких словосочетаний, не содержащих ошибки.Для имён существительных качество морфологической аннотации следующее:– 357 существительных,– 350 правильных случая,– 357 случая определено как существительные,– точность: 98.0%, полнота 98.0%.3.2.6 РезультатыКонечным результатом предобработки словаря является корпус толкованийимён существительных.Корпус состоит из списка лексических значений.