Диссертация (1137511), страница 12
Текст из файла (страница 12)
Каждое лексическое значение представлено:– порядковым номером (уникальным идентификатором);– лексемой;– толкованием; толкование может быть пустым в том случае, если определениезадаётся только отсылкой к другой статье, только примером или отсылкой ипримером;– «расширенным толкованием»: т. е. фрагментом словарной статьи, описывающим данное лексическое значение, и состоящем из словарных помет, толкования и примеров;– отсылкой к другой статье.В таком виде корпус толкований используется во всех последующих экспериментах.Объём корпуса:60– всего лексем: 33683,– для них выделено лексических значений: 58621,– из них содержащих непустые толкования: 51479, ссылки: 7486.Итак, в настоящем разделе приведены критерии выбора исходного материала для настоящей работы — толкового словаря.
Описаны свойства толковых словарей. Приведена аргументация выбора и выбран в качестве основного материала Большой толковый словарь русского языка под ред. С. А. Кузнецова. Описана подготовка словаря на основе электронного его представления: восстановление иерархии описываемых в словарной статье семантических единиц; выделение лексических значений; извлечение подкорпуса, содержащего только существительные в качестве лексем, который служит набором данных для эксперимента.3.3 Контрольный эксперимент: носитель семантического отношения —вершина именной группы из толкования3.3.1Исходные допущенияВ разделе 1.2 кратко описаны все подходы к построению электронных тезаурусов.
В настоящем разделе мы остановимся более подробно на методах с применением толковых словарей.Как было уже показано выше, словарные толкования составляются с применением очень ограниченного подмножества естественного языка. Также показано, что язык словарных толкований неоднократно описан в рамках теоретическойлексикографии. Это даёт возможность создавать простые, но точные автоматы дляизвлечения отношений на таком корпусе с применением одного из самых простыхинструментов компьютерной лингвистики: лексико-грамматических шаблонов.Лексико-грамматические шаблоны являются одним из самых простых методов для извлечения информации.
Их применение достаточно широко распространено для решения задачи извлечения отношений, фактов, толкований, онтологийиз корпусов текстов (см., например, [28]), написанных на ограниченном подмножестве естественного языка. Это обстоятельство делает данный метод перспек61тивным для обработки корпуса толкований, которые представляют собой текстыданного типа.В разделе 2.3 были приведены несколько типологий толкований в словарях.У всех описанных типологий есть несколько важных общих свойств:– толкования всех описанных типов являются именными группами,– в отдельный тип толкований выделены партитивные толкования, в которых синтаксической вершиной толкования является, как правило, слово «часть»,– в большинстве остальных типов толкований вершина толкования является либонепосредственно гиперонимом определяемой лексемы, либо входит в одну извозможных гиперонимических цепочек,– в большинстве типов толкований синтаксическая вершина является первым существительным в именительном падеже в толковании.На основании этих наблюдений можно выдвинуть гипотезу о том, что первое существительное в именительном падеже в толковании либо является гиперонимом определяемого лексического значения, либо является лексемой «часть».Эта гипотеза уже была использована для извлечения гипо-гиперонимических отношений из словарей как для английского [64], так и для русского языка [45].
Авторы последней работы предлагают метод извлечения родовидовых отношенийна основе обработки энциклопедического словаря. Они опираются на следующиеисходные допущения [45, 414]: «Номинальное определение термина в энциклопедическом словаре почти всегда локализовано в первом предложении словарнойстатьи; в толковых словарях оно вообще, как правило, состоит из одной короткойфразы. При этом логически самая важная часть определения, указывающая родовое понятие, с помощью которого описывается определяемый термин, почти всегда грамматически акцентирована — представлена именной группой с главнымсловом — существительным в именительном падеже.
Несколько примеров. Толковый словарь Ожегова: МУШКЕТЁР1 : солдат, вооруженный мушкетом; МУШКЕТ1 :старинное ружье крупного калибра с фитильным замком.»На основе таких допущений можно сформировать совсем простое правило: носитель отношения — первое существительное в толковании.
Ниже описанэксперимент по применению этого правила.623.3.2Описание экспериментаЭксперимент включает следующие этапы:1. предварительная обработка корпуса толкований и морфологическая разметкатолкований;2. составление пар существительных, кандидатов на гипо-гиперонимические отношения;3. оценка пары существительных асессором;4. оценка результатов эксперимента.Первый этап, подготовка данных для эксперимента, включает предобработку корпуса толкований, извлечение лексических значений (ЛЗ, см.
3.1), а такжечастеречную аннотацию (подробное описание см. 4.3). В эксперименте используется краткая форма толкований. Специфическая для настоящего эксперимента подготовка сводится к морфологической аннотации текста толкований. Морфологическая аннотация проведена при помощи морфологического анализатораmystem [102]. Для каждого словоупотребления выбран первый разбор.Второй этап — извлечение из каждого лексического значения одного существительного, являющейся гиперонимом определяемого лексического значения(например, из «АТЕЛЬЕ2 : мастерская живописца, скульптора, фотографа» необходимо извлечь [АТЕЛЬЕ2 – МАСТЕРСКАЯ]).
По разным причинам возможна ситуация,когда искомое существительное (существительное в именительном падеже из толкования, находящееся в гиперонимическом отношении к толкуемому существительному), оказывается не первым существительным в толковании. Например, этоможет происходить из-за ошибок морфологического анализатора. Поэтому, если в толковании содержатся более одного существительного, которому приписанименительный падеж, каждое из них (но не более первых трех) может считатьсяпотенциальным гиперонимом для соответствующего лексического значения.В таблице 4 представлены примеры лексических значений и связанных существительных из толкований.
Как видно из таблицы, действительно, для частитолкований гипотеза о том, что первое существительное в толковании соответствует гиперониму верна (ср., например, существительные, выделенные из толкований для лексических значений АТЕЛЬЕ и ЗЕНИТЧИК). Однако не всегда это верно.Например, отношение между лексемами ПЕРМЯКИ и НАЗВАНИЕ нельзя отнести к63словократкое толкованиепервоесуществительноеАТЕЛЬЕ2Мастерская живописца, скульптора, фотографаартиллерист зенитной артиллерииСогласие, единодушное принятие чего-л.то, что полосой окаймляет, окружает что-л.устарелое название коми-пермяковТо, что занесено в список и т.п., что официально зарегистрированоМАСТЕРСКАЯЗЕНИТЧИК2КОНСЕНСУС2КАЙМА2ПЕРМЯКИ1ЗАПИСЬ3АРТИЛЛЕРИСТСОГЛАСИЕНАЗВАНИЕТаблица 4 –– Примеры лексем, находящихся в синтаксической вершинетолкованияродовидовым. В последних трех строках таблицы в толкованиях не представленыподходящие существительные.На третьем этапе выбранные существительные предложены трём аннотаторам для разметки.
В данном эксперименте из разметки аннотаторов нас интересует лишь, связаны ли элементы пары гиперонимическим отношением или нет.3.3.3Результаты и анализВ таблице 5 приведена матрица совпадений ответов аннотаторов. Значениев матрице в строке i и столбце j обозначает количество случаев, когда для одноготолкования один из аннотаторов указал ответ i, а другой из аннотаторов указалответ j.Коэффициент согласия аннотаторов κ = 0.71 ± 0.6 Фляйса [59]. Точностьизвлечения отношений таким методом составила бы P = 60.3 ± 6.6% с 95% доверительным интервалом.Из таблицы 5 видно, что добавление второго и особенно третьего существительного в предложенное правило не существенно сказалось на результате извлечения отношений.64гиперонима нетпервое S.Nвторое S.Nтретье S.Nчастотагиперонима нет первое S.N второе S.N третье S.N348.53714137426191141986111160.400.480.120.01Таблица 5 –– Матрица совпадений ответов аннотаторов.Низкий результат объясняется, в частности, тем, что данный метод игнорирует существование разных лексико-грамматических типов толкований (ср.
данные из таблицы 4).3.4 Извлечение отношений с частичным привлечением учителя.Автоматическая кластеризация толкованийОписанный выше эксперимент показывает, что исходное предположение отом, что правило: первое существительное в толковании — гипероним, покрывает относительно невысокий процент случаев. Такой результат очевидным образом предсказывается и лексикографической теории классификации словарныхтолкований (см. раздел 2.3). Каждому типу словарных толкований (через родовое понятие, через синонимы, отсылочное и др.) соответствует свой тип тезаурусных отношений, свои правила выделения из толкования лексемы, которая находится в тезаурусном отношении к толкуемому значению.
Однако тогда возникают другие трудности. Во-первых, чтобы правильно извлечь отношение, необходимо точно распознавать тип статьи. Во-вторых, некоторые толкования имеютпохожую лексико-синтаксическую организацию. Можно ожидать, что лексикограмматических шаблонов, которым удовлетворяют тексты толкований гораздобольше, чем выделяемых в традиционной лексикографии типов толкований.Таким образом, можно выдвинуть следующую гипотезу: толкования разбиваются на классы по своему лексико-грамматическому устройству; этим классамможно поставить в соответствие единый лексико-грамматический шаблон. С помощью этого шаблона в данном классе толкований можно выделить лексемы, на65ходящиеся в некотором тезаурусном отношении с соответствующим лексическимзначением и определить тип отношения.Из этого следует, что для выделения отношений из словаря применим методполуавтоматического машинного обучения.Процедуру извлечения отношений можно представить в виде следующейпоследовательности действий:– представить толкование в виде вектора признаков,– разбить на небольшое число кластеров, для каждого кластера:– написать лексико-грамматический шаблон,– извлечь отношения по шаблону,– оценить точность извлечения.3.4.1 Машинное обучение с частичным привлечением учителяМашинное обучение с частичным привлечением учителя — это разновидность машинного обучения с учителем, состоящая из шагов (см., например, [49]:– разметка обучающей выборки экспертом,– автоматическое расширение обучающей выборки с помощью кластеризации,– классификация данных по расширенной обучающей выборке.В настоящей работе предложен несколько иной порядок действий:– кластеризация всех данных (в случае ограниченного корпуса) или их части (вслучае динамически пополняемого корпуса),– разметка каждого кластера на основе экспертного анализа нескольких примеров из него.3.4.2Общее описание экспериментаВыбранный подход к кластеризации состоит из трёх шагов:– кластеризовать словарные толкования,– приписать каждому кластеру аннотацию,– обобщить результаты аннотации.66Цель этапа кластеризации состоит в том, чтобы уменьшить количество труда эксперта при аннотации словаря.
Поэтому одно из необходимых свойств кластеризации должно состоять в том, чтобы результатом кластеризации было какможно меньше кластеров. При этом существует фактор, ограничивающий уменьшение количество кластеров: толкования в кластере должны иметь одинаковуюсинтаксическую и семантическую структуру с точки зрения выделения отношений.На этапе аннотации эксперт должен ответить на следующие три вопросапро каждый из представленных ему кластеров:– возможно ли извлечь тезаурусное отношение одним простым морфосинтаксическим правилом из большинства толкований, присутствующих в кластере, и,если возможно, то какого типа это отношение,– какое морфосинтаксическое правило позволяет извлечь отношение,– к какой части толкований в кластере применение указанного правила даёт правильный ответ?Для того, чтобы определить качество применения правила эксперт оценивает результат его применения на примере 25 случаев в каждом кластере (либо напримере всего кластера, если он имеет размер меньше, чем 25 толкований).При аннотации эксперту разрешается описать для кластера более, чем одно правило (и, соответственно, описать извлечение из кластера более, чем одногоотношения), однако это рекомендуется лишь в тех случаях, когда очевидна необходимость извлечения более, чем одного правила.