Диссертация (1137511), страница 15
Текст из файла (страница 15)
Кластеризация задаёт такие ограничения основываясь нена тексте правил, а на наличии в корпусе сходных по структуре толкований.Ответ на второй вопрос получен аналогично тому, как оценивалась надёжность извлечения каждого типа отношений. Последовательность действий для ответа на этот вопрос такова: для каждого типа правил группировать все кластеры,к которым применено выбранное правило, затем оценить общий объём группы иточность применения правила в группе.В таблице 9 приведены все использованные правила. Описания правил переведены из машиночитаемого формата в описания. Правила, приведённые в кавычках (например, «человек») назначают всем лексическим значениям в кластереодин и тот же гипероним.
Остальные правила описывают, лемма какого слова втолковании задаёт отношение для определяемого лексического значения.78Кластер №0ВИЗАВИ2 : Тот, кто находится напротивВИЗИТЁР1 : Тот, кто пришёл с визитом.ВИНОВНИК2 : Тот, кто является причиной, источником чего-л.Кластер №18ГОРГОНА2 : О злой, сварливой женщине.ГРЕНАДЕР2 : О рослом, плечистом, сильном человеке.ДЕБИЛ2 : О тупом, несообразительном человеке.Кластер №46ДВУЛЕТНИК1 : Растение, живущее два года и дающее семена на второй годпосле посева.ДЕКЛИНАЦИЯ1 : Отклонение, уклонение.ДЕКОМПОЗИЦИЯ1 : Разделение, расчленение какой-л. сложной структуры насоставляющие части.Рисунок 3.7 –– Примеры результатов кластеризации толкований.Результатом работы алгоритма является набор троек [лексическое значение – отношение – слово].3.5 ОбсуждениеПриведённые оценки верны для выбранного словаря и выбранного количества кластеров, которое задаёт количество работы для аннотатора. Кажется разумным предполагать, что для других словарей тот же подход будет иметь сравнимуюточность, однако это гипотеза, которая требует проверки.
Кажется более интересным применить методы машинного обучения для определения типа кластера ивыбора правила автоматически: в результате станет доступным полностью автоматическое превращение словаря в набор тезаурусных отношений. В этом случаедля того, чтобы построить значительную часть тезауруса для нового языка достаточно иметь один или несколько машиночитаемых словарей и морфологическийанализатор.79На рисунке 3.7 приведено несколько примеров кластеров толкований. Кластеры 0 и 18 являются примерами кластеров, в которых действительно собраныпохожие по структуре и тезаурусным отношениям толкования. Кластер 46 является примером неудачной кластеризации.Лексико-грамматические шаблоны для кластеров 0 и 18 очевидны и самикластеры возможно описать не только с точки зрения лексико-грамматическихшаблонов, но и дать им понятное описание.
Гиперонимом для всех слов в кластере 0 является лексема «человек», хотя в кластере вхождения её в толкованияотсутствуют.В кластер 18 собраны метафорические лексические значения. Использование предлога «о», «об» кажется надёжным признаком метафоричности для Большого толкового словаря, хотя такое требование не приведено в инструкции (согласно инструкции словаря соответствующие метафорическим значениям рубрики смыслового сдвига и смыслового варьирования обозначаются пометами / и //соответственно). Например, «АВГУР, -а; м.
[лат. augur от avis - птица] 1. Ирон.О том, кто держит в тайне от других свои познания, кто делает вид, что посвящёнв особые тайны. 2. В древнем Риме: жрец, толковавший волю богов, предсказывающий будущее по поведению птиц (крику, полёту и т.п.).»Кластер 46 приведён как пример кластера, в который собраны толкования,не имеющие принципиально одинаковую структуру. Очевидно, признаком длякластеризации в данном случае являлось наличие запятой среди первых нескольких слов. В этом кластере встречаются толкования двух видов:– сочинительная конструкция, перечисляющая синонимы определяемого лексического значения,– гипероним определяемого лексического значения, сопровождающийся дополнением в виде причастного оборота.Вследствие описанного выше устройства процедуры извлечения отношений синонимия представлена в корпусе не в виде множества синонимичных значений, а в виде отдельных отношений между парами синонимов.
Таким образомперед составителем тезауруса ещё остаётся открытой задача объединения синонимических множеств.Как видно из примера 3.8, полученных данных о семантических отношениях недостаточно для того, чтобы автоматически получить ответ, гипонимом какого лексического значения является ФОНДООТДАЧА1 : показателем степени, экономическим показателем, величиной экономического показателя или показателем80Лексическое значениеОтношение ИзвлечённаялексемаСЛУЧАЙ2 : непредвиденное событие, происшествиеhypernymСОБЫТИЕРАСПОРКА3 : болванка.synonymБОЛВАНКАФОНДООТДАЧА1 : Экономический показатель эффекhypernymПОКАЗАТЕЛЬтивности использования основных фондов — количество продукции на рубль основных производственныхфондов.ЧЕРНОРИЗЕЦ1 : Монах, чернец.hypernymМОНАХСЕСТРИНСТВО1 : Совокупность монахинь, сестер вhypernymСОВОКУПНОСТЬженском монастыре.ХЛЕБНИЦА2 : Тарелка, корзинка для хлеба.synonymКОРЗИНКАБУКВОЕДСТВО2 : выискивание мелочейhypernymВЫИСКИВАНИЕПОКАЗАТЕЛЬ1 : Данные, по которым можно судить оhypernymДАННЫЕразвитии, ходе, свойствах и качествах чего-л.ПОКАЗАТЕЛЬ2 : То, при помощи чего складываются таhypernymДАННЫЕкие данныеhypernymЦИФРАПОКАЗАТЕЛЬ3 : Цифра или буква, обозначающая степень, в которую возводится данное число или выражение.ПОКАЗАТЕЛЬ4 : Отношение скорости света в пустоте кhypernymОТНОШЕНИЕскорости света в данной среде.Рисунок 3.8 –– Примеры отношений, извлечённых в ходе эксперимента.преломления.
Построению автоматического инструмента для ответа на этот вопрос посвящена глава 4.3.6 ВыводыВ настоящей главе мы провели два эксперимента по извлечению тезаурусных отношений на корпусе словарных толкований. В главе предложен и протестирован новый метод извлечения отношений, который мы относим к классу методовс частичным привлечением учителя.Предложенный подход, состоящий в кластеризации, за которой следует аннотация, применим к задаче извлечения тезаурусных отношений. Этот подходпозволяет обобщать большие объёмы данных применяя ограниченные усилия81Тип отношениягиперонимиясинонимиягипонимиядоменкосвенная гиперонимиямеронимияэкземпляр классахолонимиявсегоОбозначение отношения Количество отношенийis-a53482synonym-of8285hypernym-of2169domain772hyponym-of-hyponym-of416part-of283instance255has-part9965761Таблица 10 –– Количество извлечённых отношений каждого типа.эксперта-аннотатора.
Значимое свойство такого подхода в том, что он позволяет выделять в наборе данных не только частотные типы толкований, но и менеечастотные, если они являются существенно обособленными.Комбинация полуавтоматического машинного обучения с правиловым подходом позволила получить большое увеличение точности извлечения отношений(на 25%) по сравнению с опубликованными правиловыми подходами.Ещё одним важным инструментом, применённым в настоящей главе, является применение лексико-грамматических триграмм в качестве признака для машинного обучения. Смешанные n-граммы позволяют машинному обучению реагировать на некоторые синтаксические свойства текста, но не требуют ни синтаксического анализа, ни больших объёмов корпусов для обучения.
Для корпусов с ограниченным подмножеством естественного языка или новых языков этоявляется существенным свойством, так как синтаксические анализаторы общегоназначения либо показывают неприемлемо низкую точность анализа, либо вовсеотсутствуют.Результатом применения описанных методов к корпусу толкований Большого толкового словаря является корпус отношений, представленных в виде троек[лексическое значение – тип отношения – лексема]. Количество различных типовотношений в полученном корпусе представлено в таблице 10. Некоторые типыотношений требуют пояснений. Отношения меронимии, холонимии и экземпляркласса имеют общепринятые значения.82Несколько особенностей имеет полученное в корпусе представление отношения гипо-гиперонимии.
Такие отношения трактуются в данном случае болеешироко: требуется, чтобы указанная в качестве гиперонима лексема указывалана обобщенное понятие по отношению к гипониму, однако не требуется, чтобы эта лексема обозначала обобщающее понятие, соответствующее какой-либоаприорной онтологической модели, или было наименее обобщающим из всех возможных. В некоторых случаях само толкование содержит два гиперонимичных копределяемому лексическому значению понятия, одно из которых является обобщением другого. Например, из толкования АЛЛЕРГОЛОГ1 : Врач - специалист в области аллергологии.
извлекаются отношения: «АЛЛЕРГОЛОГ1 → ВРАЧ» и «ВРАЧ → СПЕЦИАЛИСТ». Значимо для последующей дизамбигуации также то, что лексема ВРАЧиспользуется в обоих случаях в одном и том же значении. В этом случае для болееудалённого по значению понятия указывался тип отношения «косвенная гиперонимия». Т. е. такое отношение указывает на то, что у аннотатора имеется готовыйпример понятия менее общего, но обобщающего тот же исходный термин.Для некоторых понятий указано более одного гиперонима: всего в корпусе6677 таких случаев. Такие правила возникали в нескольких случаях:– если в следствие неудачной кластеризации аннотатору не удалось описать единое правило, общее для всех толкований в кластере — в этом случае для каждого значения гипонима на последующих этапах обработки необходимо выбратьтолько одну лексему гиперонима;– если в силу ошибок морфологического разбора или неудачной кластеризацииправила, которые предполагались синонимичными, указывали на различныесловоупотребления — в этом случае также необходимо из указанных гиперонимов выбрать один;– если толкование содержит две лексемы, каждая из которых независимо от другой может служить гиперонимом определяемому значению;– если толкование содержит две лексемы, синонимичные между собой, и являющиеся гиперонимом по отношению определяемому лексическому значению —в этом случае аннотатор ставит помету «hypernym-synonym»; такие случаи значительно упрощают пополнение синсетов, описывающих гипероним, однакотребуют для дизамбигуации применения других приёмов, нежели описанные вследующей главе.Наконец, в таблице отношение гипо-гиперонимии представлено двумявзаимно-обратными отношениями: гипонимии и гиперонимии.
Здесь название83выбирается с точки зрения того, в какой роли относительно определяемого лексического значения находится извлечённая лексема. С точки зрения последующейобработки мы не можем в отношении гипонимии поменять местами описания общего и частного и пополнить тем самым общий набор гипо-гиперонимическихотношений. В случае отношений гиперонимии гипоним задан конкретным лексическим значением, а для гиперонима указана лексема без уточнения релевантного для отношения значения этой лексемы.