Резюме (1137504), страница 4
Текст из файла (страница 4)
Этот метод мыописываем в Главе 3 «Автоматическая разработка анкеты с помощью моделейдистрибутивной семантики».Алгоритм, который мы предлагаем, позволяет создать предварительный вариантанкеты для типологического исследования признаков слов или других одноместныхпредикатов, таких как глаголы движения, звука, состояний. Он включает несколько этапов:1. Составление списка существительных, с которыми могут сочетатьсярассматриваемые прилагательные/глаголы (по основному подкорпусу НКРЯ);2. Представление каждого словосочетания в виде вектора его сочетаемости;3.
Разбиение полученного векторного пространства на кластеры методомиерархической кластеризации;4. Выделение трех центральных элементов из каждого кластера и удаление всехкластеров, включающих менее трех элементов.Обратим внимание, что этапы 2-4 остаются неизменными при работе с любымиклассами лексики. Этап 1 зависит от формата минимального диагностического контекстадля исследуемых слов. Мы исходили из допущения, что для определения значенияпризнакового слова или другого одноместного предиката достаточно существительного,занимающего позицию его единственного актанта. Соответственно, для признаковойлексики мы учитывали существительные, которые встречаются в основном подкорпусеНКРЯ справа от опорного слова, а для глагольной – существительные, которые стоятсправа или слева от заданного глагола и имеют при этом форму именительного падежа.Алгоритм разрабатывался и тестировался на материале четырех признаковых(‘острый’, ‘гладкий’, ‘прямой’, ‘толстый’) и одного глагольного поля (‘качание’).
Длякаждого поля мы оценивали полноту и точность итоговой анкеты. Полнота определяласьпо доле фреймов, представленных в анкете хотя бы одной иллюстрацией, а метрикаточности отображала чистоту полученных кластеров.14‘острый’‘прямой’‘гладкий’‘толстый’‘качание’Полнота0,73310,810.882Точность0,8270,8170,6750,8840.762F-мера0,7770,8990,7320,9380.818Таблица 1. Количественная оценка работы алгоритмаИз Таблицы 1, в которой представлены значения метрик оценки качества работыалгоритма для каждого тестового поля, видно, что в целом метод работает достаточнохорошо, однако для одних семантических зон он дает значительно более высокиерезультаты, чем для других.
По-видимому, это связано с несколькими факторами.Во-первых, важную роль играет частотность анализируемого прилагательного. Чемлексема частотнее (другими словами, чем больше вхождений лексемы в корпус, которыйобрабатывается алгоритмом), тем более точным будет результат. По-видимому, низкоезначение F-меры у поля глаголов качания связано именно с малой частотностью входящихв него лексем и, как следствие, недостаточно высоким качеством векторногопредставления словосочетаний и точности их кластеризации.Во-вторых, на результат влияет число фреймов в поле.
Чем оно меньше, тем лучшебудет проведена кластеризация контекстов на семантически гомогенные группы. Этимобъясняется аккуратная кластеризация поля ‘прямой’: в нем семь фреймов, и каждыйпредставлен большим количеством контекстов.Наконец, в-третьих, на качество анкеты влияет природа оппозиций, организующихсемантическую структуру поля. Метод автоматического построения анкет, который мыпредлагаем, ориентирован на группировку контекстов по таксономическим классам. Так,например, в один кластер контекстов поля ‘прямой’ попадают слова потомок ипредшественник, относящиеся к классу людей, а в другой -- аллея и дорожка,принадлежащие классу протяженных пространств.
В большинстве случаев это ведет кжелаемому разделению контекстов на фреймы. Однако, не все фреймы признаковых полейпротивопоставлены друг другу в соответствии с таксономической классификациейсуществительных. В некоторых случаях решающую роль играет топология предмета.Например, фреймы поля ‘острый’ ‘инструмент с режущим краем (нож, меч)’ и‘инструмент с колющим концом (игла, шило)’ предполагают один и тот жетаксономический класс существительных (инструмент), но разную топологию предмета: слинейным выраженным сегментом в первом случае и с точечным во втором.
Такого родаразличия алгоритм фиксирует с меньшим успехом.Эти факторы не являются равноценными. Так, несмотря на то, что в поле ‘толстый’важную роль играет топологическая классификация предметов, алгоритм предоставил длянего наилучший результат. Вероятно, это объясняется высокой частотностьюприлагательных этого поля и небольшим числом фреймов в его семантической структуре.Помимо этого, часто между топологической и таксономической классификациейпредметных имен наблюдается корреляция, что также способствует чистоте кластеризации.15Так, например, многие части тела попадают в топологический класс длинных вытянутыхобъектов (толстые пальцы, руки, ноги), а многие предметы одежды - в топологическийкласс гибких слоев (толстая куртка, пальто, свитер).Глава 4 «Методы автоматического сбора данных» упрощает этап сбора материала,который сводится к решению двух задач: (1) перевода анкеты, состоящей из минимальныхконтекстов; (2) заполнения этой анкеты материалом соответствующих языков.Эксперименты в этой области проводились на материале качественных признаков(‘острый’, ‘гладкий’, ‘толстый’), поэтому задача (1) заключалась в переводе спискаприлагательных, относящихся к рассматриваемому полю, и списка существительных, скоторыми они потенциально могут сочетаться.Проблема перевода прилагательных очень нетривиальна.
Традиционно задачаперевода (в том числе автоматического) подразумевает либо выбор самой подходящейлексемы для определенного контекста, либо подбор наиболее частотного / близкогопереводного эквивалента для данной лексемы, либо выдачу самого удачного эквивалентадля каждого из значений исходного слова. Наша цель отличается ото всех перечисленных:нам необходимо подобрать такие прилагательные, которые могут выступать в качествепереводов исходных слов, но только в контекстах, соответствующих их прямымупотреблениям.
Так, например, в числе английских переводных эквивалентов словаострый мы бы хотели видеть прилагательные sharp и pointed, но не critical или urgent (ср.острая нехватка, острый вопрос).Проработав несколько разных алгоритмов (каждый из которых подробноописывается в основном тексте диссертации), мы остановились на методе, которыйопирается на машиночитаемые словари группы FreeDict. Преимущество этих словарейзаключается в том, что возможные переводы в них размечены по тому, к какому значениюисходного слова они относятся. Наш алгоритм выбирает переводные эквиваленты толькодля первого значения исходного прилагательного, а потом проводит дополнительнуюпроверку по методу обратного перевода: найденное слово переводится обратно наисходный язык и включается в итоговый список только в том случае, если прилагательное,являющееся его эквивалентом в первом значении, входит в стартовый список признаковыхслов.
Существительные переводятся по той же методологии, но с небольшоймодификацией: в случае, если существительного нет в словаре FreeDict, перевод для негоподбирается по соответствующему машиночитаемому словарю компании Яндекс.Далее анкета переводится в табличный формат, где в качестве столбцов выступаютприлагательные, а в качестве строк – существительные. Полученная таблица заполняетсяпо материалам доступных корпусов: если прилагательное встречается в комбинации с темили иным существительным в корпусе, для этой пары подсчитывается значение взаимнойинформации. Комбинации с отрицательным значением взаимной информации считаютсяслучайными и исключаются из итоговой заполненной анкеты.Автоматизация заключительного этапа рассматривается в Главе 5 «Автоматическоепостроение семантической карты с помощью решеток формальных понятий».
Особоевнимание уделяется теории анализа формальных понятий (Ganter, Wille 1999), которая16позволяет строить особого рода диаграммы – решетки формальных понятий (РФП). Мыутверждаем, что такие диаграммы могут использоваться в лингвистических исследованияхв качестве семантических карт нового типа.РФП строятся на основе так называемых формальных контекстов. Формальныйконтекст K = (G, M, I) – это множество объектов (G), множество признаков (M) и бинарноеотношение (I), связывающее объекты и признаки, которыми они обладают. Формальноепонятие – это такая пара (A, B), где A является подмножеством G, а B – подмножеством M,причем в B содержатся все признаки, которыми характеризуются объекты из A, а в А – всеобъекты, обладающие признаками из В, в рамках данного формального контекста. РФПпредставляет данные в виде иерархии формальных понятий, где понятия упорядочиваютсяот более общих (охватывающих большее количество объектов) к менее общим(покрывающим меньшее число объектов).В нашем случае в качестве объектов выступают лексемы, в качестве признаков –фреймы.
Между лексемой и фреймом устанавливается отношение инцидентности, если эталексема покрывает данный фрейм. Эксперименты проводились на материале 10признаковых полей (‘острый’, ‘мягкий’, ‘гладкий’, ‘шершавый’, ‘твердый’, ‘пустой’,‘толстый’, ‘тонкий’, ‘высокий’ и ‘низкий’) и глагольного поля падения.Насколько нам известно, ранее этот метод практически не использовалсялингвистами (одно из немногочисленных исключений – работа Priss 2005).