Диссертация (1137502), страница 25
Текст из файла (страница 25)
Мы по-прежнему исходили из допущения, что актант достаточно часторасполагается контактно по отношению к предикату, однако учитывали как случаи, когдасуществительное находится слева от глагола, так и примеры, в которых актант расположенсправа, т. е. искали существительное в окне ±1 относительно глагола. При этом мы ввелидополнительное грамматическое ограничение: диагностирующим контекстом считалосьне любое существительное, встретившееся рядом с глаголом, а только слово вименительном падеже. Это позволило не учитывать примеры вида болтался головой вниз,109почва под ногами колебалась, на качелях качался… и т.
п. Из результирующего спискатакже были удалены все редкие примеры, однако в этот раз порог был опущен:исключались только существительные, встретившиеся в контексте искомых глаголовменее 3 раз (0.01 ipm).RPF-мера‘качание’0.8820.7620.818‘прямой’10,8170,899‘гладкий’0,80,6750,732‘толстый’10,8840,938Таблица 24. Оценка качества кластеризации для зон ‘качание’, ‘прямой’, ‘гладкий’, ‘толстый’.Кластер 1Кластер 2Кластер 3прямой столбпрямое участиепрямой потомокпрямая дорожкапрямая поддержкапрямой предшественникпрямая аллеяпрямое руководствопрямое наследиеТаблица 25. Фрагмент кластеризации контекстов лексемы прямой.Кластер 4прямая необходимостьпрямая цельпрямая задачаРезультаты, приведенные в Табл.
24, а также фрагмент лучшего вариантакластеризации поля ‘прямой’ в Табл. 25 показывают, что подготовленный нами алгоритмработает достаточно стабильно и демонстрирует высокое качество для всех тестовых зон.Тем не менее, качество работы алгоритма все-таки зависит от некоторых параметровисследуемой области.Во-первых, важную роль играет частотность анализируемых опорных лексем. Чемлексема частотнее (другими словами, чем больше вхождений лексемы в корпус, которыйобрабатывается алгоритмом), тем более точным будет результат.
Как показалиэксперименты, если прилагательное в частотном словаре современного русского языка(Ляшевская & Шаров 2009) занимает позицию ниже четырехтысячной, выводу алгоритманельзя полностью доверять. Так, он предоставляет достаточно эффективный анализрусских слов острый и прямой, которые занимают 1452 и 892 место в словаре, но совсемне так хорошо справляется, например, с обработкой прилагательного просторный, котороезанимает в словаре 4421 позицию. Это слово в русском языке может описывать разныетипы объектов, в том числе пространства (просторный зал) и одежду (просторнаярубашка).
Если первый тип объектов попадает в автоматически созданную анкету, товторой оказывается не включенным в нее. Все случаи сочетания этого прилагательного с110именами, обозначающими одежду, оказываются слишком редки для того, чтобы бытьотобранными алгоритмом.Во-вторых, на результат влияет число фреймов в поле. Чем оно меньше, тем лучшебудет проведена кластеризация контекстов на семантически гомогенные группы.
Этимобъясняется аккуратная кластеризация поля ‘прямой’: в нем семь фреймов, и каждыйпредставлен большим количеством контекстов.Наконец, на качество анкетывлияет природа оппозиций, организующихсемантическую структуру поля. Наш метод автоматического построения анкеториентирован на группировку контекстов по таксономическим классам. Так, например, водин кластер контекстов поля ‘прямой’ попадают слова потомок и предшественник,относящиеся к классу людей, а в другой – аллея и дорожка, принадлежащие классупротяженных пространств. В большинстве случаев это ведет к желаемому разделениюконтекстов на фреймы.
Однако, не все фреймы признаковых полей противопоставленыдруг другу в соответствии с таксономической классификацией существительных. Внекоторых случаях решающую роль играет топология предмета. Например, фреймы поля‘острый’ ‘инструмент с режущим краем (нож, меч)’ и ‘инструмент с колющим концом(игла, шило)’ предполагают один и тот же таксономический класс существительных(инструмент), но разную топологию предмета: с линейным выраженным сегментом впервом случае и с точечным во втором.
Такого рода различия оказываются достаточносложными для алгоритма.Сравнение анкет для разных полей показало, что описанные выше факторы неявляются равноценными. Так, несмотря на то, что в поле ‘толстый’ важную роль играеттопологическая классификация предметов, алгоритм предоставил для него наилучшийрезультат (F-мера = 0.938). Вероятно, это объясняется высокой частотностьюприлагательных этого поля и небольшим числом фреймов в его семантической структуре.Помимо этого, часто между топологической и таксономической классификациейпредметныхименнаблюдаетсякорреляция,чтотакжеспособствуетчистотекластеризации. Так, например, многие части тела попадают в топологический классдлинных вытянутых объектов (толстые пальцы, руки, ноги), а многие предметы одежды –в топологический класс гибких слоев (толстая куртка, колготки, штаны).Таким образом, дополнительные эксперименты подтверждают, что мы разработалиэффективный метод анализа лексических противопоставлений, который позволяетсоставлять пилотный вариант лексико-типологической анкеты автоматически на111материале одного языка.
Этот алгоритм работает более успешно с одними полями (впервую очередь, частотными) и менее успешно с другими лексическими группами, однакодаже в последнем случае качество полученных анкет оказывается довольно высоким (так,для наименее удачно раскластеризованного поля ‘гладкий’ значение полноты составило0.8, а уровень чистоты кластеризации – 0.675).§10.
ВыводыМетод автоматического составления анкет, который мы представили в этой Главе,включает в себя несколько этапов:1. Определение границ поля (составление списка лексем, относящихся к изучаемомусемантическому полю) по методу обратных переводов (см. §3, раздел 4).2. Составление списка коллокаций для каждой из набранных лексем (в случае сприлагательными и одноместными глаголами – составление списка существительных,сочетающихся с данным признаковым словом / существительных, выступающих вкачестве субъекта при данном глаголе) по материалам основного подкорпуса НКРЯ.3.Представлениекаждогословосочетания(вида«прилагательное+существительное» или «глагол + существительное») в виде вектора сочетаемости(методом композиции итогового вектора из векторов прилагательного/глагола исуществительного).4.
Кластеризация векторного пространства по методу иерархической кластеризации.5. Выделение трех центральных элементов из каждого кластера и удаление всехкластеров, размер которых не превышает двух элементов.Первая задача лучше всего решается методом обратных переводов. Однако, даженесмотря на то, что этот метод не полностью автоматический и требует вмешательстваисследователя, результат, который он дает, оказывается недостаточно удачным. Это видно,в частности, по низкой доле словосочетаний, действительно относящихся к полю ‘острый’,в итоговых автоматически сконструированных анкетах, см.
Табл. 23. С теоретическойточки зрения это означает, что строгих границ между семантическими полями, повидимому, действительно не существует (по крайней мере, в зоне качественных признаков,но мы предполагаем, что то же самое будет верно и для многих других областей, вчастности, глагольных), и именно поэтому задача их автоматического определения ненаходит хорошего решения. С практической же точки зрения, на наш взгляд, будет112целесообразно совсем вывести эту задачу за пределы алгоритма автоматическогосоставления лексико-типологических анкет и оставить возможность лингвисту-экспертусамостоятельно определять круг лексем, которые он хотел бы включить в исследование.Всеостальныеэтапыработыпредлагаемогонамиалгоритмаполностьюавтоматические.
Мы разработали его на материале признаковых слов, но ряд пилотныхэкспериментов показывает, что он может быть успешно использован при создании анкетдля исследования и других классов лексики (см. написанные под нашим руководствомкурсовые работы Лучина 2015 о применении подобного алгоритма к анализу наречия ичастицы прямо и Мельник 2018 о работе с многоместными глаголами).При переходе к анализу других семантических полей наибольшим изменениямподвергается этап составления списка коллокаций.
Прежде всего, менее частотныеопорные лексемы (в том числе прилагательные) могут требовать более низкого порогачастотности для словосочетаний, включаемых в список рассматриваемых контекстов (см.обсуждение глаголов качания и прилагательного просторный выше).Помимо порога частотности, изменений потребует и тип учитываемого контекста.Для анализа семантики прилагательных в большинстве случаев достаточно учитыватьопределяемое ими существительное.
Для одноактантных глаголов, согласно нашемупилотному эксперименту, в качестве диагностического контекста можно рассматриватьсуществительное, занимающее позицию субъекта. Для анализа многоактантых глаголовили предметных имен, у которых, наоборот, нет никаких валентностей, определение типаминимального диагностического контекста требует дополнительных исследований.
Повидимому, для представления семантики такого типа слов необходимо принимать вовнимание не только их лексический контекст, но и морфологическое оформление ихактантов – для глаголов – или их собственные грамматические характеристики иконструкции, в которые они встраиваются – для существительных (ср. успешноеприменение подобных методик для решения задач, близких к нашей, в работах Divjak &Gries 2006; Janda & Solovyev 2009). Все остальные этапы работы алгоритма могутоставаться неизменными.С теоретической точки зрения, предложенный нами алгоритм составления лексикотипологических анкет, – это следующий шаг после экспериментов, которые мы обсуждалив Главе 2. Если в Главе 2 мы говорили о том, что фреймовая структура поля так или иначевидна уже сквозь призму одного языка, то здесь мы применили это утверждение напрактике: раньше мы проверяли, насколько дистрибутивное пространство сопоставимо с113типологическим, то теперь мы смогли воспроизвести типологическое пространство спомощью дистрибутивного, не имея никаких данных, кроме корпуса текстов на одномязыке и примерного представления о том, какие слова в русском языке относятся крассматриваемому полю.Спрактическойточкизренияэтоозначает,чтопроцесссоставленияпредварительного варианта анкет можно очень существенно ускорить.