Диссертация (1137502), страница 25

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 25 страницаДиссертация (1137502) страница 252019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 25)

Мы по-прежнему исходили из допущения, что актант достаточно часторасполагается контактно по отношению к предикату, однако учитывали как случаи, когдасуществительное находится слева от глагола, так и примеры, в которых актант расположенсправа, т. е. искали существительное в окне ±1 относительно глагола. При этом мы ввелидополнительное грамматическое ограничение: диагностирующим контекстом считалосьне любое существительное, встретившееся рядом с глаголом, а только слово вименительном падеже. Это позволило не учитывать примеры вида болтался головой вниз,109почва под ногами колебалась, на качелях качался… и т.

п. Из результирующего спискатакже были удалены все редкие примеры, однако в этот раз порог был опущен:исключались только существительные, встретившиеся в контексте искомых глаголовменее 3 раз (0.01 ipm).RPF-мера‘качание’0.8820.7620.818‘прямой’10,8170,899‘гладкий’0,80,6750,732‘толстый’10,8840,938Таблица 24. Оценка качества кластеризации для зон ‘качание’, ‘прямой’, ‘гладкий’, ‘толстый’.Кластер 1Кластер 2Кластер 3прямой столбпрямое участиепрямой потомокпрямая дорожкапрямая поддержкапрямой предшественникпрямая аллеяпрямое руководствопрямое наследиеТаблица 25. Фрагмент кластеризации контекстов лексемы прямой.Кластер 4прямая необходимостьпрямая цельпрямая задачаРезультаты, приведенные в Табл.

24, а также фрагмент лучшего вариантакластеризации поля ‘прямой’ в Табл. 25 показывают, что подготовленный нами алгоритмработает достаточно стабильно и демонстрирует высокое качество для всех тестовых зон.Тем не менее, качество работы алгоритма все-таки зависит от некоторых параметровисследуемой области.Во-первых, важную роль играет частотность анализируемых опорных лексем. Чемлексема частотнее (другими словами, чем больше вхождений лексемы в корпус, которыйобрабатывается алгоритмом), тем более точным будет результат.

Как показалиэксперименты, если прилагательное в частотном словаре современного русского языка(Ляшевская & Шаров 2009) занимает позицию ниже четырехтысячной, выводу алгоритманельзя полностью доверять. Так, он предоставляет достаточно эффективный анализрусских слов острый и прямой, которые занимают 1452 и 892 место в словаре, но совсемне так хорошо справляется, например, с обработкой прилагательного просторный, котороезанимает в словаре 4421 позицию. Это слово в русском языке может описывать разныетипы объектов, в том числе пространства (просторный зал) и одежду (просторнаярубашка).

Если первый тип объектов попадает в автоматически созданную анкету, товторой оказывается не включенным в нее. Все случаи сочетания этого прилагательного с110именами, обозначающими одежду, оказываются слишком редки для того, чтобы бытьотобранными алгоритмом.Во-вторых, на результат влияет число фреймов в поле. Чем оно меньше, тем лучшебудет проведена кластеризация контекстов на семантически гомогенные группы.

Этимобъясняется аккуратная кластеризация поля ‘прямой’: в нем семь фреймов, и каждыйпредставлен большим количеством контекстов.Наконец, на качество анкетывлияет природа оппозиций, организующихсемантическую структуру поля. Наш метод автоматического построения анкеториентирован на группировку контекстов по таксономическим классам. Так, например, водин кластер контекстов поля ‘прямой’ попадают слова потомок и предшественник,относящиеся к классу людей, а в другой – аллея и дорожка, принадлежащие классупротяженных пространств. В большинстве случаев это ведет к желаемому разделениюконтекстов на фреймы.

Однако, не все фреймы признаковых полей противопоставленыдруг другу в соответствии с таксономической классификацией существительных. Внекоторых случаях решающую роль играет топология предмета. Например, фреймы поля‘острый’ ‘инструмент с режущим краем (нож, меч)’ и ‘инструмент с колющим концом(игла, шило)’ предполагают один и тот же таксономический класс существительных(инструмент), но разную топологию предмета: с линейным выраженным сегментом впервом случае и с точечным во втором.

Такого рода различия оказываются достаточносложными для алгоритма.Сравнение анкет для разных полей показало, что описанные выше факторы неявляются равноценными. Так, несмотря на то, что в поле ‘толстый’ важную роль играеттопологическая классификация предметов, алгоритм предоставил для него наилучшийрезультат (F-мера = 0.938). Вероятно, это объясняется высокой частотностьюприлагательных этого поля и небольшим числом фреймов в его семантической структуре.Помимо этого, часто между топологической и таксономической классификациейпредметныхименнаблюдаетсякорреляция,чтотакжеспособствуетчистотекластеризации. Так, например, многие части тела попадают в топологический классдлинных вытянутых объектов (толстые пальцы, руки, ноги), а многие предметы одежды –в топологический класс гибких слоев (толстая куртка, колготки, штаны).Таким образом, дополнительные эксперименты подтверждают, что мы разработалиэффективный метод анализа лексических противопоставлений, который позволяетсоставлять пилотный вариант лексико-типологической анкеты автоматически на111материале одного языка.

Этот алгоритм работает более успешно с одними полями (впервую очередь, частотными) и менее успешно с другими лексическими группами, однакодаже в последнем случае качество полученных анкет оказывается довольно высоким (так,для наименее удачно раскластеризованного поля ‘гладкий’ значение полноты составило0.8, а уровень чистоты кластеризации – 0.675).§10.

ВыводыМетод автоматического составления анкет, который мы представили в этой Главе,включает в себя несколько этапов:1. Определение границ поля (составление списка лексем, относящихся к изучаемомусемантическому полю) по методу обратных переводов (см. §3, раздел 4).2. Составление списка коллокаций для каждой из набранных лексем (в случае сприлагательными и одноместными глаголами – составление списка существительных,сочетающихся с данным признаковым словом / существительных, выступающих вкачестве субъекта при данном глаголе) по материалам основного подкорпуса НКРЯ.3.Представлениекаждогословосочетания(вида«прилагательное+существительное» или «глагол + существительное») в виде вектора сочетаемости(методом композиции итогового вектора из векторов прилагательного/глагола исуществительного).4.

Кластеризация векторного пространства по методу иерархической кластеризации.5. Выделение трех центральных элементов из каждого кластера и удаление всехкластеров, размер которых не превышает двух элементов.Первая задача лучше всего решается методом обратных переводов. Однако, даженесмотря на то, что этот метод не полностью автоматический и требует вмешательстваисследователя, результат, который он дает, оказывается недостаточно удачным. Это видно,в частности, по низкой доле словосочетаний, действительно относящихся к полю ‘острый’,в итоговых автоматически сконструированных анкетах, см.

Табл. 23. С теоретическойточки зрения это означает, что строгих границ между семантическими полями, повидимому, действительно не существует (по крайней мере, в зоне качественных признаков,но мы предполагаем, что то же самое будет верно и для многих других областей, вчастности, глагольных), и именно поэтому задача их автоматического определения ненаходит хорошего решения. С практической же точки зрения, на наш взгляд, будет112целесообразно совсем вывести эту задачу за пределы алгоритма автоматическогосоставления лексико-типологических анкет и оставить возможность лингвисту-экспертусамостоятельно определять круг лексем, которые он хотел бы включить в исследование.Всеостальныеэтапыработыпредлагаемогонамиалгоритмаполностьюавтоматические.

Мы разработали его на материале признаковых слов, но ряд пилотныхэкспериментов показывает, что он может быть успешно использован при создании анкетдля исследования и других классов лексики (см. написанные под нашим руководствомкурсовые работы Лучина 2015 о применении подобного алгоритма к анализу наречия ичастицы прямо и Мельник 2018 о работе с многоместными глаголами).При переходе к анализу других семантических полей наибольшим изменениямподвергается этап составления списка коллокаций.

Прежде всего, менее частотныеопорные лексемы (в том числе прилагательные) могут требовать более низкого порогачастотности для словосочетаний, включаемых в список рассматриваемых контекстов (см.обсуждение глаголов качания и прилагательного просторный выше).Помимо порога частотности, изменений потребует и тип учитываемого контекста.Для анализа семантики прилагательных в большинстве случаев достаточно учитыватьопределяемое ими существительное.

Для одноактантных глаголов, согласно нашемупилотному эксперименту, в качестве диагностического контекста можно рассматриватьсуществительное, занимающее позицию субъекта. Для анализа многоактантых глаголовили предметных имен, у которых, наоборот, нет никаких валентностей, определение типаминимального диагностического контекста требует дополнительных исследований.

Повидимому, для представления семантики такого типа слов необходимо принимать вовнимание не только их лексический контекст, но и морфологическое оформление ихактантов – для глаголов – или их собственные грамматические характеристики иконструкции, в которые они встраиваются – для существительных (ср. успешноеприменение подобных методик для решения задач, близких к нашей, в работах Divjak &Gries 2006; Janda & Solovyev 2009). Все остальные этапы работы алгоритма могутоставаться неизменными.С теоретической точки зрения, предложенный нами алгоритм составления лексикотипологических анкет, – это следующий шаг после экспериментов, которые мы обсуждалив Главе 2. Если в Главе 2 мы говорили о том, что фреймовая структура поля так или иначевидна уже сквозь призму одного языка, то здесь мы применили это утверждение напрактике: раньше мы проверяли, насколько дистрибутивное пространство сопоставимо с113типологическим, то теперь мы смогли воспроизвести типологическое пространство спомощью дистрибутивного, не имея никаких данных, кроме корпуса текстов на одномязыке и примерного представления о том, какие слова в русском языке относятся крассматриваемому полю.Спрактическойточкизренияэтоозначает,чтопроцесссоставленияпредварительного варианта анкет можно очень существенно ускорить.

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.