Резюме (1137504), страница 4

Файл №1137504 Резюме (Автоматизация лексико-типологических исследований методы и инструменты) 4 страницаРезюме (1137504) страница 42019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

Этот метод мыописываем в Главе 3 «Автоматическая разработка анкеты с помощью моделейдистрибутивной семантики».Алгоритм, который мы предлагаем, позволяет создать предварительный вариантанкеты для типологического исследования признаков слов или других одноместныхпредикатов, таких как глаголы движения, звука, состояний. Он включает несколько этапов:1. Составление списка существительных, с которыми могут сочетатьсярассматриваемые прилагательные/глаголы (по основному подкорпусу НКРЯ);2. Представление каждого словосочетания в виде вектора его сочетаемости;3.

Разбиение полученного векторного пространства на кластеры методомиерархической кластеризации;4. Выделение трех центральных элементов из каждого кластера и удаление всехкластеров, включающих менее трех элементов.Обратим внимание, что этапы 2-4 остаются неизменными при работе с любымиклассами лексики. Этап 1 зависит от формата минимального диагностического контекстадля исследуемых слов. Мы исходили из допущения, что для определения значенияпризнакового слова или другого одноместного предиката достаточно существительного,занимающего позицию его единственного актанта. Соответственно, для признаковойлексики мы учитывали существительные, которые встречаются в основном подкорпусеНКРЯ справа от опорного слова, а для глагольной – существительные, которые стоятсправа или слева от заданного глагола и имеют при этом форму именительного падежа.Алгоритм разрабатывался и тестировался на материале четырех признаковых(‘острый’, ‘гладкий’, ‘прямой’, ‘толстый’) и одного глагольного поля (‘качание’).

Длякаждого поля мы оценивали полноту и точность итоговой анкеты. Полнота определяласьпо доле фреймов, представленных в анкете хотя бы одной иллюстрацией, а метрикаточности отображала чистоту полученных кластеров.14‘острый’‘прямой’‘гладкий’‘толстый’‘качание’Полнота0,73310,810.882Точность0,8270,8170,6750,8840.762F-мера0,7770,8990,7320,9380.818Таблица 1. Количественная оценка работы алгоритмаИз Таблицы 1, в которой представлены значения метрик оценки качества работыалгоритма для каждого тестового поля, видно, что в целом метод работает достаточнохорошо, однако для одних семантических зон он дает значительно более высокиерезультаты, чем для других.

По-видимому, это связано с несколькими факторами.Во-первых, важную роль играет частотность анализируемого прилагательного. Чемлексема частотнее (другими словами, чем больше вхождений лексемы в корпус, которыйобрабатывается алгоритмом), тем более точным будет результат. По-видимому, низкоезначение F-меры у поля глаголов качания связано именно с малой частотностью входящихв него лексем и, как следствие, недостаточно высоким качеством векторногопредставления словосочетаний и точности их кластеризации.Во-вторых, на результат влияет число фреймов в поле.

Чем оно меньше, тем лучшебудет проведена кластеризация контекстов на семантически гомогенные группы. Этимобъясняется аккуратная кластеризация поля ‘прямой’: в нем семь фреймов, и каждыйпредставлен большим количеством контекстов.Наконец, в-третьих, на качество анкеты влияет природа оппозиций, организующихсемантическую структуру поля. Метод автоматического построения анкет, который мыпредлагаем, ориентирован на группировку контекстов по таксономическим классам. Так,например, в один кластер контекстов поля ‘прямой’ попадают слова потомок ипредшественник, относящиеся к классу людей, а в другой -- аллея и дорожка,принадлежащие классу протяженных пространств.

В большинстве случаев это ведет кжелаемому разделению контекстов на фреймы. Однако, не все фреймы признаковых полейпротивопоставлены друг другу в соответствии с таксономической классификациейсуществительных. В некоторых случаях решающую роль играет топология предмета.Например, фреймы поля ‘острый’ ‘инструмент с режущим краем (нож, меч)’ и‘инструмент с колющим концом (игла, шило)’ предполагают один и тот жетаксономический класс существительных (инструмент), но разную топологию предмета: слинейным выраженным сегментом в первом случае и с точечным во втором.

Такого родаразличия алгоритм фиксирует с меньшим успехом.Эти факторы не являются равноценными. Так, несмотря на то, что в поле ‘толстый’важную роль играет топологическая классификация предметов, алгоритм предоставил длянего наилучший результат. Вероятно, это объясняется высокой частотностьюприлагательных этого поля и небольшим числом фреймов в его семантической структуре.Помимо этого, часто между топологической и таксономической классификациейпредметных имен наблюдается корреляция, что также способствует чистоте кластеризации.15Так, например, многие части тела попадают в топологический класс длинных вытянутыхобъектов (толстые пальцы, руки, ноги), а многие предметы одежды - в топологическийкласс гибких слоев (толстая куртка, пальто, свитер).Глава 4 «Методы автоматического сбора данных» упрощает этап сбора материала,который сводится к решению двух задач: (1) перевода анкеты, состоящей из минимальныхконтекстов; (2) заполнения этой анкеты материалом соответствующих языков.Эксперименты в этой области проводились на материале качественных признаков(‘острый’, ‘гладкий’, ‘толстый’), поэтому задача (1) заключалась в переводе спискаприлагательных, относящихся к рассматриваемому полю, и списка существительных, скоторыми они потенциально могут сочетаться.Проблема перевода прилагательных очень нетривиальна.

Традиционно задачаперевода (в том числе автоматического) подразумевает либо выбор самой подходящейлексемы для определенного контекста, либо подбор наиболее частотного / близкогопереводного эквивалента для данной лексемы, либо выдачу самого удачного эквивалентадля каждого из значений исходного слова. Наша цель отличается ото всех перечисленных:нам необходимо подобрать такие прилагательные, которые могут выступать в качествепереводов исходных слов, но только в контекстах, соответствующих их прямымупотреблениям.

Так, например, в числе английских переводных эквивалентов словаострый мы бы хотели видеть прилагательные sharp и pointed, но не critical или urgent (ср.острая нехватка, острый вопрос).Проработав несколько разных алгоритмов (каждый из которых подробноописывается в основном тексте диссертации), мы остановились на методе, которыйопирается на машиночитаемые словари группы FreeDict. Преимущество этих словарейзаключается в том, что возможные переводы в них размечены по тому, к какому значениюисходного слова они относятся. Наш алгоритм выбирает переводные эквиваленты толькодля первого значения исходного прилагательного, а потом проводит дополнительнуюпроверку по методу обратного перевода: найденное слово переводится обратно наисходный язык и включается в итоговый список только в том случае, если прилагательное,являющееся его эквивалентом в первом значении, входит в стартовый список признаковыхслов.

Существительные переводятся по той же методологии, но с небольшоймодификацией: в случае, если существительного нет в словаре FreeDict, перевод для негоподбирается по соответствующему машиночитаемому словарю компании Яндекс.Далее анкета переводится в табличный формат, где в качестве столбцов выступаютприлагательные, а в качестве строк – существительные. Полученная таблица заполняетсяпо материалам доступных корпусов: если прилагательное встречается в комбинации с темили иным существительным в корпусе, для этой пары подсчитывается значение взаимнойинформации. Комбинации с отрицательным значением взаимной информации считаютсяслучайными и исключаются из итоговой заполненной анкеты.Автоматизация заключительного этапа рассматривается в Главе 5 «Автоматическоепостроение семантической карты с помощью решеток формальных понятий».

Особоевнимание уделяется теории анализа формальных понятий (Ganter, Wille 1999), которая16позволяет строить особого рода диаграммы – решетки формальных понятий (РФП). Мыутверждаем, что такие диаграммы могут использоваться в лингвистических исследованияхв качестве семантических карт нового типа.РФП строятся на основе так называемых формальных контекстов. Формальныйконтекст K = (G, M, I) – это множество объектов (G), множество признаков (M) и бинарноеотношение (I), связывающее объекты и признаки, которыми они обладают. Формальноепонятие – это такая пара (A, B), где A является подмножеством G, а B – подмножеством M,причем в B содержатся все признаки, которыми характеризуются объекты из A, а в А – всеобъекты, обладающие признаками из В, в рамках данного формального контекста. РФПпредставляет данные в виде иерархии формальных понятий, где понятия упорядочиваютсяот более общих (охватывающих большее количество объектов) к менее общим(покрывающим меньшее число объектов).В нашем случае в качестве объектов выступают лексемы, в качестве признаков –фреймы.

Между лексемой и фреймом устанавливается отношение инцидентности, если эталексема покрывает данный фрейм. Эксперименты проводились на материале 10признаковых полей (‘острый’, ‘мягкий’, ‘гладкий’, ‘шершавый’, ‘твердый’, ‘пустой’,‘толстый’, ‘тонкий’, ‘высокий’ и ‘низкий’) и глагольного поля падения.Насколько нам известно, ранее этот метод практически не использовалсялингвистами (одно из немногочисленных исключений – работа Priss 2005).

Характеристики

Тип файла

PDF-файл

Размер

517,75 Kb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.