Диссертация (1137502), страница 22

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 22 страницаДиссертация (1137502) страница 222019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 22)

Именно с этим материалом мы ипродолжим наши дальнейшие эксперименты.95Отметим, однако, что для моделирования такого рода сочетаемости подходит икорпус интернет-текстов RuWaC. Этот вывод очень важен, поскольку корпус такогоформата построить значительно проще, чем подготовить объемную, сбалансированную иразмеченную выборку текстов, подобную той, что представлена в основном подкорпусеНКРЯ: для целого ряда языков есть корпус WaC, но нет национального корпуса,сопоставимого с НКРЯ.2. Установление порога частотностиДальнейшим шагом в обработке списка существительных, сочетающихся с целевымприлагательным, является установление порога частотности: необходимо определить,сколько раз словосочетание должно встретиться в корпусе, для того чтобы его можно быловключать в исследование.

Такой порог необходим по двум причинам. Во-первых,существительных, сочетающихся с искомым прилагательным, слишком много, что можетвпоследствии негативно повлиять на объем анкеты. Во-вторых, они распределены всоответствии с законом Ципфа: примерно 20% списка занимают частотные сочетания, аостальные 80% – слова, встретившиеся в корпусе в непосредственной близости отинтересующей нас лексемы один или два раза, т.е. большая часть существительныхиллюстрирует лишь окказиональные употребления изучаемого прилагательного.Для установления оптимального порога частотности мы провели ряд экспериментовс разными признаковыми словами.

Мы разметили списки коллокаций для лексем острый,тяжелый, хороший, шершавый, грубый (для которых у нас уже были разработанытипологические анкеты), собранные по основному подкорпусу НКРЯ, и отметили, в какоймомент происходит «насыщение», т.е. до какого элемента списка нужно дойти, чтобынабрать не менее трех иллюстраций на каждый фрейм, релевантный для данногоприлагательного (в том числе, метафорический).Оказалось, что уровень насыщения зависит от двух факторов: частотности самойпризнаковой лексемы и степени ее многозначности (см. Таблицу 20). С одной стороны,чем частотнее прилагательное, тем частотнее и включающие его коллокации.

С другойстороны, чем больше у лексемы значений, тем больше контекстов требуется для ихиллюстрации и тем позднее должен наступать момент насыщения. Так, например, дляпризнака острый достаточно уровня частотности, равного 0.08 ipm (что соответствует 17примерам по основному подкорпусу), в то время как прилагательному тяжелый,обладающему более широкой полисемией, требуется уровень не выше 0.05 (10 примеров).96А для адекватного описания лексемы хороший, очень частотной и не очень многозначной,достаточно принять во внимание только те существительные, в сочетании с которыми онавстретилась в НКРЯ не менее 100 раз (0.49 ipm).Однако важно понимать, что параметры, влияющие на уровень насыщаемостилексемы, тоже взаимосвязаны, причём нетривиальным образом. Так, во многих случаях умногозначных слов высокая частотность (ср. лексемы шершавый, грубый, острый итяжелый: по мере роста количества значений от слова к слову растёт и уровеньчастотности), а эффекты на момент насыщения эти конфигурации параметров оказываютпротивоположные: многозначность понижает планку, а частотность – повышает.

Крометого, разные значения многозначного слова могут демонстрировать очень разные уровничастотности: например, прилагательное тяжелый в значении интенсификатора (ср.тяжелый грипп) употребляется очень часто, а примеры, иллюстрирующие егоиспользование в значении ‘сытный, жирный, калорийный’ (ср. тяжелая пища),встречаются на порядок реже.Из-за сложного соотношения факторов частотности и многозначности подобратьоптимальную формулу для вычисления порогового значения частотности словосочетанияпока не удаётся: слишком велик разброс данных, поэтому любое решение связано с рискомупустить какой-нибудь нюанс функционирования данной конкретной лексемы.Исходя из всего вышесказанного, мы установили фиксированное значениечастотности, общее для всех слов и не зависящее ни от каких параметров.

При этом мывыбрали достаточно низкую планку, позволяющую набрать достаточное количествопримеров, в то же время гарантируя отсутствие в итоговом списке заведомоокказиональныхупотребленийрассматриваемойлексемы.Такимобразом,мыотказываемся от эвристик, которые могли бы нам позволить избавиться от «лишних»контекстов (которых, например, для слова хороший при таком решении будет множество),в пользу максимальной полноты данных.

В качестве порогового мы выбираем значение0.05 ipm (самый низкий порог насыщения во всех наших предварительных экспериментах)и считаем, что существительное, встретившееся в корпусе в сочетании с опорной лексемойменьше этого количества раз, не является его достаточно устойчивой коллокацией.97ЛексемаКоличествозначений по БТС26Частотностьприлагательногопо НКРЯ (ipm)ШершавыйГрубыйОстрыйТяжелыйХороший2710185275,6959,7178,63200,10454,58Необходимыйуровеньчастотностиколлокаций (ipm)0,090,090,080,050,5Таблица 20.

Зависимость порога частотности коллокаций от многозначности и частотностиопорной лексемы.Таким образом, мы получили экспериментальный материал, состоящий в общейсложности из 13 прилагательных и 1818 примеров их употреблений (словосочетаний вида«прилагательное + существительное»). Следующим шагом необходимо разделитьнабранные контексты на группы, соответствующие разным значениям прилагательных, азатем из каждой группы выбрать по несколько примеров, чтобы сократить объем итоговойанкеты.§5. Разделение коллокаций на группы1.

Выбор основания для кластеризации и подготовка векторного пространстваСледующий шаг после составления списка коллокаций – их кластеризация, т.е.разделение на семантически однородные группы (будущие фреймы). Для того, чтобысловосочетания можно было разделить на кластеры автоматически, необходимо подобратьпараметры, так или иначе отображающие степень семантической близости между типамиконтекстов употребления рассматриваемых признаковых слов. В качестве такогооснования для кластеризации мы использовали метод моделей дистрибутивной семантики,поскольку их приемлемость для решения подобных задач мы уже доказали в рамкахпредыдущей серии экспериментов (см. Гл. 2), а также в ходе нашего пилотногоисследования Рыжова 2014. Кроме того, эффективность использования подобных моделейдля решения задач семантической кластеризации была неоднократно доказана внезависимых исследованиях (см., например, Dubossarsky et al.

2016).Большой толковый словарь под редакцией С.А. Кузнецова (Кузнецов 1998).В Большом толковом словаре для прилагательного хороший указано больше пяти значений, но многие изних не диагностируются на уровне словосочетания «прилагательное + существительное», ср.: Ну ты хорош!Хорош ругаться! Или: Ты моя хорошая!262798Для решения текущей задачи вектора сочетаемости вычислялись в основном по темже параметрам, что и для предыдущей серии экспериментов (см. Гл. 2):в качестве обучающей выборки использовался текстовый материал трехкорпусов: основного подкорпуса НКРЯ, газетного подкорпуса НКРЯ икорпуса RuWaC;в роли измерений выступали 10 000 наиболее частотных (по основномуподкорпусуНКРЯ)лексемзнаменательныхчастейречи(глаголов,существительных, прилагательных и наречий);значением по каждой из 10 000 осей было число раз, когда слово-измерениевстретилось в корпусе на расстоянии не более ±5 знаменательных слов отопорной единицы;к векторам применялась операция взвешивания (по схеме PPMI);для упрощения процесса кластеризация размерность всех пространствсокращалась до 300 измерений (по методу SVD).Так как наша задача – кластеризация словосочетаний, мы должны подготовитьвекторныепредставлениядлядвусловныхединицвида«прилагательное+существительное».

Теоретически это можно делать двумя способами: признатьсловосочетаниенеделимойязыковойединицейианализироватьконтекстыееупотребления в корпусе или составлять векторное представление для словосочетания извекторов входящих в него существительного и прилагательного по одной из моделейкомпозиции (см. раздел 4.1.2 Главы 2).Как уже было сказано, для реализации первого способа (представления сочетаемостисловосочетаний) нужны очень объемные корпуса текстов. В работе Кюсева 2014продемонстрировано, что даже имеющихся у нас трёх корпусов недостаточно. Уровенькорреляции данных русского языка (по дистрибутивной модели, состоящей из векторовсочетаемости для наблюдаемых словосочетаний) и типологических наблюдений растёт помере увеличения объема корпуса, однако всё равно остаётся на сравнительно низкомуровне (от 0.21 для корпуса объемом около 200 млн словоупотреблений до 0.287 дляобъединенного корпуса объемом почти 1,4 млрд словоупотреблений).

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.