Диссертация (1137502), страница 21

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 21 страницаДиссертация (1137502) страница 212019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 21)

Как уже было сказано во Введении, мы считаем, что для признаковых словключевым является единственный участник вводимой ими ситуации, т.е. носительсвойства. А это означает, что для анализа сочетаемости прилагательного в большинствеслучаев должно быть достаточно двусловных сочетаний вида «прилагательное +существительное».Автоматически составить перечень таких словосочетаний для заданной признаковойлексемы на материале русского языка можно несколькими способами. Во-первых,благодаря тому, что у определительной конструкции всего две переменных, можновоспользоваться списками биграмм корпорации Google23(именно такой материалиспользуется в работах Абдурашитова 2017; Кюсева и др.

2013a; Орехов & Резникова2015). Биграммы Google разбиты на файлы и отсортированы по алфавиту по первому23http://storage.googleapis.com/books/ngrams/books/datasetsv2.html89слову, поэтому извлечение из этих списков всех словосочетаний с искомой признаковойлексемой для русского языка не составляет проблем, в отличие, например, отфранцузского,гдеприлагательноепочтивсегдазанимаетпозициюпослесуществительного.Однако список коллокаций, получаемый таким способом, требует дополнительнойобработки. Во-первых, поскольку нас интересует сочетаемость лексем, а не словоформ,все словосочетания необходимо привести к начальной форме. Эта задача требуетпривлечения морфологического парсера и последующей дизамбигуации, что приводит кпоявлению достаточно большой порции «мусора» – неправильных разборов. Во-вторых,список биграмм всегда очень обширен и нуждается в фильтрации.

Между тем, основаниядля очистки неочевидны: биграммы Google собираются на основе несбалансированного иникак не контролируемого корпуса текстов, поэтому определить априорно, какиесловосочетания следует отсечь, а какие оставить, – непростая задача (ср. подобныерассуждения в работе Абдурашитова 2017).Морфологического парсинга можно избежать, воспользовавшись ресурсом, вкотором необходимый разбор уже проведен. Например, коллекция доступных онлайнкорпусов Sketch Engine (www.sketchengine.co.uk, см. Kilgarriff et al.

2004) содержитрусский подкорпус объемом в несколько миллиардов словоупотреблений. Этот ресурспозволяет в несколько кликов получить список всех сочетаний искомой лексемы ссуществительными, приведенными к начальной форме и отсортированными почастотности. Однако, поскольку эта статистическая информация строится на основе оченьобъемногокорпусаинтернет-текстов,результирующийсписоктакжетребуетдополнительной фильтрации.

Как и в случае с биграммами Google, просто отобратьопределенное количество наиболее частотных словосочетаний – не самое удачноерешение: статистика собирается по несбалансированному корпусу. Более действенныйметод – оставлять, например, только такие существительные, которые встретились всочетании с искомой лексемой в первой тысяче примеров случайной выдачи НКРЯ позапросу «искомое прилагательное + любое имя существительное». В любом случае, этотметод составления списков коллокаций связан с большим количеством дополнительныхопераций, тем более, что бесплатный доступ к коллекции корпусов Sketch Engineограничен (предоставляется только на 30 дней).Самый надежный и удобный в наших условиях метод анализа сочетаемостиприлагательных – сбор коллокаций по имеющимся в нашем распоряжении корпусам90текстов: основному и газетному подкорпусам НКРЯ и корпусу RuWaC.

Эти тексты ужеснабжены морфологической разметкой, так что достаточно посчитать, в сочетании скакими существительными и сколько раз в рамках каждого корпуса встретиласьрассматриваемая лексема.Мы провели соответствующие эксперименты для опорного прилагательногоострый. Их результаты показывают, что жанр и степень сбалансированности корпусовдовольно значимо влияют на итоговый список коллокаций. Так, набор существительных,сочетающихся со словом острый в рамках газетного подкорпуса НКРЯ, оказался явносмещен в сторону спортивной тематики: одними из самых частотных оказалисьсловосочетания острая атака, острая контратака, острая передача, острый пас, в товремя как более естественные и ядерные для этого признака употребления (такие, какострая игла) показывают сравнительно низкий уровень частотности (см.

Таблицу 17).91Существительное, которое встретилосьв сочетании с прилагательным острыйЧастотность словосочетания(ipm24)2,572,472,141,581,491,491,471,210,700,660,640,610,570,550,510,490,470,460,430,400,390,380,360,330,310,310,300,270,26...0,020,02Ранг25Проблема1Угол2Вопрос3Ощущение4Необходимость5Дефицит6Нехватка78Момент9БорьбаФаза1011АтакаКонкуренция12Боль13Дискуссия14Тема15Ситуация16Нож17Потребность18Отравление19Предмет2021КонтратакаФорма22Перец2324ПередачаРеакция25Конфликт26Кризис27Желание2829Пас……203Иголка205ИглаТаблица 17.

Фрагмент списка существительных, с которыми сочетается прилагательное острый(по газетному подкорпусу НКРЯ).Аналогичная статистика по корпусу RuWaC дает интуитивно более приемлемыерезультаты, хотя и здесь, как кажется, сказывается недостаточная сбалансированностьтекстового материала: например, очень частотны и многочисленны названия разного родаipm (instances per million) – метрика, показывающая количество интересующих нас примеров на миллионсловоупотреблений в данном корпусе. Мы используем ее вместо абсолютного количество найденныхпримеров, чтобы можно было напрямую сравнивать между собой уровни частотности одних и тех жеязыковых единиц в корпусах разных объемов.25Для простоты ранги соответствуют сплошной нумерации коллокаций и не учитывают случаев совпаденияуровня частотности.2492заболеваний, некоторые из которых известны далеко не каждому носителю русского языка(см.

Таблицу 18).Существительное, которое встретилосьв сочетании с прилагательным острыйЛейкозПиелонефритИнфарктОтравлениеВоспалениеБронхитАппендицитПанкреатитГастритИнфекцияХолециститГепатитРинит…Частотность словосочетания(ipm)0,730,440,440,430,350,300,300,280,220,210,140,130,13Ранг13323435405051546467828788Таблица 18. Фрагмент списка существительных, с которыми сочетается прилагательное острый(по корпусу RuWaC).Наконец, список коллокаций, полученный по основному подкорпусу НКРЯ,выглядит наиболее представительно (см.

Таблицу 19).93Существительное, которое встретилосьв сочетании с прилагательным острыйУголБольОщущениеНожГлазНосВопросВзглядЧувствоФормаПроблемаЗубКаменьЗапахКонецУмСловоНеобходимостьПодбородокПериодКрайЖеланиеХарактерДефицитМоментБородкаНехваткаЖалостьПотребностьКоленоВершинаПриступНуждаИглаШипЧастотность словосочетания(ipm)1,961,430,980,970,970,880,820,810,800,770,750,740,670,580,500,490,480,470,450,430,420,420,390,390,390,370,360,340,340,330,320,310,310,300,29Ранг1234567891011121314151617181920212223242526272829303132333435Таблица 19.

Начальный фрагмент списка существительных, с которыми сочетается прилагательноеострый (по основному подкорпусу НКРЯ). Видно, что уже среди первых 35 примеров естьпредставители основных физических значений опорной лексемы, ср.: нос, подбородок, бородка –фрейм ‘вытянутая форма’; нож – фрейм ‘режущий (об объектах с режущим краем)’; игла, шип –‘колющий (об объектах с колющим концом)’ и т.д.Чтобы не опираться исключительно на интуитивные суждения, мы оценили все трисписка более строго. Для каждого словосочетания, уровень частотности которого в каждомкорпусе был не ниже 0.05 ipm (что соответствует 10 примерам в основном подкорпусеНКРЯ, 7 примерам в газетном подкорпусе НКРЯ и 50 примерам в корпусе RuWaC), мы94указали фрейм, который это словосочетание иллюстрирует, и затем сверили полученныйнабор фреймов с собранной вручную анкетой.

Оказалось, что в списке коллокаций,построенном на материале основного подкорпуса НКРЯ, фигурируют представители всехфреймов, релевантных для русского прилагательного острый, причем на каждый фрейместь не менее трех примеров. Словосочетания, найденные автоматически, не совпадают вточности с примерами анкеты (например, в анкете фрейм ‘режущий (об инструментах срежущим краем)’ иллюстрируется контекстом ‘острый меч’, а в списке коллокаций –острое лезвие), но это расхождение не снижает значимости полученного списка.Напротив, для анкеты, составленной вручную, примеры подбирались исследователямиинтуитивно, в то время как автоматический сбор данных позволяет выбирать иллюстрациина более строгих основаниях: например, по принципу частотности. Тот же контекст‘острый меч’ на деле не всегда оказывался удачным: меч – это устаревшая реалия,знакомая носителям далеко не всех культур, поэтому эта строка анкеты часто оставаласьнезаполненной (например, она по понятным причинам не может быть заполнена даннымикоми-зырянского или кабардинского языков).В списке существительных, сочетающихся с прилагательным острый по даннымкорпуса RuWaC, также оказалось достаточное количество примеров (не менее трех) на всеосновные фреймы, которые покрываются этим признаковым словом.

Непредставленнымиоказались только два маргинальных метафорических значения, отраженных, тем не менее,достаточно большим количеством примеров в НКРЯ: ‘пронизывающий (о ветре, холоде)’,ср. острый холод, и ‘резкий, неприятный для глаз’, ср. острая вспышка.Данные газетного подкорпуса также не фиксируют только что упомянутыеметафорические употребления прилагательного острый. Помимо этого, в спискесуществительных, полученном в результате анализа этого корпуса, менее чем тремяпримерами представлены и некоторые более продуктивные метафоры: ‘хорошофункционирующий (об органах чувств)’, ср. острое зрение, и ‘хорошо функционирующий(об уме, интеллекте)’, ср. острый ум.Таким образом, результаты наших наблюдений показывают, что в качестветекстового материала для автоматического составления списка коллокаций надежнеевсего использовать основной подкорпус НКРЯ. Это решение также подкрепляетсярезультатами экспериментов, представленных в Главе 2.

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.