Главная » Просмотр файлов » Диссертация

Диссертация (1137502), страница 5

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 5 страницаДиссертация (1137502) страница 52019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 5)

2016). В работе выявляется степень семантической близостимежду базовыми предметными концептами из списка Сводеша (‘трава’, ‘небо’, ‘солнце’,‘день’ и под.). Семантическая близость определяется через частоту колексификации, т.е.15близкими считаются те концепты, которые во многих языках обозначаются одним и темже словом (например, ‘день’ и ‘солнце’ семантически значительно ближе друг к другу, чем‘день’ и ‘трава’, ср., в частности, венгерское nap, которое объединяет два первых значения).Частота объединения вычисляется по переводным словарям на основе аккуратносоставленной репрезентативной выборки из 81 языка.

Выявленные связи междуконцептами представляются в виде взвешенного графа. Тем самым, в работе проводитсяавтоматизированный типологический анализ сразу нескольких предметных полей наматериале значительного количества ареально и генетически разнородных языков. Вкачестве базы для сопоставления слов из разных языков (т.е. своеобразного аналогалексико-типологическойанкеты)используетсянаборсловарныхподзначений,составляемый в процессе обработки словарей.

Очень близкая методология предложена вработе Sejane & Eger 2013. Эти работы характеризуются теми же недостатками, что итолько что рассмотренный подход А. Франсуа.Несомненное достоинство подобных методов анализа лексики заключается в том,что они могут быть полностью автоматизированы, что и позволяет им учитывать материалобширных и разнообразных языковых выборок. Однако они связаны с рядомметодологических проблем другого характера. Часть из них мы обсудили выше в связи сметодикой А.

Франсуа. Подчеркнем здесь ещё раз, что словарные данные не оченьнадежны в силу своей плохой сопоставимости: все включаемые в исследование словариоказываются разного объема и разного качества. Вероятно, это не очень существенно дляанализа базовой предметной лексики (будучи базовой и частотной, она должна бытьпредставлена в словаре практически любого объема и степени подробности), но дляисследования любой другой семантической зоны применить этот метод будет крайнезатруднительно.Проблема сопоставимости словарных данных отчасти преодолена в системе CLICS,в основе которой лежат данные серии «Межконтинентальных словарей» (IntercontinentalDictionary Series, IDS, см.

Key & Comrie 2007). В этих словарях есть единая база«концептов» – список (анкета) из 1310 лексических значений, и для каждого из нихуказывается, каким лексическим средством оно обслуживается в языке, для которогосоздается словарь. На основе этих данных строятся взвешенные графы (подобныепредставленным в работе Youn et al. 2016), отражающие стратегии колексификации –объединения разных значений в рамках одного слова. Недостаток этого чрезвычайноценного ресурса, который ещё только предстоит преодолеть, – это далекий от идеального16список концептов, лежащий в его основе. В большинстве случаев он достаточно хорошдля предметной лексики, но глагольные и признаковые зоны в нем представлены довольнобедно.

Так, например, концепта ‘качаться / колебаться’ в нем нет совсем, а признаку‘старый’ соответствует только один концепт, хотя известно, что в языках мира в этой зонемогут противопоставляться по меньшей мере четыре значения: ‘старый о живыхсуществах’ (старый человек) vs. ‘старый о неодушевленных объектах’ (старые тряпки)vs. ‘бывший’ (старый директор) vs. ‘древний, старинный’ (старый город), ср. грузинскиелексемы moxuci, dzveli, qop’ili и adrindeli, соответствующие именно этим четыремпонятийным фрагментам (см. Rakhilina, Vyrenkova, Orekhov to appear).Нельзянеотметить,чтоименнословарикакисточникобширныхлексикографических данных могут служить основой для глобальных лексикотипологических исследований, не фокусирующихся на узкой семантической области, аохватывающих широкий пласт лексики разных языков.

Только что рассмотренные намипроекты Youn et al. 2016 и CLICS (List et al. 2014) могут служить примером такого родатипологии лексических систем.Ещё один пример лексическо-типологического исследования на уровне систем, а неих фрагментов представлен в работе Kibrik 2012. Этот подход также основан, в первуюочередь, на словарных данных, но его особенность заключается в том, что он фокусируетсяне на стратегиях колексификации значений, а на степени морфологической сложностислов, их выражающих, которая, как предполагается, отражает и уровень концептуальнойсложности соответствующего лексического значения.

В работе сопоставляется глагольнаялексика трех языков: английского, русского и атабаскского языка коюкон. За основуберется список английских глаголов, которые раньше всего усваиваются детьми,предложенный в Tomasello 1992. Предполагается, что такие слова соответствуют базовымпонятийным фрагментам, а значит, их можно условно считать ядром глагольной лексики,причем не только английской, но и любой другой лексической системы. Каждому глаголуиз этого списка ставится в соответствие его переводной эквивалент в русском и в коюконеи затем для каждого глагола указывается уровень его морфологической сложности –количество деривационных морфем (включая корневую), входящих в его состав.

Самымвысоким уровнем морфологической сложности в зоне ядерной глагольной лексикиобладает коюкон, самым низким – английский, а русский язык представляет собойпромежуточный случай. Если разделить список глагольных значений на семантическиеклассы (такие как ‘глаголы манипуляции’, ‘глаголы движения’ и т.п.), то выясняется, что17в одних лексических зонах (в частности, в зонах глаголов движения, положения впространстве и речи/звука) доля непроизводных глаголов существенно выше, чем в другихсемантических областях. Таким образом, этот подход направлен на решение оченьфундаментальной задачи: построения типологии лексических систем с точки зрения того,какие значения для данного языка являются более базовыми и когнитивно простыми, акакие представляют собой более сложные концептуальные структуры. Обычнолексические типологи игнорируют эту задачу: ни направление NSM, ни Неймегенскаяшкола ею не занимаются.

Однако для методологии MLexT, которую мы используем вкачестве теоретической базы в настоящей работе, она постепенно становится релевантна,ввиду того, что в последних исследованиях этого направления начинает привлекатьсяматериал китайских двуслогов (Kholkina to appear), а также славянские приставочныекорреляты как участники оппозиций в семантических полях глаголов движения (Levin,Reznikova to appear). Однако ее формализация в рамках парадигмы MLexT требуетдополнительных теоретических изысканий, выходящих за рамки поставленных здесьцелей.4. Серия подходов, основанных на использовании параллельных корпусовДругой способ проведения лексико-типологического исследования на основеавтоматической обработки данных значительной языковой выборки – использованиепараллельных корпусов.

Так, например, в работе Eger 2012, которая является развитиемметода, предложенного в Sejane & Eger 2013, предлагается составлять с помощьюпараллельных корпусов наборы переводных эквивалентов для каждой заданной лексемы,т.е. использовать этот ресурс в качестве замены для недостаточно надежных переводныхсловарей.Дополнительное преимущество параллельных корпусов по сравнению со словарямизаключается в том, что они позволяют не только находить переводные эквивалентыисходных лексем, но и исследовать особенности их дистрибуции, т.е. определять, в какихименно контекстах заданной лексеме соответствует тот или иной эквивалент из другогоязыка. Так, например, в работе Viberg 2013a – одном из первых исследований лексикотипологического характера, опирающихся на данные параллельного корпуса – проводитсясравнительный анализ особенностей употребления глаголов позиции (‘сидеть’, ‘стоять’,‘лежать’) в роли локативных предикатов в шведском, английском, немецком, французскоми финском языках (ср.

также близкую работу Viberg 2013b).18Кроме того, сочетаемостные свойства лексем на материале параллельных корпусовзначительно проще сопоставлять автоматически, чем более разнородные данныеодноязычных корпусов и переводных словарей. Работа Wälchli & Cysouw 2012 являетсобой пример полностью автоматизированного лексико-типологического анализа базовыхглаголов движения. Исследование проводится на базе корпуса переводов Евангелия отМарка на материале 100 генетически и ареально разнородных языков. Эта методологияопирается на предположение о том, что семантика лексемы отражается на ее сочетаемости,а значит, может быть изучена по контекстам, в которых эта лексема употребляется.Параллельные корпуса дают возможность проанализировать один и тот же наборконтекстов в разных языках и использовать его в качестве единой базы для сравненияматериала разных языков (тем самым, набор всех встреченных в корпусе контекстовфактически становится аналогом типологической анкеты7).

На основе собранныхтипологических данных контексты кластеризуются, т.е. объединяются в группы,соответствующие «минимальным значениям», и отображаются на семантической карте.Заметим, однако, что такая карта будет отличаться от «традиционных» семантических карт,описанных выше. Карта того образца, который мы встречаем в работе Wälchli & Cysouw2012, строится методом многомерного шкалирования и отражает, во-первых, все пунктыанкеты, а не установленные минимальные значения, а во-вторых, является непрерывной, ане дискретной.

Подробнее типы семантических карт и различные методы их создания мыобсудим в Главе 5.Подход, предложенный в статье Wälchli & Cysouw 2012, обладает неоспоримымипреимуществами: он позволяет проводить лексико-типологические исследования набольших выборках; опирается на собственно языковые примеры, не опосредованныеобработкой лексикографов; и, наконец, он может быть полностью автоматизирован, какэто и демонстрируют сами авторы. Существенный недостаток этой методологиизаключается, однако, в том, что на данный момент она применима только для анализаочень частотной лексики: объемы существующих параллельных корпусов на сегодняшнийдень очень ограниченны.Ср.

Характеристики

Тип файла
PDF-файл
Размер
1,9 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Автоматизация лексико-типологических исследований методы и инструменты
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6353
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее