Диссертация (1137502), страница 5
Текст из файла (страница 5)
2016). В работе выявляется степень семантической близостимежду базовыми предметными концептами из списка Сводеша (‘трава’, ‘небо’, ‘солнце’,‘день’ и под.). Семантическая близость определяется через частоту колексификации, т.е.15близкими считаются те концепты, которые во многих языках обозначаются одним и темже словом (например, ‘день’ и ‘солнце’ семантически значительно ближе друг к другу, чем‘день’ и ‘трава’, ср., в частности, венгерское nap, которое объединяет два первых значения).Частота объединения вычисляется по переводным словарям на основе аккуратносоставленной репрезентативной выборки из 81 языка.
Выявленные связи междуконцептами представляются в виде взвешенного графа. Тем самым, в работе проводитсяавтоматизированный типологический анализ сразу нескольких предметных полей наматериале значительного количества ареально и генетически разнородных языков. Вкачестве базы для сопоставления слов из разных языков (т.е. своеобразного аналогалексико-типологическойанкеты)используетсянаборсловарныхподзначений,составляемый в процессе обработки словарей.
Очень близкая методология предложена вработе Sejane & Eger 2013. Эти работы характеризуются теми же недостатками, что итолько что рассмотренный подход А. Франсуа.Несомненное достоинство подобных методов анализа лексики заключается в том,что они могут быть полностью автоматизированы, что и позволяет им учитывать материалобширных и разнообразных языковых выборок. Однако они связаны с рядомметодологических проблем другого характера. Часть из них мы обсудили выше в связи сметодикой А.
Франсуа. Подчеркнем здесь ещё раз, что словарные данные не оченьнадежны в силу своей плохой сопоставимости: все включаемые в исследование словариоказываются разного объема и разного качества. Вероятно, это не очень существенно дляанализа базовой предметной лексики (будучи базовой и частотной, она должна бытьпредставлена в словаре практически любого объема и степени подробности), но дляисследования любой другой семантической зоны применить этот метод будет крайнезатруднительно.Проблема сопоставимости словарных данных отчасти преодолена в системе CLICS,в основе которой лежат данные серии «Межконтинентальных словарей» (IntercontinentalDictionary Series, IDS, см.
Key & Comrie 2007). В этих словарях есть единая база«концептов» – список (анкета) из 1310 лексических значений, и для каждого из нихуказывается, каким лексическим средством оно обслуживается в языке, для которогосоздается словарь. На основе этих данных строятся взвешенные графы (подобныепредставленным в работе Youn et al. 2016), отражающие стратегии колексификации –объединения разных значений в рамках одного слова. Недостаток этого чрезвычайноценного ресурса, который ещё только предстоит преодолеть, – это далекий от идеального16список концептов, лежащий в его основе. В большинстве случаев он достаточно хорошдля предметной лексики, но глагольные и признаковые зоны в нем представлены довольнобедно.
Так, например, концепта ‘качаться / колебаться’ в нем нет совсем, а признаку‘старый’ соответствует только один концепт, хотя известно, что в языках мира в этой зонемогут противопоставляться по меньшей мере четыре значения: ‘старый о живыхсуществах’ (старый человек) vs. ‘старый о неодушевленных объектах’ (старые тряпки)vs. ‘бывший’ (старый директор) vs. ‘древний, старинный’ (старый город), ср. грузинскиелексемы moxuci, dzveli, qop’ili и adrindeli, соответствующие именно этим четыремпонятийным фрагментам (см. Rakhilina, Vyrenkova, Orekhov to appear).Нельзянеотметить,чтоименнословарикакисточникобширныхлексикографических данных могут служить основой для глобальных лексикотипологических исследований, не фокусирующихся на узкой семантической области, аохватывающих широкий пласт лексики разных языков.
Только что рассмотренные намипроекты Youn et al. 2016 и CLICS (List et al. 2014) могут служить примером такого родатипологии лексических систем.Ещё один пример лексическо-типологического исследования на уровне систем, а неих фрагментов представлен в работе Kibrik 2012. Этот подход также основан, в первуюочередь, на словарных данных, но его особенность заключается в том, что он фокусируетсяне на стратегиях колексификации значений, а на степени морфологической сложностислов, их выражающих, которая, как предполагается, отражает и уровень концептуальнойсложности соответствующего лексического значения.
В работе сопоставляется глагольнаялексика трех языков: английского, русского и атабаскского языка коюкон. За основуберется список английских глаголов, которые раньше всего усваиваются детьми,предложенный в Tomasello 1992. Предполагается, что такие слова соответствуют базовымпонятийным фрагментам, а значит, их можно условно считать ядром глагольной лексики,причем не только английской, но и любой другой лексической системы. Каждому глаголуиз этого списка ставится в соответствие его переводной эквивалент в русском и в коюконеи затем для каждого глагола указывается уровень его морфологической сложности –количество деривационных морфем (включая корневую), входящих в его состав.
Самымвысоким уровнем морфологической сложности в зоне ядерной глагольной лексикиобладает коюкон, самым низким – английский, а русский язык представляет собойпромежуточный случай. Если разделить список глагольных значений на семантическиеклассы (такие как ‘глаголы манипуляции’, ‘глаголы движения’ и т.п.), то выясняется, что17в одних лексических зонах (в частности, в зонах глаголов движения, положения впространстве и речи/звука) доля непроизводных глаголов существенно выше, чем в другихсемантических областях. Таким образом, этот подход направлен на решение оченьфундаментальной задачи: построения типологии лексических систем с точки зрения того,какие значения для данного языка являются более базовыми и когнитивно простыми, акакие представляют собой более сложные концептуальные структуры. Обычнолексические типологи игнорируют эту задачу: ни направление NSM, ни Неймегенскаяшкола ею не занимаются.
Однако для методологии MLexT, которую мы используем вкачестве теоретической базы в настоящей работе, она постепенно становится релевантна,ввиду того, что в последних исследованиях этого направления начинает привлекатьсяматериал китайских двуслогов (Kholkina to appear), а также славянские приставочныекорреляты как участники оппозиций в семантических полях глаголов движения (Levin,Reznikova to appear). Однако ее формализация в рамках парадигмы MLexT требуетдополнительных теоретических изысканий, выходящих за рамки поставленных здесьцелей.4. Серия подходов, основанных на использовании параллельных корпусовДругой способ проведения лексико-типологического исследования на основеавтоматической обработки данных значительной языковой выборки – использованиепараллельных корпусов.
Так, например, в работе Eger 2012, которая является развитиемметода, предложенного в Sejane & Eger 2013, предлагается составлять с помощьюпараллельных корпусов наборы переводных эквивалентов для каждой заданной лексемы,т.е. использовать этот ресурс в качестве замены для недостаточно надежных переводныхсловарей.Дополнительное преимущество параллельных корпусов по сравнению со словарямизаключается в том, что они позволяют не только находить переводные эквивалентыисходных лексем, но и исследовать особенности их дистрибуции, т.е. определять, в какихименно контекстах заданной лексеме соответствует тот или иной эквивалент из другогоязыка. Так, например, в работе Viberg 2013a – одном из первых исследований лексикотипологического характера, опирающихся на данные параллельного корпуса – проводитсясравнительный анализ особенностей употребления глаголов позиции (‘сидеть’, ‘стоять’,‘лежать’) в роли локативных предикатов в шведском, английском, немецком, французскоми финском языках (ср.
также близкую работу Viberg 2013b).18Кроме того, сочетаемостные свойства лексем на материале параллельных корпусовзначительно проще сопоставлять автоматически, чем более разнородные данныеодноязычных корпусов и переводных словарей. Работа Wälchli & Cysouw 2012 являетсобой пример полностью автоматизированного лексико-типологического анализа базовыхглаголов движения. Исследование проводится на базе корпуса переводов Евангелия отМарка на материале 100 генетически и ареально разнородных языков. Эта методологияопирается на предположение о том, что семантика лексемы отражается на ее сочетаемости,а значит, может быть изучена по контекстам, в которых эта лексема употребляется.Параллельные корпуса дают возможность проанализировать один и тот же наборконтекстов в разных языках и использовать его в качестве единой базы для сравненияматериала разных языков (тем самым, набор всех встреченных в корпусе контекстовфактически становится аналогом типологической анкеты7).
На основе собранныхтипологических данных контексты кластеризуются, т.е. объединяются в группы,соответствующие «минимальным значениям», и отображаются на семантической карте.Заметим, однако, что такая карта будет отличаться от «традиционных» семантических карт,описанных выше. Карта того образца, который мы встречаем в работе Wälchli & Cysouw2012, строится методом многомерного шкалирования и отражает, во-первых, все пунктыанкеты, а не установленные минимальные значения, а во-вторых, является непрерывной, ане дискретной.
Подробнее типы семантических карт и различные методы их создания мыобсудим в Главе 5.Подход, предложенный в статье Wälchli & Cysouw 2012, обладает неоспоримымипреимуществами: он позволяет проводить лексико-типологические исследования набольших выборках; опирается на собственно языковые примеры, не опосредованныеобработкой лексикографов; и, наконец, он может быть полностью автоматизирован, какэто и демонстрируют сами авторы. Существенный недостаток этой методологиизаключается, однако, в том, что на данный момент она применима только для анализаочень частотной лексики: объемы существующих параллельных корпусов на сегодняшнийдень очень ограниченны.Ср.