Диссертация (1137502), страница 29
Текст из файла (страница 29)
Предложенная намиметодика призвана помочь типологу расширить эмпирическую базу исследований путемучета максимального количества доступных ресурсов, упростив и ускорив процессанализа электронных источников данных.127Преимущество нашего метода заключается в том, что мы отталкиваемся от единойанкеты, которая уже в готовом виде подается на вход модулю, отвечающему за сборданных.
Это позволяет заполнять ее данными из всех доступных источников, будь тоодноязычные или параллельные корпуса, вне зависимости от их структур и типов разметки.Однако, безусловно, алгоритмы извлечения данных нуждаются в адаптации под каждыйновый словарь или корпус, если только он не относится к уже освоенным нами сериям.Исходя из этого, в дальнейшем мы предполагаем увеличить охват обрабатываемыхсловарей и корпусов для различных языков, а также разработать алгоритмы сборатипологических данных для глагольных и предметных семантических полей.128Глава 5. Построение семантической карты и анализ типов системРазработка семантической карты – важнейший этап типологического исследования,поскольку именно на этом шаге происходит анализ и интерпретация данных, собранныхна предыдущих стадиях. Карты представляют собой модели, отражающие закономерностикодирования грамматических или лексических значений в языках мира и позволяющиенаглядно сопоставлять материалы различных языков.
С этим этапом тесно связанследующий, заключительный – анализ типов систем.В лингвистической практике применяются два типа семантических карт: такназываемые «классические» (графовые) и вероятностные, мы коротко обсудимособенности каждой из них в §1. Фреймовый подход к лексической типологии обычноиспользует только графовые модели, составляемые вручную.
В этой главе мы применим кнашим лексическим данным вероятностную модель картирования, сопоставим ее сграфовой и выделим основные достоинства и недостатки каждой из этих методологий сточки зрения наших задач. Этому будет посвящен §2. Затем, в §3, мы представим новуюметодологию семантического картирования – метод автоматического построения аналоговсемантических карт с помощью решеток формальных понятий.§1. Существующие методы создания семантических карт1.1. Графовые семантические картыКлассическая семантическая карта представляет собой граф, в узлах которогорасполагаются значения (грамматические или лексические), а ребра маркируютвозможность объединения двух значений в рамках одного лингвистического средства(морфемы,словаиликонструкции).В большинстве случаев дляпостроениясемантических карт используется модель ненаправленного графа, т.е.
отношения междузначениями считаются симметричными, однако для отображения путей эволюцииязыковых единиц в диахронической перспективе может быть применен и направленныйграф (см. van der Auwera & Plungian 1998). В недавней работе Georgakopoulos & Polis 2018вводится также модель смешанного графа, призванная отобразить синхронное состояниеи диахронические сведения на одной и той же схеме.Обычно такие карты строятся вручную (см., однако, Regier et al. 2013) на основеимеющихся в распоряжении исследователя типологических данных. При их разработке129соблюдаются два основных принципа: принцип смежности и принцип экономии.Принцип смежности, или Semantic Map Connectivity Hypothesis (Croft 2001), подразумевает,что любая единица в любом языке выборки должна охватывать только такие значения,узлы которых формируют связный подграф на семантической карте.
При этом принципэкономии гласит, что в графе должно быть минимальное количество ребер, достаточноедля соблюдения принципа смежности. В большинстве случаев построенные по такимпринципам карты представляют собой планарные графы, которые можно изобразить наплоскости так, чтобы никакие из их ребер не пересекались, однако возможны и болеесложные схемы, см., например, Cysouw 2007. Таким образом, расстояние между узлами натакой карте незначимо и выбирается произвольно, но их взаимное расположение (преждевсего, в случае если граф планарный) оказывается информативно.1.2.
Вероятностные семантические картыВероятностные семантические карты, в отличие от традиционных графовых,строятся автоматически и представляют собой отображение многомерных типологическихданных в пространство меньшей размерности. В лингвистической практике используетсянесколько техник уменьшения количества измерений пространства типологическихданных, наиболее распространенная из которых – многомерное шкалирование(Multidimensional Scaling, или MDS, см. Cox & Cox 2001, а также раздел 4.5 Главы 2, гдемыиспользовалиименноэтутехникудлявизуализациидистрибутивногоитипологического векторных пространств).Метод многомерного шкалирования подразумевает проекцию многомерногопространства в пространство с меньшим количеством измерений.
Новое пространствосоздается таким образом, чтобы расстояние между точками максимально соответствовалорасстоянию между ними в исходном многомерном пространстве. Различия в исходных иитоговых расстояниях контролируются функцией стресса, так что если на классическойсемантической карте расстояние между узлами не несет никакой смысловой нагрузки, тона вероятностных схемах расстояние между точками играет ключевую роль: чем ономеньше, тем больше вероятности объединения соответствующих значений однимлингвистическим средством (иными словами, тем чаще эти значения объединяются вязыках выборки, на основе которой строится карта).Предполагается, что, если лингвистические данные по той или иной семантическойзоне действительно подчиняются некоторым универсальным закономерностям, то по этим130данным можно будет построить пространственную модель с небольшим числомизмерений (от одного до трех) и с низким значением функции стресса35.
Поископтимальной модели с минимальным числом измерений можно считать аналогомпринципа экономии, соблюдаемого при построении традиционных графовых карт.Сфера действия конкретных языковых единиц на такой карте определяетсявозможностью разбиения пространства на две части. Одномерное пространстворазбивается точкой, двумерное – прямой линией, трехмерное – плоскостью (ср. cutting line/ plane в терминологии Croft & Poole 2008). Объединяться в рамках одноголингвистического средства могут те значения, которые можно отделить ото всехостальных одной точкой, прямой или плоскостью. Это правило можно считать аналогомпринципа смежности.§2. Графовая и вероятностная модели в применении к нашему материалуВ разделе 4.5 Главы 2, посвященном визуализациям многомерных пространствразной природы, мы приводили графовую и вероятностную карты для поля ‘острый’ иподчеркивали, что они моделируют концептуальное пространство рассматриваемогопризнака примерно одинаково. Здесь мы рассмотрим эти модели подробнее и покажем,что они эквивалентны во многом, но не во всем.На Рис.
4, который мы для удобства повторяем здесь (Рис. 8), представленатрадиционная графовая семантическая карта для поля ‘острый’. Эта карта показывает, чтодопустимы все возможные комбинации трех правых узлов, т.е. слово со значением ‘острый’в некотором языке L может иметь все три значения, любые два или любое одно из них.При этом левый узел не связан напрямую с двумя правыми. Это означает, что, если словоХ может описывать инструменты с режущим краем (ср. нож, коса) и объекты вытянутойформы (ср. нос, носок ботинка), то оно обязательно будет покрывать и фрейминструментов с колющим концом (ср.
стрела, копье). Аналогично, если слово Х описываетрежущие инструменты и колючие поверхности, то оно должно использоваться и дляописания колющих инструментов.См. Croft & Poole 2008 (с. 11): “If there are language universals in the domain being investigated, we wouldexpect to find a spatial model with few dimensions, with a very good degree of fit to the crosslinguistic data”.35131Рисунок 8 (=4). Семантическая карта поля ‘острый’. Instrument with a sharp functional edge (knife, saw) – инструмент с функциональным острымкраем (нож, коса); Instrument with a sharp functional end-point (arrow, spear) – инструмент с функциональнымострым концом (стрела, копье); Object with a sharp form (nose) – Объект острой формы (нос); Object/surface that pricks (thorn, blanket) – колючий объект/поверхность (колючка, одеяло).Такого рода карта позволяет отобразить наиболее общие закономерности, которыеможно вывести на имеющемся в распоряжении исследователя типологическом материале:какие комбинации значений допустимы в рамках одного языкового средства, а какие – нет.Сведений о системах конкретных языков такая модель не предоставляет: данные каждогоязыкамогутбыть«наложены» накарту,новизуализациябудетсохранятьиллюстративность только в том случае, если будет отражать данные не более одного-двухязыков (ср.
иллюстрацию системы лексикализации поля ‘острый’ во французском языкена Рис. 9).Рисунок 9. Семантическая карта поля ‘острый’ с отображением данных французского языка.132Поскольку графовые семантические карты не отражают сведений о том, как даннаясемантическая зона оформляется лингвистическими средствами в каждом конкретномязыке, они не очень удобны для анализа типов систем. Иными словами, традиционнаясемантическая карта не отображает, какие комбинации оказываются распространенными,а какие нет.
Частично эту задачу решает модель взвешенного графа, вес ребра в которомпоказывает, насколько часто значения, соответствующие узлам, которые это ребросоединяет, выражаются одним и тем же языковым средством. Однако эти дополнительныесведения, будучи чрезвычайно полезными, все же не позволяют делать выводы остратегиях оформления исследуемой зоны в разных языках.
В частности, вес каждогоотдельного ребра не выделяет частотных комбинаций, содержащих более двух узлов. Так,например, модель взвешенного графа, по-видимому, не позволит показать, что почти вполовине языков выборки (см. нашу статью Kyuseva, Ryzhova & Parina to appear) всемантическом поле ‘острый’ значения ‘инструмент с острым краем’, ‘инструмент сострым кончиком’ и ‘объект острой формы’ выражаются одним словом, а четвертое –‘колючий объект/поверхность’ – другим; при том, что вторая распространенная стратегия– объединение инструментов с острым кончиком и объектов вытянутой формы и ихлексическое противопоставление режущим инструментам с одной стороны и колючимобъектам – с другой.Помимо того, что графовая семантическая карта не отражает частотности возможныхкомбинаций, эта модель обычно допускает больше возможных вариантов, чем их на самомделе засвидетельствовано.
Например, семантическая карта на Рис. 8 в числе прочихдопускает комбинацию ‘Instrument with a sharp functional edge’ + ‘Instrument with a sharpfunctional end-point’ + ‘Object/surface that pricks’, которая пока не встретилась нам ни водном из языков выборки.Вероятностная семантическая карта, построенная на основе предобработанныхданных, в которых уже выделены минимальные лексические значения (фреймы), можетвыступать в качестве аналога графовой карты, поскольку расположение точек наплоскости в ней примерно соответствует взаимному расположению узлов на графовойкарте (см. Рис. 10, а также карту неопределенных местоимений, построенную поматериалам Haspelmath 1997 в работе Croft & Poole 2008). В этом случае такой форматпредставления данных скорее проигрывает традиционному графовому, поскольку потакого рода визуализациям ещё сложнее определить, какие комбинации значений в рамкаходной лексемы маловероятны или полностью запрещены.
Так, например, согласно Рис. 10,133объединение фрейма режущих инструментов с фреймом колючих поверхностей почтистоль же вероятно, что и объединение первого с фреймом колющих инструментов. Приэтом вторая комбинация допустима и нередко встречается в языках, в то время как первая,по-видимому, невозможна, что явно отражено на графовой семантической карте (см. Рис.8).Рисунок 10. Семантическая карта поля ‘острый’, полученная методом многомерногошкалирования.