Диссертация (1137502), страница 30
Текст из файла (страница 30)
Каждая точка соответствует фрейму: зеленый – инструменты с функциональнымострым краем (нож, коса); синий – инструменты с функциональным острым концом (стрела,копье); желтый – объекты вытянутой формы (нос); красный – колючие объекты/поверхности(колючка, одеяло).Вместе с тем, неоспоримое преимущество этого метода заключается в том, что онполностью автоматический, а значит, может быть легко применен и к более обширномуязыковому материалу. На Рис. 11 (повторяющем Рис. 1) представлена вероятностная картаполя ‘острый’, построенная на основе данных по всем пунктам анкеты.
Каждой точкесоответствует пункт анкеты, т.е. один прототипический контекст. Все контексты,иллюстрирующие фрейм режущих инструментов, обозначены зеленым, колющихинструментов – синим, объектов вытянутой формы – желтым, колючих объектов /поверхностей – красным. В качестве измерений использовались слова всех языков,134включенных в выборку. Значение измерения равнялось 1 в том случае, если словопокрывает данный пункт анкеты, и 0 – если не покрывает36.Рисунок 11 (=1). Карта поля ‘острый’, полученная методом многомерного шкалирования.
Каждаяточка соответствует пункту анкеты.На этой карте хорошо видно, что, во-первых, контексты, иллюстрирующие один итот же фрейм, не совпадают в одной точке, а занимают некоторую область, более илименее ограниченную, т.е. представление фрейма в виде неделимого целого – одного узлана дискретной графовой карте – это существенное упрощение реального положения дел(ср. наши рассуждения о фокальной структуре семантических полей в разделе 4.5 Главы 2).Во-вторых, такая карта показывает, что фреймы колющих инструментов и объектоввытянутой формы часто описываются одним и тем же лексическим средством: расстояниемежду ними совсем небольшое.
Напротив, фреймы режущих инструментов и колючихповерхностей отстоят и друг от друга, и от фреймов колющих инструментов и объектоввытянутой формы. На подобные сведения можно опираться в ходе анализа типов систем.Напомним, что таблицы такого же формата мы использовали для вычисления значения метрикитипологической близости (см. Главу 2).36135В большинстве случаев метод многомерного шкалирования применяют длявизуализации больших объемов данных, изначально не структурированных, т.е. в техслучаях, когда построить графовую карту крайне затруднительно. Как правило, такимиданными служат контексты параллельного корпуса с информацией о том, как онизаполняются в разных языках, при этом языков может быть 100, как в работе Wälchli &Cysouw 2012, или даже 1000, как в работе Östling 2016.
В таких ситуациях многомерноешкалирование используется в том числе как метод кластеризации данных и позволяетвыявить основные типы контекстов употребления рассматриваемых слов. Такаявизуализация не столько иллюстрирует выявленные закономерности, сколько служитдополнительным инструментом для их обнаружения и сама по себе нуждается винтерпретации.Таким образом, два рассмотренных здесь метода построения семантических картработают на основе сходных принципов и дают в целом сопоставимые результаты.Основное различие в их функционалах заключается в том, что вероятностные карты лучшеприспособлены к большим объемам данных и лучше отображают степени близости междудвумя значениями в концептуальном пространстве.
В то же время, из традиционнойграфовой модели легче выводятся ограничения: по ней сразу видно, какие комбинациизаведомо недопустимы – далеко не все такие комбинации так же очевидно запрещаютсявероятностной моделью. При этом ни графовая, ни вероятностная модели неприспособлены к единовременному отображению данных сразу нескольких языков.Впрочем, расстояния между объектами на вероятностной карте позволяют примернооценить, насколько часто те или иные значения объединяются в рамках одной языковойединицы.В следующем параграфе этой главы мы предложим новый метод семантическогокартирования, отличающийся и от графового, и от вероятностного по своему функционалу.Он основан на математическом аппарате анализа формальных понятий, который мыкратко представим в разделе 1. Далее, в разделе 2, мы покажем, как этот аппарат можетбыть использован в решении задачи построения семантической карты и чем такая картабудет отличаться от графовой и вероятностной моделей.
В разделе мы обсудимвозможность применения модели решетки формальных понятий к задаче анализаметафорических значений.136§3. Построение семантических карт с помощью решеток формальных понятий371. Анализ формальных понятийАнализ формальных понятий (formal concept analysis, или FCA, см. Ganter & Wille1999) – математический аппарат, позволяющий анализировать структуру данных,представленных в виде множества объектов, каждый из которых характеризуетсяопределенным набором атрибутов. Множество объектов представляется в виде иерархииформальных понятий (concepts). У каждого формального понятия есть объем (множествоотносящихся к нему объектов) и содержание (множество атрибутов, необходимых идостаточных для каждого объекта, входящего в данное формальное понятие).
Объемпонятий служит критерием для их упорядочивания.Ниже мы приведем несколько определений, необходимых для пониманияпредлагаемого математического аппарата.Формальный контекст K – это тройка (G, M, I), где G – это множество объектов, M– множество атрибутов, а I – бинарное отношение I⊆G × M, устанавливаемое междуобъектом и атрибутом в том случае, если данный объект обладает данным атрибутом.Такое отношение называют отношением инцидентности. Для произвольных A ⊆ G и B ⊆M определены операторы Галуа:′ = { ∈ | ∀ ∈ ∶ }, ′ = { ∈ | ∀ ∈ ∶ },т.е.
A' – это множество атрибутов, общих для всех объектов из A, и B' – это множествообъектов, у которых есть все атрибуты из B.Формальным понятием контекста (G, M, I) называются такие пары (A, B), где A ⊆ G,B ⊆ M, A = B', и B = A'. Множество A называется объемом, а B – содержанием понятия (A,B).Понятие (A, B) считается менее общим, чем понятие (C, D), если A ⊆ C. Все множествопонятий, структурированное по определенному таким образом отношению быть более илименее общим, формирует решетку, которая называется решеткой формальных понятийдля контекста K.
Обычно решетка формальных понятий визуализируется в виде линейнойдиаграммы, где узлы соответствуют понятиям и более общие понятия размещаются надменее общими. Два понятия связываются между собой линией, если один из них менееобщий, чем другой, и между ними нет других формальных понятий. Объекты,37Основные результаты работы в этом направлении отражены в нашей статье Ryzhova & Obiedkov 2017.137соотносящиеся с данным узлом, принято записывать снизу от узла, а атрибуты – сверху отнего. Объем понятия определяется по решетке следующим образом: в него входят всеобъекты, которые приписываются соответствующему узлу, а также всем узлам,находящимся ниже данного, до которых можно дойти, двигаясь из исходного узла поребрам вниз.
Содержание понятия состоит из атрибутов, приписанных соответствующемуузлу, а также всем тем узлам, которые находятся выше данного и до которых можнодобраться, двигаясь из исходного узла по ребрам вверх.В следующем разделе мы покажем, что, если объектами считать слова, а атрибутами– фреймы, которые эти слова могут покрывать, то решетку формальных понятий длятакого формального контекста можно рассматривать как особый вид семантической картыдля данной лексической области.2. Решетки формальных понятий как лексические семантические картыРешетка формальных понятий может быть сконструирована на основе того женабора данных, который необходим для создания традиционной графовой иливероятностной семантической карты. Для ее создания достаточно располагать сведениямио том, какие минимальные значения (в нашей терминологии – фреймы) должны бытьотражены на карте, и как эти значения покрываются лингвистическими средствами водном или нескольких языках.
Данные представляются в виде таблицы того же формата,что используется для построения вероятностной карты (или для вычисления значенияметрики типологической близости): в строках указываются значения (атрибуты), встолбцах – слова разных языков (объекты); на пересечении строки и столбца ставится «1»,если слово покрывает данное значение, «0» – если не покрывает. На основе такой матрицырешетка строится автоматически.
Для наших экспериментов мы использовалинаходящуюсявоткрытомдоступепрограммуConceptExplorer(URL:http://conexp.sourceforge.net/).Никаких дополнительных сведений для построения такого рода диаграмм нетребуется. Это означает, что технически любые типологические данные могут бытьпредставлены в виде решетки формальных понятий. Важно, однако, что не во всех случаяхона будет легко интерпретируемой.Наиболее иллюстративными являются решетки без пересечений, т.е. такиедиаграммы, в которых никакие два ребра не пересекаются друг с другом. Такаяконфигурация возможна только в том случае, если минимальные значения (фреймы)138организованы линейно, т.е.
если на классической графовой карте их можно представить ввиде линии. На Рис. 12 представлена решетка формальных понятий, построенная для трехфреймов поля ‘острый’, которые на традиционной семантической карте расположенылинейно (см. Рис. 8): ‘инструмент с острым функциональным краем’, ‘инструмент сострым функциональным кончиком’ и ‘объект острой формы’.Рисунок 12. Решетка формальных понятий для линейного фрагмента поля ‘острый’.Каждый узел в такой решетке соответствует комбинации фреймов (т.е.