Диссертация (1137502), страница 30

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 30 страницаДиссертация (1137502) страница 302019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 30)

Каждая точка соответствует фрейму: зеленый – инструменты с функциональнымострым краем (нож, коса); синий – инструменты с функциональным острым концом (стрела,копье); желтый – объекты вытянутой формы (нос); красный – колючие объекты/поверхности(колючка, одеяло).Вместе с тем, неоспоримое преимущество этого метода заключается в том, что онполностью автоматический, а значит, может быть легко применен и к более обширномуязыковому материалу. На Рис. 11 (повторяющем Рис. 1) представлена вероятностная картаполя ‘острый’, построенная на основе данных по всем пунктам анкеты.

Каждой точкесоответствует пункт анкеты, т.е. один прототипический контекст. Все контексты,иллюстрирующие фрейм режущих инструментов, обозначены зеленым, колющихинструментов – синим, объектов вытянутой формы – желтым, колючих объектов /поверхностей – красным. В качестве измерений использовались слова всех языков,134включенных в выборку. Значение измерения равнялось 1 в том случае, если словопокрывает данный пункт анкеты, и 0 – если не покрывает36.Рисунок 11 (=1). Карта поля ‘острый’, полученная методом многомерного шкалирования.

Каждаяточка соответствует пункту анкеты.На этой карте хорошо видно, что, во-первых, контексты, иллюстрирующие один итот же фрейм, не совпадают в одной точке, а занимают некоторую область, более илименее ограниченную, т.е. представление фрейма в виде неделимого целого – одного узлана дискретной графовой карте – это существенное упрощение реального положения дел(ср. наши рассуждения о фокальной структуре семантических полей в разделе 4.5 Главы 2).Во-вторых, такая карта показывает, что фреймы колющих инструментов и объектоввытянутой формы часто описываются одним и тем же лексическим средством: расстояниемежду ними совсем небольшое.

Напротив, фреймы режущих инструментов и колючихповерхностей отстоят и друг от друга, и от фреймов колющих инструментов и объектоввытянутой формы. На подобные сведения можно опираться в ходе анализа типов систем.Напомним, что таблицы такого же формата мы использовали для вычисления значения метрикитипологической близости (см. Главу 2).36135В большинстве случаев метод многомерного шкалирования применяют длявизуализации больших объемов данных, изначально не структурированных, т.е. в техслучаях, когда построить графовую карту крайне затруднительно. Как правило, такимиданными служат контексты параллельного корпуса с информацией о том, как онизаполняются в разных языках, при этом языков может быть 100, как в работе Wälchli &Cysouw 2012, или даже 1000, как в работе Östling 2016.

В таких ситуациях многомерноешкалирование используется в том числе как метод кластеризации данных и позволяетвыявить основные типы контекстов употребления рассматриваемых слов. Такаявизуализация не столько иллюстрирует выявленные закономерности, сколько служитдополнительным инструментом для их обнаружения и сама по себе нуждается винтерпретации.Таким образом, два рассмотренных здесь метода построения семантических картработают на основе сходных принципов и дают в целом сопоставимые результаты.Основное различие в их функционалах заключается в том, что вероятностные карты лучшеприспособлены к большим объемам данных и лучше отображают степени близости междудвумя значениями в концептуальном пространстве.

В то же время, из традиционнойграфовой модели легче выводятся ограничения: по ней сразу видно, какие комбинациизаведомо недопустимы – далеко не все такие комбинации так же очевидно запрещаютсявероятностной моделью. При этом ни графовая, ни вероятностная модели неприспособлены к единовременному отображению данных сразу нескольких языков.Впрочем, расстояния между объектами на вероятностной карте позволяют примернооценить, насколько часто те или иные значения объединяются в рамках одной языковойединицы.В следующем параграфе этой главы мы предложим новый метод семантическогокартирования, отличающийся и от графового, и от вероятностного по своему функционалу.Он основан на математическом аппарате анализа формальных понятий, который мыкратко представим в разделе 1. Далее, в разделе 2, мы покажем, как этот аппарат можетбыть использован в решении задачи построения семантической карты и чем такая картабудет отличаться от графовой и вероятностной моделей.

В разделе мы обсудимвозможность применения модели решетки формальных понятий к задаче анализаметафорических значений.136§3. Построение семантических карт с помощью решеток формальных понятий371. Анализ формальных понятийАнализ формальных понятий (formal concept analysis, или FCA, см. Ganter & Wille1999) – математический аппарат, позволяющий анализировать структуру данных,представленных в виде множества объектов, каждый из которых характеризуетсяопределенным набором атрибутов. Множество объектов представляется в виде иерархииформальных понятий (concepts). У каждого формального понятия есть объем (множествоотносящихся к нему объектов) и содержание (множество атрибутов, необходимых идостаточных для каждого объекта, входящего в данное формальное понятие).

Объемпонятий служит критерием для их упорядочивания.Ниже мы приведем несколько определений, необходимых для пониманияпредлагаемого математического аппарата.Формальный контекст K – это тройка (G, M, I), где G – это множество объектов, M– множество атрибутов, а I – бинарное отношение I⊆G × M, устанавливаемое междуобъектом и атрибутом в том случае, если данный объект обладает данным атрибутом.Такое отношение называют отношением инцидентности. Для произвольных A ⊆ G и B ⊆M определены операторы Галуа:′ = { ∈ | ∀ ∈ ∶ }, ′ = { ∈ | ∀ ∈ ∶ },т.е.

A' – это множество атрибутов, общих для всех объектов из A, и B' – это множествообъектов, у которых есть все атрибуты из B.Формальным понятием контекста (G, M, I) называются такие пары (A, B), где A ⊆ G,B ⊆ M, A = B', и B = A'. Множество A называется объемом, а B – содержанием понятия (A,B).Понятие (A, B) считается менее общим, чем понятие (C, D), если A ⊆ C. Все множествопонятий, структурированное по определенному таким образом отношению быть более илименее общим, формирует решетку, которая называется решеткой формальных понятийдля контекста K.

Обычно решетка формальных понятий визуализируется в виде линейнойдиаграммы, где узлы соответствуют понятиям и более общие понятия размещаются надменее общими. Два понятия связываются между собой линией, если один из них менееобщий, чем другой, и между ними нет других формальных понятий. Объекты,37Основные результаты работы в этом направлении отражены в нашей статье Ryzhova & Obiedkov 2017.137соотносящиеся с данным узлом, принято записывать снизу от узла, а атрибуты – сверху отнего. Объем понятия определяется по решетке следующим образом: в него входят всеобъекты, которые приписываются соответствующему узлу, а также всем узлам,находящимся ниже данного, до которых можно дойти, двигаясь из исходного узла поребрам вниз.

Содержание понятия состоит из атрибутов, приписанных соответствующемуузлу, а также всем тем узлам, которые находятся выше данного и до которых можнодобраться, двигаясь из исходного узла по ребрам вверх.В следующем разделе мы покажем, что, если объектами считать слова, а атрибутами– фреймы, которые эти слова могут покрывать, то решетку формальных понятий длятакого формального контекста можно рассматривать как особый вид семантической картыдля данной лексической области.2. Решетки формальных понятий как лексические семантические картыРешетка формальных понятий может быть сконструирована на основе того женабора данных, который необходим для создания традиционной графовой иливероятностной семантической карты. Для ее создания достаточно располагать сведениямио том, какие минимальные значения (в нашей терминологии – фреймы) должны бытьотражены на карте, и как эти значения покрываются лингвистическими средствами водном или нескольких языках.

Данные представляются в виде таблицы того же формата,что используется для построения вероятностной карты (или для вычисления значенияметрики типологической близости): в строках указываются значения (атрибуты), встолбцах – слова разных языков (объекты); на пересечении строки и столбца ставится «1»,если слово покрывает данное значение, «0» – если не покрывает. На основе такой матрицырешетка строится автоматически.

Для наших экспериментов мы использовалинаходящуюсявоткрытомдоступепрограммуConceptExplorer(URL:http://conexp.sourceforge.net/).Никаких дополнительных сведений для построения такого рода диаграмм нетребуется. Это означает, что технически любые типологические данные могут бытьпредставлены в виде решетки формальных понятий. Важно, однако, что не во всех случаяхона будет легко интерпретируемой.Наиболее иллюстративными являются решетки без пересечений, т.е. такиедиаграммы, в которых никакие два ребра не пересекаются друг с другом. Такаяконфигурация возможна только в том случае, если минимальные значения (фреймы)138организованы линейно, т.е.

если на классической графовой карте их можно представить ввиде линии. На Рис. 12 представлена решетка формальных понятий, построенная для трехфреймов поля ‘острый’, которые на традиционной семантической карте расположенылинейно (см. Рис. 8): ‘инструмент с острым функциональным краем’, ‘инструмент сострым функциональным кончиком’ и ‘объект острой формы’.Рисунок 12. Решетка формальных понятий для линейного фрагмента поля ‘острый’.Каждый узел в такой решетке соответствует комбинации фреймов (т.е.

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.