Диссертация (1137502), страница 14

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 14 страницаДиссертация (1137502) страница 142019-05-202019-05-20СтудИзба

Автоматизация лексико-типологических исследований методы и инструменты

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 14)

1) наглядно отображает фреймовую структуру поля: объекты,относящиеся к одному фрейму, как и ожидалось, оказываются близко друг к другу накарте 16 . Визуализация дистрибутивного пространства, напротив, отражает только тепротивопоставления, которые лексикализованы в данном языке. Так, например, карта наЗаметим, что метод многомерного шкалирования успешно применяется в типологии как раз дляавтоматического построения семантических карт, см. Croft & Poole 2008; Georgakopoulos & Polis 2018;Wälchli & Cysouw 2012 и др.

Мы будем говорить об этом подробнее в Главе 5.1656Рис. 2 построена на основе данных русского языка, и по ней четко выделяются контекстыдля прилагательного колючий, а контексты, обслуживаемые прилагательным острый,представляют собой неделимый континуум. На Рис. 3 представлена визуализациядистрибутивного пространства поля ‘острый’, построенного на основе франкоязычногокорпуса (для наглядности – только те фреймы, которые не разделяются на материалерусского языка). Французские данные позволяют противопоставить фрейм ‘острыйинструмент с режущим краем’ фреймам ‘острый инструмент с колющим концом’ и‘объект вытянутой формы’, поскольку первый описывается прилагательным tranchant, адва других – pointu, т.е. именно это противопоставление лексикализовано во французском.Рисунок 1.

Визуализация типологического пространства поля ‘острый’.57Рисунок 2. Визуализация дистрибутивного пространства поля ‘острый’, построенного на основерусскоязычного корпуса.Рисунок 3. Визуализация дистрибутивного пространства поля ‘острый’, построенного наматериале франкоязычного корпуса (без учета фрейма ‘объект с колючей поверхностью’).58Важно, однако, что, если не отображать на плоскость все точки дистрибутивногопространства, а выделить ядро каждого фрейма и только эти ядерные элементы помещатьна карту, то картина меняется. Мы вычислили средние арифметические значения покаждому измерению для каждого «кластера», определив тем самым центр каждого фрейма,и эти новые разреженные пространства снова отобразили на плоскость. По Рисунку 5видно, что такая методика позволяет получить прямой аналог традиционной дискретнойсемантической карты (Рис.

4) на материале одного-единственного языка.Рисунок 4. Семантическая карта поля ‘острый’, составлена вручную на основе типологическихданных.Рисунок 5. Семантическая карта поля ‘острый’, составленная автоматически путем отображенияна плоскость векторного пространства, состоящего из центральных представителей каждогофреймового кластера.59Аналогичный эксперимент мы провели с рядом других признаковых полей,включающих большее число фреймов, чем зона ‘острый’ (‘толстый’, ‘мокрый’ инекоторые другие).

Во всех случаях расположение точек на проекции дистрибутивногопространства соответствовало взаимному расположению фреймов на построеннойвручную традиционной семантической карте. Следует особенно подчеркнуть, чтохороший результат был получен в том числе и для поля ‘мокрый’. Специфика этойсемантической зоны заключается в том, что минимальный контекст (определяемое словопри соответствующем прилагательном) практически не позволяет однозначно определитьзначение признакового слова (см. Reznikova et al.

to appear о типологии признака ‘мокрый’).Так, например, существительные «воздух»,«ветер»,«климат» в сочетании сприлагательными поля ‘мокрый’ могут относиться как к фрейму ‘влажный (о холодномвоздухе)’, так и к фрейму ‘влажный (о теплом воздухе)’. В русском языке эти два фреймаразличаются лексически: первый обслуживается прилагательным сырой, а второй –лексемой влажный, однако наборы существительных, которые могут модифицировать этипризнаковые слова в рассматриваемых значениях, практически совпадают.Наши эксперименты по автоматическому составлению лексико-типологическиханкет, также основанные на построении пространств векторов сочетаемости и ихпоследующей кластеризации (см.

Главу 3), показывают, что словосочетания, в которыхприлагательные разные, а существительные одинаковые (ср. гладкий пол, ровный пол искользкий пол), часто оказываются в одном кластере, несмотря на то, что иллюстрируютразные фреймы. Однако проекция векторного пространства для поля ‘мокрый’,построенного на материале корпуса текстов на русском языке, вопреки ожиданиям,демонстрирует, что словосочетания, представляющие один фрейм, оказываются ближедруг к другу, чем словосочетания из разных фреймов, включающие одинаковыесуществительные (см.

Рис. 6). Примечательно, что единственная область, где два фреймане удалось различить даже с помощью анализа широкой сочетаемости, - это зона ‘мокрыйпосле контакта с водой’, внутри которой различаются разные степени проявленияпризнака: ‘мокрый’ и ‘влажный’ (= уже не такой мокрый, но ещё не совсем сухой, или,наоборот, уже не сухой, но ещё не мокрый).60Рисунок 6. Визуализация дистрибутивного пространства поля ‘мокрый’, построенного на основерусскоязычного корпуса. Красным цветом обозначены точки, соответствуют словосочетаниям,иллюстрирующим фрейм ‘мокрый от воды’; сиреневым – ‘мокрый из-за попадания жидкости,отличной от воды’; зеленым – ‘влажный из-за холодного, сырого воздуха’; синим – ‘влажный (охолодном воздухе)’; желтым – ‘влажный (о теплом воздухе)’; коричневым – ‘влажный = не доконца просохший’; черным – ‘мокрый от пота’.6.

ВыводыПолученные результаты позволяют сделать три основных вывода:(1) Поскольку во всех четырех экспериментах между типологическим идистрибутивным пространствами есть заметная корреляция, тщательно собранныевручнуютипологическиеданныемогутиспользоватьсядляоценкикачествадистрибутивных моделей.

Такая метрика имеет ряд преимуществ по сравнению с ужесуществующими (такими, как сопоставление дистрибутивных расстояний со спонтаннымисуждениями носителей языка или с длиной пути от одного слова к другому по дереву тогоили иного тезауруса): в частности, она значительно более объективная и универсальная,т.е. не зависит от языка обучающей выборки для дистрибутивной модели. Основной еенедостаток связан, в первую очередь, с тем, что надежных типологических данных покасобрано очень мало, однако мы предполагаем, что разработка алгоритмов автоматическогосбора материала позволит в ближайшем будущем разрешить эту проблему.61(2) Полученные результаты служат дополнительным подтверждением тому, что запонятием фрейма стоит некоторая лингвистически значимая семантическая реальность. Впользу этого свидетельствует тот факт, что применение методологии внешней поотношению к фреймовому подходу семантической теории позволяет получитьсопоставимые результаты: русские словосочетания, иллюстрирующие один фрейм,употребляются в более близких контекстах, чем словосочетания из разных фреймов.Однако все же считать фрейм точкой в семантическом пространстве – это некотороеупрощение, проистекающее из необходимости ручной обработки данных.

По-видимому,фреймовая структура семантического поля ближе к континуальной, хотя в этомконтинууме значений отчетливо выделяются фокусные центры (ср. Кибрик 2013) –фреймы, – которые в большинстве случаев и определяют принципы лексикализацииданного поля.(3) Методология дистрибутивной семантики позволяет определять основныеконтуры фреймовой структуры поля на материале одного языка, а эксперимент наматериале англоязычного корпуса позволяет предположить, что выбор того или иногоязыка в качестве отправной точки лексико-типологического исследования не влияет наитоговый результат.Третий вывод особенно важен, поскольку он согласуется со многими интуитивнымипредположениями разработчиков фреймового подхода к лексической типологии.Очевидно, что уже один язык дает очень важную с типологической точки зренияинформацию, если некоторое противопоставление в нем лексикализовано (ср.

поле‘гладкий’ выше, где для всех основных фреймов в русском языке есть отдельные лексемыгладкий, ровный и скользкий). Но и в тех случаях, когда в стартовом языке все полепокрывается одним доминантным словом, разные косвенные свидетельства нередкопозволяют предугадать, на какие классы (т.е. фреймы) разбиваются его употребления. Вопервых, таким свидетельством могут служить антонимы: русское слово старыйобъединяет фреймы ‘старый (об одушевленных существах) – пожилой’ (старый человек)и ‘старый (о неодушевленных объектах) – износившийся, уже негодный к употреблению’(старая тряпка, старый башмак), однако этим фреймам соответствуют разные антонимы(молодой vs. новый), см.

подробнее Rakhilina, Vyrenkova & Orekhov to appear. Другимтаким свидетельством могут быть периферийные лексемы, которые дублируют основную,но только в некоторых типах контекстов. Так, например, в русском языке поле ‘острый’покрывается одним словом острый, но есть также и периферийное низкочастотное слово62остроконечный, выступающее синонимом к слову острый только в контекстах,соответствующих фрейму вытянутой формы.Наши же эксперименты показывают, что есть ещё один способ выявлять (с некоторойдолей условности, но зато систематически, а не только в тех случаях, когда в языке есть«удачные» антонимы или синонимы) типологически релевантные противопоставлениятам, где они не видны невооруженным глазом.

Она заключается в анализе широкогоконтекста употребления рассматриваемых лексических единиц. Интересно, что сама посебе эта методология отнюдь не нова для фреймового подхода: напомним, что в рамкахэтой парадигмы именно сочетаемость слов является основным ключом к выделениюзначений. Новшество, однако, в том, что обычно дистрибутивные свойства словисследуются вручную и, как следствие, во внимание принимаются только минимальные«диагностические» контексты.

Для прилагательных это определяемые существительные,для одноместных глаголов – существительные, заполняющие их единственнуювалентность, и т.д. Вычислительные методы дистрибутивной семантики позволяютпринять во внимание более широкий контекст. И оказывается, что информация об этомшироком контексте оказывается полезной там, где узкий контекст уже не дает достаточнонадежных сведений.

Наша последняя серия экспериментов с визуализациями хорошоиллюстрирует это явление: лексикализованные в языке противопоставления заметны сразу,а нелексикализованные противопоставления становятся видны, если перейти наследующий уровень обобщения.Идея о правомерности внутригенетической типологии, т.е. типологическихисследований на материале близкородственных языков, уже не раз высказывалась и влексической (Majid et al. 2007, Koptjevskaja-Tamm et al.

Характеристики

Тип файла

PDF-файл

Размер

1,9 Mb

Материал

Автоматизация лексико-типологических исследований методы и инструменты

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

avtomatizacija-leksiko-tipologicheskih-issledovanij-metody-i-instrumenty.rar

Автоматизация лексико-типологических исследований методы и инструменты

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.