Диссертация (1137502), страница 7
Текст из файла (страница 7)
в работе Croft & Poole2008, а также в Главе 5 данной диссертации). Во многих случаях можно построить картыразных конфигураций, которые будут одинаково хорошо соответствовать собраннымданным. Кроме того, такие карты обычно строятся вручную, и, если данных много, товероятность упустить те или иные закономерности очень высока.Трудоемкость всего процесса вкупе с необходимостью привлечения эксперта дляанализа материала каждого нового языка не позволяют проводить исследование на основедостаточно представительных языковых выборок. В свою очередь, небольшие размерывыборок заставляют усомниться в значимости получаемых результатов, в частности, в том,что выделение особых семантических единиц (фреймов), претендующих на статусминимальных лексических значений, действительно лингвистически оправданно.
Задачанастоящего исследования – предложить возможные алгоритмы автоматизации каждого изэтапов работы в рамках фреймовой парадигмы, а также провести процедуру независимойверификации центрального для данного подхода понятия фрейма.Мы начнем с задачи верификации понятия фрейма (Глава 2), а затем расскажемпоследовательно о возможных методах автоматизации каждого шага лексикотипологического исследования: составления анкеты (Глава 3), ее заполнения (Глава 4),составления семантической карты и анализа полученных данных (Глава 5). Наша задача –подобрать оптимальные методы и инструменты для каждого шага исследования, поэтомумы тестируем все алгоритмы независимо друг друга. Наше преимущество заключается втом, что в нашем распоряжении есть обширный типологический материал, собранныйвручную, поэтому у нас есть возможность подавать каждому алгоритму на вход24проверенные данные, чтобы результаты текущих экспериментов не были зашумленыошибками автоматической обработки, накопленными на предыдущих этапах.25Глава 2.
Верификация понятия фрейма с помощью моделейдистрибутивной семантики§1. Постановка задачиВ этой главе мы представим серию экспериментов 9 , направленных на поискидополнительных обоснований для выделения фреймов. Фреймовая структура поляопределяется в терминах семантической близости: ситуации, относящиеся к одномуфрейму, наиболее близки семантически, а между ситуациями из разных фреймоврасстояния могут быть разные, и именно эти расстояния отражает семантическая картарассматриваемого поля.Семантическое расстояние между фреймами определяется на основе типологическихданных.
Обычно в рамках фреймового подхода учитываются только относительныерасстояния: если некоторая лексема L1 может покрывать только фреймы F1 и F2, а лексемаL2 – только значения F2 и F3, но при этом нет ни одного слова, которое обозначало бы F1и F3, не охватывая при этом F2, утверждается, что фреймы F1 и F3 находятся дальше другот друга, чем F1 и F2 или F2 и F3. Такая конфигурация фреймов иллюстрируется спомощью линейной семантической карты: F1 – F2 – F3.Мы разработали формулу более точного, численного определения типологическойблизости между фреймами на основе данных о частоте колексификации минимальныхзначений, т.е.
сведений о том, насколько часто та или иная пара фреймов обозначаетсяодним и тем же словом в языках нашей выборки. Каждый фрейм представляется в видевектора w, в качестве измерений которого выступают лексемы изучаемого поля из всехязыков выборки. В случае, если лексема li может описывать данный фрейм,соответствующее ей измерение wi принимает значение 1, а если не может – 0.Типологическое расстояние между фреймами (мы называем эту метрику TC – typologicalcloseness) определяется с помощью косинусной меры близости между представляющимиих векторами (ср. похожую метрику близости в недавней работе Youn et al. 2016).Подробнее процедура вычисления этого значения описана в разделе 4.1 данной главы.Однако известны и другие методы определения семантических расстояний междулексическими значениями, в частности, представление семантики лексической единицыСразу оговоримся, что здесь и далее мы используем термин эксперимент в том значении, в каком он обычноиспользуется в компьютерной лингвистике (см., например, Большакова и др.
2011), т.е. для обозначения такназываемых вычислительных, а не психо- или нейролингвистических экспериментов.926(слова или словосочетания) с помощью вектора ее сочетаемости (т.н. моделидистрибутивной семантики, см. Baroni et al. 2014). Вектор сочетаемости вычисляется наоснове контекстов употребления слова в некотором корпусе текстов.
Контекстыупотребления языковых единиц – это наблюдаемые сущности, более доступные дляобъективного анализа, чем значения. Понятие контекста можно формализовать и степеньсходства между двумя разными контекстами можно так или иначе измерить. Далее, еслипринять допущение о том, что близкие по значению языковые единицы употребляются впохожих контекстах (см. Harris 1957, Sahlgren 2008 и многие другие работы, в которыхвысказывается подобная точка зрения), то, имея данные о степени сходствасочетаемостных свойств слов или слововосочетаний, можно судить о степени ихсемантической близости. Именно на эту идею опирается теория дистрибутивнойсемантики: она позволяет представить любую языковую единицу (будь то морфема, словоили словосочетание) в виде суммы контекстов, в которых она встречается в том или иномкорпусе текстов.
Такие представления можно сравнивать между собой и использоватьрезультаты этого сравнения (т.н. дистрибутивные расстояния) в качестве ключа копределению степени семантической близости между рассматриваемыми языковымиединицами.Эта методика уже используется для решения широкого круга задач, в том числе,близких к нашей (например, для семантической дизамбигуации или выбора из рядаквазисинонимов слова, наиболее подходящего для данного контекста).
Насколько намизвестно, в типологии подобные методики ещё не применялись, однако можнопредположить, что в том случае, если фреймы – это действительно некоторые более илименее единые семантические единицы, то словосочетания, иллюстрирующие один и тотже фрейм (например, тонкая палка и тонкий карандаш), должны употребляться в болееблизких контекстах, чем словосочетания, относящиеся к разным фреймам (ср. тонкаяпалка и тонкий слой). Кроме того, если мы утверждаем, что фреймы – это элементы такназываемого универсального лексического набора (см. Рахилина & Резникова 2013), т.е.любое слово из любого языка, относящееся к рассматриваемому полю, описывает ту илииную их комбинацию, то неважно, на основе какого языка мы будем считатьдистрибутивные расстояния: наблюдаемые данные разных языков должны отражать однии те же семантические, когнитивные структуры.В этой главе мы опишем серию экспериментов, направленных на проверку этихгипотез,т.е.навыявлениестепенисоответствиятипологическихрасстояний27дистрибутивным.
Для этого мы сначала обсудим более подробно теорию моделейдистрибутивной семантики и основные принципы их работы (§2). Затем, в параграфе 3,представимпилотныеэкспериментыпосопоставлениютипологическихидистрибутивных расстояний между фреймами для поля ‘острый’, после чего перейдем кописанию нашей новой серии экспериментов (§4).
Параграф 4, основной в данной главе,структурирован следующим образом: сначала мы документируем процедуру подготовкитипологического и дистрибутивного пространств (раздел 1), затем последовательноописываем процедуру и результаты экспериментов на материале признаковых полей‘острый’ и ‘гладкий’ и глагольного поля качания (разделы 2 – 3). В следующемэксперименте (раздел 4) мы снова работаем с полем ‘острый’, но меняем обучающийкорпус для дистрибутивных моделей с русскоязычного на англоязычный, чтобыпосмотреть, наколько результаты зависят от стартового языка.
Наконец, в последнемэксперименте(раздел5)мысопоставляемвизуализациитипологическогоидистрибутивного пространств для нескольких признаковых полей и в разделе 6формулируем основные выводы.§2. Модели дистрибутивной семантикиМодели дистрибутивной семантики (или DSM – Distributional Semantics Models, см.Baroni et al. 2014) лучше всего подходят для решения наших задач, поскольку ониосновываются на тех же самых теоретических предпосылках, что и фреймовый подход клексической типологии (а также Московская семантическая школа и многие другиетеории): на гипотезе о том, что представление о значении слова можно получить путеманализа его сочетаемости. При этом дистрибутивная семантика предлагает алгоритмыавтоматической оценки контекстов, в которых употребляется изучаемая лексема, на базестатистики, собранной по обширным корпусам текстов, а такого рода данные должны бытьсущественно полнее и точнее результатов ручного анализа корпусных материалов.Ключевое понятие DSM – семантический вектор, с помощью которогопредставляется сочетаемость лексемы.
Каждый такой вектор соответствует однойязыковой единице (чаще всего, слову) и состоит из некоторого числа измерений. Вкачестве измерений выступают, как правило, слова, в контексте которых лексема можетупотребляться. Таких измерений, в зависимости от задачи, может быть несколько десятков,несколько сотен или несколько тысяч. Считается, что, чем больше у вектора измерений,тем точнее он моделирует сочетаемость лексемы.
В качестве измерений обычно28выбираются слова знаменательных, а не служебных частей речи, и по возможностидостаточно частотные, чтобы можно было получить больше данных для статистики.Значение каждого измерения – количество употреблений лексемы в контекстеданного слова. Понятие контекста также определяется строго: он может бытьсинтаксическим (см., например, Padó & Lapata 2007) или простым контактным. В случаеориентации на синтаксический контекст вектор строится по корпусу с синтаксическойразметкой, и контекстом опорного слова считаются лексемы, встретившиеся на некоторомсинтаксическом расстоянии от искомого (например, не далее, чем в трёх шагах по деревузависимостей).