Диссертация (1137502), страница 13
Текст из файла (страница 13)
маятник качается, зуб шатается), содержащие двалексических элемента, как и контексты для прилагательных, что позволяет говорить осопоставимых условиях признакового и глагольного экспериментов.На материале глаголов качания мы провели редуцированную серию экспериментов:протестировали только такие дистрибутивные модели, которые требуют небольшихобъемов тренировочных данных и наименьших временны́х затрат. Тем самым, в качествеобучающего корпуса мы использовали только НКРЯ, вектора словосочетаний строилитолько с использованием моделей композиции, а из возможных моделей композициивыбрали только варианты, не предполагающие никакого обучения: аддитивную,мультипликативную и расширительную (dilation) схемы. Из возможных типов операцийнад векторами в этой серии экспериментов мы по-прежнему варьировали параметруменьшения размерности (либо без уменьшения, либо с уменьшением до 300 измеренийпо технике SVD) и параметр взвешивания векторов (сведя его к двум значениям: безвзвешивания vs.
со взвешиванием по схеме PPMI). Напомним также, что мы располагаемтипологическими данными только для прямых значений этой семантической зоны.Результаты этой серии экспериментов представлены в Таблице 6.52КорпусОперации надвекторамиМоделькомпозицииКоэффициент корреляцииПирсонаНКРЯnonenoun only0.394НКРЯppminoun only0.539НКРЯppmi, SVDnoun only0.464НКРЯnoneadditive0.434НКРЯnonemultiplicative0.443НКРЯnonedilation0.57НКРЯppmiadditive0.7НКРЯppmimultiplicative0.648НКРЯppmidilation0.691НКРЯppmi, SVDadditive0.643НКРЯppmi, SVDmultiplicative0.267НКРЯppmi, SVDdilation0.647Таблица 6.
Коэффициенты корреляции Пирсона для дистрибутивных моделей разныхконфигураций и типологических данных для поля глаголов качания. Полужирным выделенлучший результат.Из Таблицы 6 видно, что максимальный уровень корреляции между двумя наборамиданных по-прежнему очень высок (0.7). Это значение дает сопоставление типологическогопространства с дистрибутивным, построенным с использованием схемы взвешиванияPPMI и аддитивной модели композиции. Подчеркнем, что этот результат соответствуетполученному на материале признаковых полей при тех же настройках: для поля ‘острый’коэффициент корреляции Пирсона при таких же экспериментальных условиях равнялся0.654, для поля ‘гладкий’ – 0.74 (см. строку 5 Таблицы 5).
Это подтверждаетпредварительные выводы, сделанные нами по результатам предыдущей серииэкспериментов, а также позволяет предположить, что более сложные модели композициимогли бы позволить повысить коэффициент корреляции между двумя семантическимипредставлениями глаголов качания (как это произошло в случае с признаковыми полями).Важно, однако, особо отметить, что приемлемого результата можно добиться и намаксимально простых («экономных») настройках, не требующих ни корпуса оченьбольшого объема, ни дополнительного обучения моделей композиции.Интересно при этом, что значение коэффициента корреляции при базовом алгоритме(с векторами сочетаемости существительных вместо словосочетаний) в случае глаголовкачания оказывается очень высоким (0.539 при оптимальных настройках) и существеннопревышает соответствующие значения для признаковых полей (0.167 – ‘острый’ и 0.21 –53‘гладкий’, см. строку 2 Таблицы 5).
Возможно, это различие могло бы позволить сделатькакие-то содержательные выводы об особенностях структуры признаковых и глагольныхсемантических полей, но для этого необходимы дополнительные эксперименты с даннымидругих семантических зон, выходящие за рамки этого исследования.4. Эксперимент 3: англоязычный обучающий корпусИтак, эксперименты с двумя признаковыми и одним глагольным полемдемонстрируютвысокиекоэффициентыкорреляциимеждутипологическимидистрибутивным пространствами (при использовании одних и тех параметровдистрибутивных моделей). Однако нельзя не принять во внимание тот факт, что, согласнометодологии Московской лексико-типологической группы, типологические анкетысоставляются изначально на русском материале. Впоследствии они уточняются идополняются в ходе анализа других языков, но при этом опасность влияния стартовогоязыка на итоговый результат типологического исследования теоретически все равно неустраняется полностью (или, по крайней мере, его отсутствие пока никак не доказано).Если стартовый язык действительно существенно влияет на представленияисследователей об организации той или иной семантической зоны, то результаты,полученные нами в предыдущих экспериментах, неудивительны и не очень показательны.Мы продемонстрировали, что данные русского языка действительно соответствуютрезультатам типологического анализа рассматриваемых семантических зон, что, возможно,как раз говорит в пользу слишком сильного влияния первого языка на последующийтипологический анализ, а не в пользу принципиальной сопоставимости типологическогои дистрибутивного пространств.Исходя из этих соображений, мы провели дополнительную серию экспериментов наматериале поля ‘острый’, но в этот раз сопоставили типологическое пространство сдистрибутивным, построенным по данным англоязычного обучающего корпуса.
Для этогокаждой строке типологической анкеты были поставлены в соответствие английскиесловосочетания вида «прилагательное + существительное» (sharp knife ‘острый нож’, sharparrow ‘острая стрела’, sharp nose ‘острый нос’, см. полный список в Приложении 1), авекторные представления для них были построены с помощью корпуса текстов наанглийском языке ukWaC. Вектора словосочетаний строились с помощью несколькихмоделей композиции: аддитивной, мультипликативной, расширительной, аддитивной54взвешенной, лексической функции и практической лексической функции. Исходныевектора существительных взвешивались по схеме PPMI и подвергались операциисокращения размерности семантического пространства до 300 измерений (SVD).Коэффициент корреляции Пирсонаострый: прямыеострыйзначенияКорпусОперации надвекторамиМоделькомпозицииukWaCppmi, SVDadditive0.3110.728ukWaCppmi, SVDmultiplicative0.1390.521ukWaCppmi, SVDdilation0.1650.326ukWaCppmi, SVDweighted additive0.2960.624ukWaCppmi, SVDLF0.2390.516ukWaCppmi, SVDPLF0.2810.668Таблица 7.
Коэффициенты корреляции Пирсона для дистрибутивных моделей разныхконфигураций, обученных на англоязычном корпусе, и типологических данных для поля ‘острый’.Полужирным выделены лучшие результаты.Таблица 7 показывает, что максимальный коэффициент корреляции по-прежнемувысок: 0.728. При этом наиболее удачные параметры дистрибутивной модели снова те же,что и в предыдущих экспериментах: самые высокие результаты показывают аддитивная иаддитивная взвешенная модели и модель практической лексической функции.
При этомстабильнее всего работает самая простая аддитивная модель, которая, к тому же, иоптимальна с точки зрения необходимых временны́х и текстовых ресурсов.Это результат позволяет сделать три теоретических вывода:1) по-видимому, действительно можно считать сопоставимыми моноязычныедистрибутивные и типологические пространства;2) понятие фрейма можно считать достаточно обоснованным;3) методику типологического анализа лексики, предложенную Московской лексикотипологической группой, можно считать достаточно корректной: результаты нашейпоследней серии экспериментов говорят в пользу того, что итог такого исследования независит напрямую от первого языка выборки.Оговоримся, что все эти выводы носят очень общий характер и требуютдополнительной тщательной проверки.
Однако наши эксперименты позволяют их покрайней мере сформулировать в качестве рабочих гипотез.555. Эксперимент 4: визуализация векторных пространствНаконец, соответствие между типологическим и дистрибутивным пространствамихорошо иллюстрируется их визуализациями.
Оба пространства для всех нашихсемантических зон исходно многомерны (напомним, что в типологическом пространствев качестве измерений выступают слова всех языков выборки, относящихся крассматриваемому полю, а в дистрибутивном – 10 000 частотных знаменательных словрусского языка, которые потенциально могут встречаться в текстах рядом сословосочетаниями, для которых мы строим дистрибутивное представление). Для каждогополя мы отобразили оба пространства на плоскость с помощью техники многомерногошкалирования (MDS, см. Cox & Cox 2001), т.е.
сократили количество измерений до двухи визуализировали полученную картину, обозначив одним цветом точки, относящиеся кодному и тому же фрейму. Такие отображения иллюстрируют относительные расстояниямежду объектами в многомерном пространстве (они строятся так, чтобы попарныерасстояния между всеми точками на двумерной карте максимально точно отражалирасстояния между соответствующими объектами в исходном пространстве).
Значенияизмерений итогового двумерного пространства очевидной смысловой нагрузки не несут,хотя иногда и поддаются интерпретации.На Рис. 1-3 представлены проекции типологического и дистрибутивного пространствполя ‘острый’. На всех картах зеленым цветом обозначены ситуации, относящиеся кфрейму ‘острый инструмент с режущим краем’, синим – ‘острый инструмент с колющимконцом’, желтым – ‘объект вытянутой формы’, красным – ‘объект с колючейповерхностью’.
Подчеркнем, что эти кластеры выделялись не на основе полученных карт,а были заданы изначально результатами типологических исследований группы MLexT, т.е.в этом разделе мы будем говорить о «зеленом», «синем», «желтом» и «красном» кластерах,имея в виду соответствующие четыре фрейма поля ‘острый’.Рисунки 1-3 демонстрируют интересный эффект. Визуализация типологическогопространства (Рис.