Резюме (1137504), страница 3
Текст из файла (страница 3)
Расстояния между векторами определяются с помощью косинусной меры близости4. Обучающий корпус: основной подкорпус НКРЯ (около 220 млн словоформ), газетныйподкорпус НКРЯ (около 200 млн словоформ) и корпус интернет текстов ruWaC (около 1млрд словоформ) в разных комбинациях5.
Дополнительная обработка векторов: взвешивание (нет vs. PPMI vs. PLMI vs. PLOG vs.EPMI) и сокращение размерности (нет vs. SVD до 300 измерений)6. Тип вектора словосочетания: наблюдаемый (словосочетание, для которого строитсявектор, принимается за единую лексическую единицу) vs. комбинированный (вектор длясловосочетания составляется из векторов входящих в него слов по одной из следующихмоделей композиции: аддитивная (additive), аддитивная взвешенная (weighted additive),мультипликативная (multiplicative), расширение (dilation), лексическая функция (lexicalfunction), практическая лексическая функция (practical lexical function, PLF)).8Таким образом, для каждого микрофрейма мы получили по два векторныхпредставления: типологическое и дистрибутивное.
Далее для всех возможных пармикрофреймов внутри каждого поля были вычислены типологическое и дистрибутивноерасстояния и подсчитан коэффициент корреляции Пирсона между этими двумя метриками.Для обоих полей коэффициент корреляции получился очень высоким (0.766 для поля‘острый’ и 0.946 для поля ‘гладкий’). Поскольку некоторые параметры дистрибутивныхмоделей варьировались, важно отметить, что наилучшие результаты для двух признаковыхзон были получены на одних и тех же настройках: в качестве обучающего корпусаиспользовался основной подкорпус НКРЯ, вектора взвешивались по схеме PPMI,размерность итогового векторного пространства сокращалась до 300, а векторасловосочетаний складывались из векторных представлений составляющих их слов спомощью модели композиции PLF (практическая лексическая функция, см.Paperno et al.
2014). Заметим также, что лучшие результаты получены на материале толькопрямых значений рассматриваемых признаков. Учет метафорических фреймовсущественно снижает показатели: коэффициент корреляции Пирсона для поля ‘острый’ вэтом случае равняется 0.462, для зоны ‘гладкий’ – 0.604, что, по-видимому, означает, чтопрямые значения обладают более четкой, а главное, предсказуемой фреймовой структурой,чем переносные, которые, хотя и являются мотивированными, охватывают материалконкретного языка менее равномерно.Таким образом, вопреки распространенному мнению (см., например, Bullinaria andLevy, 2012), качество модели не растет пропорционально увеличению объема обучающегокорпуса: в нашем случае небольшой, но хорошо сбалансированный основной подкорпусНКРЯ дает более высокий результат, чем объединенный корпус общим объемом около1,44 млрд словоформ, включающий основной и газетный подкорпусы НКРЯ и корпусruWaC (ср.
аналогичное наблюдение в работе Kutuzov, Kuzmenko 2015).Для создания качественного векторного представления отдельных лемм основногоподкорпуса НКРЯ достаточно. Что же касается профиля сочетаемости двусловныхсочетаний, то для решения этой задачи даже объединенный обучающий корпусоказывается мал: применение любой модели композиции существенно улучшает результатпо сравнению с использованием наблюдаемых векторов словосочетаний.Поскольку результатов, полученных на материале двух семантических полей,недостаточно для того, чтобы делать содержательные выводы с высокой степеньюуверенности, мы провели два дополнительных эксперимента.
В одном из них мыиспользовали параметры дистрибутивных моделей, которые дали самые лучшиерезультаты в первых двух экспериментах, но в качестве тестового материала выбрали непризнаковое, а глагольное семантическое поле (‘качание’) 1 . Второй дополнительныйэксперимент был проведен на базе поля ‘острый’, но с другим обучающим корпусом –англоязычным ukWaC (тем самым, типологические расстояния, которые осталисьнеизменными,сопоставлялисьсдистрибутивнымирасстояниямимеждусоответствующими английскими словосочетаниями, например, sharp needle ‘острая игла’,Мы выражаем благодарность Марии Шапиро, которая предоставила нам типологический материал дляэтого эксперимента.19sharp spear ‘острое копье’, sharp arrow ‘острая стрела’ и т.п.).
В обоих случаях былополучено высокое значение коэффициента корреляции Пирсона: 0.7 для поля качания и0.668 в эксперименте на базе англоязычного корпуса. Эти результаты дополнительноподтверждают гипотезу о том, что фреймовая структура поля может быть примерноочерчена уже на материале одного языка, причем неважно, какого именно.Наконец, соответствие между типологическим и дистрибутивным пространствамихорошо иллюстрируется их визуализациями. Для каждого поля мы отобразили каждоепространство на плоскость с помощью техники многомерного шкалирования, обозначиводним цветом точки, относящиеся к одному и тому же фрейму.
На Рис. 1-3 представленыпроекции типологического и дистрибутивного пространств поля ‘острый’. На всех картахзеленым цветом обозначены ситуации, относящиеся к фрейму ‘острый инструмент срежущим краем’, синим – ‘острый инструмент с колющим концом’, желтым – ‘объектвытянутой формы’, красным – ‘объект с колючей поверхностью’.
Подчеркнем, что этикластеры выделялись не на основе полученных карт, а были заданы изначальнорезультатами типологических исследований группы MLexT, т.е. в этом разделе мы будемговорить о «зеленом», «синем», «желтом» и «красном» кластерах, имея в видусоответствующие четыре фрейма поля ‘острый’.Рисунки 1-3 демонстрируют интересный эффект. Визуализация типологическогопространства (Рис. 1) наглядно отображает фреймовую структуру поля 2 .
Визуализациядистрибутивного пространства, напротив, отражает только те противопоставления,которые лексикализованы в данном языке. Так, например, карта на Рис. 2 построена наоснове данных русского языка, и по ней четко выделяются контексты для прилагательногоколючий, а фреймы, обслуживаемые прилагательным острый, представляют собойнеделимый континуум. На Рис. 3 представлена визуализация дистрибутивногопространства поля ‘острый’, построенного на основе франкоязычного корпуса (длянаглядности – только те фреймы, которые не разделяются на материале русского языка).Французские данные позволяют противопоставить фрейм ‘острый инструмент с режущимкраем’ фреймам ‘острый инструмент с колющим концом’ и ‘объект вытянутой формы’,поскольку первый описывается прилагательным tranchant, а два других – pointu, т.е.именно это противопоставление лексикализовано во французском.Заметим, что метод многомерного шкалирования успешно применяется в типологии как раз дляавтоматического построения семантических карт (см.
Croft and Poole 2008, Wälchli and Cysouw 2012 и др.).Мы будем говорить об этом подробнее в Главе 6.210Рис. 1. Визуализация типологического пространства поля ‘острый’Рис. 2. Визуализация дистрибутивного пространства поля ‘острый’, построенного на основерусскоязычного корпуса11Рис.
3. Визуализация дистрибутивного пространства поля ‘острый’, построенного на материалефранкоязычного корпуса (без учета фрейма ‘объект с колючей поверхностью’)Важно, однако, что, если не отображать на плоскость все точки дистрибутивногопространства, а выделить ядро каждого фрейма и только эти ядерные элементы помещатьна карту, то картина меняется. Мы вычислили средние арифметические значения покаждому измерению для каждого «кластера», определив тем самым центр каждого фрейма,и эти новые разреженные пространства снова отобразили на плоскость. По Рисунку 5видно, что такая методика позволяет получить прямой аналог традиционной дискретнойсемантической карты (Рис. 4) на материале одного-единственного языка.Рис.4.Семантическая карта поля ‘острый’, составлена вручную на основе типологических данных12Рис. 5.
Семантическая карта поля ‘острый’, составленная автоматически путем отображения наплоскость векторного пространства, состоящего из центральных представителей каждого фреймовогокластера.Полученные результаты позволяют сделать три основных вывода:(1) Поскольку во всех четырех экспериментах между типологическим идистрибутивным пространствами есть заметная корреляция, тщательно собранныевручную типологические данные могут использоваться для оценки качествадистрибутивных моделей. Такая метрика имеет ряд преимуществ по сравнению с ужесуществующими (такими, как сопоставление дистрибутивных расстояний со спонтаннымисуждениями носителей языка или с длиной пути от одного слова к другому по дереву тогоили иного тезауруса): в частности, она значительно более объективная. Основной еенедостаток связан, в первую очередь, с тем, что надежных типологических данных покасобрано очень мало, однако мы предполагаем, что разработка алгоритмов автоматическогосбора материала позволит в ближайшем будущем разрешить эту проблему.(2) Полученные результаты служат дополнительным подтверждением тому, что запонятием фрейма стоит некоторая лингвистически значимая семантическая реальность.Однако все же считать фрейм точкой в семантическом пространстве – это некотороеупрощение, проистекающее из необходимости ручной обработки данных.
По-видимому,фреймовая структура семантического поля ближе к континуальной, хотя в этомконтинууме значений отчетливо выделяются фокусные центры (ср. Кибрик 2012) –фреймы, – которые в большинстве случаев и определяют принципы лексикализацииданного поля.13(3) Методология дистрибутивной семантики позволяет определять основныеконтуры фреймовой структуры поля на материале одного языка, а эксперимент наматериале англоязычного корпуса позволяет предположить, что выбор того или иногоязыка в качестве отправной точки лексико-типологического исследования не влияет наитоговый результат.Теперь, когда мы привели дополнительное обоснование теоретической ипрактической состоятельности понятия фрейма, мы переходим к обсуждению возможныхспособов автоматизации этапов исследования в рамках фреймового подхода к лексическойтипологии.Опираясь на наблюдение (3) из предыдущей главы, мы разработали методпостроения лексико-типологической анкеты на материале одного языка.