Диссертация (1137502), страница 14
Текст из файла (страница 14)
1) наглядно отображает фреймовую структуру поля: объекты,относящиеся к одному фрейму, как и ожидалось, оказываются близко друг к другу накарте 16 . Визуализация дистрибутивного пространства, напротив, отражает только тепротивопоставления, которые лексикализованы в данном языке. Так, например, карта наЗаметим, что метод многомерного шкалирования успешно применяется в типологии как раз дляавтоматического построения семантических карт, см. Croft & Poole 2008; Georgakopoulos & Polis 2018;Wälchli & Cysouw 2012 и др.
Мы будем говорить об этом подробнее в Главе 5.1656Рис. 2 построена на основе данных русского языка, и по ней четко выделяются контекстыдля прилагательного колючий, а контексты, обслуживаемые прилагательным острый,представляют собой неделимый континуум. На Рис. 3 представлена визуализациядистрибутивного пространства поля ‘острый’, построенного на основе франкоязычногокорпуса (для наглядности – только те фреймы, которые не разделяются на материалерусского языка). Французские данные позволяют противопоставить фрейм ‘острыйинструмент с режущим краем’ фреймам ‘острый инструмент с колющим концом’ и‘объект вытянутой формы’, поскольку первый описывается прилагательным tranchant, адва других – pointu, т.е. именно это противопоставление лексикализовано во французском.Рисунок 1.
Визуализация типологического пространства поля ‘острый’.57Рисунок 2. Визуализация дистрибутивного пространства поля ‘острый’, построенного на основерусскоязычного корпуса.Рисунок 3. Визуализация дистрибутивного пространства поля ‘острый’, построенного наматериале франкоязычного корпуса (без учета фрейма ‘объект с колючей поверхностью’).58Важно, однако, что, если не отображать на плоскость все точки дистрибутивногопространства, а выделить ядро каждого фрейма и только эти ядерные элементы помещатьна карту, то картина меняется. Мы вычислили средние арифметические значения покаждому измерению для каждого «кластера», определив тем самым центр каждого фрейма,и эти новые разреженные пространства снова отобразили на плоскость. По Рисунку 5видно, что такая методика позволяет получить прямой аналог традиционной дискретнойсемантической карты (Рис.
4) на материале одного-единственного языка.Рисунок 4. Семантическая карта поля ‘острый’, составлена вручную на основе типологическихданных.Рисунок 5. Семантическая карта поля ‘острый’, составленная автоматически путем отображенияна плоскость векторного пространства, состоящего из центральных представителей каждогофреймового кластера.59Аналогичный эксперимент мы провели с рядом других признаковых полей,включающих большее число фреймов, чем зона ‘острый’ (‘толстый’, ‘мокрый’ инекоторые другие).
Во всех случаях расположение точек на проекции дистрибутивногопространства соответствовало взаимному расположению фреймов на построеннойвручную традиционной семантической карте. Следует особенно подчеркнуть, чтохороший результат был получен в том числе и для поля ‘мокрый’. Специфика этойсемантической зоны заключается в том, что минимальный контекст (определяемое словопри соответствующем прилагательном) практически не позволяет однозначно определитьзначение признакового слова (см. Reznikova et al.
to appear о типологии признака ‘мокрый’).Так, например, существительные «воздух»,«ветер»,«климат» в сочетании сприлагательными поля ‘мокрый’ могут относиться как к фрейму ‘влажный (о холодномвоздухе)’, так и к фрейму ‘влажный (о теплом воздухе)’. В русском языке эти два фреймаразличаются лексически: первый обслуживается прилагательным сырой, а второй –лексемой влажный, однако наборы существительных, которые могут модифицировать этипризнаковые слова в рассматриваемых значениях, практически совпадают.Наши эксперименты по автоматическому составлению лексико-типологическиханкет, также основанные на построении пространств векторов сочетаемости и ихпоследующей кластеризации (см.
Главу 3), показывают, что словосочетания, в которыхприлагательные разные, а существительные одинаковые (ср. гладкий пол, ровный пол искользкий пол), часто оказываются в одном кластере, несмотря на то, что иллюстрируютразные фреймы. Однако проекция векторного пространства для поля ‘мокрый’,построенного на материале корпуса текстов на русском языке, вопреки ожиданиям,демонстрирует, что словосочетания, представляющие один фрейм, оказываются ближедруг к другу, чем словосочетания из разных фреймов, включающие одинаковыесуществительные (см.
Рис. 6). Примечательно, что единственная область, где два фреймане удалось различить даже с помощью анализа широкой сочетаемости, - это зона ‘мокрыйпосле контакта с водой’, внутри которой различаются разные степени проявленияпризнака: ‘мокрый’ и ‘влажный’ (= уже не такой мокрый, но ещё не совсем сухой, или,наоборот, уже не сухой, но ещё не мокрый).60Рисунок 6. Визуализация дистрибутивного пространства поля ‘мокрый’, построенного на основерусскоязычного корпуса. Красным цветом обозначены точки, соответствуют словосочетаниям,иллюстрирующим фрейм ‘мокрый от воды’; сиреневым – ‘мокрый из-за попадания жидкости,отличной от воды’; зеленым – ‘влажный из-за холодного, сырого воздуха’; синим – ‘влажный (охолодном воздухе)’; желтым – ‘влажный (о теплом воздухе)’; коричневым – ‘влажный = не доконца просохший’; черным – ‘мокрый от пота’.6.
ВыводыПолученные результаты позволяют сделать три основных вывода:(1) Поскольку во всех четырех экспериментах между типологическим идистрибутивным пространствами есть заметная корреляция, тщательно собранныевручнуютипологическиеданныемогутиспользоватьсядляоценкикачествадистрибутивных моделей.
Такая метрика имеет ряд преимуществ по сравнению с ужесуществующими (такими, как сопоставление дистрибутивных расстояний со спонтаннымисуждениями носителей языка или с длиной пути от одного слова к другому по дереву тогоили иного тезауруса): в частности, она значительно более объективная и универсальная,т.е. не зависит от языка обучающей выборки для дистрибутивной модели. Основной еенедостаток связан, в первую очередь, с тем, что надежных типологических данных покасобрано очень мало, однако мы предполагаем, что разработка алгоритмов автоматическогосбора материала позволит в ближайшем будущем разрешить эту проблему.61(2) Полученные результаты служат дополнительным подтверждением тому, что запонятием фрейма стоит некоторая лингвистически значимая семантическая реальность. Впользу этого свидетельствует тот факт, что применение методологии внешней поотношению к фреймовому подходу семантической теории позволяет получитьсопоставимые результаты: русские словосочетания, иллюстрирующие один фрейм,употребляются в более близких контекстах, чем словосочетания из разных фреймов.Однако все же считать фрейм точкой в семантическом пространстве – это некотороеупрощение, проистекающее из необходимости ручной обработки данных.
По-видимому,фреймовая структура семантического поля ближе к континуальной, хотя в этомконтинууме значений отчетливо выделяются фокусные центры (ср. Кибрик 2013) –фреймы, – которые в большинстве случаев и определяют принципы лексикализацииданного поля.(3) Методология дистрибутивной семантики позволяет определять основныеконтуры фреймовой структуры поля на материале одного языка, а эксперимент наматериале англоязычного корпуса позволяет предположить, что выбор того или иногоязыка в качестве отправной точки лексико-типологического исследования не влияет наитоговый результат.Третий вывод особенно важен, поскольку он согласуется со многими интуитивнымипредположениями разработчиков фреймового подхода к лексической типологии.Очевидно, что уже один язык дает очень важную с типологической точки зренияинформацию, если некоторое противопоставление в нем лексикализовано (ср.
поле‘гладкий’ выше, где для всех основных фреймов в русском языке есть отдельные лексемыгладкий, ровный и скользкий). Но и в тех случаях, когда в стартовом языке все полепокрывается одним доминантным словом, разные косвенные свидетельства нередкопозволяют предугадать, на какие классы (т.е. фреймы) разбиваются его употребления. Вопервых, таким свидетельством могут служить антонимы: русское слово старыйобъединяет фреймы ‘старый (об одушевленных существах) – пожилой’ (старый человек)и ‘старый (о неодушевленных объектах) – износившийся, уже негодный к употреблению’(старая тряпка, старый башмак), однако этим фреймам соответствуют разные антонимы(молодой vs. новый), см.
подробнее Rakhilina, Vyrenkova & Orekhov to appear. Другимтаким свидетельством могут быть периферийные лексемы, которые дублируют основную,но только в некоторых типах контекстов. Так, например, в русском языке поле ‘острый’покрывается одним словом острый, но есть также и периферийное низкочастотное слово62остроконечный, выступающее синонимом к слову острый только в контекстах,соответствующих фрейму вытянутой формы.Наши же эксперименты показывают, что есть ещё один способ выявлять (с некоторойдолей условности, но зато систематически, а не только в тех случаях, когда в языке есть«удачные» антонимы или синонимы) типологически релевантные противопоставлениятам, где они не видны невооруженным глазом.
Она заключается в анализе широкогоконтекста употребления рассматриваемых лексических единиц. Интересно, что сама посебе эта методология отнюдь не нова для фреймового подхода: напомним, что в рамкахэтой парадигмы именно сочетаемость слов является основным ключом к выделениюзначений. Новшество, однако, в том, что обычно дистрибутивные свойства словисследуются вручную и, как следствие, во внимание принимаются только минимальные«диагностические» контексты.
Для прилагательных это определяемые существительные,для одноместных глаголов – существительные, заполняющие их единственнуювалентность, и т.д. Вычислительные методы дистрибутивной семантики позволяютпринять во внимание более широкий контекст. И оказывается, что информация об этомшироком контексте оказывается полезной там, где узкий контекст уже не дает достаточнонадежных сведений.
Наша последняя серия экспериментов с визуализациями хорошоиллюстрирует это явление: лексикализованные в языке противопоставления заметны сразу,а нелексикализованные противопоставления становятся видны, если перейти наследующий уровень обобщения.Идея о правомерности внутригенетической типологии, т.е. типологическихисследований на материале близкородственных языков, уже не раз высказывалась и влексической (Majid et al. 2007, Koptjevskaja-Tamm et al.