Диссертация (1137502), страница 15
Текст из файла (страница 15)
2010, Rakhilina 2010, Majid et al.2015 и др.), и даже в грамматической типологии (см. Kibrik 1998, Кибрик 2003). Повидимому, мы можем усилить этот тезис: уже материал одного языка может датьпредставление об организации изучаемой концептуальной области (по крайней мере,лексической). Безусловно, это не означает, что все типологические закономерности можновывести без типологического материала как такового. Однако глубокий анализ одногоязыка может позволить выделить базовые противопоставления и даже определить каркасвсей фреймовой структуры поля, т.е.
не только составить список фреймов, но и получитьвпечатление об относительных расстояниях между ними (в каком-то смысле, построитьочень предварительную версию семантической карты). Конечно, нельзя забывать, что всенаши эксперименты были проведены на материале всего трех семантических полей, а63значит, нуждаются в дополнительной проверке, но и то, что во всех экспериментах мыполучили сопоставимые результаты, вряд ли можно назвать случайностью.Таким образом, полученные нами результаты дополнительно подтверждаютгипотезу о том, что фрейм – это не плод фантазии исследователя, а естественноеобъединение похожих ситуаций, воспроизводимое от языка к языку и проявляющееся втом, что в ареально и генетически разных языках ситуации, входящие в один фрейм,описываются единообразно.
Мы предполагаем, что фреймовая структура каждого поляуниверсальна, т.е. представляет собой решётку, накладываемую на каждый язык. При этомкаждый конкретный язык заполняет этот каркас по-своему: одни противопоставлениявыделяются особенно ярко (например, маркируются разными лексемами), другие,наоборот, смягчаются (к примеру, проявляются только в разнородных переносныхзначениях). Таким образом, фреймовая структура поля угадывается уже на материалеодного языка: вектора сочетаемости словосочетаний из одного фрейма ближе друг другу,чем вектора словосочетаний из разных фреймов.С другой стороны, полученный результат показывает, что аппарат дистрибутивнойсемантики действительно в некотором смысле имитирует ручную работу лексическоготиполога, проводящуюся по методологии группы MLexT.
Это означает, что векторныемодели могут быть использованы для решения задач автоматизации тех или иных этаповлексико-типологического исследования, в частности, построения анкеты-опросника.Причем, что особенно важно, попытка автоматического сбора списка релевантных дляизучаемого семантического поля ситуаций и разделение их на фреймы может базироватьсяна материале одного языка. Таким экспериментам и посвящена следующая глава.64Глава 3. Автоматическая разработка анкеты с помощью моделейдистрибутивной семантики17§1. Краткий обзор существующих методов составления типологических анкетВ последние годы в лингвистике, как и во многих других науках, происходит бурноеразвитие компьютерных методов сбора, хранения и анализа данных.
В частности, активноразвивается корпусная лингвистика, и для многих языков (не только крупныхевропейских) уже доступны объемные корпуса текстов. Однако по-прежнему далеко некаждый язык, включаемый в типологическую выборку, снабжен достаточнымколичеством готовых электронных ресурсов, к тому же сопоставимых по качеству иобъему с имеющимися ресурсами для других языков выборки. В таких условиях основныминструментом сбора и анализа материала оказывается типологическая анкета.Несмотря на то, что от качества анкеты, как правило, зависит результат всеготипологического исследования, четкой методологии составления лингвистическихопросников, насколько нам известно, по-прежнему не существует ни в грамматической,нивлексическойтипологии.Исключениесоставляютпсихолингвистическиеисследования лаборатории Института имени Макса Планка в Неймегене, где в качествеанкетыиспользуетсянаборэкстралингвистическихстимулов,подобранныхпоопределенным параметрам.
В этом случае анкета представляет собой перебор всехвозможных комбинаций заданных параметров, т.е. строится по четким и понятнымпринципам. Самый известный пример исследования по такого рода опросникам –типология цветообозначений (см. Berlin & Kay 1969; Kay et al. 2007), где в качествеосновной анкеты используется цветовая система Манселла, в рамках которой каждый цветопределяется тремя числами: значениями тона, яркости и насыщенности.В подходах, опирающихся на лингвистическое поведение языковых единиц, а не насоотношение языкового знака с его денотатом (к их числу относится и фреймовый подходк лексической типологии, на который мы опираемся в нашем исследовании), наиболеераспространенная методология составления анкет заключается в подробном анализекорпусных данных для нескольких языков с богатой письменной традицией и большимколичеством доступных ресурсов. На основе этого материала выявляются параметрыНачальный этап исследований в этой области освещен в нашей магистерской диссертации Рыжова 2014.Дальнейшие стадии развития метода отражены в публикациях Рыжова 2015, 2016; Ryzhova & Paperno toappear.1765варьирования изучаемых языковых единиц и строится анкета, учитывающая все этипараметры (см., например, Рахилина & Резникова 2013).Среди этой группы методик наиболее строгой оказывается недавно предложеннаяметодология автоматического составления анкет на основе параллельных корпусов, см.Dahl 2007; Wälchli & Cysouw 2012.
В рамках этого подхода пунктом анкеты считаетсякаждое вхождение в корпус анализируемого слова или грамматического показателя“стартового” языка. Такая анкета сразу заполняется сведениями о том, что соответствуетэтим единицам в других языках в тех же самых контекстах.Ещё один метод автоматической подготовки типологических анкет разрабатываетсяв рамках принятого нами фреймового подхода к лексической типологии, см.
Кюсева,Резникова, & Рыжова 2013a; Орехов & Резникова 2015, а также дипломную работуАбдурашитова 2017. Эта методика опирается на данные о сочетаемости рассматриваемыхлексем (пока эксперименты проводились только на материале признаковой лексики),которые можно почерпнуть из коллекций биграмм корпорации Google 18 .
Выбираетсянесколько прилагательных, относящихся к изучаемому полю в русском, немецком ианглийском языках. Для каждого прилагательного составляется список существительных,в сочетании с которыми оно встречается достаточно часто (т.е. которые формируют вместес этим признаковым словом достаточно частотную биграмму вида «прилагательное +существительное»).Наследующемэтапевсесуществительныеавтоматическипереводятся на английский язык и объединяются в общий список, который затемкластеризуется на основе данных о сочетаемости соответствующих существительных срассматриваемыми признаковыми словами.При всех явных достоинствах каждого из подходов, у них есть очевидныенедостатки: психолингвистическая методика не позволяет изучать языковое поведениеслов с достаточной степенью подробности; анкеты, составленные вручную на основекорпусов текстов, всегда могут оказаться неполными и во многом зависят от точки зренияисследователя; материала параллельных корпусов пока недостаточно для сколько-нибудьподробногоанализабольшинствасемантическихполей;анкеты,составленныеавтоматически на основе коллекции биграмм, пока получаются слишком громоздкими(один из вариантов анкеты для поля ‘твердый’ содержит 448 кластеров) и в таком виде немогут использоваться в работе с информантами; кроме того, чистота таких кластеризацийпока не очень удовлетворительна.18URL: [http://storage.googleapis.com/books/ngrams/books/datasetsv2.html]66Метод составления анкеты, который предлагаем мы, хоть и обладает некоторымисвоими недостатками, преодолевает ряд перечисленных выше, поэтому может служить покрайней мере дополнением к упомянутым методикам.
Во-первых, он основан на анализелингвистического поведения языковых единиц (корпусных данных); во-вторых, онполностью автоматический; в-третьих, он основывается на данных не параллельных, аодноязычных корпусов, что позволяет использовать более сбалансированные и болееобъемные коллекции текстов, а следовательно, набирать достаточно материала дляанализа более широкого круга семантических полей; в-четвертых, он опирается на данныетолько одного языка и позволяет получить в результате анкету приемлемого размера.В рамках данного исследования мы разработали пилотную версию такого алгоритмана материале признаковых слов и близких к ним со структурной точки зренияодноактантных глаголов. Методика отлаживалась преимущественно на материале поля‘острый’ (см.