Диссертация (1137483), страница 10
Текст из файла (страница 10)
В работе использовались следующие корпуса:1.Корпус Пекинского Университета (CCL)Этот сбалансированный корпус состоит из подкорпусов древнего исовременного китайского языка, его общий объем – 838,803,906 иероглифов.В состав корпуса входят: художественная литература (китайская изарубежная), публицистика, тексты из разных областей науки, поэзия. Присоставлении поисковых запросов в этом корпусе можно использоватьнекоторые простые логические операторы, а также сортировать результатыпо правому или левому контексту, регулировать количество знаков контекста.49Основным недостатком корпуса является отсутствие лемматизации.2.Корпус китайского интернета из коллекции университета Лидс(Leeds)Данный корпус включает в себя 280 миллионов слов (иероглифов), онсодержит данные из китайского интернета 2005 года.
Этот корпус удобен тем,что содержит разметку: разбиение на лексемы и указание частей речи, что,несмотря на большое количество сомнительных мест в разметке, сильноупрощает поиск нужных примеров (при поиске в корпусах без лемматизациипопадается слишком много лишних примеров, в которых интересующие насоднослоги входят в состав двуслогов). В нем также возможна сортировка поправому или левому контексту, задание количества знаков контекста, а ещеесть удобная функция вывода статистики сочетаемости знака с другимизнаками (т. н.
коллокаций). Однако качество примеров оказалось достаточнонизким.3.Корпус zhTenTen [2011] из коллекции Sketch Engine (SE)Это, вероятно, самый большой из существующих корпусов китайскогоязыка, он включает в себя 2,1 млрд иероглифов (1,7 млрд слов). В этомкорпусе присутствует лемматизация и разметка, задание количества знаковконтекста, а также возможность вывода коллокаций и сортировки их почастоте употреблений, что удобно для выяснения типичной сочетаемостилексем.В корпусе присутствует несколько интересных опций, таких как заданиеподкорпуса, возможность автоматического сравнения сочетаемости лексем(что может быть удобно, например, при сравнении синонимов) илиопределения семантически близких лексем, ср.
картинку, полученную вразделе Thesaurus на однослог 直 zhí ‘прямой’:50Качество примеров в корпусе довольно хорошее, а большой объемделает его удобным для подсчета разного рода статистик. В основном мыиспользовалиегодлявыясненияупотребительностииосновнойсочетаемости двуслогов.4.ЭтотКитайско-английский корпус (Jukuu)корпусоснованПекинскимуниверситетомпочтыителекоммуникаций в 2004 году.
Кроме китайско-английского, он такжевключает китайско-японский и японско-английский подкорпуса. Точногоколичества лемм нигде не указано, но на странице с кратким обзоромкорпуса сказано, что в нем более десятка миллионов двуязычных примеров.Судя по тому, что при поиске примеров на однослог не попадаютсядвуслоги с этой морфемой, в этом корпусе есть лемматизация, однакопримеры выдаются без пробелов между словами. Сбоку от примеровпоказывается сочетаемость ключевого слова и диаграмма с распределениемпо частоте основных вариантов перевода. Качество примеров на китайскомязыке здесь хорошее, а краткость выдаваемых предложений делает этоткорпус неожиданно удобным для отбора подходящих примеров.5.Поисковая система Байду (baidu)Это одна из основных поисковых систем в китайском интернете. Кромеосновного поиска, в Байду можно использовать поиск по новостям, поблогам, в словаре-энциклопеции.
Большой объем разнородных текстов, частьиз которых приближена к разговорному языку, делает Байду подходящимвариантомдляпроверкивозможностиупотреблениянекоторыхсловосочетаний, которые не встречаются в обычных корпусах.51Всеотобранныеизкорпусовпримерыдалеепроверялисьсинформантами, и в ходе обсуждения с носителями языка часть из нихподвергалась правке: кроме обычных для текстов на электронных носителяхопечаток, исправлялись и незначительные ошибки в структуре предложений.Некоторые чересчур длинные предложения для удобства укорачивались. Всевнесенные изменения несущественны с точки зрения нашего исследования.При работе с русским материалом использовался Национальный корпусрусского языка. В отдельных случаях применялся поиск по блогам в Яндексе,но таких примеров немного и они отмечены специально.Таким образом, на основании данных словарей и корпусов былисоставлены полные и представительные корпуса примеров для различныхзначений прилагательных толстый, тонкий, прямой, кривой, косой,извилистый и изогнутый в русском и их аналогов в китайском языке, и всядальнейшая работа проводится с их использованием.Глоссирование примеровДля примеров из китайского языка мы не только делаем перевод нарусский язык, но также приводим пословное глоссирование.
Посколькуосновнойпредметпротивопоставлениями,нашегоаизучениянесвязанграмматическимиссемантическимиявлениями,мыпридерживаемся упрощенной схемы глоссирования примеров. Так, всенаправительные морфемы, в том числе и употребляемые в переносномзначении (например, значение начала действия у направительной морфемысо значением 'подниматься'), глоссируются как DIR, пространственные – какLOC, а результативные морфемы вне зависимости от исходного значения –как RES15.Ниже приводится список глосс, использованных в работе:RES – результативные морфемы15За исключением случаев, когда в качестве результативного показателя употреблена лексема, являющаясяпредметом нашего непосредственного рассмотрения.
В таких примерах в глоссах указывается исходноезначение данной лексемы, после которого в скобках ставится (RES).52LOC – пространственные предлогиDIR – направительные морфемыMOD – частица 了 lePRG – показатели того, что действие совершается в настоящий момент(прогрессива) в конструкциях типа V 着 zhe или 正在 zhèngzài V 呢 neEV – показатель оценки действия или возможности его совершить 得 deCLF – счетное слово – классификаторNEG – показатель отрицанияPCL – частицаCAUS – показатель каузативаFUT – показатель будущего времениPL – показатель множественного числаBA – маркер вынесения объекта в позицию перед глаголомATR – маркер определения к существительному или к глаголуPAS – показатель пассиваRDP – редупликацияPST – показатель неопределённого прошедшего 过Глава II. Семантическое поле ТОЛСТЫЙ – ТОНКИЙ§ 1 Прилагательные размера: история вопросаОдна из первых работ, в которой достаточно подробно разбираетсясемантикапараметрическихприлагательных,принадлежитМанфредуБирвишу [Bierwisch 1967].
Его работа выполнена на материале немецкогоязыка и методологически отталкивалась от популярного в то времякомпонентного анализа. Таким образом, он характеризует каждое изнемецких прилагательных семантического поля размера через комбинациювыделенных им признаков. В их число входят такие компоненты, как (±Pol),(±Vert), (±Observer), (±Main) и др. Например, (±Main) различает основные и53второстепенные измерения предметов, и (-Main) входит в определениеприлагательного dick ‘толстый’.Интересно включение в список признаков (±Consistence) и (±Density),которые реализуются в непространственных значениях dick ‘густой’ и dünn‘жидкий’.Действительно,консистенциясвязанасвозможностьюобразовывать слои, которые уже описываются прилагательным толстый: ср.толстый слой масла.Однако уже в этой статье М.
Бирвиш отмечает невозможностьпредсказать сочетаемость параметрических прилагательных, основываясьлишь на описании измерений объектов. Например, про водосточную трубуобычно говорят длинная, а не высокая, несмотря на то, что она расположенавертикально.Система М. Бирвиша развивается и уточняется Э. Лангом в парадигмегенеративной грамматики [Bierwisch & Lang 1987, 1989; Lang 1990a; Lang1990b]. В более поздней работе [Lang 2001] он представляет универсальнуюсхему приписывания размера (dimension assignment – DA).
Эта схема состоитиз трех основных уровней.1.Уровеньвосприятияявляетсятемисточникомсенсорнойинформации (зрительной и другой), на который опирается сам процессприписывания размера.2. Концептуальный уровень является неким фильтром, которыйпереводит сенсорную информацию в наше наивное представление о том, какустроено пространство.3. Семантический уровень отвечает за то, как информация, прошедшаячерез концептуальный уровень, кодируется в лексические единицы [Lang2001: 1253].Процессприписыванияразмераопираетсянамножествопространственных параметров (Dimension Assignment Parameters – DAPs).DAPs – это компоненты, из которых состоит значение собственнопараметрических терминов (spatial dimension terms – SDTs).
Например,54параметр Max определяет максимальное измерение объекта, если оно толькоодно; Vert – измерение объекта как совпадающее с вертикальной осьюпервичного пространства восприятия (primary perceptual space – PPS16) и т.п.В зависимости от условий совместимости осей определяется то, какиепространственные термины могут описывать какие объекты, то есть, какие изпространственныхпараметров(DAPs)могутсочетаться,образуяпараметрические термины (SDTs) в разных языках. Каждый параметр,входящий в параметрический термин, связан с какими-то селекционнымиограничениями на сочетаемость, некоторые типы которых могут различатьсяв разных языках.Структурный подходБирвиша-Лангавыявил рядтипологическирелевантных параметров в параметрической лексике, кроме того, Э.
Лангсоздал довольно четкий метод многоуровнего анализа и описания этого поля.Однако само наличие ограничений на совместимость осей (и, соответственно,пространственныхпараметров)вызываетсомнениевпрактичностивыделения этих параметров из гештальтов, определяющих возможныеформы объектов. К тому же структурный подход не учитывает аспектантропоцентричности языка, связанный с важностью для человека некоторыхкомбинаций параметров (т.е.
форм) с функциональной стороны.Этому направлению близок подход американских когнитивистов кпредставлению объектов в языке как совокупности простейших форм –геонов. Геоны – это элементарные геометрические формы (geometrical ions),которые распознаются человеком, как бы «геометрические примитивы».Термин предложен И. Бидерманом в [Biederman1987, 1990]. Он выделяеттридцать шесть таких трехмерных геометрических геонов, в число которыхвходят, например, сферы, кубы, цилиндры, конусы, пирамиды и др.16PPS – одна из когнитивных структур, участвующих в приписывании размера. Для нее важны три осиизмерения, которые определяют положение предмета в пространстве: вертикальная ось (Vert), осьнаблюдателя (Obs) и горизонтальная ось (Across).55Позднее Б. Ландау и Р.