Диссертация (1137502), страница 20
Текст из файла (страница 20)
Полученный наборпредставлен в Таблице 14 (аннотация та же).Из таблицы видно, что метод обратных переводов позволяет сформировать широкийнабор прилагательных, в который попадает больше обозначений физических свойствобъектов, чем в списки предыдущих версий, однако лексем, описывающих абстрактныехарактеристики объектов, по-прежнему очень много (значение полноты – 1, точности –0.19).
Особенно это касается прилагательных, обозначающих качества человека (см.сноску 18), которые мы для наглядности выделили в отдельный столбик таблицы.Физические признакиОСТРЫЙКОЛЮЧИЙКРУТОЙедкийОТЧЕТЛИВЫЙвысокийРЕЗКИЙАбстрактные признаки(не качества человека)ПронзительныйБыстрыйТочныйЯркийОбидныйКрепкийНеприятныйСильныйОпределенныйНаправленныйБоевойТонкийГлубокийКачества человекаОстроумныйУмныйНаблюдательныйВнимательныйРешительныйСуровыйЖестокийХитрыйКоварныйСмелыйЭнергичныйЛовкийИскусныйСтрогийОжесточенныйЗлойТаблица 14. Список прилагательных, полученный методом обратных переводов (вариант 1:острый => переводы прямых значений на английский, немецкий и французский => переводы всехзначений на русский).Поскольку этот список содержал максимальное количество обязательных слов, мыпредприняли попытку провести его дополнительную фильтрацию с целью сократитьколичество абстрактных признаков.
Для этого мы модифицировали алгоритм сбора85релевантных лексем по методу обратных переводов. Новая версия алгоритма устроенаследующим образом: в русско-английском, русско-французском и русско-немецкомсловарях ищутся переводные эквиваленты для физических значений лексемы острый;затем полученные прилагательные переводятся обратно на русский язык, причём вконечный список попадают только слова, которые соответствуют физическим значенияманглийских, французских и немецких лексем. Таким образом, в новом варианте процедурыабстрактные значения отсекаются на этапах как прямого, так и обратного перевода.Эта версия метода обратных переводов менее точно имитирует процесс ручногосбора списка релевантных прилагательных, поскольку не учитывает новые моделиметафорических сдвигов, которые, возможно, продемонстрировали бы в дальнейшемтипологическую релевантность.
Однако полученный результат существенно превосходитпредыдущие с точки зрения отсутствия большого количества «лишних» слов (см. Таблицу15, аннотация та же): значение полноты – 1, точности – 0.46. К тому же, вполне возможно,что, по крайней мере, часть неучтенных метафор будет компенсирована на этапе анализасочетаемости набранных прилагательных: новые физические признаки могут развиватьпереносные значения, не свойственные русской лексеме острый, но в целом обычные дляслов данного поля в языках мира.БыстрыйВысокийГорячийДушистыйЕдкийЖаркийПронзительныйКОЛЮЧИЙРЕЗКИЙКРУТОЙЯркийОСТРЫЙОТЧЕТЛИВЫЙТаблица 15.
Список прилагательных, полученный методом обратных переводов (вариант 2:острый => переводы физических значений на английский, немецкий и французский => переводыфизических значений на русский).5. Анализ результатовИтак, на материале одной семантической области мы опробовали несколько методовопределения границ поля: выбор синонимов опорного прилагательного по словарям /электронным базам синонимов; поиск ближайших соседей в пространстве векторовсочетаемости; подбор синонимов, гипонимов и когипонимов по онтологии RuWordNet;выбор релевантных прилагательных методом обратных переводов.
Качество работыкаждого из методов мы оценили, подсчитав для каждого полученного спискаприлагательных полноту и точность относительно оптимального списка, составленного86вручную по материалам уже проведенного типологического исследования. Результатыоценки качества работы алгоритмов обобщены в Таблице 16.МетодПолнотаТочностьсловари / базысинонимовближайшие соседи ввекторном пространстве(широкое / узкое окно)RuWordNet0.25 / 0.250.73 / 0.160/00.04 / 0.02601обратные переводы(вариант 1 / вариант 2)1/10.19 / 0.46Таблица 16. Оценкасемантического поля.качестваработыметодовавтоматическогоопределенияграницИз Таблицы 16 видно, что задача составления списка прилагательных, относящихсяк изучаемому полю (т.е. фактически задача определения границ поля), очень плохоподдается автоматизации, по крайней мере, нашими методами (ср., однако, аналогичныйвывод в работе Шеянова 2016).
Самый лучший результат дает метод обратных переводов,подразумевающий не только автоматизированный перевод нужных слов, но и ручнойотсев ненужных переводов. Но и в этом случае, при хорошем значении полноты, уровеньточности остается очень низким.Такой результат позволяет сделать несколько теоретических выводов. По-видимому,семантические поля по природе своей могут иметь разное устройство. По замыслуструктуралистов (см.
Trier 1931), семантическое поле должно было бы представлять собойзамкнутую семантическую систему, где все слова были бы объединены наличиемнекоторого нетривиального общего смысла, а значение каждого элемента поляопределялось бы только относительно других участников этой же подсистемы. И, чтоособенно важно, между разными полями постулировались жесткие границы: каждаялексическая единица должна входить ровно в одно семантическое поле.
Мы не будемподробно обсуждать недостатки и достоинства такого определения, но подчеркнем, чтолучше всего оно подходит для представления вполне определенных слоев лексики:предметных имен и очень близких к ним относительных прилагательных (ср.прилагательные цвета или материала). Элементы таких полей, как правило, связаны четковыделяющимися парадигматическими отношениями гипо-гиперонимии и синонимии, в ихзначении довольно легко выделить нетривиальный общий семантический компонент.Именнотакие,«классические»,семантическиеполяхорошовыделяютсякомпьютерными методами. Как правило, эти зоны хорошо проработаны в тезаурусах. А87поскольку слова, относящиеся к таким полям, как правило, употребляются в контекстаходного типа (см., например, Рахилина 2010), они оказываются и ближайшими соседями впространствах векторов сочетаемости.
Ср. первые шесть ближайших соседей (в техдистрибутивных моделях, которые мы описали в пункте 4.2 текущего раздела)существительного яблоко: груша, виноград, апельсин, орех, яблоня, арбуз, а такженесколько ближайших соседей лексемы синий: зеленый, желтый, голубой, лиловый,фиолетовый, серый, черный, розовый, коричневый, белый и т.д.Поля качественных признаков устроены принципиально иначе, и из-за этого те жесамые методы дают для них менее удовлетворительные результаты. Один и тот же признакв применении к объектам разного типа может видоизменяться и, как следствие,маркироваться разными словами (как, например, во французском языке, где инструментыс режущим краем описываются прилагательным tranchant, а инструменты с колющимконцом – лексемой pointu).
В результате оказывается, что разные лексемы одного поляупотребляются в разных контекстах и покрывают разные фрагменты, т.е. разные фреймы,этой семантической зоны. Тем самым, наше исходное предположение о том, что разныезначения признаковых лексем реализуются в разных контекстах, заранее противоречит какидее составления списка элементов поля по методу ближайших соседей, так и идееиспользования словарей и баз синонимов для решения поставленной задачи.Другая сложность заключается в том, что изменение признака под влияниемконтекста приводит к отсутствию четких границ между семантическими полями:качественные признаки плавно перетекают друг в друга (см.
пример выше оконцептуальной близости признаков ‘тугой’ и ‘тяжелый’), что не позволяет этим зонамукладываться в рамки структуралистского понимания семантического поля и существеннозатрудняет задачу представления таких зон в тезаурусах и онтологиях вида WordNet.При этом теоретически лексикографические ресурсы серии WordNet могли бы статьхорошим способом представления концептуальных структур не только для предметной,но и для признаковой лексики.
Так, например, в онтологии для русского языка RuWordNetочень хорошо представлено поле ‘ровный’: метод, описанный выше (в пункте 4.3настоящего раздела), позволяет извлечь все русские прилагательные, релевантные дляданного поля с типологической точки зрения (см. Кашкин 2013), не захватив при этом ниодного ненужного слова. Аналогично, зона ‘острый’ хорошо обрисована в англоязычнойонтологии WordNet (см. http://wordnetweb.princeton.edu/perl/webwn, набор синсетов длялексемы sharp). Проблема, однако, в том, что структуру признакового поля (а точнее, его88примерные границы и ближайшие соседние зоны) часто очень трудно определить поматериалу одного языка невооруженным глазом. Так, например, английская доминантнаялексема поля ‘острый’ sharp употребляется в более широком круге контекстов, чемсоответствующее русское слово острый, что позволяет создателям англоязычноговорднета представить более широкую периферию данного семантического поля, чемразработчикам русской версии аналогичной онтологии.
Степень семантической близостимежду качественными признаками, на первый взгляд кажущимися очень разными (ср.‘острый’ и ‘крутой’), часто сложно определить априорно, и во многих случаях не тольковнутреннее устройство, но и примерные границы семантического поля являются неисходными данными, а одним из результатов типологического исследования той или инойобласти.Дальнейшие эксперименты мы продолжим со списком, полученным по второмуварианту методологии обратных переводов (см.
Таблицу 15), но в конце этой главы ещёвернемся к проблеме возможного решения задачи определения границ семантическогополя.§4. Составление списков коллокаций1. Выбор корпусаСледующий шаг после составления списка прилагательных, относящихся кизучаемому семантическому полю, – анализ контекстов, в которых эти прилагательныеупотребляются.