Диссертация (1137502), страница 19
Текст из файла (страница 19)
Александровой (2001) демонстрирует достаточно высокую точность (0.73 – из 11 слов8 считаются допустимыми), но низкую полноту (0.25 – из четырех обязательных словприсутствует только одно).Помимо традиционных бумажных словарей синонимов, мы использовали в качествеисточникалексикографическихданныхэлектронныебазысболееширокимисинонимическими рядами synonymizer.ru и synonymonline.ru.
Эти ресурсы создавались с79особыми целями: они призваны помогать составлять для контента сайтов уникальныетексты, не нарушающие авторских прав, формируя из одной статьи сразу несколько путёмзамены слов и конструкций на синонимичные.Оба ресурса выдают для слова острый около сотни синонимов, что для нашей задачинеприемлемо. Мы провели несколько этапов фильтрации: сначала в каждом из списков мыоставили только те слова, которые входят в словарь из 10 000 наиболее частотныхзнаменательных лексем по основному подкорпусу НКРЯ21, а затем объединили два списка,оставив только те прилагательные, которые встречаются в обоих.
Полученный врезультате набор представлен в Таблице 11. В этой таблице используется та же аннотация,что и в Табл. 10: малыми прописными буквами набраны необходимые слова, курсивом –допустимые, полужирным шрифтом выделены лишние прилагательные.Количество необходимых слов, относящихся к фреймам физических значений, попрежнему мало (всего одно из четырех, т.е. полнота по-прежнему равна 0.25). Синонимовметафорических значений, напротив, остаётся очень много даже после всех уровнейфильтрации, что приводит к очень низкому уровню точности: 0.16 (из 19 слов всего триотносятся к нужным или допустимым).АктуальныйДраматическийЖгучийЖестокийКрайнийКритическийЛютыйМучительныйНапряженныйНасущныйНежныйОстроумныйПронзительныйРЕЗКИЙСильныйСовременныйТонкийЧуткийСвоевременныйТаблица 11.
Список синонимов прилагательного острый, полученный в результате обработкиданных, предоставленных ресурсами synonymizer.ru и synonymonline.ru.Таким образом, метод составления списка прилагательных, относящихся кизучаемому полю, путем анализа синонимов опорного слова связан с двумя проблемами:с одной стороны, лексем, покрывающих зону физических фреймов поля, набираетсяслишком мало, с другой стороны, синонимов для метафорических значений, напротив,слишком много. Иными словами, этот метод неудовлетворителен ни по одному изпоказателей: ни по полноте, ни по точности.4.2. Метод ближайших соседейДругой метод определения круга семантически близких слов, в настоящее времяособенно популярный, – это выделение лексем, находящихся на минимальном расстоянии21Словарь составлен нами совместно с М.В.
Кюсевой для предыдущей серии экспериментов (см. Главу 2).80друг от друга в некотором векторном пространстве, см. (Baroni et al. 2014; Dubossarsky etal. 2016; Шеянова 2016). Этот подход опирается на идею о том, что близкие по смыслуслова употребляются в похожих контекстах (см.
Sahlgren 2008 о так называемойдистрибутивнойгипотезе,атакжеГлаву2даннойдиссертации),азначит,предположительно, слова из одного семантического поля могут оказаться рядом друг сдругом (т.е. ближайшими соседями) в пространстве векторов сочетаемости.Мы протестировали этот метод на базе двух векторных пространств. Первоепространство состояло из векторов 10 000 наиболее частотных лексем знаменательныхчастей речи. Частотность определялась по имевшемуся в нашем распоряжении основномуподкорпусу НКРЯ; этот же текстовый материал использовался в качестве обучающегокорпуса. Вектор каждого слова состоял из значений 10 000 измерений, причём в качественабора измерений также использовались самые частотные знаменательные слова поосновному подкорпусу НКРЯ.
Значение измерения показывало, сколько раз лексема, длякоторой строится вектор, встретилась в корпусе в контексте слова-измерения в окне ±5знаменательных слов. Второе пространство отличалось от первого только размером окна:учитывались только контактные (с точностью до служебных слов) употребления в окне ±1знаменательная лексема. В обоих случаях результатом эксперимента являлся список из 50ближайших соседей вектора лексемы острый, из которого затем удалялись все неприлагательные.Эксперимент, проводившийся на базе пространства векторов, посчитанных поширокому окну, дал очень шумные результаты: ближайшим соседом прилагательногоострый является его антоним тупой, а за ним следуют в беспорядке имена различныхкачественных признаков.
Узкое окно, как и ожидалось, позволяет улавливать чуть болеетонкие различия в употреблениях слов: в результирующем списке больше прилагательных,чем при широком окне. Однако различие, кажется, исключительно количественное:эксперимент с узким окном позволяет убрать несколько ненужных слов, которыепоявлялись в первом варианте списка, но зато добавляет множество лексем, не имеющихнепосредственного отношения к полю ‘острый’ (см. Таблицу 12, аннотация та же, что и впредыдущем разделе).Широкое окноУзкое окноТупойТупойТяжелыйЖгучий81ТонкийНеприятныйЛегкийТяжелыйЖуткийМучительныйБлестящийТоскливыйГлубокийЛюбопытныйЖгучийВыразительныйПечальныйСильныйПохожийЖуткийЗлобныйТемныйЖесткийЖесткийНепривычныйСерьезныйВидимыйПриятныйСтрашныйТонкийМаленькийГрустныйСильныйВнимательныйСтранныйСложныйБеспокойныйБеспокойныйУродливыйЗлобныйМрачныйНежныйСухойНестерпимыйОтвратительныйРазнообразныйНаглыйПечальныйМягкийПохожийСтранныйЖадныйПривлекательныйСхожийИнтересныйОсторожныйНепривычныйСтойкийУродливыйДлинныйСтрашныйТревожный82БлестящийТаблица 12.
Ближайшие соседи прилагательного острый в широком и узком окне (из 50 соседейотобраны имена прилагательные).Таким образом, на материале зоны ‘острый’ этот метод демонстрирует очень низкиепоказатели полноты и точности: полнота равна 0 (и для узкого, и для широкого окна),точность – 0.04 при широком окне, 0.026 – при узком.4.3. Определение границ поля по материалам онтологии RuWordNetЕщё один тип источников лексикографической информации, из которых можноизвлекать сведения о степени семантической близости слов, – это тезаурусы и онтологии.Наиболее популярные и надежные из них – онтологии, созданные по образу и подобиюбазы WordNet (https://wordnet.princeton.edu/, Miller 1995).
Недавно такая онтология быларазработана и для русского языка – RuWordNet (http://www.ruwordnet.ru/, Loukachevitch etal. 2016).Словари такого типа имеют древесную структуру. Листьями такого дереваоказываются слова рассматриваемого языка, которые иерархически группируются всемантические поля. При этом, если у слова несколько значений, оно попадает сразу внесколько полей, т.е. оказывается сразу на нескольких ветках семантического дерева.Теоретически такого рода ресурсы идеально подходят для решения нашей задачи.Однако на практике и их использование сопряжено с рядом затруднений.С одной стороны, выделение у слова нескольких значений (т.е. включение его внесколько разных синсетов – семантических полей) может позволить избежать включенияв итоговый список прилагательных таких слов, которые синонимичны признаку острыйтолько в его метафорических употреблениях. С другой стороны, неочевидно, как отбиратьнужные синсеты автоматически.
Теоретически эта проблема могла бы решаться путемобращения к гиперонимам, которые для каждого синсета свои, но, по крайней мере, вслучае со словом острый, гиперонимы в онтологии RuWordNet оказываются не оченьинформативны. Прилагательное острый попадает в четыре синсета со следующимигиперонимами: качественный vs. насмешливый vs. сильный, вкусовой vs. хороший,положительный. Внимательное изучение всех четырех синсетов показывает, что восновном интересующие нас прилагательные относятся к синсету 1 с гиперонимкачественный, но неочевидно, с помощью какого алгоритма можно было бы выбрать этотсинсет автоматически.83Если считать, что синсет(ы) можно выбирать вручную, то дальше можноавтоматически извлекать из нужных синсетов синонимы и гипонимы (и антонимы, вслучае необходимости).
В таком случае для поля ‘острый’ мы получим наборприлагательных, представленный в Таблице 13 (аннотация та же, что и в предыдущихразделах).вострыйотточенныйточеныйзаостренныйострейшийостроконечныйТаблица 13. Набор прилагательных, относящихся к полю ‘острый’, полученный путем анализаонтологии RuWordNet.Из Таблицы 13 видно, что этот метод позволяет добиться высокого уровня точности(1: из шести прилагательных ни одного недопустимого), но дает минимальное значениеполноты (0: из обязательных лексем нет ни одной).4.4. Метод обратных переводовНаконец, последний метод, который мы условно назвали методом обратныхпереводов, подразумевает выход за рамки русского языка и имитирует, хотя и в сильноупрощенном виде, ручную работу лексического типолога. Этот механизм основан насловарном материале, но источником данных являются не тезаурусы и словари синонимов,а двуязычные переводные словари.Мы опробовали два варианта этой методологии. В первом случае алгоритмсоставления списка прилагательных был следующим: для опорной лексемы острыйизвлекались все варианты однословных переводов её физических значений на английский,немецкий и французский языки, которые затем переводились обратно на русский.
Вкачестве источника для перевода использовалась коллекция электронных словарей Яндекс(https://slovari.yandex.ru)22. Этот ресурс группирует переводные эквиваленты по значениямлексемы, для которой ищется перевод (в отличие, например, от словаря «Мультитран» www.multitran.ru), что позволяет определить, какие переводы следует учесть, а какиеисключить. Однако в этом случае, как и в ситуации с использованием онтологииRuWordNet, в алгоритм приходится включать элемент ручной работы.На данный момент этот ресурс уже прекратил свое существование.
Частично его заменяет сервисЯндекс.Переводчик (https://translate.yandex.ru). Кроме того, в школе лингвистики НИУ «Высшая школаэкономики» сейчас разрабатывается новый ресурс Вышка.Словари, основанный на коллекции словарейкомпании Яндекс.2284Такая процедура наиболее точно воспроизводит челночный метод сбораприлагательных: в других языках находятся слова, способные покрывать фреймы ядерных(прямых) значений изучаемого поля, а затем для всех групп их употреблений, в том числеметафорических, находится русский аналог для анкеты. Результирующий набор русскихлексем, как и список синонимов, был отфильтрован по частотности: в итоговый переченьвошли только те прилагательные, которые попадают в список из 10 000 наиболеечастотных знаменательных слов по основному подкорпусу НКРЯ.