Главная » Просмотр файлов » Диссертация

Диссертация (1137502), страница 19

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 19 страницаДиссертация (1137502) страница 192019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 19)

Александровой (2001) демонстрирует достаточно высокую точность (0.73 – из 11 слов8 считаются допустимыми), но низкую полноту (0.25 – из четырех обязательных словприсутствует только одно).Помимо традиционных бумажных словарей синонимов, мы использовали в качествеисточникалексикографическихданныхэлектронныебазысболееширокимисинонимическими рядами synonymizer.ru и synonymonline.ru.

Эти ресурсы создавались с79особыми целями: они призваны помогать составлять для контента сайтов уникальныетексты, не нарушающие авторских прав, формируя из одной статьи сразу несколько путёмзамены слов и конструкций на синонимичные.Оба ресурса выдают для слова острый около сотни синонимов, что для нашей задачинеприемлемо. Мы провели несколько этапов фильтрации: сначала в каждом из списков мыоставили только те слова, которые входят в словарь из 10 000 наиболее частотныхзнаменательных лексем по основному подкорпусу НКРЯ21, а затем объединили два списка,оставив только те прилагательные, которые встречаются в обоих.

Полученный врезультате набор представлен в Таблице 11. В этой таблице используется та же аннотация,что и в Табл. 10: малыми прописными буквами набраны необходимые слова, курсивом –допустимые, полужирным шрифтом выделены лишние прилагательные.Количество необходимых слов, относящихся к фреймам физических значений, попрежнему мало (всего одно из четырех, т.е. полнота по-прежнему равна 0.25). Синонимовметафорических значений, напротив, остаётся очень много даже после всех уровнейфильтрации, что приводит к очень низкому уровню точности: 0.16 (из 19 слов всего триотносятся к нужным или допустимым).АктуальныйДраматическийЖгучийЖестокийКрайнийКритическийЛютыйМучительныйНапряженныйНасущныйНежныйОстроумныйПронзительныйРЕЗКИЙСильныйСовременныйТонкийЧуткийСвоевременныйТаблица 11.

Список синонимов прилагательного острый, полученный в результате обработкиданных, предоставленных ресурсами synonymizer.ru и synonymonline.ru.Таким образом, метод составления списка прилагательных, относящихся кизучаемому полю, путем анализа синонимов опорного слова связан с двумя проблемами:с одной стороны, лексем, покрывающих зону физических фреймов поля, набираетсяслишком мало, с другой стороны, синонимов для метафорических значений, напротив,слишком много. Иными словами, этот метод неудовлетворителен ни по одному изпоказателей: ни по полноте, ни по точности.4.2. Метод ближайших соседейДругой метод определения круга семантически близких слов, в настоящее времяособенно популярный, – это выделение лексем, находящихся на минимальном расстоянии21Словарь составлен нами совместно с М.В.

Кюсевой для предыдущей серии экспериментов (см. Главу 2).80друг от друга в некотором векторном пространстве, см. (Baroni et al. 2014; Dubossarsky etal. 2016; Шеянова 2016). Этот подход опирается на идею о том, что близкие по смыслуслова употребляются в похожих контекстах (см.

Sahlgren 2008 о так называемойдистрибутивнойгипотезе,атакжеГлаву2даннойдиссертации),азначит,предположительно, слова из одного семантического поля могут оказаться рядом друг сдругом (т.е. ближайшими соседями) в пространстве векторов сочетаемости.Мы протестировали этот метод на базе двух векторных пространств. Первоепространство состояло из векторов 10 000 наиболее частотных лексем знаменательныхчастей речи. Частотность определялась по имевшемуся в нашем распоряжении основномуподкорпусу НКРЯ; этот же текстовый материал использовался в качестве обучающегокорпуса. Вектор каждого слова состоял из значений 10 000 измерений, причём в качественабора измерений также использовались самые частотные знаменательные слова поосновному подкорпусу НКРЯ.

Значение измерения показывало, сколько раз лексема, длякоторой строится вектор, встретилась в корпусе в контексте слова-измерения в окне ±5знаменательных слов. Второе пространство отличалось от первого только размером окна:учитывались только контактные (с точностью до служебных слов) употребления в окне ±1знаменательная лексема. В обоих случаях результатом эксперимента являлся список из 50ближайших соседей вектора лексемы острый, из которого затем удалялись все неприлагательные.Эксперимент, проводившийся на базе пространства векторов, посчитанных поширокому окну, дал очень шумные результаты: ближайшим соседом прилагательногоострый является его антоним тупой, а за ним следуют в беспорядке имена различныхкачественных признаков.

Узкое окно, как и ожидалось, позволяет улавливать чуть болеетонкие различия в употреблениях слов: в результирующем списке больше прилагательных,чем при широком окне. Однако различие, кажется, исключительно количественное:эксперимент с узким окном позволяет убрать несколько ненужных слов, которыепоявлялись в первом варианте списка, но зато добавляет множество лексем, не имеющихнепосредственного отношения к полю ‘острый’ (см. Таблицу 12, аннотация та же, что и впредыдущем разделе).Широкое окноУзкое окноТупойТупойТяжелыйЖгучий81ТонкийНеприятныйЛегкийТяжелыйЖуткийМучительныйБлестящийТоскливыйГлубокийЛюбопытныйЖгучийВыразительныйПечальныйСильныйПохожийЖуткийЗлобныйТемныйЖесткийЖесткийНепривычныйСерьезныйВидимыйПриятныйСтрашныйТонкийМаленькийГрустныйСильныйВнимательныйСтранныйСложныйБеспокойныйБеспокойныйУродливыйЗлобныйМрачныйНежныйСухойНестерпимыйОтвратительныйРазнообразныйНаглыйПечальныйМягкийПохожийСтранныйЖадныйПривлекательныйСхожийИнтересныйОсторожныйНепривычныйСтойкийУродливыйДлинныйСтрашныйТревожный82БлестящийТаблица 12.

Ближайшие соседи прилагательного острый в широком и узком окне (из 50 соседейотобраны имена прилагательные).Таким образом, на материале зоны ‘острый’ этот метод демонстрирует очень низкиепоказатели полноты и точности: полнота равна 0 (и для узкого, и для широкого окна),точность – 0.04 при широком окне, 0.026 – при узком.4.3. Определение границ поля по материалам онтологии RuWordNetЕщё один тип источников лексикографической информации, из которых можноизвлекать сведения о степени семантической близости слов, – это тезаурусы и онтологии.Наиболее популярные и надежные из них – онтологии, созданные по образу и подобиюбазы WordNet (https://wordnet.princeton.edu/, Miller 1995).

Недавно такая онтология быларазработана и для русского языка – RuWordNet (http://www.ruwordnet.ru/, Loukachevitch etal. 2016).Словари такого типа имеют древесную структуру. Листьями такого дереваоказываются слова рассматриваемого языка, которые иерархически группируются всемантические поля. При этом, если у слова несколько значений, оно попадает сразу внесколько полей, т.е. оказывается сразу на нескольких ветках семантического дерева.Теоретически такого рода ресурсы идеально подходят для решения нашей задачи.Однако на практике и их использование сопряжено с рядом затруднений.С одной стороны, выделение у слова нескольких значений (т.е. включение его внесколько разных синсетов – семантических полей) может позволить избежать включенияв итоговый список прилагательных таких слов, которые синонимичны признаку острыйтолько в его метафорических употреблениях. С другой стороны, неочевидно, как отбиратьнужные синсеты автоматически.

Теоретически эта проблема могла бы решаться путемобращения к гиперонимам, которые для каждого синсета свои, но, по крайней мере, вслучае со словом острый, гиперонимы в онтологии RuWordNet оказываются не оченьинформативны. Прилагательное острый попадает в четыре синсета со следующимигиперонимами: качественный vs. насмешливый vs. сильный, вкусовой vs. хороший,положительный. Внимательное изучение всех четырех синсетов показывает, что восновном интересующие нас прилагательные относятся к синсету 1 с гиперонимкачественный, но неочевидно, с помощью какого алгоритма можно было бы выбрать этотсинсет автоматически.83Если считать, что синсет(ы) можно выбирать вручную, то дальше можноавтоматически извлекать из нужных синсетов синонимы и гипонимы (и антонимы, вслучае необходимости).

В таком случае для поля ‘острый’ мы получим наборприлагательных, представленный в Таблице 13 (аннотация та же, что и в предыдущихразделах).вострыйотточенныйточеныйзаостренныйострейшийостроконечныйТаблица 13. Набор прилагательных, относящихся к полю ‘острый’, полученный путем анализаонтологии RuWordNet.Из Таблицы 13 видно, что этот метод позволяет добиться высокого уровня точности(1: из шести прилагательных ни одного недопустимого), но дает минимальное значениеполноты (0: из обязательных лексем нет ни одной).4.4. Метод обратных переводовНаконец, последний метод, который мы условно назвали методом обратныхпереводов, подразумевает выход за рамки русского языка и имитирует, хотя и в сильноупрощенном виде, ручную работу лексического типолога. Этот механизм основан насловарном материале, но источником данных являются не тезаурусы и словари синонимов,а двуязычные переводные словари.Мы опробовали два варианта этой методологии. В первом случае алгоритмсоставления списка прилагательных был следующим: для опорной лексемы острыйизвлекались все варианты однословных переводов её физических значений на английский,немецкий и французский языки, которые затем переводились обратно на русский.

Вкачестве источника для перевода использовалась коллекция электронных словарей Яндекс(https://slovari.yandex.ru)22. Этот ресурс группирует переводные эквиваленты по значениямлексемы, для которой ищется перевод (в отличие, например, от словаря «Мультитран» www.multitran.ru), что позволяет определить, какие переводы следует учесть, а какиеисключить. Однако в этом случае, как и в ситуации с использованием онтологииRuWordNet, в алгоритм приходится включать элемент ручной работы.На данный момент этот ресурс уже прекратил свое существование.

Частично его заменяет сервисЯндекс.Переводчик (https://translate.yandex.ru). Кроме того, в школе лингвистики НИУ «Высшая школаэкономики» сейчас разрабатывается новый ресурс Вышка.Словари, основанный на коллекции словарейкомпании Яндекс.2284Такая процедура наиболее точно воспроизводит челночный метод сбораприлагательных: в других языках находятся слова, способные покрывать фреймы ядерных(прямых) значений изучаемого поля, а затем для всех групп их употреблений, в том числеметафорических, находится русский аналог для анкеты. Результирующий набор русскихлексем, как и список синонимов, был отфильтрован по частотности: в итоговый переченьвошли только те прилагательные, которые попадают в список из 10 000 наиболеечастотных знаменательных слов по основному подкорпусу НКРЯ.

Характеристики

Тип файла
PDF-файл
Размер
1,9 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Автоматизация лексико-типологических исследований методы и инструменты
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6549
Авторов
на СтудИзбе
300
Средний доход
с одного платного файла
Обучение Подробнее