Главная » Просмотр файлов » Диссертация

Диссертация (1137502), страница 24

Файл №1137502 Диссертация (Автоматизация лексико-типологических исследований методы и инструменты) 24 страницаДиссертация (1137502) страница 242019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 24)

Содной стороны, три примера не перегрузят анкету. С другой стороны, вполне вероятно, чтои из этих трех примеров в дальнейшем останется только два. Три элемента – это томинимальное количество, которое позволяет исследователю увидеть систему, определитьоснование объединения сочетаний в один кластер и, возможно, удалить один из егоэлементов уже вручную. Так, например, по кластеру [острая болезнь, острый кризис,острая паранойя] понятно, что конституирующим в нём может считаться значениевысокой степени проявления заболевания, и словосочетание острый кризис, в такомслучае, можно из него устранить как неоднозначное (острый кризис может обозначать какпик болезни, так и ситуацию, требующую немедленного разрешения, ср. острая нехватка,острый недостаток).

Как бы то ни было, мы считаем, что основная задача составленнойавтоматически анкеты – указать исследователю на некоторые возможные закономерностиорганизации поля, выделить основные релевантные для него противопоставления. Длядостижения этой цели необходимо иметь прежде всего результаты более или менееустойчивых объединений, а не маленькие кластеры, являющие собой разные менеенадежные примеры употребления изучаемых прилагательных и не демонстрирующиеникакой системы.Чтобы выбрать наиболее представительные примеры, для каждого кластера мывычисляли эталонный «центральный вектор», значения измерений которого представлялисобой среднее арифметическое значений всех элементов кластера.

Затем определялись тривектора, которые ближе всего (по косинусной мере близости) к эталону. Словосочетания,которым соответствовали эти три вектора, и включались в итоговую анкету30 (см. примерысконструированных таким образом анкет в Приложениях 4-5).§8.

Оценка результатовДля автоматической оценки результатов мы разметили вручную все входныесловосочетания, т.е. все коллокации частотностью не ниже 10 употреблений в НКРЯ (см.§4 данной главы) для каждого из отобранных нами 13 прилагательных. Разметказаключалась в том, что для каждого словосочетания мы указали, какой фреймО том, что близость к центру кластера свидетельствует об относительной семантической устойчивостиязыковой единицы (в частности, о низком уровне ее многозначности), см.

Dubossarsky et al. 2016.30105семантического поля ‘острый’ оно иллюстрирует. В случае, если коллокация относилась ктипу значений, не предусмотренному эталонной анкетой (например, жаркий день илидушистое сено), мы приписывали ей нулевой номер фрейма. В ситуациях, когдасловосочетание могло относиться сразу к нескольким фреймам, мы указывали всевозможности, разделяя их знаком “|”. Фрагмент такой разметки представлен в Таблице 22.СловосочетаниеНомер фреймаострый_нож1острый_игла2острый_подбородок3острый_предмет1|2острый_боль15Таблица 22. Фрагмент экспертной разметки списка словосочетаний.Далее оценка проводилась по трем параметрам:1) Общее количество представленных фреймов (= полнота, R);2) Чистота кластеризации (= точность, P);3) Доля словосочетаний, не относящихся к рассматриваемому полю.Первый параметр соответствует метрике полноты и подразумевает проверку того,все ли ожидаемые фреймы проиллюстрированы в данном варианте анкеты.

Фреймсчитался представленным, если в анкете было хотя бы одно словосочетание, егоиллюстрирующее. Чистота кластеризации примерно соответствует точности и оцениваетстепень однородности кластеров: если в итоговую группу элементов попалисловосочетания, относящиеся к трем разным фреймам, то метрика чистоты кластеризациипоказывала уровень 1/3; если хотя бы у двух словосочетаний совпадала фреймоваяпринадлежность – 2/3, у всех трех – 1. При этом если словосочетанию, согласноэкспертной разметке, соответствовало более одного фрейма и один из них совпадал сфреймами других словосочетаний из того же кластера, мы считали кластер чистым и нештрафовали систему за выбор неоднозначного словосочетания.

Числа, полученные врезультате оценки каждого кластера, суммировались и делились на общее количествогрупп. Наконец, третий параметр показывал долю словосочетаний с ненулевым значениемфрейма, попавших в итоговую анкету. Таким образом, максимально возможное значениекаждой из трех метрик равнялось единице.106Для установления оптимального баланса между полнотой и точностью мы считалиF-меру по формуле:F = 2PR / (P+R), где P – точность, R - полнотаФормула 15.

Вычисление F-меры.В Таблице 23 приведены лучший результат среди алгоритмов с заданным числомкластеров, показанный алгоритмом K-Means (строка 1) и самый высокий показатель дляалгоритма иерархической кластеризации (строка 2), оба результата получены на материалепространства векторов словосочетаний, полученных методом композиции. Для сравнениямы также привели данные кластеризаций с помощью лучшего алгоритма с заданнымчислом кластеров из пакета Cluto (rb_agg168i1) для нескольких моделей:1) кластеризация пространства векторов, собранных по методу композиции, свыбором трех центральных элементов для каждого кластера (строка 3);2)кластеризацияпространствавекторовсочетаемостидлянаблюдаемыхсловосочетаний (вместо векторов, подготовленных с помощью модели композиции) свыбором трех центральных элементов для каждого кластера (строка 4);3) кластеризация векторов словосочетаний, собранных по методу композиции, но свыбором трех случайных элементов из каждого кластера (вместо выбора трехцентральных), строка 5;4) кластеризация векторов наблюдаемых словосочетаний с последующим случайнымвыбором трех элементов кластера (строка 6).АлгоритмЗаданочислокластеровКомпозицияПредставителикластерададацентроиды0,8480,8830,5210,865RPДоляненулевыхфреймовFмера1K-means2нетдацентроиды0,8790,9000,4880,8893Иерарх.,порог 0,9rb_agg168i1дадацентроиды0,9410,5860,5010,7234rb_agg168i1данетцентроиды0,8820,5140,4420,6495rb_agg168i1дадаслучайные0,9120,5570,4930,6916rb_agg168i1данетслучайные0,8240,4290,4350,565Таблица 23.

Оценка качества кластеризаций: наиболее показательные результаты.107Из Таблицы 23 видно, что самое лучшее качество демонстрирует алгоритмиерархической кластеризации. Он же является оптимальным с вычислительной точкизрения: он не требует выполнения дополнительных операций и привлечениядополнительных ресурсов для определения количества кластеров, на которые должныбыть разбиты входные данные.

Заметим при этом, что вычисление трех наиболее близкихк центру кластера элементов (вместо простого выбора трех случайных словосочетаний)оказывается оправданным (ср. строки 3 и 5). Сопоставление строки 3 со строками 4 и 6подтверждает тезис о том, что применение моделей композиции для решения задач вобласти лексической типологии не только допустимо, но и желательно: такая методологияи менее ресурсозатратна, и более эффективна. Подчеркнем, однако, что процент попаданияв итоговую анкету «лишних» словосочетаний, относящихся к другим семантическимполям, очень высок для всех моделей (см. низкие показатели доли «нужных»словосочетаний в столбце 4).Среди алгоритмов с изначально заданным числом кластеров самый высокийрезультат показывает алгоритм K-Means.

Этот результат очень близок к полученному спомощью алгоритма иерархической кластеризации, что говорит о том, что теоретическиэтот алгоритм можно было бы использовать для наших задач. Однако иерархическаякластеризация обладает несомненным преимуществом: она дает возможность определятьчисло кластеров автоматически. Поэтому метод иерархической кластеризации мы считалиоптимальным и именно с ним провели ряд дополнительных экспериментов, которые мыобсудим в следующем разделе.§9.

Эксперименты с другими полямиЧтобы дополнительно оценить качество разработанной методики автоматическогосоставления анкет, мы провели ещё одну серию экспериментов. В этой серии мыиспользовали несколько дополнительных семантических полей в качестве тестовыхданных: признаковые зоны ‘гладкий’ (прилагательные гладкий, ровный, скользкий),‘прямой’ (прямой), ‘толстый’ (толстый, широкий) и глагольное поле качания (качаться,шататься, болтаться, колебаться, развеваться, колыхаться).

Поскольку все эти поляранее уже были исследованы в типологическом аспекте вручную (см. Кашкин 2013;Козлов и др. 2016; Лучина 2014; Шапиро 2015), для них существуют готовые анкеты, спомощью которых можно численно оценить качество работы алгоритма.108Все дополнительные эксперименты проводились только для того алгоритма,который показал самое высокое качество на материале поля ‘острый’: векторасловосочетании строились с помощью аддитивной модели композиции из вектороввходящих в словосочетание слов, векторное пространство разбивалось на кластеры пометоду иерархической кластеризации (значение порога кластеризации было равно 1), изкаждого кластера выбиралось три центральных элемента, а все кластеры, размер которыхне превышал двух словосочетаний, удалялись из итоговой анкеты.Процедура отбора коллокаций для слов из признаковых полей оставалась такой же,как и для прилагательных зоны ‘острый’: из основного подкорпуса НКРЯ выбиралисьсуществительные, встречающиеся непосредственно справа от опорного прилагательногоне менее 10 раз, что соответствует уровню частотности в 0.05 ipm.

Для глаголов качанияпроцедура отбора коллокаций была несколько модифицирована. Вслед за автором ручногоанализа этой семантической зоны, мы рассматривали только один ее фрагмент:одноместные непереходные глаголы (ср. русск. качаться, шататься, болтаться,колебаться, колыхаться, развеваться).

Тем самым, диагностический контекст для этихлексем фактически оставался таким же узким, как и для прилагательных, и включал в себятолько одно существительное (главный актант). С другой стороны, в отличие отприлагательных, позиция которых в атрибутивной конструкции, как правило, четкозакреплена (в русском языке прилагательное почти всегда находится слева отопределяемого слова), глагол может располагаться как слева, так и справа от своегоактанта, ср.: Девочка качается на качелях и На качелях качается девочка. Ещё однаособенность глаголов качания по сравнению с признаковыми словами, которые мырассматривали, – их относительно низкий уровень частотности (самая частотная русскаялексема в этой зоне – глагол колебаться – занимает позицию 4 802 по словарю Ляшевская& Шаров 2009, самая редкая – развеваться – 14 321).С целью учета особенностей этой группы слов мы изменили процедуру следующимобразом.

Характеристики

Тип файла
PDF-файл
Размер
1,9 Mb
Предмет
Высшее учебное заведение

Список файлов диссертации

Автоматизация лексико-типологических исследований методы и инструменты
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6314
Авторов
на СтудИзбе
311
Средний доход
с одного платного файла
Обучение Подробнее