Главная » Просмотр файлов » Диссертация

Диссертация (1137511), страница 19

Файл №1137511 Диссертация (Методы автоматического выделения тезаурусных отношений на основе словарных толкований) 19 страницаДиссертация (1137511) страница 192019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 19)

Этот алгоритм выбран как наиболее простой для реализации, требующий наименьшего количества ресурсов и при этом остающийсяде-факто точкой отсчета для измерения качества при решении задач дизамбигуации. Кроме того, ценным свойством этой модели является то, что она не требуетпривлечения дополнительных лингвистических ресурсов для обучения.96В качестве второй исследуемой модели выбрана модель word2vec, котораяявляется одной из наиболее широко используемых в настоящее время для разрешения семантической неоднозначности.Модель word2vec представляет класс моделей, задающих векторное представление лексеме. В противоположность этой модели в качестве третьей исследуемой модели выбрана модель AdaGram, которая решает задачу векторногопредставления лексического значения. Этот класс моделей является более новым,требующим большего количества ресурсов, и, видимо, поэтому менее изученным.В этом эксперименте нас интересуют следующие вопросы:– если векторная модель показывает хорошие результаты на материале большихтекстовых корпусов, то всегда ли такая модель будет применима и к текстам наограниченном подмножестве естественного языка, т.

е. к текстам толкований,– какой метод применения векторных моделей оказывается наиболее эффективным в случае, когда требуется выбрать из всех значений лексемы то значение, которое является гиперонимом по отношению к заданному значениюгипониму?4.3 Материалы исследованияНеобходимыми материалами для исследования функционирования дизамбигуаторов являются:– материалы для тестирования и получения сравнимых числовых представленийэффективности различных моделей: эталонный корпус, содержащий для омонимичных лексем выбор их значения, полученный наиболее достоверным издоступных в исследовании методов — экспертной аннотацией;– в свою очередь, материалом для создания эталонного корпуса является корпусомонимичных тезаурусных отношений, полученный в главе 3; этот же корпусслужит материалом для создания корпуса дизамбигуированных тезаурусныхотношений, который кратко анализируется в конце настоящей главы в разделе 4.6;– необходимым материалом для дизамбигуации является лексическая база данных, задающая множество лексических значений, ассоциированных с лексе97мой; такой базой данных в настоящей работе служит Большой толковый словарь под ред.

Кузнецова С. А. (БТС);– часть семантических моделей, используемых в настоящем исследовании, предполагают подбор параметров векторного представления, опираясь на обучающий корпус, значительно большего объёма, чем корпус толкований словаря;– одной из целей работы является исследование возможностей частичной автоматизации построения корпуса тезаурусных отношений с привлечением минимального количества вспомогательных ресурсов, специфичных для выбранного языка; единственным вспомогательным ресурсом, который используется в настоящем разделе, является лемматизатор, в роли которого использованmystem [102].Все перечисленные материалы, за исключением вспомогательных, подробно описаны ниже.4.3.1Корпус лексических значений: БТСУстройство и представление толкового словаря в качестве корпуса лексических значений подробно описано в разделе 3.2.Лексическое значение в корпусе представлено пятью полями: уникальныйидентификатор, лексема, толкование, расширенное толкование, ссылки.

При этомтолкование лексического значения может быть пустым, если для него приведенахотя бы одна ссылка на дериват.Уникальный идентификатор выступает в роли первичного ключа при использовании корпуса в качестве базы данных, т. е. не несёт смысловой нагрузки в отношении описываемой задачи.

Наличие такого идентификатора позволяетразличать между собой лексические значения, имеющие идентичную лексему итолкование: корпус содержит 365 пар и троек таких значений, в том числе 13 партаких значений, имеющих непустое толкование.При решении задачи дизамбигуации из информации, описывающей лексическое значение, используется только лексема, толкование и расширенное толкование. Таким образом с точки зрения дизамбигуатора некоторые лексическиезначения могут представляться имеющими пустое толкование.98Применением словаря в настоящей работе является получение списка всехлексических значений заданной леммы.

При таком поиске выбираются все лексические значения, лексема которых относится лемматизатором к заданной лемме.Это приводит к тому, что в некоторых случаях решение задачи дизамбигуациитребует выбора не только лексического значения лексемы гиперонима, но и выбора лексемы, соответствующей лемме гиперонима. Кроме того, в случае, еслитолковый словарь не содержит лексем, соответствующих заданной лемме, обращение к словарю возвращает пустой список лексических значений.4.3.2Корпус омонимичных отношенийКорпусом, в отношении которого поставлена задача дизамбигуации, служиткорпус тезаурусных отношений, полученный в главе 3.Из всего корпуса отношений для проведения настоящего эксперимента были отобраны только отношения непосредственной гиперонимии «is-a».

Это отношение самое частотное отношение, составляющее более 83% всех извлечённыхотношений; именно это отношение является основным для придания словарюидеографической структуры. Ограничение данных этим отношением согласуется с поставленными в разделе 1.3. В корпусе также присутствует обратное к немуотношение «hypernym-of». Это исключение также было исключено из рассмотрения в настоящем разделе. Отношение «hypernym-of» ставит задачу разрешениянеоднозначности, отличную от решаемой в настоящей главе: в описываемом эксперименте неоднозначным элементом отношения является гипероним, а в отношении «hypernym-of» неоднозначность содержится в гипониме. Является открытым вопрос о том, применимы ли к этим двум задачам одинаковые методы. Крометого, добавление разнородных задач неприемлемо для достижения одной из поставленных в настоящей главе целей исследования методов, опирающихся на рядпохожих задач.Набор данных состоит из 53482 гипо-гиперонимических пар.

Гипероним впаре представлен лексемой, для которой в словаре может быть приведено 0, 1 илинесколько толкований. Омонимичностью лексемы мы считаем количество толкований, приведённое в словаре для данной лексемы. Лексемы, участвующие вроли гиперонима в гипо-гиперонимических отношений, более омонимичны, чем99лексическое значениелеммаПРИЛИЧИЕ3 : Правила поведения, принятые в какой-л. об- поведениещественной среде.ПРИЛИЧИЕ3 : Правила поведения, принятые в какой-л. об- правилощественной среде.Рисунок 4.2 –– Пример лексического значения гипонима, для которогонеоднозначно указана лексема гиперонима.произвольные слова: средняя омонимичность гиперонима составляет 3.0 толкования, в то время, как средняя гиперонимичность всех существительных в корпусе словарных толкований составляет 1.78 толкований.

В случае, если в гипогиперонимической паре лексема гиперонима представлена 0 или 1 лексическимзначением, то задача выбора значения гиперонима тривиальна. Здесь мы не рассматриваем задачу дизамбигуации таких пар. Среди описанного набора гипогиперонимических пар существует 39422 пары таких, что гипероним представлендвумя или более лексическими значениями.Кроме того, в некоторых случаях одно лексическое значение-гипонимучаствует в гипо-гиперонимических парах с различными лексемами гиперонимами (см.

пример 4.2). В рамках задачи, поставленной в настоящем разделе, мысчитаем, что только одна из таких лексем является корректным гиперонимом кзаданному лексическому значению. Остальные из лексем гиперонима являютсяследствиями неоднозначности на различных этапах алгоритма выделения гипогиперонимических пар из словаря. В используемом наборе данных существует6677 лексических значений гипонимов, участвующих в таком виде неоднозначности.4.3.3Материал для построения векторных моделейВ работе используются и сравниваются две векторные семантические модели.

Первая — модель word2vec, обученная [79] в парадигме «Skip-gram» накорпусе общей современной лексики пользователей интернета RuTenTen11 размером 18 миллиардов словоупотреблений. Вторая — модель AdaGram с параметромα = 0.10, обученная [80] на корпусе общей современной лексики пользователей100ПараметрКорпусРазмер корпуса, токеновРазмер вектораРазмер окна, токеновМин.

частота токена, ipmКоличество лекс. значенийword2vecRuWac+lib.ru+RuWiki2 · 10930055 · 10−9-AdaGramRuWac+lib.ru+RuWiki2 · 10930055 · 10−810Таблица 11 –– Параметры обучения векторных моделейинтернета размером 2 миллиарда словоупотреблений, полученном объединением корпусов RuWac, lib.ru, и русскоязычных материалов Wikipedia. Оба корпусалемматизированы при помощи mystem3, приведены к нижнему регистру. Из корпусов удалены все пунктуационные знаки.В работе исследуются параметры применения трёх векторных семантических моделей:– алгоритм Леска,– модель векторного представления лексем word2vec, на основе обучения в парадигме Skip-gram,– модель векторного представления лексических значений AdaGram.Модель, эквивалентная алгоритму Леска, не требует предварительного обучения.Модели word2vec и AdaGram конструируют нетривиальное представлениесоответствующего языкового объекта на основе набора параметров, подбор которых требует предъявления модели большого корпуса текстов, т.

е. обучения. Обемодели были обучены [80] на корпусе объёмом 2 миллиарда словоупотреблений,составленного их объединения трёх корпусов:– корпус интернет-текстов RuWac,– корпус текстов классической и современной литературы, опубликованный в«Библиотеке Мошкова» на сайте lib.ru,– корпус словарных статей русскоязычной онлайн-энциклопедии Wikipedia.Корпус очищен от пунктуации, приведён к единому регистру букв, токенизирован и лемматизирован с помощью морфологического анализатораmystem3 [102].101класс токенасловарное словоколичество примеры7«врач-неонатолог», «дипропиловый»,«литпроект»просторечие3«бе-е-е», «лапусик», «юбчонки»числительное или дата12«1931-37», «651-й», «кт-28»имя собственное17«жусуповна», «крамником», «сидорцов»опечатка11«клянус», «сказхать», «сважина»ошибка лемматизации7«аграрно-промышленной»,«дула»,«одновременно-»др.

язык или устарелое5«сітку», «зустрінемося», «жангарык»иное36«дожинко», «мультстанок», «лаклак»Таблица 12 –– Результаты классификации редких токенов, входящих вобучающий корпус для векторных моделейПараметры обучения моделей приведены в таблице 11. Модель AdaGramхранит векторное представление каждого лексического значения каждой лексемы в предположении, что все лексемы имеют одинаковое, заранее заданное количество лексических значений.

Такой подход позволяет в конечном итоге получить модель, показывающую высокие результаты, как было описано выше в разделе 4.2, однако приводит к большим потребностям в оперативной памяти, требуемой на время вычисления модели. Чтобы компенсировать увеличенную потребность в оперативной памяти при обучении модели была поднята планка частотытокенов, которые модель рассматривает в качестве контекста.Для оценки меры влияния такого изменения частоты на ожидаемое поведение обученной модели был проведён вспомогательный эксперимент. Из обучающего корпуса были выбраны случайным образом 100 токенов, имеющих частоту в диапазоне 5 · 10−9 –5 · 10−8 IPM, т.

е. выбранные токены принадлежат множеству токенов, которые были использованы при обучении модели word2vec, ноне были использованы при обучении модели AdaGram. Выбранные токены быликлассифицированы одним экспертом на следующие классы: просторечие, числительное или дата, имя собственное, иное словарное, опечатка, ошибка лемматизации, ошибка определения языка, иная ошибка. Результаты классификации токенов приведены в табл. 12.

Характеристики

Список файлов диссертации

Методы автоматического выделения тезаурусных отношений на основе словарных толкований
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6376
Авторов
на СтудИзбе
309
Средний доход
с одного платного файла
Обучение Подробнее