Главная » Просмотр файлов » Диссертация

Диссертация (1090484), страница 9

Файл №1090484 Диссертация (Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей) 9 страницаДиссертация (1090484) страница 92018-01-18СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 9)

Свойства слов, полученные в результате морфологического анализа (леммы и его части речи) используются дляглубокого анализа текстов [158]. Другой важной задачей является лемматизация [159] - поиск соответствующей словоформы для данного входного слова.В этой главе рассмотрим нейросетевые подходы к классификации текстовна основе морфологического анализа [40].3.1Разработка метода морфологического анализа текстовВ лингвистике, морфологией [160] называется изучение слов, способов их формирования, и их отношения с другими словами на том же языке. Морфологияанализирует структуру и части слов, такие как леммы, корень слова, префиксыи суффиксы.

Морфология также рассматривает части речи, ударение и взаи81мосвязи между контекстом и смыслом слов. Морфология отличается от морфологической типологии, которая является классификацией языков на основеиспользования слов и лексикологии, которая изучает слова и то, как они составляют языковые словари.Слово, как правило, считается наименьшей единицей синтаксиса, в большинстве языков, если не во всех, многие слова могут быть связаны с другими словами по правилам, которые описывают грамматику этого языка. Например, слова“собака” и “собаки” тесно связаны между собой, отличаются только суффиксом“-а” и “-и”, и такие правила применяются к многим другим существительным. Итак, слова образуются из более мелких единиц в языке, который они используюти эти единицы взаимодействуют в речи по морфологическим правилам.

Такимобразом, морфология - это раздел лингвистики, изучающий правила формирования словоформы конкретных языков и правила, которые моделируют знанияна этих языках [161].Морфологический анализ - процесс поиска морфологических разборов слов[162]. Цель морфологического анализа - выяснить, из каких морфем построеныслова.

Например, морфологический анализатор должен сказать, что слово “кошки” является формой множественного числа существительного “кошка”, и слово“мыши” является формой множественного числа существительного “мышь”. Таким образом, принимая слово “кошек” в качестве входных данных, морфологический анализатор должен производить выход, похожий на “кошка NOUN femnplur gent”.Морфологический разбор дает информацию, которая полезна во многих приложениях обработки естественных языков [163].

Морфологический анализ помогает узнать особенности слов и грамматики. Морфологическая информациятакже помогает проверять орфографию, чтобы решить, является ли какой-тотокен словом или нет. Например, в документах можно использовать для поискане только слово “кошки”, если пользователь задает запрос “кошки”, но и слово“кошка”.В настоящее время большинство методов обработки и классификации текстовой информации не учитывают морфологические характеристики, а используют только статистические меры.

Такие методы не полностью отражают семан82тические значения текстов, разные словоформы одной и той же леммы могутсчитать разными объектами, например “машина” и “машины”, что увеличиваетвероятность ошибки при обработке и классификации. Целью данной работы является использование морфологических характеристик при обработке текстов,для того, чтобы компьютер мог изучать языки как человек, т.е. понимать грамматику и взаимосвязи между элементами текстов [164].В данной работе используются два главных источника для создания морфологических словарей:Открытый корпус для русского языкаОткрытый Корпус [165] — это проект по созданию русского морфологического словаря и корпуса текстов с лингвистическими разметками на русскомязыке, которые являются свободно доступными для использования.Корпуса размеченных текстов используются для решения лингвистическихзадач, например, классификации текстов, автоматической морфологической разметки (part-of-speech tagging), распознавания речи и т.п.

В размеченных корпусах частям текста приписана лингвистическая информация [166].Создание размеченных корпусов требует много времени и сил. Размеченныекорпуса часто создаются при поддержке государственных организаций, и количество таких корпусов невелико. Однажды созданные корпуса помогают многимисследователям в решении различных задач. Чтобы корпуса могли максимально помогать научному сообществу, нужно, чтобы они были свободно доступныдля просмотра через интерфейс и скачивания для дальнейших обработки и использований.PennTreeBank для английского языкаPennTreeBank [167] — это проект по созданию корпуса текстов с лингвистическими разметками на английском языке, созданный в университете PennsylvaniaСША. По корпусу был собран набор словоформ и создан морфологический словарь английского языка.PennTreeBank является корпусом текстов, аннотирующим синтаксическую исемантическую структуру предложения.

Создание таких корпусов как PennTreeBankначалось в начале 1990-х годов при революции в компьютерной лингвистике,когда компьютеры стали способны обрабатывать огромное количество данных.83Однако, несмотря на происходящее в компьютерной лингвистике, значение корпуса PennTreeBank становится все более значительным в научной лингвистикев целом. Например, аннотированные данные имеют решающее значение в синтаксических исследованиях для проверки языковой структуры предложений.3.1.1Структура морфологического словаряДля реализации морфологического словаря [40] используется структура данных“префиксное дерево” [168] - это тип дерева поиска для хранения ассоциативного массива из элементов (ключ, значение), где ключи являются префиксамистрок.

Ключ одного узла состоит из символов на пути из корня дерева до этогоузла. Корень дерева содержит пустую строку. Значения, связанные с ключомсодержат морфологические модели префикса этого узла. Чтобы найти морфологические варианты словоформы нужно обходить дерево по символам этойсловоформы. Временная сложность операции морфологического поиска словоформы является линейной и равна O(n), где n - длина словоформы.Рис.

3.1: Структура морфологического словаря.84Пример модели русской морфологии №106:Модель Суффикс106-ть-ю-ем-ешь-ете-ет-ют-л-ла-ло-ли-й-йтеРазметкаimpf, tran, VERB1per, indc, pres, sing1per, indc, plur, pres2per, indc, pres, sing2per, indc, plur, pres3per, indc, pres, sing3per, indc, plur, presindc, masc, past, singfemn, indc, past, singindc, neut, past, singindc, past, plurexcl, impr, singexcl, impr, plurПараметры морфологических словарей:ПараметрКоличествоКоличествоКоличествоКоличествоКоличество3.1.2Русский Английскийузловлемммоделейморфологических подмножествморфологических характеристик71450538847435597391102679917822138704545Морфологический разборМорфологический разбор словоформы [169] содержит следующую информацию: id леммы и морфологические характеристики.

Одна словоформа может85иметь несколько морфологических разборов, например для словоформы «пары»:Вариант 1: id леммы = 223625, морфологические признаки: inan, masc,NOUN, nomn, plur;Вариант 2: id леммы = 223625, морфологические признаки: inan, masc,NOUN, accs, plur;Вариант 3: id леммы = 223626, морфологические признаки: inan, femn,NOUN, gent, sing;Вариант 4: id леммы = 223626, морфологические признаки: inan, femn,NOUN, nomn, plur;Вариант 5: id леммы = 223626, морфологические признаки: inan, femn,NOUN, accs, plur;Вариант 6: id леммы = 223627, морфологические признаки: inan, femn,NOUN, Geox, Sgtm, gent, sing;Вариант 7: id леммы = 224617, морфологические признаки: GNdr, inan,NOUN, Pltm, nomn, plur;Вариант 8: id леммы = 224617, морфологические признаки: GNdr, inan,NOUN, Pltm, accs, plur;Таблицы морфологических признаков описаны в приложении.3.1.3Разрешение морфологической многозначностиЗадача снятия морфологической многозначности [170] является одной из главных задач обработки естественного языка, которая существует на всех языках.Для каждого языка используются разные методы снятия морфологической многозначности в зависимости от особенностей этого языка.

Почти все системы анализа текстов требуют снятие многозначности. Решение морфологической многозначности так же нужно и для многих других задач обработки естественныхязыков. Кроме того, почти на всех языках есть омонимы - это те слова, которыезвучат одинаково, но имеют совершенно разные значения [41].Активно развиваются направления разрешения морфологической многозначности, которые можно разделить на:861. Подходы по составленными ручным способом правилам [156];2. Подходы, которые используют вероятностные модели и основаны на статистике [171];3. Подходы, которые включают как вероятностные модели, так и правила[172];Рассмотрим скрытую марковскую модель для разрешения морфологическоймногозначности [173].

Скорость работы и размер модели Маркова сильно зависят от размера набора морфологических характеристик, поэтому при обучениинужно выбрать набор морфологических характеристик для максимизации значений целевых параметров алгоритма.Решаем задачу - задан текст в виде списка слов с возможными морфологическими вариантами, нужно найти наиболее вероятную морфологическую последовательность ~z ∈ S T при наблюдаемой последовательности слов ~x ∈ V T :P(~x, ~z; A, B)= argmax P(~x, ~z; A, B),argmax P(~z|~x; A, B) = argmax P~z~z~zx, ~z; A, B)~z P(~(3.1)где Aij - вероятность перехода наблюдаемого состояния zt из значения i взначение j и Bjk = P(xt = vk |zt = sj ) - вероятность того, что наблюдаемоесостояние xt принимает значение vk при условии, что скрытое состояние zt приняло значение sj в любой момент t.Обозначивαi (t) = max P(x1 , x2 , .

. . , xt , zt = si ; A, B),(3.2)αi (0) = A0i , i = 1..|S|,(3.3)решаем задачу используя динамическое программирование [81],αi (0) = A0i , i = 1..|S|,(3.4)αj (t) = max αi (t − 1)Aij Bjxt , j = 1..|S|, t = 1..T.(3.5)|S|i=1873.2Разработка математического и алгоритмитического обеспечения вычислительного комплекса семантической нейронной сетиНейро-семантическая сеть [40] состоит из трех последовательных частей:1. Часть «семантические векторные представления», которая вычисляет векторные представления грамматических структур предложений, содержит автоэнкодеры по заданным грамматическим структурам (SVO, SVA, ...), которыепринимают на вход слова в виде пар (вектор, морфология) и объединяют их водну пару.

Цель заключается в том, чтобы близкие по смыслу структуры предложений имели похожие векторные представления, например «девушка читаеткнигу» и «женщина читает роман».Примеры часто встречаемых грамматических структур:• AN (прилагательное - существительное);• SVO (субъект - действие - объект);• SVA (субъект - действие - наречие);Рис. 3.2: Семантическое векторное представление.88Для поиска грамматических структур для обучения семантических векторных представлений будем считать частоту вхождения множеств из не более чемng семантических моделей.

Характеристики

Список файлов диссертации

Вычислительный комплекс- классификатор текстов с использованием морфологического анализа и нейро-семантических сетей
Документы
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
7021
Авторов
на СтудИзбе
260
Средний доход
с одного платного файла
Обучение Подробнее