Главная » Просмотр файлов » Диссертация

Диссертация (1137276)

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев)Диссертация (1137276)2019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла

Федеральное государственное автономное образовательноеучреждение высшего профессионального образованияНАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»На правах рукописиЧЕРНЯКЕКАТЕРИНА ЛЕОНИДОВНАРАЗРАБОТКА ВЫЧИСЛИТЕЛЬНЫХ МЕТОДОВАНАЛИЗА ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМАННОТИРОВАННЫХ СУФФИКСНЫХ ДЕРЕВЬЕВСпециальность 05.13.18 —«Математическое моделирование, численные методы и комплексы программ»Диссертация на соискание учёной степеникандидата технических наукНаучный руководитель:доктор технических наукБ. Г. МиркинМосква – 20162ОглавлениеСтр.Введение .

. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 1. Способы представления текстов для машиннойобработки . . . . . . . . . . . . . . . . . . . . . . . . . . .1.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . .

. .1.2 Векторная модель представления текстов . . . . . . . . . . .1.3 Языковая модель представления текста . . . . . . . . . . . .1.4 Представление текста на основе моделей скрытых тем . . .1.5 Теоретико-множественная модель представления текстов . .1.5.1 Наивный алгоритм построения суффиксного дерева .1.5.2 Построение аннотированного суффиксного дерева наоснове разбиения текста на фрагменты .

. . . . . . .1.6 Выводы по главе . . . . . . . . . . . . . . . . . . . . . . . . ...............5.......13131418192530. . .. . .3235Глава 2. Оценивание релевантности строки тексту сиспользованием метода аннотированногосуффиксного дерева (АСД) . . .

. . . . . . . . . . . . . .2.1 Проблема оценивания релевантности строки тексту и основныеподходы к ее решению . . . . . . . . . . . . . . . . . . . . . . . .2.1.1 Теоретико-множественные меры релевантности . . . . .2.1.2 Релевантность в векторной модели . . . . . . .

. . . . . .2.1.3 Релевантность в бинарной модели независимости . . . .2.1.4 Релевантность в вероятностной модели . . . . . . . . . .2.1.5 Релевантность в тематических моделях . . . . . . . . .2.1.6 Релевантность в теоретико-множественной моделипредставления текстов . . . . .

. . . . . . . . . . . . . . .2.2 Метод nAST-k оценивания релевантности строки тексту сиспользованием нормированного АСД . . . . . . . . . . . . . . .2.2.1 Структура метода . . . . . . . . . . . . . . . . . . . . . .2.2.2 Подготовка текстов к обработке . . . . . . . . . . . . . .2.2.3 Параметризация АСД . . . . . . . . .

. . . . . . . . . . ..36......363738383940.41....4343444432.2.42.2.5. .46. .. .. .475052..................545555556363Глава 4. Пополнение научной таксономии с использованиемсправочных материалов интернета . . . . . . . . . . . .4.1 Метод пополнения таксономии ReTAST-w . .

. . . . . . . . .4.2 Экспериментальная верификация метода ReTAST-w . . . . .4.2.1 Постановка эксперимента . . . . . . . . . . . . . . . . .4.2.2 Выбор данных . . . . . . . . . . . . . . . . . . . . . . .4.2.3 Пошаговое описание метода ReTAST-w . . . . . . . . .4.2.4 Схема эксперимента . . . . . . . . . . . . . . .

. . . . .4.2.5 Экспертное оценивание . . . . . . . . . . . . . . . . . .4.2.6 Результаты эксперимента . . . . . . . . . . . . . . . . ...................707174747576868790Глава 5. Фильтрация обсценной лексики . . . . . . . .5.1 Метод фильтрации обсценной лексики fAST . . . . .5.2 Экспериментальная верификация метода фильтрации5.2.1 Постановка эксперимента . . . . . . . . . .

. .5.2.2 Схема эксперимента . . . . . . . . . . . . . . .5.2.3 Результаты эксперимента . . . . . . . . . . . .............9495969797992.3Нормирование оценки релевантности . . . . . . . . . .Распространение линейных алгоритмов построениясуффиксных деревьев на случай АСД . . . . . . . . . .2.2.6 Построение таблицы релевантности «Строка – Текст» .Выводы по главе . . .

. . . . . . . . . . . . . . . . . . . . . . .Глава 3. Задача рубрикации научных статей темамизаданного списка . . . . . . . . . . . . . . . . .3.1 Метод рубрикации AnnAST . . . . . . . . . . . . . .3.2 Экспериментальная верификация метода AnnAST .3.2.1 Постановка эксперимента . . . .

. . . . . . .3.2.2 Схема эксперимента . . . . . . . . . . . . . .3.2.3 Результаты эксперимента . . . . . . . . . . .из. .. .. .. .. .. .................... . . .. . . .fAST. . . .. . . .. . . .......Глава 6. Комплексы программ . . . . . . . . . . . . . . . . . . . . . . 1016.1 Программная реализация построения таблиц РСТ и метода АСД 1016.1.1 Использование программы EAST из командной строки . . 10246.1.26.2Использование программы EAST как библиотеки языкаPython 2.7 . . . .

. . . . . . . . . . . . . . . . . . . . . . . 1036.1.3 Структура программы EAST . . . . . . . . . . . . . . . . . 104Утилита WikiDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

. . . . . . 107Список литературы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120Список таблиц . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225ВведениеАктуальность темы. Проникновение вычислительной техники во всесферы производственной, социальной и политической систем привело к необхо­димости разработки методов автоматического семантического анализа тексто­вых документов, размещенных в индивидуальных компьютерах и в интернете.Часть связанных с этим задач хорошо осознана и получает решение в науч­ной и технической литературе.

Это, прежде всего, задачи поиска и извлеченияинформации, категоризации текстов, извлечения ключевых словосочетаний, из­влечение фактов и др. Большинство методов решения таких задач основано напредварительной «ручной» разметке текстов (выделение ключевых слов и дру­гих данных для обучения). Однако, в связи с наступлением эры глобализации,существует явная потребность в разработке методов, не требующих предвари­тельной разметки текстов. Кроме того, создание корректных и эффективныхморфологических и синтаксических парсеров – это трудоемкая задача, решен­ная не для всех языков.

Это делает актуальной задачу разработки методованализа текстов, не требующих их предварительной разметки.В большинстве практических задач анализа коллекций текстовых доку­ментов, включая задачу информационного поиска, предполагается вычислениеоценок релевантности «строка–текст». В качестве текстов, разумеется, высту­пают те или иные документы, а в качестве строк – ключевые слова и словосо­четания, заданные извне или извлеченные из текстовых документов по опреде­лённым принципам, или произвольные элементы текста, состоящие из фиксиро­ванного количества букв или слов.

Мера релевантности должна удовлетворятьследующим естественным свойствам:1. Интуитивная простота (понятные единицы и границы измерения);2. Независимость от длины текста;3. Независимость от лексической вариативности текста;4. Возможность эффективной вычислительной реализации.Большинство известных мер релевантности основаны на использованиив качестве элементарной единицы текста слова (или его нормальной формы –леммы, или его (псевдо)основы – стема). К этому классу моделей релевантностиотносятся векторная модель релевантности [1], вероятностная модель релевант­ности [2] языковая модель релевантности на словах или символьных -граммах6[3], модель суффиксного дерева [4].

Эти модели предполагают представлениетекста в виде неупорядоченного набора слов – «мешка» слов, а также предпо­лагают учет морфологии и синтаксиса языка для идентификации и унифика­ции слов. Существенным недостатком этих моделей можно считать невозмож­ность учесть нечеткие (то есть, с различием на несколько символов) совпадениямежду строками и текстами. До некоторой степени этот недостаток помогаютпреодолеть языковая модель релевантности на символьных –граммах [3] и мо­дель суффиксного дерева [5]. Однако же, языковая модель релевантности насимвольных –граммах часто бывает неэффективной с вычислительной точкизрения, поскольку возникающая в ней проблема нулевых вероятностей зачастуюрешается с помощью вычислительно неэффективных алгоритмов сглаживания,а модель суффиксного дерева, предложенная в [5], по определению не удовле­творяет требованиям 3 и 4, сформулированным выше.Для решения обозначенных выше задач – необходимости предобработки инечеткости меры релевантности – и с учетом требований 1-4 необходима новаямодель совокупности «строка – текст», а также структура данных, позволяю­щая вычислять нечеткие оценки релевантности.В данном исследовании предлагается и верифицируется теоретико-множе­ственная модель совокупности «строка – текст», а адекватной структурой дан­ных для вычисления параметров оценки является аннотированное суффиксноедерево.В теоретико-множественной модели совокупности «строка – текст» текстпредставляется в виде множества коротких строк, например, последователь­ных пар или троек слов, а строка , состоящая из символов, = 1 2 .

Характеристики

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6381
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее