Диссертация (1137276)
Текст из файла
Федеральное государственное автономное образовательноеучреждение высшего профессионального образованияНАЦИОНАЛЬНЫЙ ИССЛЕДОВАТЕЛЬСКИЙ ИНСТИТУТ«ВЫСШАЯ ШКОЛА ЭКОНОМИКИ»На правах рукописиЧЕРНЯКЕКАТЕРИНА ЛЕОНИДОВНАРАЗРАБОТКА ВЫЧИСЛИТЕЛЬНЫХ МЕТОДОВАНАЛИЗА ТЕКСТОВ С ИСПОЛЬЗОВАНИЕМАННОТИРОВАННЫХ СУФФИКСНЫХ ДЕРЕВЬЕВСпециальность 05.13.18 —«Математическое моделирование, численные методы и комплексы программ»Диссертация на соискание учёной степеникандидата технических наукНаучный руководитель:доктор технических наукБ. Г. МиркинМосква – 20162ОглавлениеСтр.Введение .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Глава 1. Способы представления текстов для машиннойобработки . . . . . . . . . . . . . . . . . . . . . . . . . . .1.1 Введение . . . . . . . . . . . . . . . . . . . . . . . . . . .
. .1.2 Векторная модель представления текстов . . . . . . . . . . .1.3 Языковая модель представления текста . . . . . . . . . . . .1.4 Представление текста на основе моделей скрытых тем . . .1.5 Теоретико-множественная модель представления текстов . .1.5.1 Наивный алгоритм построения суффиксного дерева .1.5.2 Построение аннотированного суффиксного дерева наоснове разбиения текста на фрагменты .
. . . . . . .1.6 Выводы по главе . . . . . . . . . . . . . . . . . . . . . . . . ...............5.......13131418192530. . .. . .3235Глава 2. Оценивание релевантности строки тексту сиспользованием метода аннотированногосуффиксного дерева (АСД) . . .
. . . . . . . . . . . . . .2.1 Проблема оценивания релевантности строки тексту и основныеподходы к ее решению . . . . . . . . . . . . . . . . . . . . . . . .2.1.1 Теоретико-множественные меры релевантности . . . . .2.1.2 Релевантность в векторной модели . . . . . . .
. . . . . .2.1.3 Релевантность в бинарной модели независимости . . . .2.1.4 Релевантность в вероятностной модели . . . . . . . . . .2.1.5 Релевантность в тематических моделях . . . . . . . . .2.1.6 Релевантность в теоретико-множественной моделипредставления текстов . . . . .
. . . . . . . . . . . . . . .2.2 Метод nAST-k оценивания релевантности строки тексту сиспользованием нормированного АСД . . . . . . . . . . . . . . .2.2.1 Структура метода . . . . . . . . . . . . . . . . . . . . . .2.2.2 Подготовка текстов к обработке . . . . . . . . . . . . . .2.2.3 Параметризация АСД . . . . . . . . .
. . . . . . . . . . ..36......363738383940.41....4343444432.2.42.2.5. .46. .. .. .475052..................545555556363Глава 4. Пополнение научной таксономии с использованиемсправочных материалов интернета . . . . . . . . . . . .4.1 Метод пополнения таксономии ReTAST-w . .
. . . . . . . . .4.2 Экспериментальная верификация метода ReTAST-w . . . . .4.2.1 Постановка эксперимента . . . . . . . . . . . . . . . . .4.2.2 Выбор данных . . . . . . . . . . . . . . . . . . . . . . .4.2.3 Пошаговое описание метода ReTAST-w . . . . . . . . .4.2.4 Схема эксперимента . . . . . . . . . . . . . . .
. . . . .4.2.5 Экспертное оценивание . . . . . . . . . . . . . . . . . .4.2.6 Результаты эксперимента . . . . . . . . . . . . . . . . ...................707174747576868790Глава 5. Фильтрация обсценной лексики . . . . . . . .5.1 Метод фильтрации обсценной лексики fAST . . . . .5.2 Экспериментальная верификация метода фильтрации5.2.1 Постановка эксперимента . . . . . . . . . .
. .5.2.2 Схема эксперимента . . . . . . . . . . . . . . .5.2.3 Результаты эксперимента . . . . . . . . . . . .............9495969797992.3Нормирование оценки релевантности . . . . . . . . . .Распространение линейных алгоритмов построениясуффиксных деревьев на случай АСД . . . . . . . . . .2.2.6 Построение таблицы релевантности «Строка – Текст» .Выводы по главе . . .
. . . . . . . . . . . . . . . . . . . . . . .Глава 3. Задача рубрикации научных статей темамизаданного списка . . . . . . . . . . . . . . . . .3.1 Метод рубрикации AnnAST . . . . . . . . . . . . . .3.2 Экспериментальная верификация метода AnnAST .3.2.1 Постановка эксперимента . . . .
. . . . . . .3.2.2 Схема эксперимента . . . . . . . . . . . . . .3.2.3 Результаты эксперимента . . . . . . . . . . .из. .. .. .. .. .. .................... . . .. . . .fAST. . . .. . . .. . . .......Глава 6. Комплексы программ . . . . . . . . . . . . . . . . . . . . . . 1016.1 Программная реализация построения таблиц РСТ и метода АСД 1016.1.1 Использование программы EAST из командной строки . . 10246.1.26.2Использование программы EAST как библиотеки языкаPython 2.7 . . . .
. . . . . . . . . . . . . . . . . . . . . . . 1036.1.3 Структура программы EAST . . . . . . . . . . . . . . . . . 104Утилита WikiDP . . . . . . . . . . . . . . . . . . . . . . . . . . . . 105Заключение . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . 107Список литературы. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110Список рисунков . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 120Список таблиц . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 1225ВведениеАктуальность темы. Проникновение вычислительной техники во всесферы производственной, социальной и политической систем привело к необходимости разработки методов автоматического семантического анализа текстовых документов, размещенных в индивидуальных компьютерах и в интернете.Часть связанных с этим задач хорошо осознана и получает решение в научной и технической литературе.
Это, прежде всего, задачи поиска и извлеченияинформации, категоризации текстов, извлечения ключевых словосочетаний, извлечение фактов и др. Большинство методов решения таких задач основано напредварительной «ручной» разметке текстов (выделение ключевых слов и других данных для обучения). Однако, в связи с наступлением эры глобализации,существует явная потребность в разработке методов, не требующих предварительной разметки текстов. Кроме того, создание корректных и эффективныхморфологических и синтаксических парсеров – это трудоемкая задача, решенная не для всех языков.
Это делает актуальной задачу разработки методованализа текстов, не требующих их предварительной разметки.В большинстве практических задач анализа коллекций текстовых документов, включая задачу информационного поиска, предполагается вычислениеоценок релевантности «строка–текст». В качестве текстов, разумеется, выступают те или иные документы, а в качестве строк – ключевые слова и словосочетания, заданные извне или извлеченные из текстовых документов по определённым принципам, или произвольные элементы текста, состоящие из фиксированного количества букв или слов.
Мера релевантности должна удовлетворятьследующим естественным свойствам:1. Интуитивная простота (понятные единицы и границы измерения);2. Независимость от длины текста;3. Независимость от лексической вариативности текста;4. Возможность эффективной вычислительной реализации.Большинство известных мер релевантности основаны на использованиив качестве элементарной единицы текста слова (или его нормальной формы –леммы, или его (псевдо)основы – стема). К этому классу моделей релевантностиотносятся векторная модель релевантности [1], вероятностная модель релевантности [2] языковая модель релевантности на словах или символьных -граммах6[3], модель суффиксного дерева [4].
Эти модели предполагают представлениетекста в виде неупорядоченного набора слов – «мешка» слов, а также предполагают учет морфологии и синтаксиса языка для идентификации и унификации слов. Существенным недостатком этих моделей можно считать невозможность учесть нечеткие (то есть, с различием на несколько символов) совпадениямежду строками и текстами. До некоторой степени этот недостаток помогаютпреодолеть языковая модель релевантности на символьных –граммах [3] и модель суффиксного дерева [5]. Однако же, языковая модель релевантности насимвольных –граммах часто бывает неэффективной с вычислительной точкизрения, поскольку возникающая в ней проблема нулевых вероятностей зачастуюрешается с помощью вычислительно неэффективных алгоритмов сглаживания,а модель суффиксного дерева, предложенная в [5], по определению не удовлетворяет требованиям 3 и 4, сформулированным выше.Для решения обозначенных выше задач – необходимости предобработки инечеткости меры релевантности – и с учетом требований 1-4 необходима новаямодель совокупности «строка – текст», а также структура данных, позволяющая вычислять нечеткие оценки релевантности.В данном исследовании предлагается и верифицируется теоретико-множественная модель совокупности «строка – текст», а адекватной структурой данных для вычисления параметров оценки является аннотированное суффиксноедерево.В теоретико-множественной модели совокупности «строка – текст» текстпредставляется в виде множества коротких строк, например, последовательных пар или троек слов, а строка , состоящая из символов, = 1 2 .
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.