Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 2

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 2 страницаДиссертация (1137276) страница 22019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 2)

. . – множеством всех подстрок . . . , где >= 1, <= , <= . Длякаждой пары строка – текст несложно найти все возможные общие подстро­ки, иначе говоря, совпадения. Максимальным совпадением назовем такое сов­падение, при добавлении символа в начало или в конец которого, перестаетбыть совпадением. Допустим, существует совпадение строки с текстом .

. . .Определим его вероятность, как условную частоту последнего символа : ( . . . ) = ( | . . . −1 ) (УВС). Вероятностью максимального совпадениятогда является средняя сумма совпадений, в него входящих (СУВС), а полнойрелевантностью строки тексту – сумма вероятностей максимальных совпаде­ний данному тексту (СУВСС). Для эффективной реализации вычисления оце­нок релевантности следует использовать аппарат аннотированного суффиксно­7го дерева – структуры данных, которая позволяет вычислять все частоты всехподстрок.Объект исследования – вычислительные задачи анализа текстовых до­кументов, написанных на естественном языке.Предмет исследования – вычислительное моделирование текстов какстрок символов и задачи их анализа, решаемые путем наложения разных строкдруг на друга.Цель данного диссертационного исследования – разработка ориги­нальных моделей, методов, алгоритмов и программных комплексов, предназна­ченных для решения некоторых задач анализа текстовых документов на есте­ственном языке на уровне последовательностей символов.К задачам исследования относятся:1.

Разработка модели представления коллекции текстовых документовстроками и ассоциированной с ней функции релевантности;2. Верификация разработанной модели на реальных задачах анализа кол­лекций текстовых документов:a) Рубрикация текстовых документов в соответствии с заданнойсистемой рубрик;b) Пополнение таксономии с использованием внешней коллекциитекстов;c) Фильтрация коллекции текстовых документов от обсценнойлексики.3.

Реализация разработанных моделей и методов в виде комплекса про­грамм.К методам, использованным в исследовании, относятся:1. Метод Укконена для построения аннотированного суффиксного дереваза линейное время;2. Метод вычисления релевантности строки тексту с помощью наложениястроки на аннотированное суффиксное дерево его представляющее;3.

Методы вычисления релевантности строки тексту, основанные на пред­ставлении текстов векторными пространствами и вероятностными мо­делями.Научная новизна. В диссертации получен ряд новых научных результа­тов, которые выносятся на защиту:81. Разработана теоретико-множественная модель совокупности «строка­текст» с методом оценки релевантности строк тексту, основанном нааннотированных суффиксных деревьев. Предложен новый метод вы­числения оценок релевантности строки тексту СУВСС, апробирован­ный в работе;2. Предложен метод рубрикации научных статей с использованием кри­терия релевантности СУВСС, более точного, чем популярные методы,традиционно используемые в международных публикациях;3.

Разработан метод использования справочных материалов интернета, сучетом наличия в них шумовой компоненты, для пополнения предмет­ных таксономий. Методика апробирована в задачах пополнения таксо­номий чистой и прикладной математики с использованием русскоязыч­ной Википедии;4. Показана эффективность использование критерия релевантностиСУВСС в классе задач поиска по однословному ключу, в которомполнота важнее, чем точность;5.

Разработаны комплексы программ, реализующие предложенную теоре­тико-множественную модель совокупности «строка – текст» с исполь­зованием критерия релевантности СУВСС, применительно к решениюзадач в пунктах 2, 3 и 4.Теоретическая значимость работы заключается в разработке принци­пиально новых моделей и методов: теоретико-множественной модели совокуп­ности «строка – текст», модели нормированного аннотированного суффиксногодерева с критерием релевантности СУВСС, а также метода построения таблицрелевантности «строка – текст» (РСТ) для применения в конкретных задачах.Практическая ценность подтверждена экспериментами по сравнитель­ной оценке использования мер релевантности для рубрикации научных статей,результатами расчетов по пополнению таксономий с использованием материа­лов интернета и результатами решения задач поиска, ориентированных на егополноту.

Все разработанные методы реализованы в виде программных комплек­сов, предназначенных для решения исследовательских и прикладных задач.Разработанные методы и алгоритмы были успешно применены в реальных про­ектах компании ООО «ФОРС-Центр разработки» (метод фильтрации обсцен­ной лексики использован для анализа и определения тональности текстов всоциальных сетях в системе FORSMedia) и «ЕС-Лизинг» (метод рубрикации9использован для категоризации проектной документации) и проектах, выпол­нявшихся по грантам ВШЭ в 2010 – 2015 гг., а также в преподавательскойдеятельности Департамента анализа данных и искусственного интеллекта Фа­культета компьютерных наук НИУ ВШЭ.Достоверность полученных результатов подтверждена строгостьюиспользованных математических моделей и методов, экспериментами по срав­нению результатов применения разработанных традиционных методов на кон­кретных задачах, а также алгоритмической эффективностью программных ре­ализаций.Апробация результатов работы.

Основные результаты работы обсуж­дались и докладывались на следующих научных конференциях и семинарах:– 1-ой, 2-ой всероссийских научных конференция “Анализ изображений,сетей и текстов” (АИСТ-2012, АИСТ-2013), Екатеринбург, Россия; темыдокладов – “Автоматизация использования таксономий для аннотиро­вания текстовых документов”, “Использование ресурсов интернета дляпостроения таксономии”– 1-ом семинаре по кластерам, деревьям и порядкам (COT-2013), Москва,Россия; тема доклада – “An AST method for scoring string-to-textsimiliarity in semantic text analysis”– 8-ой международной конференции “Диалог” (Диалог-2013), Бекасово,Россия; тема доклада – “Computational refining of Russian-languagetaxonomy using Wikipedia”– 3-ей международной научной конференции “Анализ изображений, се­тей и текстов” (АИСТ-2014), Екатеринбург, Россия; тема доклада –“Conceptual maps: construction over a text collection and analysis”– 2-ой международной конференции “Информационные технологии и ко­личественный менеджмент” (ITQM-2014), Москва, Россия; тема докла­да – “A method for refining a taxonomy by using annotated suffix trees andWikipedia recourses”– 3-ей всероссийской конференции “Искусственный интеллект и естествен­ный язык” (AINL-2014), Москва, Россия; тема доклада – “Создание ивизуализация газетного интернет-корпуса”– 8-ой международной конференции “Веб-поиск и майнинг данных”(WSDM-2015), Шанхай, КНР тема доклада – “An approach to theproblem of annotation of research publication”;10– 2-ом международном семинаре по майнингу данных и автоматическойобработке текстов (DMNLP-2015) тема доклада – “Some thoughts onusing annotated suffix trees for NLP tasks”Публикация результатов.

Основные результаты работы изложены в13 научных статьях. 7 статей опубликованы в рецензируемых сборниках тру­дов международных и всероссийских конференций, 3 статьи опубликованы вжурналах из списка ВАК.Основные результаты работы1. Экспериментально показана целесообразность использования теоре­тико-множественной модели совокупности «строка-текст» и нормиро­ванного аннотированного суффиксного дерева (АСД) в качестве чис­ленного метода оценки параметров модели и ассоциированной с ниммеры релевантности для решения задач анализа коллекций текстовыхдокументов;2. В рамках теоретико-множественной модели совокупности «строка­текст» предложена и обоснована естественная мера релевантностиСУВСС, вычисляемая на основе нормированного АСД;3.

Показана эффективность использования меры релевантности, основан­ной на АСД, в задаче рубрикации коллекций текстовых документов безучителя – использование данной примеры приводит к лучшему ранжи­рованию;4. Предложен и применен к двум таксономиям прикладной математикиметод пополнения таксономии, использующий Википедию в качествевнешнего источника;5. Показана эффективность использования меры релевантности, основан­ной на АСД, в задаче фильтрации обсценной лексики – использованиеданной меры приводит к лучшим показателям полноты и вычислитель­ной сложности по времени;6.

Предложена адаптация алгоритма Укконена для построения АСД;7. Разработаны программные комплексы для извлечения данных из Ви­кипедии, для построения АСД, вычисления оценок релевантности ипостроения таблиц релевантности «строка – текст».Во введении раскрывается актуальность темы диссертации, формулиру­ются проблемы и задачи исследования, предмет исследования, определяютсяцели работы, описываются методы исследования, излагаются основные научные11результаты, обосновывается теоретическая и практическая значимость работы,даётся общая характеристика исследования.В первой главе приводится обзор четырех подходов к машинному пред­ставлению коллекций текстовых документов: векторная модель представленияколлекций текстовых документов, языковая модель представления коллекцийтекстовых документов, представление коллекции текстовых документов на ос­нове модели скрытых тем, представление коллекции текстовых документов наоснове модели суффиксных деревьев.

Рассматриваются задачи обработки и ана­лиза коллекций текстовых документов, в которых применяются те или иныемодели представления, возможные преимущества и ограничения. Приводятсяосновные определения, связанные с предварительной обработкой текстовых до­кументов, моделями представления текстовых документов, различными зада­чами обработки и анализа коллекций текстовых документов.Во второй главе рассматривается проблематика определения релевант­ности строки текстовому документу, принадлежащему некоторой коллекции.Утверждается, что построение функции релевантности тесно связано с выбран­ным формальным представлением коллекции текстовых документов. В связи сэтим рассматриваются различные функции релевантности, порождаемые раз­личными формальными представлениями коллекций текстовых документов.Вводится понятие нормированного аннотированного суффиксного дерева и свя­занной с ним естественно интерпретируемой функции релевантности СУВСС.Описывается метод построения таблиц релевантности «строка – текст» (РСТ),используемых в дальнейшем для анализа коллекций текстовых документов, атакже оптимальные по памяти и времени алгоритмы построения нормирован­ного аннотированного суффиксного дерева.В третьей главе рассматривается задача рубрикации аннотаций научныхпубликаций.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее