Диссертация (1137276), страница 3

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 3 страницаДиссертация (1137276) страница 32019-05-202019-05-20СтудИзба

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 3)

Проводится сравнение методов рубрикации аннотаций научныхпубликаций с использованием различных функций релевантности, в том числе,с использованием предложенной в диссертационном исследовании меры релевантности СУВСС.В четвертой главе рассматривается задача пополнения научной таксономии. Формулируется задача пополнения научной таксономии и предлагаетсявычислительный метод для ее решения. Метод применен к таксономиям двухобластей чистой и прикладной математики.12В пятой главе проводится аналогия между задачей поиска по однословному ключу и фильтрации обсценной лексики. Утверждается, что несмотря на то,что для решения этих задач могут быть использованы одинаковые методы, оптимизируются разные критерии качества, которые влияют на выбор конкретного метода. Описывается эксперимент по разработке фильтра на основе СУВССи демонстрируется его эффективность с точки зрения оптимизируемого критерия – полноты, а так же с точки зрения временной сложности.В шестой главе приводится описание программных комплексов, реализующих разработанные в исследовании модели и методы, а также решающие некоторые вспомогательные задачи сбора и обработки данных.

Библиотека EASTреализует предложенный алгоритм построения нормированного аннотированного суффиксного дерева за линейное время и с линейными затратами по памяти, а также выполняет предварительную обработку текстов. Утилита WikiDPпозволяет извлекать из Википедии данные различных типов, такие как деревокатегорий с корнем в заданном узле и принадлежащие к этом дереву статьи.Объем и структура работы. Диссертация состоит из введения, шестиглав и заключения. Полный объём диссертации составляет 124 страницы, включая 15 рисунков и 32 таблицы. Список литературы содержит 105 наименований.Автор диссертационного исследования благодарит научного руководителя – Бориса Григорьевича Миркина – за 7 лет плодотворного сотрудничестваи все уроки и советы, существенно повлиявшие на формирование автора какисследователя, и поддержку во всех научных начинаниях, руководителя Департамента анализа данных и искусственного интеллекта ФКН НИУ ВШЭ иМеждународной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ – Сергея Олеговича Кузнецова – за создание азартного исследовательского духа на департаменте и в лаборатории, своих коллег – МихаилаДубова и Дмитрия Ильвовского – за бесконечные часы плодотворных обсуждений и совместной работы, студентов ФКН НИУ ВШЭ – Максима Яковлева,Анну Шишкову, Георгия Котова – за участие в проектах, связанных с развитием тематики диссертационного исследования, своих друзей – Ольгу Чугунову,Дину Шагалову и Марию Смирнову - за поддержку на каждом этапе учебы васпирантуры и подготовки диссертации, а Ольгу – и за разметку данных.13Глава 1.

Способы представления текстов для машинной обработки1.1ВведениеФормальное представление текста – это математическая структура, построенная по неструктурированному тексту [6; 7]. Формальным представлением текста может быть алгебраическая структура, теоретико-множественная илиграфовая структура, комбинация распределений вероятностей слов. Чаще всего говорят о формальном представлении большого числа – коллекции / корпуса – текстов, поскольку представление одного текста с помощью математической конструкции не представляет особого интереса.

Напротив, представлениекаждого текста из коллекции с помощью одной и той же конструкции делаетвозможным использование математических методов для обработки, анализа,сравнения, определения сходства между текстами, классификации, кластеризации, генерации текстов и так далее. В этой главе будут рассмотрены четыреосновных класса представлений текстов: векторная модель, языковая модель,модели скрытых тем и модели суффиксных деревьев.

Исторически первая векторная модель представления текста имеет наибольшее количество применений, однако некоторые ее недостатки (например, не учитывается порядок слов)делает не возможным ее использование в тех задачах, в которых необходимосгенерировать фрагмент текста или оценить вероятность его появления. В таком случае используются генеративные модели представления текста, такиекак языковая модель и некоторые модели скрытых тем, основанные на скрытом размещении Дирихле. И векторная модель, и языковая модель, и модельскрытых тем основаны на общей идее: текст является набором так называемыхтермов – слов в исходном виде или их значимых фрагментов, например, основ.Отсюда следует общий недостатков всех перечисленных моделей: при обработкеи анализе текстов учитывается только четкое совпадение между термами. Модель суффиксных деревьев – менее популярная в силу невысокой вычислительной эффективности – до определенной степени позволяет учитывать нечеткиесовпадения, что делает возможным ее использование в задачах интерпретациитекстов.141.2Векторная модель представления текстовВекторная модель – это одна из наиболее популярных моделей представления текста [6].

В основе этой модели лежит так называемый мешок слов – принцип максимального упрощения структуры текста [8]. Согласно этому принципу,текст является множеством или мультимножеством входящих в него слов. Очевидно, что использование этого принципа ведет к потере порядка слов, а следовательно, и коротких, и длинных, в том числе, анафорических и кореферентныхсвязей [7]. В векторной модели текст представляется вектором в пространствеслов (или каких-нибудь других элементов текста, так называемых, термов), причём каждому терму соответствует своя координата векторного пространства.

Вкачестве значения вектора используется частота терма в тексте. Если в общемпространстве термов представляют два или более текстов – так называемуюколлекцию текстов – часто используют − кодировку значений вектора,равную количеству вхождений терма в данный текст, делённому на логарифмотносительного количества текстов, содержащих это слово [1]: − = , × log||.|′ ∈ | ∈ ′ |В этой формуле первый сомножитель , – это локальный вес, то есть, частота терма в тексте , а второй сомножитель – это глобальный вес,показывающий логарифм от величины, обратной доле текстов ′ , содержащихтерм среди общего числа текстов ||.

− кодировка снижает вес часто встречающихся во всех текстах коллекции термов и повышает вес термов,характерных для данного текста. Иногда формулу − весов меняют, сохраняя при этом общий смысл: первый множитель – локальный вес – отвечаетза выбор частотных слов в данном тексте, второй множитель – глобальный вес– за отсеивание слов, одинаково частотных во всей коллекции. Таким образом,общая схема взвешивания устроена так: = × [1]. Некоторые другиевозможные локальные веса представлены в работах [9]:– Бинарный вес: = 0, если терм не встречается в тексте , 1, вобратном случае– Частота: = – Логарифмический вес: = log( + 1)– Скорректированный Гауссов вес: = 2 max( ) + 0.515Некоторые глобальные веса:– Бинарный вес: = 12– Гауссов вес: = ∑︀ 1– − вес: = , где – сколько раз –тый терм встретился вовсей коллекции, а – число текстов, в которых встретился –тый терм– вес: = log 1+, где – количество термов во всей коллекции(иначе – объем словаря)∑︀ log – Энтропия: = 1 − log , где = .

+1В статье [10] следующая схема взвешивания = log(1 + ) × log ( )+1получила название − (term frequency – inverse corpus frequency).Основным достоинством векторной модели является ее простота и тотфакт, что векторное представление текстов делает возможным использованиелинейно-алгебраических операций для определения сходства между текстамии ранжирования текстов по соответствию запросу [11]. Для этих целей используется косинусная мера релевантности, которая будет описана более подробнониже.

В общих чертах косинусная мера релевантности определяется как нормированное скалярное произведение [1]. Другим очевидным достоинством векторной модели является простота ее построения по заданному корпусу текстов[12]. Во многих современных библиотеках автоматической обработки текстов,таких как gensim [13] и NLTK [14] реализованы индексаторы коллекций текстовна основе векторной модели – функции, задающие как координаты векторногопространства (т.е. выделяющие термы), так и соответствующие каждому тексту.Однако, за внешней простотой векторной модели кроются некоторые существенные недостатки. Прежде всего, главная предпосылка векторный модели, аименно понятие мешка слов, с статистической точки зрения означает гипотезу онезависимости слов, что в корне не верно с точки зрения лингвистики и анализаестественного языка [12]. Использование нормированного скалярного произведения в качестве меры сходства приводит к тому, что более длинные текстывсегда имеют низкую степень сходства с остальными текстами из-за нормировки длинной текста [15].

Главным же недостатком векторной модели являетсяотсутствие учета синонимии между словами [15]: в векторной модели словам«Голландия» и «Нидерланды» будут соответствовать разные координаты, поэтому синонимичность этих слов никак не будет отражена.16Тем не менее, векторная модель широко используется во многих задачахавтоматической обработки текстов: категоризации, классификации и кластеризации текстов, а также в задаче поиска по запросу, исторически первой задаче,для решения которой была использована векторная модель [1]. Задача категоризации текстов заключается в распределении текстов по заранее заданномумножеству категорий.

Характеристики

Тип файла

PDF-файл

Размер

1,94 Mb

Материал

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

razrabotka-vychislitelnyh-metodov-analiza-tekstov-s-ispolzovaniem-annotirovannyh-suffiksnyh-derevev.rar

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.