Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 3

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 3 страницаДиссертация (1137276) страница 32019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 3)

Проводится сравнение методов рубрикации аннотаций научныхпубликаций с использованием различных функций релевантности, в том числе,с использованием предложенной в диссертационном исследовании меры реле­вантности СУВСС.В четвертой главе рассматривается задача пополнения научной таксоно­мии. Формулируется задача пополнения научной таксономии и предлагаетсявычислительный метод для ее решения. Метод применен к таксономиям двухобластей чистой и прикладной математики.12В пятой главе проводится аналогия между задачей поиска по однословно­му ключу и фильтрации обсценной лексики. Утверждается, что несмотря на то,что для решения этих задач могут быть использованы одинаковые методы, оп­тимизируются разные критерии качества, которые влияют на выбор конкретно­го метода. Описывается эксперимент по разработке фильтра на основе СУВССи демонстрируется его эффективность с точки зрения оптимизируемого крите­рия – полноты, а так же с точки зрения временной сложности.В шестой главе приводится описание программных комплексов, реализую­щих разработанные в исследовании модели и методы, а также решающие неко­торые вспомогательные задачи сбора и обработки данных.

Библиотека EASTреализует предложенный алгоритм построения нормированного аннотирован­ного суффиксного дерева за линейное время и с линейными затратами по памя­ти, а также выполняет предварительную обработку текстов. Утилита WikiDPпозволяет извлекать из Википедии данные различных типов, такие как деревокатегорий с корнем в заданном узле и принадлежащие к этом дереву статьи.Объем и структура работы. Диссертация состоит из введения, шестиглав и заключения. Полный объём диссертации составляет 124 страницы, вклю­чая 15 рисунков и 32 таблицы. Список литературы содержит 105 наименований.Автор диссертационного исследования благодарит научного руководите­ля – Бориса Григорьевича Миркина – за 7 лет плодотворного сотрудничестваи все уроки и советы, существенно повлиявшие на формирование автора какисследователя, и поддержку во всех научных начинаниях, руководителя Де­партамента анализа данных и искусственного интеллекта ФКН НИУ ВШЭ иМеждународной лаборатории интеллектуальных систем и структурного анали­за НИУ ВШЭ – Сергея Олеговича Кузнецова – за создание азартного иссле­довательского духа на департаменте и в лаборатории, своих коллег – МихаилаДубова и Дмитрия Ильвовского – за бесконечные часы плодотворных обсуж­дений и совместной работы, студентов ФКН НИУ ВШЭ – Максима Яковлева,Анну Шишкову, Георгия Котова – за участие в проектах, связанных с развити­ем тематики диссертационного исследования, своих друзей – Ольгу Чугунову,Дину Шагалову и Марию Смирнову - за поддержку на каждом этапе учебы васпирантуры и подготовки диссертации, а Ольгу – и за разметку данных.13Глава 1.

Способы представления текстов для машинной обработки1.1ВведениеФормальное представление текста – это математическая структура, по­строенная по неструктурированному тексту [6; 7]. Формальным представлени­ем текста может быть алгебраическая структура, теоретико-множественная илиграфовая структура, комбинация распределений вероятностей слов. Чаще все­го говорят о формальном представлении большого числа – коллекции / корпу­са – текстов, поскольку представление одного текста с помощью математиче­ской конструкции не представляет особого интереса.

Напротив, представлениекаждого текста из коллекции с помощью одной и той же конструкции делаетвозможным использование математических методов для обработки, анализа,сравнения, определения сходства между текстами, классификации, кластериза­ции, генерации текстов и так далее. В этой главе будут рассмотрены четыреосновных класса представлений текстов: векторная модель, языковая модель,модели скрытых тем и модели суффиксных деревьев.

Исторически первая век­торная модель представления текста имеет наибольшее количество примене­ний, однако некоторые ее недостатки (например, не учитывается порядок слов)делает не возможным ее использование в тех задачах, в которых необходимосгенерировать фрагмент текста или оценить вероятность его появления. В та­ком случае используются генеративные модели представления текста, такиекак языковая модель и некоторые модели скрытых тем, основанные на скры­том размещении Дирихле. И векторная модель, и языковая модель, и модельскрытых тем основаны на общей идее: текст является набором так называемыхтермов – слов в исходном виде или их значимых фрагментов, например, основ.Отсюда следует общий недостатков всех перечисленных моделей: при обработкеи анализе текстов учитывается только четкое совпадение между термами. Мо­дель суффиксных деревьев – менее популярная в силу невысокой вычислитель­ной эффективности – до определенной степени позволяет учитывать нечеткиесовпадения, что делает возможным ее использование в задачах интерпретациитекстов.141.2Векторная модель представления текстовВекторная модель – это одна из наиболее популярных моделей представле­ния текста [6].

В основе этой модели лежит так называемый мешок слов – прин­цип максимального упрощения структуры текста [8]. Согласно этому принципу,текст является множеством или мультимножеством входящих в него слов. Оче­видно, что использование этого принципа ведет к потере порядка слов, а следо­вательно, и коротких, и длинных, в том числе, анафорических и кореферентныхсвязей [7]. В векторной модели текст представляется вектором в пространствеслов (или каких-нибудь других элементов текста, так называемых, термов), при­чём каждому терму соответствует своя координата векторного пространства.

Вкачестве значения вектора используется частота терма в тексте. Если в общемпространстве термов представляют два или более текстов – так называемуюколлекцию текстов – часто используют − кодировку значений вектора,равную количеству вхождений терма в данный текст, делённому на логарифмотносительного количества текстов, содержащих это слово [1]: − = , × log||.|′ ∈ | ∈ ′ |В этой формуле первый сомножитель , – это локальный вес, то есть, ча­стота терма в тексте , а второй сомножитель – это глобальный вес,показывающий логарифм от величины, обратной доле текстов ′ , содержащихтерм среди общего числа текстов ||.

− кодировка снижает вес ча­сто встречающихся во всех текстах коллекции термов и повышает вес термов,характерных для данного текста. Иногда формулу − весов меняют, со­храняя при этом общий смысл: первый множитель – локальный вес – отвечаетза выбор частотных слов в данном тексте, второй множитель – глобальный вес– за отсеивание слов, одинаково частотных во всей коллекции. Таким образом,общая схема взвешивания устроена так: = × [1]. Некоторые другиевозможные локальные веса представлены в работах [9]:– Бинарный вес: = 0, если терм не встречается в тексте , 1, вобратном случае– Частота: = – Логарифмический вес: = log( + 1)– Скорректированный Гауссов вес: = 2 max( ) + 0.515Некоторые глобальные веса:– Бинарный вес: = 12– Гауссов вес: = ∑︀ 1– − вес: = , где – сколько раз –тый терм встретился вовсей коллекции, а – число текстов, в которых встретился –тый терм– вес: = log 1+, где – количество термов во всей коллекции(иначе – объем словаря)∑︀ log – Энтропия: = 1 − log , где = .

+1В статье [10] следующая схема взвешивания = log(1 + ) × log ( )+1получила название − (term frequency – inverse corpus frequency).Основным достоинством векторной модели является ее простота и тотфакт, что векторное представление текстов делает возможным использованиелинейно-алгебраических операций для определения сходства между текстамии ранжирования текстов по соответствию запросу [11]. Для этих целей исполь­зуется косинусная мера релевантности, которая будет описана более подробнониже.

В общих чертах косинусная мера релевантности определяется как нор­мированное скалярное произведение [1]. Другим очевидным достоинством век­торной модели является простота ее построения по заданному корпусу текстов[12]. Во многих современных библиотеках автоматической обработки текстов,таких как gensim [13] и NLTK [14] реализованы индексаторы коллекций текстовна основе векторной модели – функции, задающие как координаты векторногопространства (т.е. выделяющие термы), так и соответствующие каждому тек­сту.Однако, за внешней простотой векторной модели кроются некоторые суще­ственные недостатки. Прежде всего, главная предпосылка векторный модели, аименно понятие мешка слов, с статистической точки зрения означает гипотезу онезависимости слов, что в корне не верно с точки зрения лингвистики и анализаестественного языка [12]. Использование нормированного скалярного произве­дения в качестве меры сходства приводит к тому, что более длинные текстывсегда имеют низкую степень сходства с остальными текстами из-за нормиров­ки длинной текста [15].

Главным же недостатком векторной модели являетсяотсутствие учета синонимии между словами [15]: в векторной модели словам«Голландия» и «Нидерланды» будут соответствовать разные координаты, по­этому синонимичность этих слов никак не будет отражена.16Тем не менее, векторная модель широко используется во многих задачахавтоматической обработки текстов: категоризации, классификации и кластери­зации текстов, а также в задаче поиска по запросу, исторически первой задаче,для решения которой была использована векторная модель [1]. Задача катего­ризации текстов заключается в распределении текстов по заранее заданномумножеству категорий.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее