Главная » Просмотр файлов » Диссертация

Диссертация (1137276), страница 10

Файл №1137276 Диссертация (Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев) 10 страницаДиссертация (1137276) страница 102019-05-20СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 10)

Более того, элементами матрицы терм–текст, как правило,являются частоты, в то время как элементами РСТ таблицы являются оценкирелевантности. Таким образом, РСТ таблицу, построенную для фиксированногомножества строк-словосочетаний и фиксированной коллекции текстов, можносчитать моделью данной коллекции текстов: каждый текст представляется век­тором оценок релевантностей в пространстве строк–словосочетаний.

Таблица 1представляет фрагмент РСТ таблицы из [65].51Таблица 1 — Фрагмент РСТ таблицы [65]. Столбцы соответствуютпубликациям, строки-словосочетаниям, а элементы – оценкам релевантностиИзменение органи­зационно-правовойформыИзменениеуров­няконцентрациисобственностиПовышение эффек­тивности управле­ния затратамиСмена генеральногодиректораДоклад ВсемирногоБанка об экономикеРоссии0.3145Международныестандарты финансо­вой отчетности0.3616Если генеральныйдиректор иностра­нец0.36440.50160.31480.27060.44330.23510.24450.22640.23510.5947Для построения РСТ таблицы с использованием метода nAST-k необходи­мо проделать следующие шаги:1. Зафиксировать коллекцию текстов.

Для того, что бы последующий ана­лиз данной коллекции имел смысл, требуется сформировать однород­ную коллекцию текстов одинаковой стилистической и жанровой специ­фики, принадлежащих к общей предметной области. Например, в [65]предметом анализа была коллекция новостных сообщений о бизнес-про­цессах в пост-кризисной России в 2009-2010 годах, а в [66] – коллекцияаннотаций научных статей по анализу и майнингу данных.2. Зафиксировать множество входных строк, описывающих основные со­бытия, явления и термины в той же предметной области. В [65] сло­восочетания были сформированы с помощью экспертов и описывалиосновные события в сфере бизнеса, в [66] в качестве входных строкиспользовались темы таксономии ACM CCS.3. Для каждого текста построить собственное АСД, согласно методу опи­санному выше: каждый текст разбивают на строки из 2-4 слов, все мно­жество строк подают на вход алгоритму построения АСД.

В [65] былииспользованы строки из трех слов, поскольку большая часть строк со­стояла из трех слов, так что глубина АСД получается близкой к длинесловосочетаний, на него накладываемых.4. На каждое АСД последовательно наложить все строки и получить оцен­ки релевантности. Оценки релевантности сохранить в таблицу, котораяи будет искомой РСТ таблицей.52Заметим, что, во-первых, строго говоря, РСТ таблица не должна хра­ниться в памяти компьютера как таблица. Представление РСТ таблица в видеразреженной матрицы [67] вполне допустимо и оправдано с технической точ­ки зрения: значения оценок релевантности часто не превосходят 0. Во-вторых,для построения РСТ таблицы может быть использована любая другая мерарелевантности.

Однако, СУВСС (мера релевантности, основанная на АСД с ли­нейной шкалирующей функцией), обладает некоторыми преимуществами. Онаучитывает все нечеткие совпадения строки с текстом и дает им количественнуюоценку. Другие меры релевантности, в том числе, описанные выше, учитываютисключительно четкие совпадения между отдельными словами, составляющи­ми словосочетание, и не могут дать оценку целой строке. Заметим, так же, чтов отличии от остальных мер релеватности, СУВСС не содержит ни прямой, ниобратной документной частоты (IDF), не связана с размером коллекции и привычислении релевантности строки тексту не использует оценки, получаемыедля других текстов.2.3Выводы по главеЭта глава посвящена проблеме оценивания релевантности строки тексту.В первой части главы приведен обзор основных мер релевантности строки тек­сту и их теоретических обоснований: меры релевантности в векторной, вероят­ностой, языковой и тематических моделях.

Все перечисленные методы облада­ют несколькими общими свойствами: например, они учитывают только четкиесовпадения строки с текстом. Использование теоретико-множественной моделипреставления текстов и подхода, основанного на аннотированных суффиксныхдеревьях [5] (АСД), преодолевает эту проблему и позволяет учитывать и нечет­кие совпадения строки с текстом. Нами предложена такая оценка релевант­ности, которая имеет чёткий операциональный смысл – суммарной условнойвероятности символа в совпавшем фрагменте (СУВСС). Во второй части гла­вы представлен метод оценивания релеантности строки тексту nAST-k, являю­щийся модификацией метода СУВСС. Этот метод учитывает такие параметрыАСД, как глубина и разброс, что позволяет нормировать оценки.

Рассмотреныдва алгоритма построения АСД: наивный алгоритм, имеющий квадратичную53оценку сложности по времени, и линейный алгоритм, имеющий соответственнолинейную оценку сложности по времени. Оба алгоритма не отличаются по слож­ности по памяти. Показано, что меру релевантности строки тексту, получаемуюпо методу nAST-k можно использовать для построения таблиц релевантности«строка – текст».54Глава 3. Задача рубрикации научных статей темами из заданногоспискаЗадача рубрикации научных статей относится к задачам категоризациитекстов [16].

Общая постановка задачи категоризации текстов такова: для за­данной коллекции текстов и заданного множества категорий, представленныхтекстовыми метками, требуется каждому тексту приписать релевантные емукатегории. При этом число категорий заведомо не меньше двух. Задача рубри­кации научных статей заключается в категоризации статей в системе рубрик,заданных классификатором или таксономией соответствующей области знанияили технологии. Под таксономией понимается дерево тем: чем выше тема вдереве, тем более общей она является. В таком дереве родитель и потомкинаходятся в отношении «целое – часть» или «быть более общим».

Например,англоязычные статьи в из области информатики и вычислительной техники мо­гут индексироваться темами так называемой Computing Classification System –таксономии, разработанной международной Ассоциацией вычислительной тех­ники, (Association for Computing Machinery (ACM)), русскоязычные публика­ции – рубриками государственного рубрикатора научно-технической информа­ции.

ACM CCS представляет собой иерархическую систему, в которой каждаятема является частью более общей темы и сама, в свою очередь, делится на бо­лее конкретные темы. Например, согласно ACM CCS, “майнинг данных” [datamining] – это часть “приложений информационных систем” [information systemapplication], в свою очередь, содержащая такие темы как “кластерный анализ”[cluster analysis] и “ассоциативные правила” [associative rules]. Существует дваосновных подхода к решению задачи категоризации текстов: первый основан наиспользовании методов с учителем, второй – без учителя [16]. В работе [68] при­водятся обзор и результаты экспериментального сравнения методов обучения сучителем для задачи рубрикации текстов, в которых категории образуют иерар­хическую систему, а в работе [69] подобный метод предлагается применительнок таксономии ACM CCS. Один из способов решения задачи категоризации врежиме без учителя основан на вычислении оценок релевантности категорийтекстам и построении РСТ таблицы категория– текст.

Из построенной РСТ таб­лицы выделяют для каждого текста категории, получившие наивысшие оценкирелевантности. Выше мы перечислили несколько основных мер релевантности55строки тексту и подробно описали отдельно стоящую меру релевантности стро­ки тексту, основанную на АСД. Теперь мы экспериментально сравним три изних: косинусную меру релевантности (мера релевантности в векторной моде­ли), меру релевантности в вероятностной модели и меру релевантности, осно­ванную на АСД. В качестве входных данных мы используем аннотации статей,опубликованных некоторыми журналами, издаваемыми вышеупомянутой Ассо­циацией вычислительной техники ACM.

Авторы статей в этих журналах самивыполняли рубрикацию своих статей с помощью тем таксономии ACM CCS.Мы постарались включить в эксперимент все наиболее популярные способыпредобработки текстов. Для оценки результатов рубрикации мы используемдва популярных способа оценки, которые по-разному обобщают оценки точно­сти и полноты, используемые для оценки результатов в традиционных задачахклассификации, а также предложили ещё одну, в некоторых отношениях болееадекватную меру.3.1Метод рубрикации AnnASTМетод рубрикации AnnAST получает на вход систему рубрик и коллек­цию текстов.

Рубрикация текста заключается в приписывании ему наиболееподходящих рубрик. Такие рубрики определяются по оценкам релевантности:требуется найти рубрики с наибольшими оценками релевантности тексту. Огра­ничения метода AnnAST заключаются в том, что каждая рубрика должна бытьзадана одной уникальной строкой.3.2Экспериментальная верификация метода AnnAST3.2.1Постановка экспериментаДля того, чтобы поставить вычислительный эксперимент по сравнениюотносительных преимуществ использования различных мер релевантности в56проблеме рубрикации научных публикаций, надо определить три основных со­ставляющих такого эксперимента:– набор данных, на которых производится сравнение;– набор мер релевантности, участвующих в сравнении;– способ оценки качества результатов, получаемых при использовании то­го или иного метода.Эти составляющие описаны в нижеследующих разделах. В качестве допол­нительно параметра для экспериментирования мы рассматривали различныеспособы представления текстов.Выбор данныхДанные взяты из электронной библиотеки ACM Digital Library.

В этойбиблиотеке хранятся архивы журналов ACM. В свободном доступе находятсяаннотации большей части научных статей и вспомогательные сведения, такиекак ключевые слова и таксономические темы таксономии ACM CCS, припи­санные авторами к научным статьям для рубрикации статей в библиотеке, т.н.авторские темы. Задача заключается в том, чтобы подобрать к каждой науч­ной статье несколько наиболее релевантных таксономических тем.

Характеристики

Список файлов диссертации

Разработка вычислительных методов анализа текстов с использованием аннотированных суффиксных деревьев
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6384
Авторов
на СтудИзбе
308
Средний доход
с одного платного файла
Обучение Подробнее