Диссертация (1137276), страница 10
Текст из файла (страница 10)
Более того, элементами матрицы терм–текст, как правило,являются частоты, в то время как элементами РСТ таблицы являются оценкирелевантности. Таким образом, РСТ таблицу, построенную для фиксированногомножества строк-словосочетаний и фиксированной коллекции текстов, можносчитать моделью данной коллекции текстов: каждый текст представляется вектором оценок релевантностей в пространстве строк–словосочетаний.
Таблица 1представляет фрагмент РСТ таблицы из [65].51Таблица 1 — Фрагмент РСТ таблицы [65]. Столбцы соответствуютпубликациям, строки-словосочетаниям, а элементы – оценкам релевантностиИзменение организационно-правовойформыИзменениеуровняконцентрациисобственностиПовышение эффективности управления затратамиСмена генеральногодиректораДоклад ВсемирногоБанка об экономикеРоссии0.3145Международныестандарты финансовой отчетности0.3616Если генеральныйдиректор иностранец0.36440.50160.31480.27060.44330.23510.24450.22640.23510.5947Для построения РСТ таблицы с использованием метода nAST-k необходимо проделать следующие шаги:1. Зафиксировать коллекцию текстов.
Для того, что бы последующий анализ данной коллекции имел смысл, требуется сформировать однородную коллекцию текстов одинаковой стилистической и жанровой специфики, принадлежащих к общей предметной области. Например, в [65]предметом анализа была коллекция новостных сообщений о бизнес-процессах в пост-кризисной России в 2009-2010 годах, а в [66] – коллекцияаннотаций научных статей по анализу и майнингу данных.2. Зафиксировать множество входных строк, описывающих основные события, явления и термины в той же предметной области. В [65] словосочетания были сформированы с помощью экспертов и описывалиосновные события в сфере бизнеса, в [66] в качестве входных строкиспользовались темы таксономии ACM CCS.3. Для каждого текста построить собственное АСД, согласно методу описанному выше: каждый текст разбивают на строки из 2-4 слов, все множество строк подают на вход алгоритму построения АСД.
В [65] былииспользованы строки из трех слов, поскольку большая часть строк состояла из трех слов, так что глубина АСД получается близкой к длинесловосочетаний, на него накладываемых.4. На каждое АСД последовательно наложить все строки и получить оценки релевантности. Оценки релевантности сохранить в таблицу, котораяи будет искомой РСТ таблицей.52Заметим, что, во-первых, строго говоря, РСТ таблица не должна храниться в памяти компьютера как таблица. Представление РСТ таблица в видеразреженной матрицы [67] вполне допустимо и оправдано с технической точки зрения: значения оценок релевантности часто не превосходят 0. Во-вторых,для построения РСТ таблицы может быть использована любая другая мерарелевантности.
Однако, СУВСС (мера релевантности, основанная на АСД с линейной шкалирующей функцией), обладает некоторыми преимуществами. Онаучитывает все нечеткие совпадения строки с текстом и дает им количественнуюоценку. Другие меры релевантности, в том числе, описанные выше, учитываютисключительно четкие совпадения между отдельными словами, составляющими словосочетание, и не могут дать оценку целой строке. Заметим, так же, чтов отличии от остальных мер релеватности, СУВСС не содержит ни прямой, ниобратной документной частоты (IDF), не связана с размером коллекции и привычислении релевантности строки тексту не использует оценки, получаемыедля других текстов.2.3Выводы по главеЭта глава посвящена проблеме оценивания релевантности строки тексту.В первой части главы приведен обзор основных мер релевантности строки тексту и их теоретических обоснований: меры релевантности в векторной, вероятностой, языковой и тематических моделях.
Все перечисленные методы обладают несколькими общими свойствами: например, они учитывают только четкиесовпадения строки с текстом. Использование теоретико-множественной моделипреставления текстов и подхода, основанного на аннотированных суффиксныхдеревьях [5] (АСД), преодолевает эту проблему и позволяет учитывать и нечеткие совпадения строки с текстом. Нами предложена такая оценка релевантности, которая имеет чёткий операциональный смысл – суммарной условнойвероятности символа в совпавшем фрагменте (СУВСС). Во второй части главы представлен метод оценивания релеантности строки тексту nAST-k, являющийся модификацией метода СУВСС. Этот метод учитывает такие параметрыАСД, как глубина и разброс, что позволяет нормировать оценки.
Рассмотреныдва алгоритма построения АСД: наивный алгоритм, имеющий квадратичную53оценку сложности по времени, и линейный алгоритм, имеющий соответственнолинейную оценку сложности по времени. Оба алгоритма не отличаются по сложности по памяти. Показано, что меру релевантности строки тексту, получаемуюпо методу nAST-k можно использовать для построения таблиц релевантности«строка – текст».54Глава 3. Задача рубрикации научных статей темами из заданногоспискаЗадача рубрикации научных статей относится к задачам категоризациитекстов [16].
Общая постановка задачи категоризации текстов такова: для заданной коллекции текстов и заданного множества категорий, представленныхтекстовыми метками, требуется каждому тексту приписать релевантные емукатегории. При этом число категорий заведомо не меньше двух. Задача рубрикации научных статей заключается в категоризации статей в системе рубрик,заданных классификатором или таксономией соответствующей области знанияили технологии. Под таксономией понимается дерево тем: чем выше тема вдереве, тем более общей она является. В таком дереве родитель и потомкинаходятся в отношении «целое – часть» или «быть более общим».
Например,англоязычные статьи в из области информатики и вычислительной техники могут индексироваться темами так называемой Computing Classification System –таксономии, разработанной международной Ассоциацией вычислительной техники, (Association for Computing Machinery (ACM)), русскоязычные публикации – рубриками государственного рубрикатора научно-технической информации.
ACM CCS представляет собой иерархическую систему, в которой каждаятема является частью более общей темы и сама, в свою очередь, делится на более конкретные темы. Например, согласно ACM CCS, “майнинг данных” [datamining] – это часть “приложений информационных систем” [information systemapplication], в свою очередь, содержащая такие темы как “кластерный анализ”[cluster analysis] и “ассоциативные правила” [associative rules]. Существует дваосновных подхода к решению задачи категоризации текстов: первый основан наиспользовании методов с учителем, второй – без учителя [16]. В работе [68] приводятся обзор и результаты экспериментального сравнения методов обучения сучителем для задачи рубрикации текстов, в которых категории образуют иерархическую систему, а в работе [69] подобный метод предлагается применительнок таксономии ACM CCS. Один из способов решения задачи категоризации врежиме без учителя основан на вычислении оценок релевантности категорийтекстам и построении РСТ таблицы категория– текст.
Из построенной РСТ таблицы выделяют для каждого текста категории, получившие наивысшие оценкирелевантности. Выше мы перечислили несколько основных мер релевантности55строки тексту и подробно описали отдельно стоящую меру релевантности строки тексту, основанную на АСД. Теперь мы экспериментально сравним три изних: косинусную меру релевантности (мера релевантности в векторной модели), меру релевантности в вероятностной модели и меру релевантности, основанную на АСД. В качестве входных данных мы используем аннотации статей,опубликованных некоторыми журналами, издаваемыми вышеупомянутой Ассоциацией вычислительной техники ACM.
Авторы статей в этих журналах самивыполняли рубрикацию своих статей с помощью тем таксономии ACM CCS.Мы постарались включить в эксперимент все наиболее популярные способыпредобработки текстов. Для оценки результатов рубрикации мы используемдва популярных способа оценки, которые по-разному обобщают оценки точности и полноты, используемые для оценки результатов в традиционных задачахклассификации, а также предложили ещё одну, в некоторых отношениях болееадекватную меру.3.1Метод рубрикации AnnASTМетод рубрикации AnnAST получает на вход систему рубрик и коллекцию текстов.
Рубрикация текста заключается в приписывании ему наиболееподходящих рубрик. Такие рубрики определяются по оценкам релевантности:требуется найти рубрики с наибольшими оценками релевантности тексту. Ограничения метода AnnAST заключаются в том, что каждая рубрика должна бытьзадана одной уникальной строкой.3.2Экспериментальная верификация метода AnnAST3.2.1Постановка экспериментаДля того, чтобы поставить вычислительный эксперимент по сравнениюотносительных преимуществ использования различных мер релевантности в56проблеме рубрикации научных публикаций, надо определить три основных составляющих такого эксперимента:– набор данных, на которых производится сравнение;– набор мер релевантности, участвующих в сравнении;– способ оценки качества результатов, получаемых при использовании того или иного метода.Эти составляющие описаны в нижеследующих разделах. В качестве дополнительно параметра для экспериментирования мы рассматривали различныеспособы представления текстов.Выбор данныхДанные взяты из электронной библиотеки ACM Digital Library.
В этойбиблиотеке хранятся архивы журналов ACM. В свободном доступе находятсяаннотации большей части научных статей и вспомогательные сведения, такиекак ключевые слова и таксономические темы таксономии ACM CCS, приписанные авторами к научным статьям для рубрикации статей в библиотеке, т.н.авторские темы. Задача заключается в том, чтобы подобрать к каждой научной статье несколько наиболее релевантных таксономических тем.