Диссертация (1137276), страница 3
Текст из файла (страница 3)
Проводится сравнение методов рубрикации аннотаций научныхпубликаций с использованием различных функций релевантности, в том числе,с использованием предложенной в диссертационном исследовании меры релевантности СУВСС.В четвертой главе рассматривается задача пополнения научной таксономии. Формулируется задача пополнения научной таксономии и предлагаетсявычислительный метод для ее решения. Метод применен к таксономиям двухобластей чистой и прикладной математики.12В пятой главе проводится аналогия между задачей поиска по однословному ключу и фильтрации обсценной лексики. Утверждается, что несмотря на то,что для решения этих задач могут быть использованы одинаковые методы, оптимизируются разные критерии качества, которые влияют на выбор конкретного метода. Описывается эксперимент по разработке фильтра на основе СУВССи демонстрируется его эффективность с точки зрения оптимизируемого критерия – полноты, а так же с точки зрения временной сложности.В шестой главе приводится описание программных комплексов, реализующих разработанные в исследовании модели и методы, а также решающие некоторые вспомогательные задачи сбора и обработки данных.
Библиотека EASTреализует предложенный алгоритм построения нормированного аннотированного суффиксного дерева за линейное время и с линейными затратами по памяти, а также выполняет предварительную обработку текстов. Утилита WikiDPпозволяет извлекать из Википедии данные различных типов, такие как деревокатегорий с корнем в заданном узле и принадлежащие к этом дереву статьи.Объем и структура работы. Диссертация состоит из введения, шестиглав и заключения. Полный объём диссертации составляет 124 страницы, включая 15 рисунков и 32 таблицы. Список литературы содержит 105 наименований.Автор диссертационного исследования благодарит научного руководителя – Бориса Григорьевича Миркина – за 7 лет плодотворного сотрудничестваи все уроки и советы, существенно повлиявшие на формирование автора какисследователя, и поддержку во всех научных начинаниях, руководителя Департамента анализа данных и искусственного интеллекта ФКН НИУ ВШЭ иМеждународной лаборатории интеллектуальных систем и структурного анализа НИУ ВШЭ – Сергея Олеговича Кузнецова – за создание азартного исследовательского духа на департаменте и в лаборатории, своих коллег – МихаилаДубова и Дмитрия Ильвовского – за бесконечные часы плодотворных обсуждений и совместной работы, студентов ФКН НИУ ВШЭ – Максима Яковлева,Анну Шишкову, Георгия Котова – за участие в проектах, связанных с развитием тематики диссертационного исследования, своих друзей – Ольгу Чугунову,Дину Шагалову и Марию Смирнову - за поддержку на каждом этапе учебы васпирантуры и подготовки диссертации, а Ольгу – и за разметку данных.13Глава 1.
Способы представления текстов для машинной обработки1.1ВведениеФормальное представление текста – это математическая структура, построенная по неструктурированному тексту [6; 7]. Формальным представлением текста может быть алгебраическая структура, теоретико-множественная илиграфовая структура, комбинация распределений вероятностей слов. Чаще всего говорят о формальном представлении большого числа – коллекции / корпуса – текстов, поскольку представление одного текста с помощью математической конструкции не представляет особого интереса.
Напротив, представлениекаждого текста из коллекции с помощью одной и той же конструкции делаетвозможным использование математических методов для обработки, анализа,сравнения, определения сходства между текстами, классификации, кластеризации, генерации текстов и так далее. В этой главе будут рассмотрены четыреосновных класса представлений текстов: векторная модель, языковая модель,модели скрытых тем и модели суффиксных деревьев.
Исторически первая векторная модель представления текста имеет наибольшее количество применений, однако некоторые ее недостатки (например, не учитывается порядок слов)делает не возможным ее использование в тех задачах, в которых необходимосгенерировать фрагмент текста или оценить вероятность его появления. В таком случае используются генеративные модели представления текста, такиекак языковая модель и некоторые модели скрытых тем, основанные на скрытом размещении Дирихле. И векторная модель, и языковая модель, и модельскрытых тем основаны на общей идее: текст является набором так называемыхтермов – слов в исходном виде или их значимых фрагментов, например, основ.Отсюда следует общий недостатков всех перечисленных моделей: при обработкеи анализе текстов учитывается только четкое совпадение между термами. Модель суффиксных деревьев – менее популярная в силу невысокой вычислительной эффективности – до определенной степени позволяет учитывать нечеткиесовпадения, что делает возможным ее использование в задачах интерпретациитекстов.141.2Векторная модель представления текстовВекторная модель – это одна из наиболее популярных моделей представления текста [6].
В основе этой модели лежит так называемый мешок слов – принцип максимального упрощения структуры текста [8]. Согласно этому принципу,текст является множеством или мультимножеством входящих в него слов. Очевидно, что использование этого принципа ведет к потере порядка слов, а следовательно, и коротких, и длинных, в том числе, анафорических и кореферентныхсвязей [7]. В векторной модели текст представляется вектором в пространствеслов (или каких-нибудь других элементов текста, так называемых, термов), причём каждому терму соответствует своя координата векторного пространства.
Вкачестве значения вектора используется частота терма в тексте. Если в общемпространстве термов представляют два или более текстов – так называемуюколлекцию текстов – часто используют − кодировку значений вектора,равную количеству вхождений терма в данный текст, делённому на логарифмотносительного количества текстов, содержащих это слово [1]: − = , × log||.|′ ∈ | ∈ ′ |В этой формуле первый сомножитель , – это локальный вес, то есть, частота терма в тексте , а второй сомножитель – это глобальный вес,показывающий логарифм от величины, обратной доле текстов ′ , содержащихтерм среди общего числа текстов ||.
− кодировка снижает вес часто встречающихся во всех текстах коллекции термов и повышает вес термов,характерных для данного текста. Иногда формулу − весов меняют, сохраняя при этом общий смысл: первый множитель – локальный вес – отвечаетза выбор частотных слов в данном тексте, второй множитель – глобальный вес– за отсеивание слов, одинаково частотных во всей коллекции. Таким образом,общая схема взвешивания устроена так: = × [1]. Некоторые другиевозможные локальные веса представлены в работах [9]:– Бинарный вес: = 0, если терм не встречается в тексте , 1, вобратном случае– Частота: = – Логарифмический вес: = log( + 1)– Скорректированный Гауссов вес: = 2 max( ) + 0.515Некоторые глобальные веса:– Бинарный вес: = 12– Гауссов вес: = ∑︀ 1– − вес: = , где – сколько раз –тый терм встретился вовсей коллекции, а – число текстов, в которых встретился –тый терм– вес: = log 1+, где – количество термов во всей коллекции(иначе – объем словаря)∑︀ log – Энтропия: = 1 − log , где = .
+1В статье [10] следующая схема взвешивания = log(1 + ) × log ( )+1получила название − (term frequency – inverse corpus frequency).Основным достоинством векторной модели является ее простота и тотфакт, что векторное представление текстов делает возможным использованиелинейно-алгебраических операций для определения сходства между текстамии ранжирования текстов по соответствию запросу [11]. Для этих целей используется косинусная мера релевантности, которая будет описана более подробнониже.
В общих чертах косинусная мера релевантности определяется как нормированное скалярное произведение [1]. Другим очевидным достоинством векторной модели является простота ее построения по заданному корпусу текстов[12]. Во многих современных библиотеках автоматической обработки текстов,таких как gensim [13] и NLTK [14] реализованы индексаторы коллекций текстовна основе векторной модели – функции, задающие как координаты векторногопространства (т.е. выделяющие термы), так и соответствующие каждому тексту.Однако, за внешней простотой векторной модели кроются некоторые существенные недостатки. Прежде всего, главная предпосылка векторный модели, аименно понятие мешка слов, с статистической точки зрения означает гипотезу онезависимости слов, что в корне не верно с точки зрения лингвистики и анализаестественного языка [12]. Использование нормированного скалярного произведения в качестве меры сходства приводит к тому, что более длинные текстывсегда имеют низкую степень сходства с остальными текстами из-за нормировки длинной текста [15].
Главным же недостатком векторной модели являетсяотсутствие учета синонимии между словами [15]: в векторной модели словам«Голландия» и «Нидерланды» будут соответствовать разные координаты, поэтому синонимичность этих слов никак не будет отражена.16Тем не менее, векторная модель широко используется во многих задачахавтоматической обработки текстов: категоризации, классификации и кластеризации текстов, а также в задаче поиска по запросу, исторически первой задаче,для решения которой была использована векторная модель [1]. Задача категоризации текстов заключается в распределении текстов по заранее заданномумножеству категорий.