Диссертация (1137241), страница 3
Текст из файла (страница 3)
Основные результаты работыобсуждались и докладывались на следующих научных конференцияхи семинарах:1. 9-й международной конференции «Интеллектуализация обработкиинформации» (ИОИ-2012), Будва, Черногория.132. Семинаре по анализу формальных понятий и информационномупоиску (FCAIR-2013) в рамках 35-й европейской конференции поинформационному поиску (ECIR-2013), Москва, Россия.3. 11-й международной конференции по анализу формальныхпонятий (ICFCA-2013), Дрезден, Германия.4.
8-й международной конференции по компьютерной лингвистикеДИАЛОГ-2013, Москва, Россия.5. 3-м семинаре по представлению знаний в виде графов (GKR-2013)в рамках 23-й объединенной международной конференции поискусственному интеллекту (IJCAI-2013), Пекин, Китай.6.
7-й международной конференции по компьютерной лингвистикеRANLP-2013, Хисаря, Болгария.7. Ежегодном весеннем симпозиуме ассоциации искусственногоинтеллекта (2014 AAAI Spring Simposium).8. 14-й международной конференции по интеллектуальной обработкетекста и компьютерной лингвистике CICLING-2014, Катманду,Непал.9. 52-й международной конференции Ассоциации компьютернойлингвистики ACL-2014, Балтимор, США.Публикациярезультатов.Основныерезультатыработыизложены в 12 научных статьях. 9 статей опубликованы врецензируемых трудах международных конференций, 3 статьиопубликованы в журналах из списка ВАК.Содержание.
Диссертация состоит из введения, 5 глав,заключения, списка литературы и приложений.Во введении раскрывается актуальность темы диссертации,формулируются проблемы исследования, предмет исследования,14определяется цель работы, описываются методы исследования,излагаютсяосновныенаучныерезультаты,обосновываетсятеоретическая и практическая значимость работы, даётся общаяхарактеристика исследования.Впервойглаверассматриваютсятеоретическиеосновыиспользуемых в дальнейшем моделей и методов и описываютсяособенности моделирования текстовых данных.
Приводятся основныеопределения, связанные с частично упорядоченными множествами ирешетками, решетками замкнутых описаний, синтаксическими исемантическимимоделямипредставлениятекста.Такжерассматриваются некоторые подходы к структурному обучению натекстовых данных. Вводится модель структурного представлениятекстовыхабзацевальтернативная–модельчащаразбора,краткоструктурногорассматриваетсяпредставлениятекста,основанная на семантико-коммуникативной структуре предложения.Во второй главе описывается графовая модель текстовыхабзацев и её применение в задаче информационного поиска (дляанглийского языка).
Рассматриваются методы вычисления полного иприближенногоструктурногосходстватекстовыхабзацев,определяется проекция структурного представления текстового абзацав виде расширенных синтаксических групп. Проводится анализполученныхрезультатов,демонстрируетсяпреимущество,достигаемое за счет вычисления сходства на абзацах, производитсясравнение методов, основанных на полном и приближенном сходстве.Также в главе определяется узорная структура (решетка замкнутыхструктурныхописаний)начащахразбораиихпроекциях.Описывается применение построенной модели для иерархическойкластеризации текстовых абзацев, источником которых можетслужить, например, поисковая выдача.15В третьей главе описывается применение построенной моделидля задачи обучения с учителем на текстовых абзацах (дляанглийского языка), основанное на использовании ядерных функций(kernels) в методе опорных векторов (SVM).
Производится сравнениессуществующеймоделью(Москитти),неиспользующейсемантическую информацию о связях между предложениями абзаца.Демонстрируется преимущество применения новой модели в задачеклассификации поисковых результатов.Вчетвертойтождественныхглаведенотатоврассматриваетсядляслучаязадачаформальныхвыявленияописаний,построенных на основе предварительно обработанных текстовыхданных.Предлагаетсяформальныхмодельописанийитождественныхметод,денотатовпозволяющийдляустанавливатьсемантические связи типа «та же сущность» между формальнымиописаниями, выделяемыми из текста.
Метод основан на применениифильтрации решеток формальных понятий. Производится сравнениеданного метода с альтернативными методами на нескольких наборахданных: сгенерированных и полученных из реального приложения.Демонстрируется улучшение, достигаемое за счет применения новогометода.В пятой главе приводится описание программных комплексов,реализующих разработанные в исследовании модели и методы.Рассматриваются комплекс FCART, предназначенный для анализаданных с помощью методов анализа формальных понятий, а такжепрограммныйкомплекс,предназначенныйдляобработкичащразбора. Описывается архитектура комплексов и применение взадачах исследования.Вприложенииприводятсяпрограммных комплексов.основныефрагментыкода161.
Теоретические основы моделирования1.1 Моделирование текстовых данныхАнализ и моделирование естественно-языковых текстовыхданных – особая ветвь анализа данных, выделенная в отдельнуюнаучную область ‒ компьютерную лингвистику. Эту область частотакже называют обработкой текстов на естественном языке (NaturalLanguage Processing). В качестве отличительных особенностей текстакак объекта моделирования и анализа можно перечислить:1. Известные априори закономерности, которым подчиняется текст.2. Нечеткий характер наблюдаемых закономерностей, большоеколичество исключительных ситуаций.3. Наличие нескольких вкладывающихся друг в друга уровнейанализа и представления текста.4. Ощутимое изменение языковой среды во времени.5.
Большие объемы доступных, но разнородных данных для анализа.6. Доступность экспертной оценки (любой носитель языка) приверификации модельных экспериментов.Приведенные выше особенности накладывают ряд ограниченийи требований на разрабатываемые модели текстовых данных. Такогорода модели должны:1. Учитывать реальные закономерности, наблюдаемые в текстах.2. Учитывать формальные правила языка.3.
Быть достаточно гибкими, позволяя осуществлять настройку идоработку с учетом изменений в языковой среде.4. Оперировать на определенном уровне представления текста.17Уровни моделирования текста можно расположить (в порядкевозрастания абстракции) следующим образом:1. Графематический. Текст рассматривается как последовательностьсимволов. Известно, что группы символов образуют слова илилексемы. Основная задача анализа на данном уровне – выявлениелексем.2. Морфологический.последовательностиморфологическиеТекстсловпредставляетсяисловоформ.характеристикиввидеАнализируютсясловоформ:леммыиграмматические свойства.3.
Синтаксический.Наданномуровнерассматриваютсясинтаксические связи между словами в предложении илисинтаксической группе.4. Семантический.4.1Семантические связи внутри предложения. Анализируютсясемантические связи внутри предложения (семантические роли,синонимы и т.д.)4.2Семантические связи между предложениями. Анализируютсятак называемые дискурсивные связи: анафора, риторическиеотношения и т.д.Выбор конкретного уровня моделирования текста предполагаетиспользование (или полноценное определение в рамках новоймодели) моделей для более «низких» уровней. Например, работая спредложениями, мы предполагаем, что обладаем некими моделями,позволяющими выделять отдельные слова из текстового массива,определять для этих слов части речи и т.д.18Вдиссертационнойработепредлагаетсямодельтекста,относящаяся к семантическому уровню.
При этом основной упорделается на дискурсивные связи. Одной из характерных чертисследования является стремление максимально использовать ужесуществующие модели, теории и методы, применяемые для анализатекстовых данных. Рассматриваемая модель активно использует какмодели более низкого уровня (подробнее см.
раздел 1.4.2), так имодели, относящиеся к семантическому уровню (подробнее см. раздел1.4.3). Таким образом, предлагаемый в исследовании подход вомногом сводится к комбинации и обобщению на более высокийуровень существующих, уже проверенных на практике и принятыхнаучнымсообществоммоделей,такихкакмодельдеревасинтаксического разбора, теория риторических отношений и т.д.1.2 Анализ формальных понятий и решетки замкнутых описанийОднойизактивноприменяемыхвисследованииматематических теорий является анализ формальных понятий и егорасширение ‒ решетки замкнутых описаний. Эта область сочетает всебе несколько удобных качеств, которые хорошо подходят, вчастности, для работы с текстами.
Во-первых, она позволяет работатьс формальными описаниями произвольной степени детализации. Вовторых, позволяет абстрагироваться от конкретного смысла изначения этих описаний, после того как сформулированы несколькопростых правил работы с ними (в общем случае достаточно лишьоперации вычисления сходства, обладающей заданными свойствами).В-третьих,благодаряконцепциитакназываемыхзамкнутыхописаний, позволяет использовать мощный и интуитивно понятныйаппарат теории решеток: частичных порядков с дополнительнымисвойствами.