Диссертация (1137241), страница 2
Текст из файла (страница 2)
159Приложение 2 ....................................................................................... 173Приложение 3 ....................................................................................... 187Приложение 4 ....................................................................................... 199Приложение 5 ....................................................................................... 204Приложение 6 ....................................................................................... 209Приложение 7 ....................................................................................... 2297ВведениеАктуальность работы.
Моделирование языковых процессовпорождает значительное количество открытых проблем, связанных сразвитием соответствующего математического аппарата, созданием иреализацией эффективных алгоритмов и комплексов программ. Кнастоящему моменту разработано значительное количество хорошоразвитых моделей текста, позволяющих (помимо представлениятекста) вычислять сходство между текстами: «мешок слов», n-граммы,синтаксические деревья разбора и т.д. Среди исследователей, внесшихзначительный вклад в разработку и применение этих моделей вприкладных задачах (для английского языка), можно отметитьC.Manning, H.Schutze, D.Jurafsky, S.Abney, M.Collins, A.Moschitti имногих других.
Подавляющее большинство реализованных напрактике моделей не полностью учитывает структурные особенноститекста, ограничиваясь либо частотными характеристиками слов и nграмм,либосинтаксическимисвязямивнутриотдельныхпредложений. Эти модели не позволяют работать с текстом на уровнефрагментов, состоящих из нескольких связанных предложений ‒абзацев. К другому классу моделей относятся многочисленныелингвистические теории, в той или иной степени учитывающихсемантические связи между предложениями. Здесь можно отметитьработы таких исследователей как W.Mann, D.Marcu, J.Searle,I.Mel’cuk, H.Kamp, M.Recaesens, D.Jurafsky и многих других.
Однакоэти модели обладают уже другим недостатком: они носят по большейчасти теоретический характер, не имеют полного математическогоили алгоритмического описания и не могут напрямую бытьиспользованы для решения прикладных задач. В то же время учетсемантических связей внутри абзаца является критическим фактором8в таких важных задачах, как поиск по сложным и редким запросам,кластеризацияпоисковойвыдачипосложнымзапросам,классификация текстовых описаний.
Всё это делает применениесуществующихмоделейтекстазатруднительнымитребуетразработки новой модели, которая была бы предназначена длярешения перечисленных задач, одновременно обладала достаточнойтеоретической базой и была реализуема на практике.Необходимость интеграции в модель сложных структурныхописаний и применения модели для задач кластеризации, делаетактуальнымприменениеметодов,позволяющихработатьсоструктурным сходством и использовать эффективные приближенияописаний.Методытеориирешетокзамкнутыхописанийпредоставляют удобный и эффективный математический аппарат дляпостроения моделей в решении целого ряда важных научных иприкладных задач, в число которых входит и работа с текстами. Этатеория позволяет осуществлять концептуальную кластеризацию инаходить сходство произвольного множества объектов (в частности,текстов).
Включенный в теорию аппарат проекций позволяетэффективно работать с приближенными описаниями, в той или иноймере учитывающими основные свойства структуры и понижающимивычислительную и временную сложность обработки этих описаний.Объект исследований – математические модели текстов наестественном языке. Предмет исследований – модели текстов наестественном языке, предназначенные для поиска, классификации икластеризации текстовых данных.Целью диссертационного исследования является разработкаоригинальныхмоделей,методов,алгоритмовипрограммных9комплексов,предназначенныхдляпоиска,классификацииикластеризации текстовых данных.К задачам исследования относятся: Разработка структурной модели текстов на естественном языке,ориентированной на поиск, классификацию и кластеризациютекстов и использующей синтаксические и семантические связивнутри текста; Применение построенной модели в задаче поиска сходстватекстов с целью улучшения релевантности поиска по сложнымзапросам; Применение построенной модели в задаче классификациитекстов с целью повышения качества существующих методов засчет использования семантической информации; Построение на основе разработанной модели таксономическогопредставлениятекстовыхдокументовсиспользованиемрешеток замкнутых структурных описаний и применениепредставления в задаче кластеризации текстов; Разработка математической модели и метода для определениясвязи «та же сущность» в формальных описаниях, построенныхна основе текстовых данных и ее эффективная алгоритмическаяреализация. Реализация разработанных моделей, методов и алгоритмов ввиде программного комплекса.К методам, использовавшимся в исследовании, относятся: Методы построения и анализа решёток замкнутых описаний; Методы фильтрации решеток понятий на основе индексовкачества моделей;10 Методы построения проекций моделей на узорных структурах; Методы построения структурных моделей для текстовыхданных; Методы построения синтаксических и семантических моделейтекста; Методыпорождениямоделей,основанныхнаграфовомпредставлении.Научная новизна.
В диссертации получен ряд новых научныхрезультатов, которые выносятся на защиту:1. Разработанаграфоваямодельтекстов,использующаяиобобщающая модель структурного синтактико-семантическогопредставления текстового абзаца (чащу разбора). Новизна моделизаключаетсявсовместномиспользованиисинтаксическихдеревьев разбора и дискурсивных связей для представлениятекстовых абзацев на английском языке. Модель ориентирована наприменение в задачах поиска, классификации и кластеризациитекстов и позволяет описывать сходство текстов в терминахобобщения их структурных графовых и древесных описаний.2. Предложенная модель реализована в задаче поиска ответов посложным запросам.
Разработан метод, позволяющий улучшитькачество поиска и устранить недостатки существующих моделейблагодаря применению впервые введенной в работе операцииструктурного синтактико-семантического сходства для запроса иответов.3. Разработаннаямодельпримененавзадачеклассификациитекстовых данных. Модель реализована в виде численного метода,использующего ядерные функции. Применение модели позволяет11устранить недостатки существующих моделей благодаря ранее неприменявшемуся в задачах классификации абзацев использованиюсемантической информации.4.
Разработано на базе предложенной модели таксономическоепредставление коллекции текстовых данных в виде решеткизамкнутых структурных синтактико-семантическихописаний.Полученное представление применено в задаче кластеризациитекстовых данных и позволяет улучшить результаты, достигаемыеальтернативными моделями.5.
Разработана на основе модели текстов и теории решетокзамкнутыхописанийоригинальнаямодельтождественныхденотатов для формальных описаний. Предложенная модельприменена в задаче построения связей типа «та же сущность» вмоделях текстов и реализована в виде численного метода иалгоритма.Новизнаметодазаключаетсявиспользованииоригинального индекса ранжирования замкнутых формальныхописаний для нахождения денотатов.6. На основе разработанных моделей, численных методов иалгоритмов создан единый программный комплекс для работы стекстовыми данными, обладающий оригинальной функциональнойструктурой. Также в рамках работы модифицирован программныйкомплекс для обработки данных на основе решеток замкнутыхописаний,представляющийсобойуниверсальноесредствоподдержки полного цикла исследований и позволяющий повыситьэффективность решения ряда задач в области анализа данных.Теоретическая значимость работы заключается в разработкепринципиально новых моделей и методов: графовой модели текстов,основанной на деревьях синтаксического разбора, таксономическом12представлении текстовых данных, модели и методе выявлениятождественных денотатов для формальных описаний.Практическая ценность подтверждена экспериментами пооценке релевантности поиска по сложным запросам, обучению натекстовыхабзацах,выявлениютождественныхденотатов.Эксперименты продемонстрировали улучшение по сравнению ссуществующими аналогами.
Разработанные алгоритмы и методыбыли успешно внедрены в реальных проектах. Компания Zventsиспользовала алгоритм поиска с использованием разработанногопредставления текстовых абзацев при создании интернет-магазина.КомпанияKnowledgeTrailпримениламетодклассификациитекстовых абзацев в проекте оценки пользовательских предпочтений.Компания Авикомп внедрила метод выявления тождественныхденотатовдляоптимизацииприкладнойонтологии.Всеразработанные методы были реализованы в виде программногокомплекса, предназначенного для решения исследовательских иприкладных задач.Достоверностьстрогостьюполученныхпостроенныхрезультатовподтвержденаматематическихмоделей,экспериментальной проверкой результатов численных расчетов ипрактической эффективностью программных реализаций.Апробация результатов работы.