Автореферат (1137251), страница 4
Текст из файла (страница 4)
слов. Серия экспериментовдоказывает, что с увеличением объема используемого корпуса текстовснижение репрезентативности этого корпуса не происходит, при этом покрытиеслов, используемых для построения КОЛ, примерно соответствует всемулексикону русского языка.В разделе 5.3 приводится описание разработанного программногокомплекса извлечения знаний на основе решетки формальных понятий.Описывается обмен данными между модулями программного комплекса. Схемаобмена данными между модулями программного комплекса представлена наРисунке 5.Рисунок 5.
Схема обмена данными между модулями программного комплекса.16В Таблице 1 дано краткое описание модулей программного комплекса.НаименованиемодуляDwarfGen_GcLatticeBuildLatticeSegmentОписание модуляПрограмма синтаксического разбора «Cognitive Dwarf»,разработка компании ООО "Когнитивные технологии".Используется для построения дерева синтаксическогоразбора для текста на русском языке.Программа для извлечения четверок (Verb, Fn, Ga, Frec) издерева синтаксического разбора.Программа для генерации решетки формальных понятий поконтексту.Программа для сегментации решетки формальных понятийна классы формальных понятий.
Входной параметр задаетработу алгоритма сегментации по Варианту 1 или поВарианту 2.Таблица 1. Описание модулей программного комплекса.Для генерации решетки формальных понятий используется комбинациядвух инкрементальных алгоритмов Ferre и Norris. Выбор алгоритмов генерациирешетки формальных понятий выполнялся с учетом параметров формальногоконтекста. Результаты оценки параметров расширенного формальногоконтекста, построенного по полному корпусу «Классика» (85 млн. слов) толькос участием ГК с частотой выше 0,00005, приведены в Таблице 2.Описание параметраКоличество объектов, (|G|)Количество признаков, (|M|)Размер контекста, (|I|=|G| × |M|)Среднее количество признаков на один объектМаксимальное количество признаков на один объектЗначениепараметра5974193580115644692032,40376473Таблица 2.
Параметры расширенного формального контекста.Показано, что алгоритм Ferre наиболее эффективен для большей частиобъектов формального контекста для формирования КОЛ, т.к. сложностьалгоритма зависит от количества признаков добавляемого в решетку объекта ине зависит от общего количества объектов и признаков формального контекста.Алгоритм Norris показал наилучшую производительность для контекстов сбольшим количеством признаков на объект, которые также присутствуют вформальном контексте для формирования КОЛ.
Предложено иэкспериментально подтверждено условие переключения между алгоритмамидля достижения максимальной скорости генерации решетки.17Проведена оценка сложности алгоритма сегментации решетки, сложностьописывается формулой (11):(11)O (| L | 2 ⋅ log(| L |) ⋅ p ) ,где L – первоначальная решетка, сегментация которой выполняется, p –максимальная длина цепочки в решетке L.В разделе 5.4 предложена методика оценки построенного КОЛотносительно эталонного лексического ресурса по двум критериям: точность(Precision) и степень охвата (Recall).
В качестве эталонного лексическогоресурса используется словарь синонимов Н. Абрамова, имеющий областьпокрытия 19108 статей. Экспериментальная оценка для 50-ти наиболеечастотных лексем показала: Recall=24,36% и Precision=9,78%. Низкое значениеточности обусловлено большим покрытием лексики в КОЛ относительноэталонного лексического ресурса. Степень охвата КОЛ примерно соответствуетрезультатам аналогичных работ для английского языка.В заключении сформулированы основные научные и практическиерезультаты диссертации и предложены возможные направления дальнейшихисследований:• совершенствованиеразработанногопрограммногокомплексадляавтоматического извлечения знаний из текстов на русском языке путемдобавления модулей интеграции с современными ВОС;• разработка методов интеграции КОЛ, содержащего только существительныерусского языка, с другими лексическими ресурсами для расширения областиохвата лексиконом других частей речи;• разработка дополнительных методов предварительной обработки исходногокорпуса текстов, например, разрешение анафоры, с целью повышенияэффективности концептно-ориентированного лексикона;• включение в расширенный формальный контекст дополнительно кэлементам генитивной конструкции и глаголам других частей речи;• проверка и при необходимости адаптация модели извлечения знаний изнеструктурированного текста на основе решетки формальных понятий длядругих языков.18III.
Основные результаты диссертационной работы1. Предложена и обоснована формализация семантики генитивнойконструкции на языке интенсиональной логики. Описаны свойства,которыми обладает формализация семантики генитивной конструкции.2. Сформулированы требования к лексическим ресурсам для ВОС.Разработана модель КОЛ, представленного решеткой формальных понятий,отвечающая этим требованиям. Толкование лексического значенияполучено в виде содержания формальных понятий решетки, а сами лексемыпредставлены в объеме формальных понятий.3.
Впервые предложена модель автоматического извлечения знаний,представленных формальными понятиями в КОЛ, из неструктурированноготекста на русском языке. КОЛ генерируется на основе формальногоконтекста, состоящего из элементов генитивных конструкций и глаголов, вмоделях управления которых генитивная конструкция занимает местоодного из актантов. Формальный контекст автоматически формируется изнеструктурированного текста на русском языке. Получены моделисемантических отношений порядка и меронимии для слов на основерешетки формальных понятий.извлечения4.
Предложен критерий полезности решетки КОЛ длялексического значения, а также разработан метод максимизации этогокритерия.5. Разработана новая количественная оценка меры схожести междуформальными понятиями решетки, на основе которой разработан алгоритмсегментации решетки с целью получения набора классов формальныхпонятий, используемая для снятия многозначности слов в объемеформальных понятий решетки.6. Проведен анализ сложности алгоритмов порождения формальных понятий,для генерации концептно-ориентированного лексикона предложеноиспользовать комбинацию алгоритмов Ferre и Norris, предложено условиепереключения между алгоритмами для достижения максимальной скоростигенерации решетки.7. Предложена формула для оценки параграфов, извлекаемых из поисковыхсистем, созданная на основе нормированной меры схожести междуобъектными формальными понятиями и используемая при классификациивопросов в ВОС.8.
Предложена методика оценки КОЛ относительно эталонного лексическогоресурса, а также критерий полезности решетки КОЛ для целей извлечениялексического значения, получена экспериментальная оценка КОЛ.19IV. СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИРаботы, опубликованные автором в ведущих рецензируемых научныхжурналах и журналах рекомендованных ВАК Министерства образования инауки России:1. Stepanova N. A. Analysis of Semantic Relations in Classification of SenseImages of Statements // Pattern Recognition and Image Analysis: Advances inMathematical Theory and Applications, EDITOR-IN-CHIEF: Yuri I. Zhuravlev,Vol.
17, No. 2, 2007, pp. 274–278. 0,3 p.l. (CO-AUTORSHIP: Emel’yanov G.M., Mikhailov D. V.; autor’s part 0,2 p.l.).Другие работы, опубликованные автором по теме кандидатскойдиссертации:2. Степанова Н.А. Анализ семантических отношений в задаче классификациисмысловых образов высказываний // Труды международного семинараPRIA-7-2004 по распознаванию образов и обработке изображений. - Т.II. –С.-Петербург, 2004.
- С. 460-461. 0,2 п.л. (в соавторстве Емельянов Г.М.,Михайлов Д.В.; вклад автора 0,1 п.л.).3. Степанова Н. А. Формирование и кластеризация понятий в задачераспознавания образов в пространстве знаний // Математические методыраспознавания образов: 13-я Всероссийская конференция, Ленинградскаяобл., г. Зеленогорск: Сборник докладов. – М.: МАКС Пресс, 2007. - C. 206–209. 0,2 п.л. (в соавторстве Емельянов Г.М.; вклад автора 0,1 п.л.).4. Stepanova N.A. Model of types in intensional logic // Interactive Systems AndTechnologies: The Problems of Human-Computer Interaction.
– Collection ofscientific papers. – Ulyanovsk: UlSTU, 2005, pp. 66–71. 0,3 p.l. (COAUTORSHIP: Emel’yanov G. M.; autor’s part 0,2 p.l.).5. Stepanova N.A. Semantic relation modeling using Formal Concept Analysis inRussian lexical databases // In proceeding of the Second IASTED InternationalMulti-Conference on Automation, Control, and Information Technologies,Novosibirsk, Russia, 2005, pp. 9–12. 0,4 p.l. (CO-AUTORSHIP: Emel’yanov G.M.; autor’s part 0,3 p.l.).6.
Stepanova N.A. Application of the computer thesaurus for automation ofupdating of the government patterns’s dictionary // In proceeding of VIInternational Congress on Mathematical Modeling, Nizhny Novgorod, Russia,Sept 20-26, 2004, p. – 352. 0,1 p.l. (CO-AUTORSHIP: Emel’yanov G. M.,Mikhailov D. V.; autor’s part 0,1 p.l.).7. Stepanova N.A.
Concept-oriented lexicon application for Question Answeringsystems // Interactive Systems And Technologies: The Problems of HumanComputer Interaction. – Collection of scientific papers. – Ulyanovsk: UlSTU,2007, pp. 31–40. 0,5 p.l. (CO-AUTORSHIP: Emel’yanov G. M.; autor’s part 0,4p.l.).208. Stepanova N. Knowledge acquisition process modeling for question answeringsystems // Cognitive Modeling in Linguistics: Proceedings of the IX-thInternational Conference CML-2007, Sofia (Bulgaria) / Edited by V.
Solovyev,R. Potapova, V. Polyakov – Kazan: KSU, 2007, pp. 344–354. 0,8 p.l. (COAUTORSHIP: Emel’yanov G. M.; autor’s part 0,7 p.l.).2122Лицензия ЛР № 020832 от 15 октября 1993 г.Подписано в печать 25 ноября 2008 г. Формат 60x84/16Бумага офсетная. Печать офсетная.Усл. печ. л. 1,0.Тирах 100 экз. Заказ №__Типография издательства ГУ-ВШЭ125319, г. Москва, Кочновский пр-д, д.
32324.