Автореферат (1137251), страница 4

Файл №1137251 Автореферат (Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах) 4 страницаАвтореферат (1137251) страница 42019-05-202019-05-20СтудИзба

Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 4)

слов. Серия экспериментовдоказывает, что с увеличением объема используемого корпуса текстовснижение репрезентативности этого корпуса не происходит, при этом покрытиеслов, используемых для построения КОЛ, примерно соответствует всемулексикону русского языка.В разделе 5.3 приводится описание разработанного программногокомплекса извлечения знаний на основе решетки формальных понятий.Описывается обмен данными между модулями программного комплекса. Схемаобмена данными между модулями программного комплекса представлена наРисунке 5.Рисунок 5.

Схема обмена данными между модулями программного комплекса.16В Таблице 1 дано краткое описание модулей программного комплекса.НаименованиемодуляDwarfGen_GcLatticeBuildLatticeSegmentОписание модуляПрограмма синтаксического разбора «Cognitive Dwarf»,разработка компании ООО "Когнитивные технологии".Используется для построения дерева синтаксическогоразбора для текста на русском языке.Программа для извлечения четверок (Verb, Fn, Ga, Frec) издерева синтаксического разбора.Программа для генерации решетки формальных понятий поконтексту.Программа для сегментации решетки формальных понятийна классы формальных понятий.

Входной параметр задаетработу алгоритма сегментации по Варианту 1 или поВарианту 2.Таблица 1. Описание модулей программного комплекса.Для генерации решетки формальных понятий используется комбинациядвух инкрементальных алгоритмов Ferre и Norris. Выбор алгоритмов генерациирешетки формальных понятий выполнялся с учетом параметров формальногоконтекста. Результаты оценки параметров расширенного формальногоконтекста, построенного по полному корпусу «Классика» (85 млн. слов) толькос участием ГК с частотой выше 0,00005, приведены в Таблице 2.Описание параметраКоличество объектов, (|G|)Количество признаков, (|M|)Размер контекста, (|I|=|G| × |M|)Среднее количество признаков на один объектМаксимальное количество признаков на один объектЗначениепараметра5974193580115644692032,40376473Таблица 2.

Параметры расширенного формального контекста.Показано, что алгоритм Ferre наиболее эффективен для большей частиобъектов формального контекста для формирования КОЛ, т.к. сложностьалгоритма зависит от количества признаков добавляемого в решетку объекта ине зависит от общего количества объектов и признаков формального контекста.Алгоритм Norris показал наилучшую производительность для контекстов сбольшим количеством признаков на объект, которые также присутствуют вформальном контексте для формирования КОЛ.

Предложено иэкспериментально подтверждено условие переключения между алгоритмамидля достижения максимальной скорости генерации решетки.17Проведена оценка сложности алгоритма сегментации решетки, сложностьописывается формулой (11):(11)O (| L | 2 ⋅ log(| L |) ⋅ p ) ,где L – первоначальная решетка, сегментация которой выполняется, p –максимальная длина цепочки в решетке L.В разделе 5.4 предложена методика оценки построенного КОЛотносительно эталонного лексического ресурса по двум критериям: точность(Precision) и степень охвата (Recall).

В качестве эталонного лексическогоресурса используется словарь синонимов Н. Абрамова, имеющий областьпокрытия 19108 статей. Экспериментальная оценка для 50-ти наиболеечастотных лексем показала: Recall=24,36% и Precision=9,78%. Низкое значениеточности обусловлено большим покрытием лексики в КОЛ относительноэталонного лексического ресурса. Степень охвата КОЛ примерно соответствуетрезультатам аналогичных работ для английского языка.В заключении сформулированы основные научные и практическиерезультаты диссертации и предложены возможные направления дальнейшихисследований:• совершенствованиеразработанногопрограммногокомплексадляавтоматического извлечения знаний из текстов на русском языке путемдобавления модулей интеграции с современными ВОС;• разработка методов интеграции КОЛ, содержащего только существительныерусского языка, с другими лексическими ресурсами для расширения областиохвата лексиконом других частей речи;• разработка дополнительных методов предварительной обработки исходногокорпуса текстов, например, разрешение анафоры, с целью повышенияэффективности концептно-ориентированного лексикона;• включение в расширенный формальный контекст дополнительно кэлементам генитивной конструкции и глаголам других частей речи;• проверка и при необходимости адаптация модели извлечения знаний изнеструктурированного текста на основе решетки формальных понятий длядругих языков.18III.

Основные результаты диссертационной работы1. Предложена и обоснована формализация семантики генитивнойконструкции на языке интенсиональной логики. Описаны свойства,которыми обладает формализация семантики генитивной конструкции.2. Сформулированы требования к лексическим ресурсам для ВОС.Разработана модель КОЛ, представленного решеткой формальных понятий,отвечающая этим требованиям. Толкование лексического значенияполучено в виде содержания формальных понятий решетки, а сами лексемыпредставлены в объеме формальных понятий.3.

Впервые предложена модель автоматического извлечения знаний,представленных формальными понятиями в КОЛ, из неструктурированноготекста на русском языке. КОЛ генерируется на основе формальногоконтекста, состоящего из элементов генитивных конструкций и глаголов, вмоделях управления которых генитивная конструкция занимает местоодного из актантов. Формальный контекст автоматически формируется изнеструктурированного текста на русском языке. Получены моделисемантических отношений порядка и меронимии для слов на основерешетки формальных понятий.извлечения4.

Предложен критерий полезности решетки КОЛ длялексического значения, а также разработан метод максимизации этогокритерия.5. Разработана новая количественная оценка меры схожести междуформальными понятиями решетки, на основе которой разработан алгоритмсегментации решетки с целью получения набора классов формальныхпонятий, используемая для снятия многозначности слов в объемеформальных понятий решетки.6. Проведен анализ сложности алгоритмов порождения формальных понятий,для генерации концептно-ориентированного лексикона предложеноиспользовать комбинацию алгоритмов Ferre и Norris, предложено условиепереключения между алгоритмами для достижения максимальной скоростигенерации решетки.7. Предложена формула для оценки параграфов, извлекаемых из поисковыхсистем, созданная на основе нормированной меры схожести междуобъектными формальными понятиями и используемая при классификациивопросов в ВОС.8.

Предложена методика оценки КОЛ относительно эталонного лексическогоресурса, а также критерий полезности решетки КОЛ для целей извлечениялексического значения, получена экспериментальная оценка КОЛ.19IV. СПИСОК ПУБЛИКАЦИЙ ПО ТЕМЕ ДИССЕРТАЦИИРаботы, опубликованные автором в ведущих рецензируемых научныхжурналах и журналах рекомендованных ВАК Министерства образования инауки России:1. Stepanova N. A. Analysis of Semantic Relations in Classification of SenseImages of Statements // Pattern Recognition and Image Analysis: Advances inMathematical Theory and Applications, EDITOR-IN-CHIEF: Yuri I. Zhuravlev,Vol.

17, No. 2, 2007, pp. 274–278. 0,3 p.l. (CO-AUTORSHIP: Emel’yanov G.M., Mikhailov D. V.; autor’s part 0,2 p.l.).Другие работы, опубликованные автором по теме кандидатскойдиссертации:2. Степанова Н.А. Анализ семантических отношений в задаче классификациисмысловых образов высказываний // Труды международного семинараPRIA-7-2004 по распознаванию образов и обработке изображений. - Т.II. –С.-Петербург, 2004.

- С. 460-461. 0,2 п.л. (в соавторстве Емельянов Г.М.,Михайлов Д.В.; вклад автора 0,1 п.л.).3. Степанова Н. А. Формирование и кластеризация понятий в задачераспознавания образов в пространстве знаний // Математические методыраспознавания образов: 13-я Всероссийская конференция, Ленинградскаяобл., г. Зеленогорск: Сборник докладов. – М.: МАКС Пресс, 2007. - C. 206–209. 0,2 п.л. (в соавторстве Емельянов Г.М.; вклад автора 0,1 п.л.).4. Stepanova N.A. Model of types in intensional logic // Interactive Systems AndTechnologies: The Problems of Human-Computer Interaction.

– Collection ofscientific papers. – Ulyanovsk: UlSTU, 2005, pp. 66–71. 0,3 p.l. (COAUTORSHIP: Emel’yanov G. M.; autor’s part 0,2 p.l.).5. Stepanova N.A. Semantic relation modeling using Formal Concept Analysis inRussian lexical databases // In proceeding of the Second IASTED InternationalMulti-Conference on Automation, Control, and Information Technologies,Novosibirsk, Russia, 2005, pp. 9–12. 0,4 p.l. (CO-AUTORSHIP: Emel’yanov G.M.; autor’s part 0,3 p.l.).6.

Stepanova N.A. Application of the computer thesaurus for automation ofupdating of the government patterns’s dictionary // In proceeding of VIInternational Congress on Mathematical Modeling, Nizhny Novgorod, Russia,Sept 20-26, 2004, p. – 352. 0,1 p.l. (CO-AUTORSHIP: Emel’yanov G. M.,Mikhailov D. V.; autor’s part 0,1 p.l.).7. Stepanova N.A.

Concept-oriented lexicon application for Question Answeringsystems // Interactive Systems And Technologies: The Problems of HumanComputer Interaction. – Collection of scientific papers. – Ulyanovsk: UlSTU,2007, pp. 31–40. 0,5 p.l. (CO-AUTORSHIP: Emel’yanov G. M.; autor’s part 0,4p.l.).208. Stepanova N. Knowledge acquisition process modeling for question answeringsystems // Cognitive Modeling in Linguistics: Proceedings of the IX-thInternational Conference CML-2007, Sofia (Bulgaria) / Edited by V.

Solovyev,R. Potapova, V. Polyakov – Kazan: KSU, 2007, pp. 344–354. 0,8 p.l. (COAUTORSHIP: Emel’yanov G. M.; autor’s part 0,7 p.l.).2122Лицензия ЛР № 020832 от 15 октября 1993 г.Подписано в печать 25 ноября 2008 г. Формат 60x84/16Бумага офсетная. Печать офсетная.Усл. печ. л. 1,0.Тирах 100 экз. Заказ №__Типография издательства ГУ-ВШЭ125319, г. Москва, Кочновский пр-д, д.

32324.

Характеристики

Тип файла

PDF-файл

Размер

363,44 Kb

Материал

Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Список файлов диссертации

modelirovanie-processa-avtomaticheskogo-izvlechenija-znanij-v-voprosno-otvetnyh-sistemah.rar

Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах

Автореферат.pdf

Описание.txt

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.