Автореферат (Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах)

PDF-файл Автореферат (Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах) Технические науки (40717): Диссертация - Аспирантура и докторантураАвтореферат (Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах) - PDF (40717) - СтудИзба2019-05-20СтудИзба

Описание файла

Файл "Автореферат" внутри архива находится в папке "Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах". PDF-файл из архива "Моделирование процесса автоматического извлечения знаний в вопросно-ответных системах", который расположен в категории "". Всё это находится в предмете "технические науки" из Аспирантура и докторантура, которые можно найти в файловом архиве НИУ ВШЭ. Не смотря на прямую связь этого архива с НИУ ВШЭ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата технических наук.

Просмотр PDF-файла онлайн

Текст из PDF

На правах рукописиСтепанова Надежда АлександровнаМоделирование процесса автоматического извлечения знаний в вопросноответных системахСпециальность 05.13.18 – «Математическое моделирование,численные методы и комплексы программ»АВТОРЕФЕРАТдиссертации на соискание ученой степеникандидата технических наукМосква - 2008Работа выполнена в Государственном образовательном учреждении“Новгородский государственный университет им.

Ярослава Мудрого”Научный руководитель:доктор технических наук, профессорЕмельянов Геннадий МартиновичОфициальные оппоненты:доктор технических наук, профессорВагин Вадим Николаевичкандидатфизико-математическихнаук, профессорКозырев Олег РамазановичВедущая организация:Государственное учреждение«Научно-исследовательский институтприкладнойматематикиикибернетикиНижегородскогогосударственного университета им.Н. И. Лобачевского».Защита состоится“29” декабря 2008 г. в 12 часов на заседаниидиссертационного совета Д 212.048.09 при Государственном университете Высшей школе экономики по адресу: 105187, Москва, ул.

Кирпичная, д. 33/5.С диссертацией можно ознакомиться в библиотеке Государственногоуниверситета – Высшей школы экономики по адресу: 101990, Москва,ул. Мясницкая, д. 20.Автореферат разослан “28” ноября 2008 г.Ученый секретарь диссертационного советад.т.н., доцент2В.А. ФомичевI. ОБЩАЯ ХАРАКТЕРИСТИКА РАБОТЫНастоящаядиссертационнаяработапосвященапроблемеавтоматическогоизвлечениялексико-семантическихзнанийизнеструктурированного текста на Естественном Языке (ЕЯ) с целью ихдальнейшего использования в Вопросно-Ответных Системах (ВОС).

Дляизвлечения и структурирования знаний используются методы анализаформальных понятий, основанные на математической теории решеток.Актуальность работы. ВОС – это особый вид информационнойсистемы, которая умеет обрабатывать введенный пользователем вопрос наестественном языке и выдавать осмысленный ответ. Для поиска ответаиспользуются коллекции документов, например, из сети Интернет. Несмотря намноголетние исследования и значительные достижения в области ВОС,проблема построения полноценной системы в этой области, обеспечивающейвысокую точность ответов и работающей с широким диапазоном вопросов,остается пока нерешенной.Применение методов Обработки Естественного Языка (ОЕЯ) требуетсяпрактически на каждом этапе работы ВОС, а качество этих методов являетсяопределяющим фактором для точности и полноты извлекаемых ответов.Использование различных лексических ресурсов является практическиобязательной частью наиболее эффективных ВОС и позволяет приблизиться крешению следующих проблем: классификация вопроса, предварительноеизвлечение ответов, расширение и перефразирование вопроса, удалениеизбыточности в ответах.В настоящее время одними из самых распространенных лексическихресурсов являются пополняемые вручную компьютерные словари, построенныепо модели WordNet.

Несмотря на высокий уровень развития современныхлексических баз данных, область их покрытия остается узкой, особенно длярусскоязычных лексических ресурсов, поэтому разработка лексическихресурсов, специализированных для ВОС, на данном этапе развития технологийОЕЯ должна опираться на автоматическое извлечение знаний из корпусовтекстов.В лексическом ресурсе, используемом в ВОС, должны содержатьсятолкования значения лексем, структура лексикона должна основываться наиерархии по принципу от общего к частному, а лексика должна бытьпредставлена с минимальной степенью многозначности.Цель и задачи работы. Целью настоящей диссертационной работыявляется разработка модели автоматического извлечения знаний изнеструктурированного текста на ЕЯ для повышения эффективности работыВОС.

Для достижения поставленной цели в работе решаются следующиезадачи:1. Разработка методов автоматического извлечения знаний изнеструктурированного текста с целью пополнения лексических ресурсов для3использования в ВОС, формулирование требований к лексическим ресурсам,необходимым для ВОС;2. Построение модели лексикона и модели семантических отношений влексиконе для ВОС;3.

Разработка алгоритма сегментации лексикона и формирования классовсхожих лексем;4. Разработка методов классификации вопросов, снятия семантическоймногозначности для ВОС;5. Проверка разработанной модели автоматического извлечения знаний спомощью вычислительного эксперимента.Методы исследований. При проведении исследований в работеиспользовались методы теории множеств, математической теории решеток,анализа формальных понятий, а также интенсиональная логика и методылексической и формальной семантики.Научная новизна.

В ходе решения поставленных задач полученыследующие результаты, являющиеся новыми в данной области исследований:1. Разработана модель Концептно-Ориентированного Лексикона (КОЛ),представленного решеткой формальных понятий, толкование лексическогозначения получено в виде содержания формальных понятий решетки, а самилексемы представлены в объеме формальных понятий;2. Впервые предложена модель автоматического извлечения знаний изнеструктурированного текста на ЕЯ на основе формализации семантикигенитивной конструкции на языке интенсиональной логики, знанияпредставлены формальными понятиями в КОЛ;3.

Разработана количественная оценка меры схожести междуформальными понятиями решетки, на основе которой предложен алгоритмсегментации решетки для снятия многозначности слов в объеме формальныхпонятий решетки;4. Предложены методы использования КОЛ для ВОС: расширениеключевых слов вопроса, классификация вопросов с помощью формулы дляоценки извлекаемых параграфов на основе нормированной меры схожестимежду объектными формальными понятиями, обработка собственных имен ввопросах и ответах;5.

В результате вычислительного эксперимента выполнено оцениваниеполноты и репрезентативности исходного текста на ЕЯ, используемого дляпополнения лексикона, выработаны общие требования, предъявляемые к такимтекстам, а также получена количественная оценка КОЛ относительноэталонного лексического ресурса.Практическая значимость и внедрение. Областью непосредственногопрактического применения теоретических результатов настоящей работыявляется использование автоматически пополняемого КОЛ для ВОС.Разработан программный комплекс, реализующий модель извлечениязнаний из неструктурированного текста на ЕЯ на основе решетки формальныхпонятий.

Результатом работы данного программного комплекса является4сегментированная решетка формальных понятий, представляющая собой КОЛ,готовый для использования в ВОС по предложенным в диссертационной работеметодам.Разработанныйпрограммныйкомплекспозволяетпровестиисследование каждого этапа извлечения знаний и формирования КОЛ, чтопозволяет внедрить его в учебный процесс НовГУ.Результаты проведенных исследований использовались в работе погранту РФФИ № 06-01-00028.Достоверность и эффективность. Достоверность полученныхтеоретическихрезультатовподтверждаетсясериейвычислительныхэкспериментов,демонстрирующихавтоматическоеформированиеипополнение КОЛ на основе различных текстов на ЕЯ.Эффективность подтверждается проведенной оценкой сложностипредложенных и используемых алгоритмов, а также количественной оценкойточности и степени охвата КОЛ относительно эталонного лексическогоресурса.Апробация работы и публикации.

Основные положения и полученныерезультаты диссертационной работы апробированы в докладах намеждународных конференциях: IX-я международная конференция «CognitiveModeling in Linguistics» (София, Болгария, 2007), 7-я международнаяконференция «Pattern Recognition and Image Analysis: New InformationTechnologies» (С.-Петербург, 2004), 6-я международная научно-техническаяконференция «Interactive Systems And Technologies: The Problems of HumanComputer Interaction» (Ульяновск, 2005), 2-я международная конференцияIASTED «Automation, Control, and Information Technologies» (Новосибирск,2005), VI-й международный конгресс по математическому моделированию(Нижний Новгород, 2004), 7-я международная научно-техническаяконференция «Interactive Systems And Technologies: The Problems of HumanComputer Interaction» (Ульяновск, 2007) и на Всероссийской конференции«Математические методы распознавания образов XIII» (г.

Зеленогорск, 2007), атакже опубликованы в 8 работах, список которых приводится в концеавтореферата.Структура и объем диссертации. Диссертационная работа состоит извведения, пяти глав, заключения и списка литературы, включающего 144наименования. Основная часть работы изложена на 156 страницах, содержит 21рисунок и 7 таблиц.5II. КРАТКОЕ СОДЕРЖАНИЕ РАБОТЫВо введении обосновывается актуальность выбранной темы диссертации,кратко описываются методы дальнейшего исследования, формулируется цель иосновные задачи исследования, приводится краткое описание структурыдиссертации.В первой главе диссертационной работы рассматриваются общиевопросы извлечения знаний.

Анализируются подходы к формальномуописанию лексического значения, формулируются требования, предъявляемыек лексическим ресурсам, используемым в ВОС.На основе анализа текущего состояние и преимуществ для ВОСсуществующих лексических ресурсов сделан вывод, что для русского языка изза недостаточной области покрытия нет возможности использоватьсуществующие лексические ресурсы в ВОС, а при построении новыхлексических ресурсов необходимо главным образом опираться на корпустекстов.

Проанализированы наиболее широко используемые подходы кобработке текста с точки зрения семантики и обосновано предложениеиспользовать Генитивные Конструкции (ГК) русского языка в качестве базовойструктуры обработки неструктурированного текста.Показано, что подход на основе Интенсиональной Логики (ИЛ) играмматики Монтегю является наиболее приемлемым для формализациисемантики ГК. В качестве основы для формализации ГК используются сорта исортовые сдвиги, формализация семантики всех ГК осуществляется по единойсхеме, опорное существительное всегда рассматривается как реляционное.Выполнен анализ существующих методов и подходов к кластеризациизначений слов, извлечению семантических отношений и разрешениюмногозначности.

Предложен теоретико-решеточный подход к моделированиюлексикона на основе записи ГК на языке ИЛ.В разделе 1.2 приводится формализация семантических отношений,анализируется толкование лексического значения в существующихлексических ресурсах.В разделе 1.3 показана целесообразность использования ГК в качествебазовой структуры обработки неструктурированного текста, что позволяетполучить такую же точность, как и у метода на основе коллокаций, но при этомнет необходимости задавать набор коллокаций вручную.В разделе 1.4 обосновывается преимущество использования ИЛ посравнению с исчислением предикатов.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5184
Авторов
на СтудИзбе
436
Средний доход
с одного платного файла
Обучение Подробнее