Технология построения онтологий из текстов на естественном языке
Описание файла
PDF-файл из архива "Технология построения онтологий из текстов на естественном языке", который расположен в категории "". Всё это находится в предмете "дипломы и вкр" из 12 семестр (4 семестр магистратуры), которые можно найти в файловом архиве МФТИ (ГУ). Не смотря на прямую связь этого архива с МФТИ (ГУ), его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Министерство образования и науки Российской ФедерацииМОСКОВСКИЙ ФИЗИКО-ТЕХНИЧЕСКИЙ ИНСТИТУТ(государственный университет)ФАКУЛЬТЕТ УПРАВЛЕНИЯ И ПРИКЛАДНОЙ МАТЕМАТИКИКАФЕДРА ТЕОРЕТИЧЕСКОЙ И ПРИКЛАДНОЙ ИНФОРМАТИКИТехнология построения онтологий из текстов на естественномязыкеМагистерская диссертациястудента 873 группыХламова Максима АнатольевичаНаучный руководительРыков В.В., доцент, кандидат филологических наукРецензентУстюжанин А.Е., к.ф.-м.н.г.
Долгопрудный2014Содержание1.Введение..................................................................................................................................32.Постановка задачи ..................................................................................................................63. Основной раздел ........................................................................................................................93.1 Теоретическое обоснование ................................................................................................
93.2 ―Усеченный русский язык‖ ............................................................................................... 103.2.1 Устранение неопределенностей .................................................................................123.2.2 Предложения ...............................................................................................................153.2.3 Слова............................................................................................................................. 173.2.4 Имена ............................................................................................................................ 183.2.5 Существительные ........................................................................................................203.2.6 Глаголы и прилагательные .........................................................................................223.3Реализованные возможности .......................................................................................233.4Стандарт OWL ..............................................................................................................243.5Пример использования .................................................................................................253.5.1 Иерархия классов ........................................................................................................263.5.2 Эквивалентные классы ...............................................................................................
273.5.3 Экземпляры объектов .................................................................................................283.5.4 Отношения ―часть – целое‖ ........................................................................................284.Выводы ..................................................................................................................................325. Заключение............................................................................................................................... 33Литература ...................................................................................................................................3421. ВведениеСуществуют различные подходы, модели и языки описания данных и знаний.Однаковсебольшуюонтологии.
Онтология –попопулярностьпоследнеевремяклассическомуопределениюТомасаприобретаютГрубера[1]–спецификация концептуализации, формализованное представление основных понятий исвязей между ними. Таким образом, онтология – это описание (подобно официальнойспецификации на программный продукт) понятий (концептов) и отношений, которыемогут существовать как агент или сообщество агентов. Это определение совместимо сиспользованием онтологии как набора описаний понятий (set-of-concept-definitions), ноболее общее. В философии у этого слова другой смысл (где онтология – этосистематическая оценка существования (жизни)).Онтологии часто приравнивают к таксономическими иерархиями классов,определениям класса и внутренним отношениям, но онтологии не должны бытьограничены этими формами. Онтологии также не ограничены консервативнымиопределениями, то есть определениями в традиционном логическом смысле, которыетолько представляют терминологию и не прибавляют никакого знания относительно мира[2].
Для определения концепции, требуется определить аксиомы, которые ограничиваютвозможные интерпретации для определенных терминов.Онтологии могут быть использованы, чтобы усовершенствовать существующиесетевые приложения и сделать возможным новые варианты использования cети.Предполагается, что уже в самом ближайшем будущем онтологии будут активноиспользоваться для различных целей.
Приведем здесь некоторые примеры [5]:Для того чтобы позволить более интеллектуальное публичное представление, вебпорталы могут определить онтологии для сообщества. Эта онтология можетобеспечить терминологию для описания контента и аксиом, которые описываюттермины, используя другие термины из онтологии. Например, онтология можетвключать такую терминологию, как "статья журнала", "публикация", "персона" и"автор". Эта онтология может включать определения, которые заявляют такие факты,как "все журнальные статьи есть публикации" или "авторы всех публикаций этолюди".
Если эти определения соединить с правдивыми фактами, то можно логическивывести новые факты. Эти выводы могут в свою очередь позволить пользователямполучать результаты поиска от портала, которые невозможно получить от3традиционных поисковых систем. Здесь уже можно смело говорить о том, что системагенерирует новые знания.Онтологии могут быть использованы для того, чтобы обеспечить семантическуюаннотацию для коллекций изображений, звуковых и других нетекстовых объектов.Искусственному интеллекту сложнее извлекать поддающуюся интерпретациисемантику из мультимедиа, чем семантику из текстов на естественном языке. Такимобразом, такие типы ресурсов обычно индексируются с помощью надписей илиметатегов.
Однако так как разные люди могут описывать эти нетекстовые объектыразличными способами, важно, чтобы функциональность поиска превышала простойпоиск по ключевым словам. В идеале онтологии будут получать дополнительныезнания о предметной области, которые могут быть использованы для болеесовершенного поиска изображений, видео, звуковых файлов и другихмультимедийных объектов.Как пример мультимедиа коллекции рассмотрим архив изображений старинноймебели.
Онтология старинной мебели была бы подходящим решением в поиске потакому архиву. Чтобы классифицировать различные типы мебели, можноиспользовать таксономию. Также необходима возможность получать знания изопределений. Например, если индексатор выбирает значение "Из конца эпохиГеоргов" для стиль/период для комода, из этого следует возможность вывести, чтоэлемент данных "дата.созданно" должен иметь значение между 1760 и 1811 нашейэры, и что "культура" - британская. Доступность такого типа фоновых знанийзначительно увеличивает поддержку того, что может быть выдано при индексации,также хорошо, как и при поиске. Другая особенность, которая может быть полезной,это поддержка представления знаний "по умолчанию".
Примером таких знаний можетбыть то, что "Ящик комода поздней эпохи Георгов" в отсутствии другой информациипредположительно сделан из красного дерева. Это знание ключевое для реальныхсемантических запросов, например запрос пользователя "старинная мебель дляхранения из красного дерева" мог бы сопоставить изображения ящиков комодапоздней эпохи Георгов, даже если ничего не сказано о типе дерева в аннотацииизображения.Онтологии также могут быть полезны при разработке документации. Это вариантиспользования для технической документации огромного объема, такой как та,которая например, используется в аэрокосмической промышленности.
Этадокументация может быть нескольких различных типов, включая документациюразработки, документацию производства и документацию тестирования. Эти пакеты4документов имеют иерархическую структуру, но структура различается для разныхпакетов.52. Постановка задачи2.1 Цель исследованийЦель исследования – разработать систему автоматического построения онтологий изтекста на так называемом «усеченном» русском языке, который подробнее будет описан восновной часть данной работы.В рамках данной работы ставятся следующие задачи:Изучение существующих подходов к построению онтологийРазработка формального языка описания онтологии, максимально похожегона естественный русский языкПрограммная реализация основных семантических отношенийНовизна работы состоит в построении такой системы с учетом особенностей русскогоязыка.Объектом исследования является построение технологии кодирования онтологий изтекста на естественном языке.2.2 Актуальность темы исследования.Сегодня как никогда актуальной является задача построения онтологий различныхпредметных областей (ПО), например сложных технических объектов.
[9]При построении онтологий, которые зачастую можно рассматривать также и какбазы знаний, приходится сталкиваться со следующими проблемами (некоторые изкоторых могут показаться странными для специалистов - технарей) [11]:1. Инженер знаний - человек, занимающийся построением онтологии, - долженобладать знаниями во многих областях: искусственном интеллекте, представлениизнаний, моделировании знаний. Также необходимо глубоко знать сопутствующиесредства моделирования баз знаний, например графические средства.Недостаточное понимание тонкостей в вышеупомянутых областях может привестик недостатку ключевой информации в смоделированной системе.2.