Технология построения онтологий из текстов на естественном языке, страница 2
Описание файла
PDF-файл из архива "Технология построения онтологий из текстов на естественном языке", который расположен в категории "". Всё это находится в предмете "дипломы и вкр" из 12 семестр (4 семестр магистратуры), которые можно найти в файловом архиве МФТИ (ГУ). Не смотря на прямую связь этого архива с МФТИ (ГУ), его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 2 страницы из PDF
Для построения онтологии нужно как минимум два человека — специалист вданной области и инженер знаний (как в ЭС). Иногда эти два специалиста могутвыступать в одном лице — если этот специалист владеет когнитивными знаниямии технологиями. Однако чаще происходит наоборот — специалист по тем или6иным причинам не участвует в этом процессе и вникать зачастую в незнакомуюему область приходится инженеру знаний. Поэтому актуальной являетсятехнология построения онтологии, основанной на доступной информации,представленной в виде текстов, разного типа словарей и других материалов.3.
Не существует единственного правильного способа моделирования предметнойобласти – всегда существуют жизнеспособные альтернативы. Лучшее решениепочти всегда зависит от предполагаемого приложения и ожидаемых расширений.4.Разработка онтологии – это обязательно итеративный процесс.5. Понятия в онтологии должны быть близки к объектам (физическим илилогическим) и отношениям в интересующей предметной области.Такимобразом,существуетпотребностьвсозданииудобныхсистемавтоматического построения онтологий из текстов на естественном языке.2.3 Степень разработанностиКак мы уже увидели, существует потребность в создании удобных системавтоматического построения онтологий.
Можно выделить несколько подходов к решениюэтой проблемы:1. Визуальный подход, позволяющий специалистам непосредственно "рисовать"онтологии, что помогает наглядно сформулировать и объяснить природу иструктуру явлений. Любой программный графический пакет от PaintBrush доVisio можно использовать как первичный инструмент описания онтологий. Ктакого рода системам можно отнести CAKE (Сомputer Aided KnowledgeEngineering), впервые описанный в работе [12] и ВИКОНТ - ВИзуальныйКонструктор ОНТологий [13].
CAKE и ВИКОНТ позволяют визуальнопроектировать онтологии любой предметной области. В работе [14] был описанспособ построения онтологий из UML-диаграмм.Основной недостаток систем такого рода – негибкость, невозможность описатьмножество отношений из-за того, что "рисунок" получается слишкомзагроможденным.2. В статье [8] описан метод построения тезаурусов, терминологическихонтологий из текста.7Возможность построения онтологий из текстов на «чистом» естественном языкеполностью решила бы проблему построения онтологий.
Однако такой подходимеет некоторые критические для автоматической обработки текста недостатки:Наличие у слова нескольких значений. Самая сложная неопределенность,возникающая в естественных языках, заключается в правильном выборе смысласлова в каком-либо определенном контексте.Присоединение предложных групп. В русском языке предложные группыможно добавлять к существительным, глаголам, прилагательным или наречиям.Ссылочные именные группы. В естественных языках объект ссылкиместоимения или другой именной группы может потребовать неявных фоновыхзнаний.Модификаторы существительных. В отличие от прилагательных, таких какжелтый, отражающих атрибут, слово жесткий, как в жесткий диск, приводит кзначительному изменению значения существительного.Глубоко вложенные предложения. В формальных нотациях вводные словаили правила предшествования определяют группировку предложений, ногруппировка в русском языке часто зависит от контекста.Некоторыесложнейшиепроблемы,продолжающиеисследоватьсялингвистами, включают именные группы во множественном числе, временаглаголов, модальность, а также неокончательное число контекстно-зависимыхвопросов.3.
Построение онтологий из текстов на упрощенном естественном языке.Примером таких технологий является редактор Fluent Editor. Этот редакторрешает задачу автоматического построения онтологии с помощьюпреобразования отдельных простых предложений на английском языке.[15]Основной недостаток данного редактора – возможность анализа предложенийтолько на английском языке.83.
Основной раздел3.1 Теоретическое обоснованиеВыбранный в данной работе подход имеет под собой теоретическую основу.Однойиззадач,повышающихэффективностьчеловеческойдеятельностиприпроектировании технических, информационных и программных систем, являетсяобеспечениеестественногоспособакоммуникацииссоответствующейавтоматизированной системой, поддерживающей данный процесс. Имеется многоразработок в этой области, однако универсальной системы, обеспечивающей наиболееестественный вариант взаимодействия (естественно-языковой интерфейс) пока не создано,так как ни одна из имеющихся лингвистических теорий не в состоянии описатьестественный язык с необходимой точностью и полнотой.
Это связано со сложностьюобъектаформализации–естественногоязыка(ЕЯ).В результате анализа основных формальных лингвистических теорий, для которыхсуществуют компьютерные реализации, можно сделать вывод о том, что проблемамоделирования языковой деятельности решается кибернетическим методом черногоящика, сводится к выработке методов строгого лингвистического анализа и к построениюточногоописаниялингвистическихобъектовисоответствующихпонятий.При этом четкое теоретико-множественное моделировании языковых объектов, которыепо своей природе не могут рассматриваться независимо друг от друга, от механизмовреальной деятельности и от когнитивных структур, которыми пользуется человек,невозможно.Необходимы методы моделирования, реализующие соответствующие взаимосвязи.Таким образом, является актуальной задача формализации ограниченного естественногоязыка Одной из классических работ в этом направлении является работа Новикова«Семантика текста и ее формализация» [16].
Новиков, анализируя подходы к структуретекста, отмечает, что «Из-за многоплановости, многоуровневости своей организации текстпредставляет собой довольно сложный объект исследования. Между его единицами могутбыть определены различные системы отношений, то есть одному и тому же тексту можетбыть поставлено в соответствие несколько различных структур»Процесс формализации текста как метод исследования обоснованно может бытьпричислен к продуктивным методам, потенциал которого не раскрыт в полной мере. Внастоящее время происходит активное проникновение кибернетических методов вмоделирование мыслительной деятельности человека. А.И.Новиков писал, что одним изпараметров, который способен наиболее полно охарактеризовать этот формализации9текста, является соотношение имплицитной и эксплицитной информации. Выбор этогопараметра А.И.Новиков объяснял просто - имплицитная информация представляет собой,с одной стороны, обязательную составляющую речемыслительного процесса, а с другойстороны, этот вид информации - основное препятствие в процессе формализации.Прежде всего обратим внимание на основные требования и исходящие из нихограничения, которые присущи формализации и на которые ссылался А.И.Новиков.Исходные единицы должны быть однозначными, элементарными, количество их должнобыть небольшим и конечным.
Соответственно этапы построения выражений из такихединиц тоже будут элементарными, обусловленными и близкими к автоматическомуисполнению. Формализации поддадутся только элементарные (с простой логическойструктурой) части с ограниченным запасом значений. При других условиях формализацияневозможна.Следует отметить еще одну особенность формализации – абстрагированность символов отсодержания, которое символы замещают при формализации. Новиков писал, чтоневозможно добиться полного абстрагирования от содержания, следовательно «чистых»формальных систем не существует.3.2 “Усеченный русский язык”«Усеченный» русский язык (УРЯ) — формальный язык с синтаксисом, похожим наобычный русский язык и поддерживающим возможность перевода в логику первогопорядка.
Любой, кто способен читать по-русски, может читать на УРЯ бездополнительных тренировок. Однако, чтобы писать на УРЯ, необходима практика, чтобыучитывать синтаксические и семантические ограничения. Важнейшее ограничение УРЯзаключается в том, что значение каждого предложения на УРЯ определяется егопереводом в логику первого порядка; не поддерживается никакая гибкость обычногорусского языка и никакая его образность. Эти ограничения знакомы каждому, ктоиспользовал языки запросов БД, разрабатывал ПО или формальные спецификации, такиекак SQL, UML, OWL и др.. Так как эти языки могут быть автоматически переведены влогику и обратно, то они также могут быть переведены на УРЯ и наоборот.Следовательно, УРЯ может быть использован как удобочитаемый язык документации,который можно перевести в исполнимый язык. Основное синтаксическое ограничение —использование глаголов настоящего времени и существительных единственного числа,переменныхвместоместоименийинебольшогоподмножествасинтаксическихвозможностей русского языка.
Несмотря на эти ограничения, УРЯ похож на тот русский10язык, который используется в программных спецификациях, математических книгах иопределениях и аксиомах формальной онтологии.Несмотря на широкую применимость, УРЯ не претендует на статус стандарта; стандартомявляется логика первого порядка, а УРЯ — лишь удобная нотация, позволяющая сделатьлогику легче для чтения и написания. Так как УРЯ обладает всей выразительной силойлогики первого порядка, есть возможность перевести утверждение логики в исчислениепредикатов или во многие другие нотации. Обратный перевод из логики в УРЯ можносделать автоматическим, но с некоторыми оговорками:1. Если утверждение логики было получено из УРЯ, тогда описания имен и других слов,использованных для перевода УРЯ в логику, также должны быть использованы и дляперевода из логики в УРЯ.2.
Если утверждение логики было получено не из УРЯ, тогда перевод в УРЯ может бытьвыполнен только в том случае, если отображения символов, использованных в логике,в слова в УРЯ были заданы той же информацией, что и в описаниях УРЯ.3. Так как и УРЯ, и логика предоставляют много способов описания одного и того жеутверждения, обратный перевод может быть не идентичен исходному утверждениюУРЯ, но при этом логически эквивалентен.В качестве примеров обратных переводов рассмотрим следующие три предложения наУРЯ, являющиеся логически эквивалентными:Любое простое число меньше 3, есть четное.Для любого числа x, если x есть простое, и x меньше 3, тогда x есть четное.Для любого x, если x есть число, x есть простое, и x меньше 3, тогда x есть четное.4.
Всегда можно доказать то, что обратный перевод эквивалентен исходномуутверждению. Фактически, число обменов и замен, требуемых для доказательства,прямо пропорционально длине предложения на УРЯ.Возможность переводов в обоих направлениях позволяет использовать УРЯ в качествеязыка документации, который всегда согласован с реализацией: любые изменения вдокументации либо в реализации могут быть всегда переведены в реализацию илидокументациюсоответственно.Ошибкииопечатки,которыедовольнотруднообнаружить в незнакомой записи, в УРЯ часто бывает найти легче, и они могут бытьнайдены людьми, никогда не изучавшими УРЯ.11В качестве иллюстрации УРЯ, рассмотрим несколько примеров, демонстрирующихнекоторые виды разрешенных предложений и их переводы в исчисление предикатов (ИП).Следующий пример содержит два квантора: квантор общности любая в УРЯ; кванторсуществования пробел в УРЯ.