М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 8
Описание файла
PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "". Всё это находится в предмете "искусственный интеллект" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 8 страницы из PDF
Например, в русских текстах иногда оказывается пропущенной запятая,обособляющая причастный оборот в постпозиции. Для того, чтобы такое предложение моглобыть обработано, требуется временная отмена условия (присутствующего в каноническомправиле) обязательного наличия запятой. Однако ослабление канонических правилнеизбежно влечёт за собой возрастание числа возможных интерпретаций. При этом нельзяопознать ошибочный текст прежде, чем будет закончен анализ средствами каноническойграмматики. Другой подход предлагает сначала использовать слабую грамматику, а затемподвергнуть обрабатываемое предложение фильтрации на основе строгих требованийправильности.
Но при этом наличие ошибки предполагается более вероятным, чемсоблюдение норм грамматики.Также отметим, что описанные методы позволяют автоматически обнаружить ошибкутолько тогда, когда не удаётся построить связный синтаксический граф длярассматриваемого предложения. Однако ошибки, при которых возможно получениеформально приемлемой, но по сути неверной интерпретации, остаются невыявленными. Приэтом никаких сообщений об ошибках не поступает.3.2. Система комплексного контроля качества текста ЛИНАР3.2.1. Функции системы ЛИНАР; сценарии работы с системойПостроение автокорректоров сталкивается с рядом принципиальных и не решенныхпока в полном объеме проблем: компактное хранение словарей, эффективные методыморфологического и синтаксического анализа и т.д. Тем не менее на очереди - созданиесистем, способных производить более сложное по сравнению с автокорректорамиавтоматическое или автоматизированное редактирование текстов на естественном языке.
Видеале же необходима система, выполняющая функции научного редактора - человека,осуществляющего литературную и научную правку научно-технических текстов. Такоенаправление развития представляет разрабатывавшаяся в 1986-1990 гг. на кафедреалгоритмических языков факультета ВМК МГУ система ЛИНАР (ЛИтературно-НАучныйРедактор) - интеллектуальная система комплексного контроля качества и редактированиярусскоязычных текстов.Суть подхода заключалась в существенном расширении возможностей имевшихся в товремя автокорректоров за счет:– ограничения предметной области, к которой относились обрабатываемые тексты(методы, алгоритмы и программы обработки данных телеметрии на многопроцессорныхвычислительных комплексах);– ограничения видов текстов (научно-технические отчеты, деловая переписка);– использования средств синтаксического и семантического анализа текста;– привлечения более полных моделей русского языка.Пользователем ЛИНАР является человек, оценивающий с помощью системы качествонекоторого текста с позиций лица, которому адресован этот текст (адресата), и вносящий втекст необходимые исправления.
В качестве адресата могут выступать литературный илинаучный редактор, корректор, потенциальные читатели (конструкторы, программисты,руководители). Пользователем ЛИНАР может быть, например, автор обрабатываемоготекста, желающий взглянуть на него "со стороны", или научный руководитель работы,обеспокоенный терминологическими и стилистическими неувязками в текстах разделов,подготовленных различными участниками проекта.Обработка текста с помощью системы ЛИНАР включает в себя в общем случаенесколько циклов (как и при подготовке текста "вручную"), каждый из которых оформляетсякак самостоятельный сеанс работы с системой.
В начале сеанса пользователь формируетзадание на обработку текста, для выполнения которого система загружает необходимыеинформационные модули и вызывает программы контроля текста. Каждая программапроверяет некоторое определенное свойство текста, т.е. реализует одноаспектный контрольтекста.
Таким образом, в структурном плане систему ЛИНАР можно считать пакетомприкладных программ; сеанс работы с ней состоит из серии одноаспектных проверок текстаили его фрагментов.Основная технологическая схема использования системы ЛИНАР предусматривает, чтотекст хранится на машинных носителях и обрабатывается программами контроля,формирующими протокол замечаний по тексту (иногда система предлагает свой вариантисправления). Далее пользователь просматривает эти замечания и, если он с нимисоглашается, вносит необходимые изменения в текст с помощью текстового редактора.Измененная версия текста может быть объектом обработки в следующем сеансе. Взависимости от объема текста пользователь может выбрать диалоговый или пакетный режимработы с системой.
В последнем случае протокол замечаний формируется на внешнемносителе.Отметим, что используемые в ЛИНАР знания позволяют системе фиксироватьразличные типы конфликтных ситуаций (и формировать соответствующие замечания).Однако как бы полны ни были знания ЛИНАР, обнаружить все неточности, противоречия,неопределенности система самостоятельно не может. Поэтому часть программ контролясобирает некоторую вспомогательную информацию о тех или иных характеристиках(свойствах) текста, не давая ей оценки.Например, при написании отдельных фрагментов текста разными авторами дляобозначения одной и той же сущности могут быть использованы различные термины, чтоусложняет понимание текста. Автоматическое обнаружение подобных конфликтов требуетпривлечения глубоких знаний о понятийном и терминологическом аппарате предметнойобласти, и в ЛИНАР не реализуется. Однако в составе системы имеется программа контроля,которая может сформировать по фрагментам текста списки используемыхтерминологических словосочетаний.
На основе этой информации решить терминологическиепроблемы человеку будет значительно проще, чем при обработке текста "вручную".ЛИНАР не только обнаруживает неточности, ошибки, но и может "объяснить"пользователю суть своих замечаний, а также предложить способы устранения ошибок. Так,например, в случае орфографической ошибки система предлагает свой вариант исправленияслова, в случае нарушения естественного порядка слов - правильный порядок слов и т.д.Рекомендации системы призваны помочь пользователю в улучшении текста, направляют егодеятельность.3.3.2. База знаний системыКонтроль текста, осуществляемый системой ЛИНАР, основывается на использованиизнаний о том, что такое правильный, хороший текст.
Совокупность этих знаний называетсяконтролирующими знаниями, или К-знаниями. При формировании К-знаний учитывалисьрезультаты лингвистических, психологических работ, исследований по эргономике; принятво внимание опыт редакторов, корректоров, нормоконтролеров.К-знания должны обеспечить возможность оценки текста с различных сторон:– соответствие общеязыковым нормам;– соответствие"внешним"нормам,например,требованиямГОСТов,регламентирующих форму изложения материала в научно-технических документах;– сложность восприятия текста потенциальным читателем;– семантическая корректность текста (соответствие выявляемых в текстесемантических отношений и понятийной модели предметной области).ЧастьК-знаний(процедурнаясоставляющая)представленапрограммамиодноаспектного контроля.
Каждая программа фиксирует строго определенное свойствотекста или строго определенный дефект текста (конфликтную ситуацию). Затемформируется соответствующее диагностическое сообщение, которое, в зависимости отвыбранного режима работы, либо сразу предъявляется пользователю, либо включается впротокол замечаний.Важным компонентом информационного обеспечения системы ЛИНАР является илингвистическая база знаний, содержащая базовые общие знания о русском языке.
Крометого, ЛИНАР использует тематический словарь и тезаурус предметной области, к которойотносятся обрабатываемые тексты, и описания нормативных требований, предъявляемых ктекстам. Соответствующие информационные массивы создавались разработчиками системына основе общеязыковых и предметно-ориентированных словарей и справочников,Государственных стандартов и отраслевых инструкций по оформлению текстовыхдокументов.База знаний ЛИНАР содержит также заранее формируемый - и пополняемый в ходеэксплуатации системы - банк адресатов : конкретных читателей или определенныходнородных групп читателей (конкретный руководитель научно-исследовательскогопроекта; конкретный представитель руководства организации-заказчика; инженеры, которыебудут создавать описываемый программно-аппаратный комплекс и др.).