AI-2009 Day 15 (1156479), страница 4
Текст из файла (страница 4)
База знаний системы ЛИНАР
Контроль текста, осуществляемый системой ЛИНАР, основывается на использовании знаний о том, что такое правильный, хороший текст. Совокупность этих знаний называется контролирующими знаниями, или К-знаниями. При формировании К-знаний учитывались результаты лингвистических, психологических работ, исследований по эргономике; принят во внимание опыт редакторов, корректоров, нормоконтролеров.
К-знания должны обеспечить возможность оценки текста с различных сторон:
- соответствие общеязыковым нормам;
- соответствие «внешним» нормам, например, требованиям ГОСТов, регламентирующих форму изложения материала в научно-технических документах;
- сложность восприятия текста потенциальным читателем;
- семантическая корректность текста (соответствие выявляемых в тексте семантических отношений и понятийной модели предметной области).
Часть К-знаний (процедурная составляющая) представлена программами одноаспектного контроля. Каждая программа фиксирует строго определенное свойство текста или строго определенный дефект текста (конфликтную ситуацию). Затем формируется соответствующее диагностическое сообщение, которое, в зависимости от выбранного режима работы, либо сразу предъявляется пользователю, либо включается в протокол замечаний.
Важным компонентом информационного обеспечения системы ЛИНАР является и лингвистическая база знаний, содержащая базовые общие знания о русском языке. Кроме того, ЛИНАР использует тематический словарь и тезаурус предметной области, к которой относятся обрабатываемые тексты, и описания нормативных требований, предъявляемых к текстам. Соответствующие информационные массивы создавались разработчиками системы на основе общеязыковых и предметно-ориентированных словарей и справочников, Государственных стандартов и отраслевых инструкций по оформлению текстовых документов.
База знаний ЛИНАР содержит также заранее формируемый (и пополняемый в ходе эксплуатации системы) банк адресатов: конкретных читателей или определенных однородных групп читателей (конкретный руководитель научно-исследовательского проекта; конкретный представитель руководства организации-заказчика; инженеры, которые будут создавать описываемый программно-аппаратный комплекс и др.). Настройка на адресата производится в начале очередного сеанса работы с ЛИНАР и позволяет моделировать процесс восприятия текста разными людьми и, следовательно, оценивать качество текста с разных точек зрения. При такой настройке могут меняться базовые и тематические лингвистические знания (состав словаря, совокупность грамматических правил), степень жесткости требований по соблюдению тех или иных норм и условий.
Таким образом, К-знания ЛИНАР (которые служат критерием корректности текста и используются для обнаружения «дефектов» текста – отклонений от требований, предъявляемых К-знаниями) формируются динамически в каждом конкретном сеансе работы с системой и являются комплексными по своей природе. Они включают как процедурные знания об исследуемом аспекте текста (воплощенные в соответствующих программах контроля), так и декларативные знания, фильтруемые и конкретизируемые в начале каждого сеанса.
Обнаруженные программой контроля несоответствия текста и К-знаний могут быть устранены двумя способами:
-
путем внесения изменений в текст (это наиболее частый случай: несоответствие – суть ошибка, допущенная в тексте, которую необходимо исправить);
-
путем изменения К-знаний системы.
Заметим, что изменениям подвергается лишь один компонент К-знаний – лингвистические знания, причем не все, а лишь те, которые соответствуют наиболее подвижной части естественного языка - лексикону. Как правило, такие изменения заключаются в пополнении базы знаний, например, в создании новой словарной статьи для слова, впервые встретившегося в тексте и незнакомого системе.
Знания, отображающие требования семантической корректности и простоты интерпретации, общеязыковые и внешние нормы, может изменять только администратор системы.
Для внесения изменений в базу лингвистических знаний используются сервисные программы; для изменения текста – подсистема редактирования ЛИНАР.
Отметим, что (даже при работе с ЛИНАР в диалоговом режиме) редактирование текста обычно производится по завершении работы программ контроля. Это связано с тем, что исправление фиксируемых системой ошибок и неточностей зачастую требует переделки относительно больших фрагментов текста (разбиение длинной фразы на несколько более простых, устранение неоднозначности трактовки и т.п.). Однако некоторые (локальные) изменения можно внести в текст сразу же в момент обнаружения ошибки. Поэтому в ряде программ контроля, например, в программах орфографического уровня, предусмотрена возможность исправления фиксируемых ошибок в момент их обнаружения.
Программы контроля
Программы контроля текста могут быть классифицированы по нескольким критериям.
Первый критерий связан с анализируемым программой аспектом текста. В соответствии с этим критерием выделяются следующие группы программ одноаспектного контроля:
- контроль орфографии (включая поиск ошибок в склонении и спряжении слов);
- анализ лексического состава текста;
- стилистический контроль;
- проверка выполнения правил структуризации текста;
- контроль синтаксической структуры и пунктуационный контроль;
- семантический контроль.
Вот несколько примеров работы программ синтаксического и семантического контроля:
1) Рассмотрим структуру памяти вычислительной машины, в которой хранятся команды.
СЛОВО которой ИМЕЕТ БОЛЕЕ ОДНОГО СЛОВА-ХОЗЯИНА В
ГЛАВНОМ ПРЕДЛОЖЕНИИ: машины, памяти, структуру
Каждому каналу соответствует свое устройство, которые в свою очередь связаны с главной ЭВМ.
СЛОВО которые НЕ ИМЕЕТ СЛОВА-ХОЗЯИНА В ГЛАВНОМ ПРЕДЛОЖЕНИИ
Мощь языка Си - результат выявления его авторами потребностей программистов, которые возникают при программировании на языке ассемблера.
СЛОВО которые ИМЕЕТ БОЛЕЕ ОДНОГО СЛОВА-ХОЗЯИНА В ГЛАВНОМ ПРЕДЛОЖЕНИИ: программистов, потребностей, авторами
2) Все рассматриваемые программы написаны на ассемблере.
НЕСОВПАДЕНИЕ СЕМАНТИЧЕСКИХ КЛАССОВ!
В ОПИСАНИИ ГЛАГОЛА "написать" СЕМ.-КЛАСС АКТАНТА:
=язык_программирования=
РЕАЛЬНЫЙ АКТАНТ ассемблере ИМЕЕТ СЕМ.-КЛАСС: =транслятор=
Схема прерываний подключается к магистрали.
НЕСОВПАДЕНИЕ СЕМАНТИЧЕСКИХ КЛАССОВ!
В ОПИСАНИИ ГЛАГОЛА "подключаться" СЕМ.-КЛАСС АКТАНТА: =устройство=
РЕАЛЬНЫЙ АКТАНТ схема прерываний ИМЕЕТ СЕМ.-КЛАСС: =структура2=
3) Снижение напряжения вызвало отключение принтера.
НЕОДНОЗНАЧНАЯ ИНТЕРПРЕТАЦИЯ!
1 трактовка:
=причина= : снижение напряжения
=следствие= : отключение принтера
2 трактовка:
=причина= : отключение принтера
=следствие= : снижение напряжения
4) Каждому каналу сопоставлено определенное устройство. Они, в свою очередь, связаны с главной ЭВМ.
ДЛЯ МЕСТОИМЕНИЯ они В ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НЕ НАЙДЕНО СЛОВ,
НА КОТОРЫЕ ЭТО МЕСТОИМЕНИЕ ССЫЛАЕТСЯ
Рассмотрим структуру памяти ЭВМ. Она состоит из двух основных частей.
ДЛЯ МЕСТОИМЕНИЯ она В ПРЕДШЕСТВУЮЩЕЙ ФРАЗЕ НАЙДЕНО БОЛЕЕ ОДНОГО СЛОВА,
НА КОТОРОЕ ССЫЛАЕТСЯ ЭТО МЕСТОИМЕНИЕ: ЭВМ, памяти, структуру
5) Информация передается в сопроцессор АК-34 по 16 каналу.
ОБЪЕКТ: сопроцессор АК-34
ГРУППА: 16 каналу
ВЫХОД ЗНАЧЕНИЯ ЗА ВЕРХНЮЮ ГРАНИЦУ ДИАПАЗОНА
(СОПРОЦЕССОР АК-34 ИМЕЕТ КАНАЛЫ: 0,1,2, ... 15)
Эксперименты с лингвистическим процессором АДАМАНТ
* * * РАБОТАЕТ ЛП "АДАМАНТ" * * *
КТО?
БОГАЧЕВ
РЕЖИМ РАБОТЫ?
ТЕСТОВЫЙ
ВЫ РАБОТАЕТЕ В ТЕСТОВОМ РЕЖИМЕ!
ЛЮБОЕ ВХОДНОЕ СООБЩЕНИЕ РАССМАТРИВАЕТСЯ ЛИБО КАК КОНТРОЛЬНАЯ ИЛИ ОБУЧАЮЩАЯ ФРАЗА
(НА ЭКРАНЕ РАСПЕЧАТЫВАЕТСЯ НАЙДЕННАЯ ИНТЕРПРЕТАЦИЯ),
ЛИБО КАК ОЦЕНКА ИЛИ УКАЗАНИЕ.
СТЕПЕНЬ САМОСТОЯТЕЛЬНОСТИ СТАНДАРТНАЯ?
ДА
СТЕПЕНЬ ПОДРОБНОСТИ СТАНДАРТНАЯ?
НЕТ
ЗАДАЙТЕ, ПОЖАЛУЙСТА, СТЕПЕНЬ ПОДРОБНОСТИ: ЧИСЛО ОТ 0 - МИН., ДО 5 - МАКС.
4
МОГУ ЛИ Я РАССЧИТЫВАТЬ НА ВАШУ ПОМОЩЬ НА ЭТАПЕ АНАЛИЗА?
ДА
По фамилии пользователя и выбранному им режиму работы ЛП настраивается на очередной сеанс, считывая в свою оперативную память необходимые процедуры и описания уместных в данном сеансе языковых единиц (в частности, словарь пользователя по фамилии Богачев). Адресуемые данному («рядовому») пользователю вопросы будут формулироваться в таком виде, что для ответа на них не потребуются знания, выходящие за рамки школьного курса русского языка (при диалоге с администратором в вопросах могут появиться лингвистические термины, понятия языковой модели системы). В начале сеанса устанавливаются «степень самостоятельности» ЛП при обработке незнакомых языковых объектов и «степень подробности» выдаваемых на экран терминала сообщений о работе процедур языковой адаптации и обучения (этот параметр можно менять в ходе сеанса). ЛП также «спрашивает» пользователя, согласен ли он отвечать на его вопросы, возникающие в случаях, когда установленная степень самостоятельности не позволяет процессору изменять лингвистические знания автоматически. При заданной степени подробности (4) процессор будет информировать пользователя о всех обращениях к процедурам языковой адаптации.
ЖДУ ОЧЕРЕДНОЕ СООБЩЕНИЕ
МАЛЬЧИК ИГРАЛ С КОШКОЙ НА БАЛКОНЕ.
ОБРАБАТЫВАЕТСЯ НЕЗНАКОМОЕ СЛОВА "БАЛКОНЕ"
ПРЕДСКАЗАНИЯ: НЕОДУШЕВЛ. СУЩ. В ФОРМЕ ПРЕДЛОЖН. ПАДЕЖА. СЕМ. КЛАСС: =МЕСТО=
УКАЖИТЕ, ПОЖАЛУЙСТА, РОД СУЩЕСТВИТЕЛЬНОГО С ОСНОВОЙ "БАЛКОН" (ВОЗМОЖНЫЕ ОТВЕТЫ: М/Ж/С)
М
КАКОЕ ОКОНЧАНИЕ ИМЕЕТ СЛОВО "БАЛКОН" В ФОРМЕ ТВОРИТ. ПАДЕЖА ЕД. ЧИСЛА (ОМ ИЛИ ЕМ)?
ОМ
ВСТРЕТИЛОСЬ НЕЗНАКОМОЕ СЛОВО "БАЛКОНЕ"
ОНО ВОСПРИНЯТО КАК НЕОДУШЕВЛ. СУЩ. МУЖ. РОДА В ФОРМЕ ПРЕДЛ. ПАДЕЖА ЕД. ЧИСЛА
ОСНОВЕ ПРИПИСАНЫ ГРАММАТИЧЕСКИЕ ПРИЗНАКИ: НЕОДУШ. СУЩ. МУЖ. РОДА, 1 ТИП СКЛОНЕНИЯ.
ОСНОВЕ ПРИПИСАНЫ СЕМАНТИЧЕСКИЕ ПРИЗНАКИ: =МЕСТО=
ПОНЯТНО (ВРЕМЯ АНАЛИЗА = 3.68750 СЕК.)
=ИГРАТЬ2= (ИГРАТЬ)
=СУБЪЕКТ= : МАЛЬЧИК
=ОБЪЕКТ= : КОШКА
=ВРЕМЯ= : =РАНЕЕ НАСТОЯЩЕГО МОМЕНТА=
=ВИД= : =ДЕЙСТВИЕ ВЫПОЛНЯЛОСЬ=
=МЕСТО= : БАЛКОН (НА)
ПРАВИЛЬНО
НОВАЯ ИНФОРМАЦИЯ ЗАПОМИНАЕТСЯ В ДАННОМ СЕАНСЕ
Пользователь помог ЛП определить грамматические признаки незнакомого ему слова балкон; род и тип склонения (ср. на кузне, на окне, на ясене). Семантический класс (=МЕСТО=) установлен автоматически, поскольку группа на балконе анализировалась процессором – после заполнения валентностей выбранной трактовки предиката играть (2-х местный предикат с актантами: «кто (человек)?», «с кем/чем (животное или предмет)?») - как обстоятельство места. Так как пользователь согласился с найденной интерпретацией, ЛП запоминает новую словарную статью слова балкон.
ЖДУ ОЧЕРЕДНОЕ СООБЩЕНИЕ
МАЛЬЧИК ИГРАЛ С ДРУГОМ В СРЕДУ.
ВСТРЕТИЛОСЬ НЕЗНАКОМОЕ СЛОВО "СРЕДУ"
ОНО ВОСПРИНЯТО КАК НЕОДУШ. СУЩ. ЖЕНСКОГО РОДА В ФОРМЕ ВИНИТ. ПАДЕЖА ЕД. ЧИСЛА
ОСНОВЕ ПРИПИСАНЫ ГРАММАТИЧЕСКИЕ ПРИЗНАКИ: НЕОДУШ. СУЩ. ЖЕНСКОГО РОДА, 2 ТИП СКЛОНЕНИЯ
ОСНОВЕ ПРИПИСАНЫ СЕМАНТИЧЕСКИЕ ПРИЗНАКИ: =ИГРА=
ПОНЯТНО (ВРЕМЯ АНАЛИЗА = 3.10875 СЕК.)
=ИГРАТЬ1= (ИГРАТЬ)
=СУБЪЕКТ= : МАЛЬЧИК
=ПАРТНЕР= : ДРУГ
=ИГРА= : СРЕДА
=ВРЕМЯ= : =РАНЕЕ НАСТОЯЩЕГО МОМЕНТА=
=ВИД= : =ДЕЙСТВИЕ ВЫПОЛНЯЛОСЬ=
НЕВЕРНО. СРЕДА - ДЕНЬ НЕДЕЛИ
УКАЗАНИЕ УЧТЕНО. НОВАЯ ИНТЕРПРЕТАЦИЯ:
=ИГРАТЬ1= (ИГРАТЬ)
=СУБЪЕКТ= : МАЛЬЧИК
=ПАРТНЕР= : ДРУГ
=ИГРА= : ?
=ВРЕМЯ= : =РАНЕЕ НАСТОЯЩЕГО МОМЕНТА= : СРЕДА
=ВИД= : =ДЕЙСТВИЕ ВЫПОЛНЯЛОСЬ=
ВЕРНО. РЕЖИМ: СП = 2.
НОВАЯ ИНФОРМАЦИЯ ЗАПОМИНАЕТСЯ В ДАННОМ СЕАНСЕ
ИЗМЕНЕН ПАРАМЕТР: СТЕПЕНЬ ПОДРОБНОСТИ (СП)
Попытка процессора воспринять группу в среду как один из актантов 3-х местного предиката играть1 («кто (человек)?», «с кем (человек)?», «во что (игра)?») оказалась неудачной. Пользователь отверг найденную интерпретацию и определил семантику незнакомого слова среда через знакомое ЛП понятие день недели. После этого процессор: проанализировал словоформу среда с предсказанием «существительное в форме именительного падежа, семантический класс =врем1=»; отменил все действия, выполненные с момента начала обработки группы в среду (группы мальчик и с другом, выбранные на роли 1-го и 2-го актантов, повторно не обрабатывались); продолжил анализ фразы. Слово среда теперь – по семантическим признакам – не может быть воспринято как название игры. Третья валентность предиката играть1 остается незаполненной, а на этапе поиска обстоятельств группа в среду воспринимается как обстоятельство времени.
Согласившись c новой интерпретацией, пользователь (с помощью директивы РЕЖИМ) уменьшил значение параметра «степень подробности». Поэтому в дальнейшем о незнакомых словах выдается менее подробная информация.
ЖДУ ОЧЕРЕДНОЕ СООБЩЕНИЕ