Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 9

PDF-файл М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 9, который располагается в категории "книги и методические указания" в предмете "искусственный интеллект" изседьмого семестра. М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 9 - СтудИзб 2019-09-18 СтудИзба

Описание файла

PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "книги и методические указания". Всё это находится в предмете "искусственный интеллект" из седьмого семестра, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 9 страницы из PDF

Настройка наадресата производится в начале очередного сеанса работы с ЛИНАР. При такой настройкемогут меняться базовые и тематические лингвистические знания (состав словаря,совокупность грамматических правил), степень жесткости требований по соблюдению техили иных норм и условий.Чтобы задать эту информацию, следует указать имя одного из известных ЛИНАРадресатов (или идентификатор известной группы адресатов) и выбрать значениядополнительных параметров программ контроля.С помощью такой настройки удается моделировать процесс восприятия текста разнымиадресатами и, следовательно, оценивать качество текста с разных точек зрения.Таким образом, К-знания ЛИНАР (которые служат критерием корректности текста ииспользуются для обнаружения "дефектов" текста - отклонений от требований,предъявляемых К-знаниями) формируются динамически в каждом конкретном сеансе работыс системой и являются комплексными по своей природе. Они включают как процедурныезнания об исследуемом аспекте текста (воплощенные в соответствующих программахконтроля), так и декларативные знания, фильтруемые и конкретизируемые в начале каждогосеанса.Обнаруженные программой контроля несоответствия текста и К-знаний могут бытьустранены двумя способами:путем внесения изменений в текст (это наиболее частый случай: несоответствие - сутьошибка, допущенная в тексте, которую необходимо исправить);путем изменения К-знаний системы.Заметим, что изменениям подвергается лишь одинкомпонент К-знаний - лингвистические знания, причем не все, а лишь те, которыесоответствуют наиболее подвижной части естественного языка - лексикону.

Как правило,такие изменения заключаются в пополнении базы знаний, например, в создании новойсловарной статьи для слова, впервые встретившегося в тексте и не знакомого системе.Знания, отображающие требования семантической корректности и простоты интерпретации,общеязыковые и внешние нормы, может изменять только администратор системы.Для внесения изменений в базу лингвистических знаний используются сервисныепрограммы; для изменения текста - подсистема редактирования ЛИНАРа.Отметим, что (даже при работе с ЛИНАР в диалоговом режиме) редактирование текстаобычно производится по завершении работы программ контроля.

Это связано с тем, чтоисправление фиксируемых системой ошибок и неточностей зачастую требует переделкиотносительно больших фрагментов текста (разбиение длинной фразы на несколько болеепростых, устранение неоднозначности трактовки и т.п.). Однако некоторые - локальные изменения можно внести в текст сразу же в момент обнаружения ошибки. Поэтому в рядепрограмм контроля, например, в программах орфографического уровня, предусмотренавозможность исправления фиксируемых ошибок в момент их обнаружения.2.3.3. Программы контроляПрограммы контроля текста могут быть классифицированы по нескольким критериям.Первый критерий связан с анализируемым программой аспектом текста. Всоответствии с этим критерием выделяются следующие группы программ одноаспектногоконтроля:– контроль орфографии (включая поиск ошибок в склонении и спряжении слов);– анализ лексического состава текста;– стилистический контроль;– проверка выполнения правил структуризации текста;– контроль синтаксической структуры;– пунктуационный контроль;– семантический контроль.По второму критерию программы одноаспектного контроля подразделяются напрограммы локального и глобального анализа текста.

Программы первой группыобрабатывают мелкие фрагменты текста: отдельные словоформы, словосочетания,специальные символы, не исследуя их контекстные связи или ограничиваясь учетомближайшего окружения (соседнего слова справа, например). Локальный анализ характерендля программ орфографического, лексического и (частично) стилистического контроля.Программы, осуществляющие глобальный анализ, исследуют, как правило, структуру болеекрупных единиц текста: фраз и иногда абзацев (синтаксический и семантический контроль),текста в целом.Третий критерий связан с характером результата, получаемого программойодноаспектного анализа. Основная часть программ контроля обнаруживает те или иныенесоответствия текста и К-знаний, используемых в текущем сеансе. Результатом их работыявляется список выявленных несоответствий (нарушений).

Однако некоторые программы,как уже отмечалось, определяют отдельные свойства текста, не оценивая их. Так, программаЛЕКС1 составляет частотный словарь исследуемого текста (фрагмента текста). Оценкуполученным результатам дает человек - пользователь ЛИНАР, он же принимает решение одальнейших действиях. Его реакция может быть, например, такой - поработать над текстомпункта 4.5.1., поскольку в этом тексте (занимающем всего две страницы) 26 раз встречаетсяслово знания (в различных формах) и 7 раз - слово соответственно .Только что рассмотренный пример (программа ЛЕКС1) можно использовать и дляиллюстрации четвертого критерия классификации программ контроля.

Эта программа, как иряд других, выдает некоторую глобальную информацию об исследуемом фрагменте текста,не фиксируя, в каких позициях (абзацах, фразах или строках) были обнаружены в текстеформы различных слов. Другие программы, например программы проверки орфографии,локализуют обнаруживаемые ими свойства (дефекты) текста.И наконец, отметим еще одно (формальное) различие программ контроля.

Для всехпрограмм основным параметром является подлежащий обработке фрагмент текста. Однакодля некоторых программ нужно обязательно указать дополнительные параметры,конкретизирующие задание. Например, при вызове программы ЛЕКС2 нужно указать, какиеименно грамматические признаки слов интересуют пользователя.Некоторые программы контроля получают в качестве параметра предельно допустимые(пороговые) числовые значения количественно оцениваемых параметров текста. Отметим,что, меняя порог, можно варьировать уровень требований, предъявляемых к тексту,моделируя тем самым оценку его разными адресатами. Например, можно установить вкачестве предельно допустимой длины фразы 25 слов или ограничить число придаточныхпредложений (в составе сложного предложения) двумя.

Фразы, в которых эти пороговыезначения превышены, будут классифицированы соответствующими программами контролякак недопустимые.3.2.3.1. Орфографический контрольПрограммы орфографического контроля обнаруживают (и предлагают вариантыисправления) мотивированные грамматические ошибки в основах и окончаниях (флексиях)слов, записанных в словарь системы, и слов, встретившихся ей впервые (незнакомых), атакже случайные, или немотивированные, ошибки.Основные классы учитываемых случайных ошибок таковы:– пропуск одной буквы (ас емблер ),– одна лишняя буква (автт окод ),– замена одной буквы (кон пьютер ),– перестановка двух соседних букв (агл оритм ).Признаком ошибки служит появление в обрабатываемом тексте формы незнакомогосистеме слова.Предпринимается попытка "свести" такое незнакомое слово к знакомому с помощьюпреобразований, обратных перечисленным выше (считается, что ошибка могла возникнуть врезультате одного из таких "прямых" преобразований знакомого слова).

Дляпредварительной оценки близости слов (основ слов) используется специально разработаннаяметрика.Одна из программ обнаруживает ошибки в датах, задаваемых в тексте с помощьюконструкций вида ДД.ММ.ГГ. Если задан и диапазон возможных дат, проверяется такжепринадлежность всех представленных в исследуемом тексте дат этому диапазону.Примеры работы программ:прочитанна - ОШИБКА В СЛОВОИЗМЕНЕНИИ !ОЖИДАЕМОЕ СЛОВО: прочитанарассчета - ВОЗМОЖНА ОШИБКА ТИПА "удвоение буквы"ОЖИДАЕМОЕ СЛОВО : расчета10.25.89.ОШИБКА В ДАТЕ - недопустимая дата: месяц: 253.2.3.2. Анализ лексического состава текстаПрограмма ЛЕКС1Программа подсчитывает, сколько раз в тексте (области) употребляется то или иноеслово.

Программа формирует полный список всех различных слов текста с указанием частотих встречаемости. Можно задать диапазон частот (например, от 10 до 20 вхождений илировно 15 вхождений) и сформировать список слов, количество употреблений которых лежитв границах этого диапазона. Если диапазон не задан, формируется полный частотныйсловарь текста.Программа ЛЕКС2Программаформируетсписокслов,обладающихуказаннымилексико-грамматическими характеристиками, например, находит все существительные, всепричастия или все аббревиатуры, встретившиеся в тексте (области). Слова упорядочиваютсяпо алфавиту, для каждого слова подсчитывается число его вхождений в исследуемый текст.Программа предназначена для анализа словарного состава текста.Программа ЛЕКС3Программа находит все вхождения в исследуемый текст (область) любых формуказанного (ключевого) слова и для каждого вхождения выдает контекст установленнойдлины - цепочку слов, находящихся от ключевого слова на расстоянии, не превышающемзаданную длину.

Программа удобна для анализа лексического состава текста и контроляиспользуемых терминов и терминологических словосочетаний.Программа ЛЕКС4Программа находит в исследуемой области текста все слова, не входящие вформируемый в начале очередного сеанса словарь системы ЛИНАР, - т.е. слова, не знакомыеочередному адресату. Для исправления текста следует либо заменить обнаруженные словасинонимами, либо расширить словарь системы. Возможно, что некоторые из обнаруженныхслов являются известными системе словами, введенными с ошибками.Программа ЛЕКС5Программа осуществляет поиск каждой из обнаруживаемых в тексте (области)аббревиатур последовательно в трех списках: N 3 - списке аббревиатур, вводимыхнепосредственно в тексте (этот список формируется динамически самой программойЛЕКС5);N 2 - формируемом в начале работы с текстом на основе перечня используемыхсокращений;N 1 - словаре общепринятых сокращений.В списке N 1 поиск ведется в последнюю очередь так как он, во-первых, самыйбольшой, и во-вторых, если, например, в списках N 3 и N 1 присутствует одно и то жесокращение, но с различными расшифровками, то приоритет имеет сокращение из списка N3.

Результатом работы является список используемых в тексте аббревиатур с указанием ихлокализации в тексте и типа аббревиатуры.Программа ЛЕКС6Программа осуществляет контроль за переопределением известных системеаббревиатур. Если, например, в разделе 1.2. встретилась аббревиатура СВП (с расшифровкойв тексте - "схема внешних прерываний"), а в списке N 2 аббревиатура СВП сопоставленатермину "субкомплекс внешней памяти", фиксируется ошибка: недопустимоепереопределение аббревиатуры из перечня.Программа ЛЕКС7Программа проверяет правильность расшифровки, то есть тот факт, что аббревиатурачитается в расшифровке по началам слов, причем некоторые слова расшифровки могут неучаствовать в образовании аббревиатуры. Пример работы программы:Эта организация - центр переводов (ВЦП).НЕСООТВЕТСТВИЕ АББРЕВИАТУРЫ И РАСШИФРОВКИ:ВЦП - центр переводовПрограмма ЛЕКС8Программа ЛЕКС8 (без параметров) проверяет правильность оформления спискаиспользуемых в тексте аббревиатур (для отчета по НИР - это "Перечень условныхобозначений, символов, единиц и терминов").

Свежие статьи
Популярно сейчас