Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 9

PDF-файл М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 9 Искусственный интеллект (53163): Книга - 7 семестрМ.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов: Искусственный интел2019-09-18СтудИзба

Описание файла

PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "". Всё это находится в предмете "искусственный интеллект" из 7 семестр, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 9 страницы из PDF

Настройка наадресата производится в начале очередного сеанса работы с ЛИНАР. При такой настройкемогут меняться базовые и тематические лингвистические знания (состав словаря,совокупность грамматических правил), степень жесткости требований по соблюдению техили иных норм и условий.Чтобы задать эту информацию, следует указать имя одного из известных ЛИНАРадресатов (или идентификатор известной группы адресатов) и выбрать значениядополнительных параметров программ контроля.С помощью такой настройки удается моделировать процесс восприятия текста разнымиадресатами и, следовательно, оценивать качество текста с разных точек зрения.Таким образом, К-знания ЛИНАР (которые служат критерием корректности текста ииспользуются для обнаружения "дефектов" текста - отклонений от требований,предъявляемых К-знаниями) формируются динамически в каждом конкретном сеансе работыс системой и являются комплексными по своей природе. Они включают как процедурныезнания об исследуемом аспекте текста (воплощенные в соответствующих программахконтроля), так и декларативные знания, фильтруемые и конкретизируемые в начале каждогосеанса.Обнаруженные программой контроля несоответствия текста и К-знаний могут бытьустранены двумя способами:путем внесения изменений в текст (это наиболее частый случай: несоответствие - сутьошибка, допущенная в тексте, которую необходимо исправить);путем изменения К-знаний системы.Заметим, что изменениям подвергается лишь одинкомпонент К-знаний - лингвистические знания, причем не все, а лишь те, которыесоответствуют наиболее подвижной части естественного языка - лексикону.

Как правило,такие изменения заключаются в пополнении базы знаний, например, в создании новойсловарной статьи для слова, впервые встретившегося в тексте и не знакомого системе.Знания, отображающие требования семантической корректности и простоты интерпретации,общеязыковые и внешние нормы, может изменять только администратор системы.Для внесения изменений в базу лингвистических знаний используются сервисныепрограммы; для изменения текста - подсистема редактирования ЛИНАРа.Отметим, что (даже при работе с ЛИНАР в диалоговом режиме) редактирование текстаобычно производится по завершении работы программ контроля.

Это связано с тем, чтоисправление фиксируемых системой ошибок и неточностей зачастую требует переделкиотносительно больших фрагментов текста (разбиение длинной фразы на несколько болеепростых, устранение неоднозначности трактовки и т.п.). Однако некоторые - локальные изменения можно внести в текст сразу же в момент обнаружения ошибки. Поэтому в рядепрограмм контроля, например, в программах орфографического уровня, предусмотренавозможность исправления фиксируемых ошибок в момент их обнаружения.2.3.3. Программы контроляПрограммы контроля текста могут быть классифицированы по нескольким критериям.Первый критерий связан с анализируемым программой аспектом текста. Всоответствии с этим критерием выделяются следующие группы программ одноаспектногоконтроля:– контроль орфографии (включая поиск ошибок в склонении и спряжении слов);– анализ лексического состава текста;– стилистический контроль;– проверка выполнения правил структуризации текста;– контроль синтаксической структуры;– пунктуационный контроль;– семантический контроль.По второму критерию программы одноаспектного контроля подразделяются напрограммы локального и глобального анализа текста.

Программы первой группыобрабатывают мелкие фрагменты текста: отдельные словоформы, словосочетания,специальные символы, не исследуя их контекстные связи или ограничиваясь учетомближайшего окружения (соседнего слова справа, например). Локальный анализ характерендля программ орфографического, лексического и (частично) стилистического контроля.Программы, осуществляющие глобальный анализ, исследуют, как правило, структуру болеекрупных единиц текста: фраз и иногда абзацев (синтаксический и семантический контроль),текста в целом.Третий критерий связан с характером результата, получаемого программойодноаспектного анализа. Основная часть программ контроля обнаруживает те или иныенесоответствия текста и К-знаний, используемых в текущем сеансе. Результатом их работыявляется список выявленных несоответствий (нарушений).

Однако некоторые программы,как уже отмечалось, определяют отдельные свойства текста, не оценивая их. Так, программаЛЕКС1 составляет частотный словарь исследуемого текста (фрагмента текста). Оценкуполученным результатам дает человек - пользователь ЛИНАР, он же принимает решение одальнейших действиях. Его реакция может быть, например, такой - поработать над текстомпункта 4.5.1., поскольку в этом тексте (занимающем всего две страницы) 26 раз встречаетсяслово знания (в различных формах) и 7 раз - слово соответственно .Только что рассмотренный пример (программа ЛЕКС1) можно использовать и дляиллюстрации четвертого критерия классификации программ контроля.

Эта программа, как иряд других, выдает некоторую глобальную информацию об исследуемом фрагменте текста,не фиксируя, в каких позициях (абзацах, фразах или строках) были обнаружены в текстеформы различных слов. Другие программы, например программы проверки орфографии,локализуют обнаруживаемые ими свойства (дефекты) текста.И наконец, отметим еще одно (формальное) различие программ контроля.

Для всехпрограмм основным параметром является подлежащий обработке фрагмент текста. Однакодля некоторых программ нужно обязательно указать дополнительные параметры,конкретизирующие задание. Например, при вызове программы ЛЕКС2 нужно указать, какиеименно грамматические признаки слов интересуют пользователя.Некоторые программы контроля получают в качестве параметра предельно допустимые(пороговые) числовые значения количественно оцениваемых параметров текста. Отметим,что, меняя порог, можно варьировать уровень требований, предъявляемых к тексту,моделируя тем самым оценку его разными адресатами. Например, можно установить вкачестве предельно допустимой длины фразы 25 слов или ограничить число придаточныхпредложений (в составе сложного предложения) двумя.

Фразы, в которых эти пороговыезначения превышены, будут классифицированы соответствующими программами контролякак недопустимые.3.2.3.1. Орфографический контрольПрограммы орфографического контроля обнаруживают (и предлагают вариантыисправления) мотивированные грамматические ошибки в основах и окончаниях (флексиях)слов, записанных в словарь системы, и слов, встретившихся ей впервые (незнакомых), атакже случайные, или немотивированные, ошибки.Основные классы учитываемых случайных ошибок таковы:– пропуск одной буквы (ас емблер ),– одна лишняя буква (автт окод ),– замена одной буквы (кон пьютер ),– перестановка двух соседних букв (агл оритм ).Признаком ошибки служит появление в обрабатываемом тексте формы незнакомогосистеме слова.Предпринимается попытка "свести" такое незнакомое слово к знакомому с помощьюпреобразований, обратных перечисленным выше (считается, что ошибка могла возникнуть врезультате одного из таких "прямых" преобразований знакомого слова).

Дляпредварительной оценки близости слов (основ слов) используется специально разработаннаяметрика.Одна из программ обнаруживает ошибки в датах, задаваемых в тексте с помощьюконструкций вида ДД.ММ.ГГ. Если задан и диапазон возможных дат, проверяется такжепринадлежность всех представленных в исследуемом тексте дат этому диапазону.Примеры работы программ:прочитанна - ОШИБКА В СЛОВОИЗМЕНЕНИИ !ОЖИДАЕМОЕ СЛОВО: прочитанарассчета - ВОЗМОЖНА ОШИБКА ТИПА "удвоение буквы"ОЖИДАЕМОЕ СЛОВО : расчета10.25.89.ОШИБКА В ДАТЕ - недопустимая дата: месяц: 253.2.3.2. Анализ лексического состава текстаПрограмма ЛЕКС1Программа подсчитывает, сколько раз в тексте (области) употребляется то или иноеслово.

Программа формирует полный список всех различных слов текста с указанием частотих встречаемости. Можно задать диапазон частот (например, от 10 до 20 вхождений илировно 15 вхождений) и сформировать список слов, количество употреблений которых лежитв границах этого диапазона. Если диапазон не задан, формируется полный частотныйсловарь текста.Программа ЛЕКС2Программаформируетсписокслов,обладающихуказаннымилексико-грамматическими характеристиками, например, находит все существительные, всепричастия или все аббревиатуры, встретившиеся в тексте (области). Слова упорядочиваютсяпо алфавиту, для каждого слова подсчитывается число его вхождений в исследуемый текст.Программа предназначена для анализа словарного состава текста.Программа ЛЕКС3Программа находит все вхождения в исследуемый текст (область) любых формуказанного (ключевого) слова и для каждого вхождения выдает контекст установленнойдлины - цепочку слов, находящихся от ключевого слова на расстоянии, не превышающемзаданную длину.

Программа удобна для анализа лексического состава текста и контроляиспользуемых терминов и терминологических словосочетаний.Программа ЛЕКС4Программа находит в исследуемой области текста все слова, не входящие вформируемый в начале очередного сеанса словарь системы ЛИНАР, - т.е. слова, не знакомыеочередному адресату. Для исправления текста следует либо заменить обнаруженные словасинонимами, либо расширить словарь системы. Возможно, что некоторые из обнаруженныхслов являются известными системе словами, введенными с ошибками.Программа ЛЕКС5Программа осуществляет поиск каждой из обнаруживаемых в тексте (области)аббревиатур последовательно в трех списках: N 3 - списке аббревиатур, вводимыхнепосредственно в тексте (этот список формируется динамически самой программойЛЕКС5);N 2 - формируемом в начале работы с текстом на основе перечня используемыхсокращений;N 1 - словаре общепринятых сокращений.В списке N 1 поиск ведется в последнюю очередь так как он, во-первых, самыйбольшой, и во-вторых, если, например, в списках N 3 и N 1 присутствует одно и то жесокращение, но с различными расшифровками, то приоритет имеет сокращение из списка N3.

Результатом работы является список используемых в тексте аббревиатур с указанием ихлокализации в тексте и типа аббревиатуры.Программа ЛЕКС6Программа осуществляет контроль за переопределением известных системеаббревиатур. Если, например, в разделе 1.2. встретилась аббревиатура СВП (с расшифровкойв тексте - "схема внешних прерываний"), а в списке N 2 аббревиатура СВП сопоставленатермину "субкомплекс внешней памяти", фиксируется ошибка: недопустимоепереопределение аббревиатуры из перечня.Программа ЛЕКС7Программа проверяет правильность расшифровки, то есть тот факт, что аббревиатурачитается в расшифровке по началам слов, причем некоторые слова расшифровки могут неучаствовать в образовании аббревиатуры. Пример работы программы:Эта организация - центр переводов (ВЦП).НЕСООТВЕТСТВИЕ АББРЕВИАТУРЫ И РАСШИФРОВКИ:ВЦП - центр переводовПрограмма ЛЕКС8Программа ЛЕКС8 (без параметров) проверяет правильность оформления спискаиспользуемых в тексте аббревиатур (для отчета по НИР - это "Перечень условныхобозначений, символов, единиц и терминов").

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5137
Авторов
на СтудИзбе
441
Средний доход
с одного платного файла
Обучение Подробнее