Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов

М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов, страница 7

Описание файла

PDF-файл из архива "М.Г. Мальковский, Т.Ю. Грацианова, И.Н. Полякова - Прикладное программное обеспечение - системы автоматической обработки текстов", который расположен в категории "книги и методические указания". Всё это находится в предмете "искусственный интеллект" из седьмого семестра, которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 7 страницы из PDF

Так, при предсказании «существительное женского рода» был бы выдантолько третий вариант, при предсказании «форма глагола» - только пятый.обработка незнакомого слова КРОВАТЬВАРИАНТ 1спряжение по образцу слова ПИРОВАТЬ* значение ГП "вид" неизвестно *(выбран несовершенный вид)КРОВАТЬКРУЙ КРУЙТЕКРУЮ (БУДУ КРОВАТЬ)КРУЕШЬ (БУДЕШЬ КРОВАТЬ)КРУЕТ (БУДЕТ КРОВАТЬ)КРУЕМ (БУДЕМ КРОВАТЬ)КРУЕТЕ (БУДЕТЕ КРОВАТЬ)КРУЮТ (БУДУТ КРОВАТЬ)КРОВАЛ КРОВАЛА КРОВАЛО КРОВАЛИКРУЯ КРОВАВВАРИАНТ 2склонение по образцу слова ПЕЧАТЬ* значение ГП "одушевленность" неизвестно *КРОВАТЬ КРОВАТИКРОВАТИ КРОВАТЕЙКРОВАТИ КРОВАТЯМКРОВАТЬ КРОВАТЕЙ / КРОВАТИКРОВАТЬЮ КРОВАТЯМИКРОВАТИ КРОВАТЯХВАРИАНТ 3неизменяемое слово типа ДЕСКАТЬКРОВАТЬStart to type here3. Исправление ошибок в русскоязычных текстах3.1. Проблема речевых ошибокИспользование естественного языка в качестве средства общения (речеваядеятельностьчеловека) неизбежно сопровождается теми или иными нарушениямиязыковых правил.

Такие нарушения - вне зависимости от того, обусловлены они неполнотойзнаний человека о языке или же случайными сенсомоторными "сбоями" (описки, опечатки,оговорки) - мы будем называть речевыми ошибками .В идеале обработка речевой ошибки предполагает соотнесение ошибочной речевойединицы с полным описанием языка и с контекстом рассматриваемого коммуникативногопроцесса. Лингвист (или другой специалист), занимающийся исследованием каких-либотеоретических аспектов проблемы речевых ошибок, например, их классификацией, ирасполагающий источниками, в которых содержится исчерпывающее описание единиц иправил того или иного естественного языка (словари, своды правил), находится в ситуации,достаточно близкой к такому идеалу.В случае же повседневной речевой практики - непосредственного (диалог) илиопосредованного (чтение текста) речевого взаимодействия рядовых носителей языка ситуация иная.

Лингвистические знания рядового носителя языка неполны, воспользоватьсясправочной литературой он может далеко не всегда, а сам факт ошибки никаким явнымобразом в анализируемом тексте не указан.Обнаружить речевую ошибку в этой ситуации непросто. Действительно, дляполучателя сообщения (реципиента) внешним признаком речевой ошибки служит появлениев тексте какой-либо незнакомой ему речевой единицы.

Однако такая "подозреваемая"речевая единица может оказаться и правильной конструкцией или формой (например,просторечным вариантом или термином), не знакомой реципиенту.С другой стороны, абсолютно правильная на первый взгляд единица может бытьошибкой, обнаружить которую удается лишь на "высших" этапах анализа. Так, впредложении "Пуск ракеты осуществляется нажатием краск ой кнопки" все словаизвестны, синтаксические связи правильны; опечатка обнаруживается только насемантическом/ смысловом уровне.Если одним из участников общения является компьютерная система, положениестановится еще более сложным. И лингвистические знания, и интеллектуальные способности(в том числе - в плане работы с языком) такого "собеседника" пока весьма скромны.

Однако,как мы уже знаем из материала 1-й главы, достаточно широко и успешно применяютсясистемы обнаружения и исправления ошибок.Отметим еще одно обстоятельство. Как бы ни разнились характер использования иназначение АОТ-систем (системы машинного перевода, автоматического реферирования илииндексирования, работающие в пакетном режиме; системы обеспечения диалога с машинойна естественном языке), оснащение их средствами обнаружения и исправления речевыхошибок повышает устойчивость и эффективность функционирования таких систем,облегчает (в случае диалоговых систем) процесс общения человека с ЭВМ.Классификация речевых ошибокПервый критерий классификации речевых ошибок, в соответствии с которым ошибкиподразделяются на мотивированные и случайные, связан с понятием индивидуальнойязыковой модели. Индивидуальная языковая модель(ИЯМ) - это то подмножествоязыковых единиц и правил, которое усвоил и использует в своей речевой практикеконкретный носитель некоторого естественного языка.

Субъективное преломление языка(как знаковой системы социального уровня) в процессе его усвоения приводит к тому, что вИЯМ не попадают (или попадают в искаженном варианте) некоторые языковые единицы иправила языка.Поэтому в речи конкретных носителей языка начинают проявляться некоторыеиндивидуальные особенности, либо вступающие в противоречие с языковыми нормами, либонет.В первом случае мы имеем дело с мотивированными речевыми ошибками - точнее, сошибками, мотивированными особенностями ИЯМ конкретного носителя языка (автораанализируемого АОТ-системой текста). К ошибкам такого рода относятся, например,ошибки в словоизменении (контейнерá- в форме именительного падежамножественного числа), орфографические ошибки в основах (еде ница ), некоторыепунктуационные ошибки, смешение слов-паронимов (представить - предоставить ),нарушение лексической сочетаемости (делать горе ), искажение фразеологизмов (не такстрашен черт, как его малютки ).Ошибки, обусловленные внешними по отношению к ИЯМ факторами: сбой речевогоаппарата человека, несвоевременное переключение регистра клавиатуры, нажатие соседнейклавиши, сбой на линии связи с ЭВМ - мы будем называть случайными.Как правило, мотивированные речевые ошибки регулярно повторяются в речи носителяязыка, а случайные ошибки могут как повторяться (например, при западании клавиши), так ине повторяться.Отметим, что иногда отличить случайную ошибку от мотивированной сложно.

Так,употребление слова представить вместо предоставить в контексте представлено правоможет быть или результатом случайной ошибки (пропуск буквы), или результатоммотивированной ошибки (смешения паронимов).Мотивированные речевые ошибки могут различаться степенью серьезности(грамматичности). Помимо серьезных, абсолютно недопустимых грамматических ошибок типа орфографических ошибок в основах или смешения слов - рассматриваются и ошибки, врезультате которых появляются "полуграмматичные" формы (контейнерá , сидевши ),которые имеют в словарях стилистические пометы: просторечное, устарелое, разговорное,областное и др.Следующий критерий классификации ошибок (мотивированных и случайных) связан сязыковыми уровнями, нормы (правила) которых оказываются нарушенными в результатеречевых ошибок. В соответствии с этим критерием речевые ошибки можноклассифицировать следующим образом:1) орфографические ошибки: пропуск одной буквы, замена одной буквы, перестановкадвух рядом стоящих букв, одна лишняя буква (отдельно может рассматриваться случайудвоения буквы), замена буквы русского алфавита буквой латиницы и др.;2) морфологические (словоизменительный уровень) ошибки: ошибки в окончаниях(флексиях) при склонении и спряжении слов (рассматриваются различные подклассы такихошибок), употребление отсутствующих в языке форм слов, несоблюдение правилчередования в основе, употребление незнакомых АОТ-системе вариантов слов,испытывающих колебания в роде, одушевленности;3) синтаксические ошибки: ошибки в моделях управления слов-предикатов,пунктуационные ошибки, нарушение нормативного порядка слов (в том числе - вустойчивых словосочетаниях), вставка пробела внутрь слова, пропуск пробела (отдельномогут рассматриваются случаи слитного и раздельного написания частиц не и ни );4) лексико-семантические ошибки: употребление слов в ненормативном значении,нарушение лексической сочетаемости, семантические противоречия.Диагностика речевых ошибокМетоды обнаружения и исправления орфографических и морфологических ошибок втекстах широкой тематики базируются на представлении о тексте как о цепочке независимопоявляющихся словоформ.

Известно три основных метода обнаружения орфографическихошибок - статистический, полиграммный и словарный.При статистическом методе словоформы, обнаруживаемые в тексте, упорядочиваютсясогласно частоте их встречаемости. Искаженные слова оказываются средималоупотребительных слов в конце списка.При полиграммном методе все встречающиеся в тексте двух- или трёхбуквенныесочетания (полиграммы) проверяются по таблицам, содержащим информацию об ихдопустимости в русском языке. Если в словоформе имеются недопустимые полиграммы, тоона считается неправильной.При словарном методе все входящие в текст словоформы проверяются покомпьютерному словарю. Если словарь такую форму допускает, она считается правильной, аиначе либо сразу признаётся ошибочной, либо предъявляется человеку.В настоящее время первые два метода практически не используются, т.к.

уже естьхорошие компьютерные словари, достаточно большие по объёму и с эффективнымдоступом.Диагностикажеиисправлениесинтаксических,пунктуационныхилексико-семантических ошибок предполагает взгляд на текст как на последовательностьсвязанных единиц, комбинирование которых имеет свои закономерности. Подходы кавтоматизации выявления и коррекции этих ошибок можно разбить на две группы:синтаксически-ориентированные подходы и подходы, основанные на концептуальныхфреймах. Последние больше пригодны для систем, работающих в строго ограниченныхпредметных областях.

Для текстов широкой тематики предназначены синтаксическиориентированные подходы. Сначала поступившее на вход предложение обрабатываетсясредствами грамматики, рассчитанной на синтаксически правильный текст. Если такаяпроверка обнаруживает дефекты синтаксической структуры, некоторые условияослабляются. Какие грамматические правила смягчаются, зависит от учитываемых системойошибок.

Свежие статьи
Популярно сейчас