AI-2010 Day 13 - part 2 (1156527), страница 3
Текст из файла (страница 3)
Введенные критерии правильности независимы – понимание правильное в одном аспекте, может быть правильным и в других, а может и не быть таковым. Причем правильность трактуется как соотносительная характеристика процесса понимания. Понимание может быть правильным (или неправильным) лишь по отношению к некоторому «судие»: автору сообщения, языку, деятельности реципиента. В то же время при совпадении (близости) Са, Ся и Ср можно говорить и об абсолютно правильном понимании. Здесь, правда, возникает уже упоминавшаяся в связи с синонимией проблема описания «пространства смыслов» – причем, общего для собеседников (!) – и задания его «метрики». В пространстве смыслов, наряду с правильностью понимания, характеризующей корреляцию наиболее существенных аспектов значения, можно было бы рассматривать и полноту понимания – меру близости объемов смыслов.
Для того, чтобы добиться правильного понимания адресуемых ему сообщений, каждый из участников процесса общения должен располагать информацией об определяющей предмет общения проблемной среде, о языке (эта информация представлена в его ИЯМ), о собеседнике, в том числе и об используемой им ИЯМ, и о себе. Эта информация соответствует глобальному контексту общения.
Естественно, что при обработке очередного сообщения (отдельной фразы, абзаца и т.п.) важную роль играет и информация, почерпнутая из предшествующих сообщений (из локального контекста). Именно учет глобального и локального контекстов: предмета обсуждения, собственных целей и целей собеседника, языковых и внеязыковых связей между отдельными сообщениями – и помогает реципиенту приписать очередному сообщению наиболее уместную интерпретацию, то есть правильно понять его.
Установив, о чем идет речь в сообщении, как должна быть использована содержащаяся в нем информация, реципиент может относительно легко разрешать проблемы, возникающие при анализе чисто знаковых (синтаксических) отношений, определяющих структуру сообщения.
Иллюстрирует эти возможности способность человека:
1) выбирать «наиболее разумную» интерпретацию сообщения, отсеивая интерпретации неестественные (но формально допустимые): За безбилетный проезд и провоз одного места багажа взимается штраф 1 рубль, Сведения о войсках противника, которые помогали нашим партизанам, В черных костюмах выступают наши фигуристы, которые отделаны красными и зелеными цветами;
2) понимать неграмматичные (ошибочные) конструкции: Ошбика вслове лектор, В аудиторию вошли лектора [следует: лекторы], Предоставить [следует: представить] справку в бухгалтерию – и грамматически неоформленные квазифразы типа: ребен- спа- комнат- шир- распах- окн-;
3) определять по контексту достаточные с точки зрения текущего этапа общения аспекты значений и функциональные роли в тексте незнакомых слов и конструкций. Читатель «Алисы в Зазеркалье», например, достаточно ясно представляет себе, что произошло с головой Бармаглота (... Взы-взы – стрижает меч, Ува! Ува! И голова Барабардает с плеч!), хотя и не знает семантическое и сигматическое значения незнакомого глагола барабардать.
Примечательно, что ориентация на «высшие» аспекты значения (сигматический, семантический и прагматический), то есть на внеязыковые связи знака характерна и для более частных видов речевой деятельности. Так, согласно данным психолингвистики и при выборе слов из долговременной памяти человек ориентируется в первую очередь на их семантические значения и связи. Использование других критериев, звукового сходства, например, свидетельствует либо о невозможности обращения к семантическому уровню (незнание семантического значения слова), либо о нарушении психической деятельности (шизофрения).
В этой связи можно вспомнить знаменитую фразу Л.В.Щербы Глокая куздра штеко будланула бокра и кудрячит бокренка. Невозможность установить сигматические и семантические отношения квазислов этой фразы заставляет человека при ее анализе обратиться к чисто знаковым (синтаксическим) отношениям. Предполагая грамматическую корректность фразы, можно исследовать ее синтаксические свойства: порядок слов, словоизменение, словообразование (бокр ↔ бокр-енок). Определенные ассоциации могут возникнуть и при анализе знаковой (звуковой) структуры корневых морфем. Так, глокость может показаться кому-то очень нехорошим качеством, а глагол кудрячить может ассоциироваться либо с существительным кудри, либо с глаголами корчить или корячить, либо с названием встроенной функции CDR (рекомендуется произносить «кудр») языка Лисп.
Несомненно, «высшие» аспекты значения передаются с помощью знаковых (синтаксических) средств, а проникнуть на эти «высшие» уровни не удается, не начав анализа структуры сообщения. Однако можно предположить, что по мере раскрытия внеязыковых связей знаков – даже до завершения анализа синтаксической структуры сообщения в целом – происходит переход на уровень информационной модели описываемой ситуации. Причем выявляемая информация (семантическая, сигматическая, прагматическая) не только пополняет эту модель, но и управляет дальнейшим анализом текста.
Проблема речевых ошибок
Использование естественного языка в качестве средства общения (речевая деятельность человека) неизбежно сопровождается теми или иными нарушениями языковых правил. Такие нарушения – вне зависимости от того, обусловлены они неполнотой знаний человека о языке или же явлениями подсознания или случайными сенсомоторными «сбоями» (описки, опечатки, оговорки) – мы будем называть речевыми ошибками.
Обнаружить речевую ошибку не всегда просто. Действительно, для получателя сообщения (реципиента) внешним признаком речевой ошибки служит появление в тексте какой-либо незнакомой ему речевой единицы. Однако такая «подозреваемая» речевая единица может оказаться и правильной конструкцией или формой (например, просторечным вариантом или термином), не знакомой реципиенту.
С другой стороны, абсолютно правильная на первый взгляд единица может быть ошибкой, обнаружить которую удается лишь на «высших» этапах анализа. Так, в предложении: Пуск ракеты осуществляется нажатием краской кнопки – все слова известны, синтаксические связи правильны; опечатка обнаруживается только на семантическом/смысловом уровне.
Если одним из участников общения является компьютерная система (система автоматической обработки текста – АОТ-система), положение становится еще более сложным. И лингвистические знания, и интеллектуальные способности (в том числе – в плане работы с языком) такого «собеседника» пока весьма скромны.
Отметим еще одно обстоятельство. Как бы ни разнились характер использования и назначение АОТ-систем (системы машинного перевода, работающие в пакетном режиме; системы обеспечения диалога с машиной на естественном языке), оснащение их средствами обнаружения и исправления речевых ошибок повышает устойчивость и эффективность функционирования таких систем, облегчает (в случае диалоговых систем) процесс общения человека с ЭВМ.
Классификация речевых ошибок
Первый критерий классификации речевых ошибок (в соответствии с которым ошибки подразделяются на мотивированные и случайные), связан с упоминавшимся понятием индивидуальной языковой модели. Субъективное преломление языка (как знаковой системы социального уровня) в процессе его усвоения приводит к тому, что в ИЯМ не попадают (или попадают в искаженном варианте) некоторые языковые единицы и правила языка.
Поэтому в речи конкретных носителей языка начинают проявляться некоторые индивидуальные особенности, либо вступающие в противоречие с языковыми нормами, либо нет.
В первом случае мы имеем дело с мотивированными речевыми ошибками – точнее, с ошибками, мотивированными особенностями ИЯМ конкретного носителя языка (автора текста). К ошибкам такого рода относятся, например, ошибки в словоизменении (контейнерá – в форме именительного падежа множественного числа), орфографические ошибки в основах (еденица), некоторые пунктуационные ошибки, смешение слов-паронимов (представить – предоставить), нарушение лексической сочетаемости (делать горе), искажение фразеологизмов (не так страшен черт, как его малютки).
Ошибки, обусловленные внешними по отношению к ИЯМ факторами: сбой речевого аппарата человека, несвоевременное переключение регистра клавиатуры, нажатие соседней клавиши, сбой на линии связи с ЭВМ – мы будем называть случайными. Как правило, мотивированные речевые ошибки регулярно повторяются в речи носителя языка, а случайные ошибки могут как повторяться (например, при западании клавиши), так и не повторяться. Отметим, что иногда отличить случайную ошибку от мотивированной сложно. Так, употребление слова представить вместо предоставить в контексте представлено право может быть или результатом случайной ошибки (пропуск буквы), или результатом мотивированной ошибки (смешения паронимов).
Мотивированные речевые ошибки могут различаться степенью серьезности (грамматичности). Помимо серьезных, абсолютно недопустимых грамматических ошибок – типа орфографических ошибок в основах или смешения слов – возможны и ошибки, в результате которых появляются «полуграмматичные» формы (контейнерá, сидевши), которые имеют в словарях стилистические пометы: просторечное, устарелое, разговорное, областное и др.
Следующий критерий классификации ошибок (мотивированных и случайных) связан с языковыми уровнями, нормы (правила) которых оказываются нарушенными в результате речевых ошибок. В соответствии с этим критерием речевые ошибки можно классифицировать так:
1) орфографические ошибки: пропуск одной буквы, замена одной буквы, перестановка двух рядом стоящих букв, одна лишняя буква (отдельно может рассматриваться случай удвоения буквы), замена буквы русского алфавита буквой латиницы и др.;
2) морфологические (словоизменительный уровень) ошибки: ошибки в окончаниях (флексиях) при склонении и спряжении слов (рассматриваются различные подклассы таких ошибок), употребление отсутствующих в языке форм слов, несоблюдение правил чередования в основе, употребление незнакомых вариантов слов, испытывающих колебания в роде, одушевленности;
3) синтаксические ошибки: ошибки в моделях управления слов-предикатов, пунктуационные ошибки, нарушение обычного порядка слов (в том числе, в устойчивых словосочетаниях), вставка пробела внутрь слова, пропуск пробела (в том числе, случаи слитного и раздельного написания частиц не и ни);
4) лексико-семантические ошибки: употребление слов в необычном значении, нарушение лексической сочетаемости, семантические противоречия.
Общение человека с системой ИИ (естественный язык и естественность общения)
Наиболее существенными и привлекательными (в контексте задачи общения с системой ИИ) свойствами ЕЯ являются:
- максимально широкое использование его человеком в своей повседневной деятельности (это избавляет от необходимости специального изучения формализованного языка общения с ЭВМ и от трудностей, связанных с формулировкой заданий и запросов на таком языке);
- возможность использования естественного языка для выражения качественно различного содержания с любой доступной или желательной человеку степенью строгости и полноты (что гарантирует чрезвычайную широту сферы общения – как в плане охвата самых разнообразных предметных областей, так и в плане варьирования формулировок);
- его открытость и способность служить метаязыком для самого себя (что обеспечивает расширяемость используемых языковых средств).
Эти обстоятельства (обычно упоминается первое – не только потому, что оно действительно важно, но и потому, что оно абсолютно очевидно, лежит на поверхности) служат очень серьезными доводами в пользу общения с системами ИИ именно на естественном языке. Пока исследования носили чисто экспериментальный характер, эти доводы были достаточны. Однако на нынешнем этапе, для которого характерна практическая переориентация работ, возникают новые проблемы, ранее остававшиеся в тени.
Часть из них: необходимость отчуждения системы от разработчика, надежность и устойчивость ее функционирования, эффективность реализации, наличие средств сопровождения – возникает и при создании традиционного программного обеспечения. Новые моменты связаны с использованием для общения с машиной именно естественного языка.
Среди проблем, особо актуальных на нынешнем этапе исследований и разработок, укажем:
- тщательный анализ вопроса целесообразности использования естественного языка в человеко-машинном общении;
- поиск ситуаций, в которых общение с машиной на естественном языке оправдано технологически и эргономически;
- выявление обстоятельств, учет которых обеспечивает человеку комфортные, естественные условия общения с компьютером;
- анализ пригодности использовавшихся ранее подходов и методов в изменившихся (практическая переориентация) условиях.
Перед автором некоторого искусственного языка общения с машиной (например, языка программирования), конечно же, не стоит вопрос о целесообразности использования созданного языка по прямому назначению. При оценке такого языка речь может идти о выразительных средствах, эффективной реализуемости, легкости усвоения и т.п. Отдельные неудачные решения могут быть изменены в ходе доработки (и отражены в разного рода пересмотренных сообщениях и др.). Объективация языка заключается в создании стандартов, трансляторов, формировании круга пользователей.
Естественный же язык изначально дан разработчикам систем ИИ извне, он объективирован (и активно используется в речевой практике) в большой социальной группе носителей данного языка, которые привыкли к вполне определенным, человеческим условиям общения (в том числе, рассмотренным в начале данной главы). Если эти условия (человеческий фактор) будут игнорироваться, язык общения, возможно, сохранив внешнее сходство с тем или иным ЕЯ, потеряет главное – естественность. А учет этих условий требует от разработчиков систем ИИ очень серьезных дополнительных усилий, поскольку предполагает воссоздание (моделирование) нетривиальных человеческих механизмов работы с языком, наделение системы ИИ – как «собеседника» пользователя – основными чертами (на уровне информационных процессов) собеседника-человека.
Поэтому при создании систем ИИ практической ориентации следует тщательно проанализировать, оправданы ли интеллектуальные и материальные затраты (весьма значительные, в нынешних условиях отсутствия в нашей стране рынка готового программно-информационного обеспечения) на их разработку, экономична ли (с учетом ресурсоемкости) их эксплуатация.