Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 14
Описание файла
PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр PDF-файла онлайн
Текст 14 страницы из PDF
Предсказуемость можетносить и более сложный характер, когда позиции предсказываются нехарактеристиками непосредственного «соседа» (предшествующего элемента), но наосновании знания слушающего о смысловой связности и/или целостности (теме,смысле текста). Силы связей между словами (реже более сложными единицамианализа) хорошо описывается и предсказывается в математических сетевых моделях(напр., [124]). Однако у этих моделей пока существует естественное ограничение ввиде уже упоминаемого множества разнотипных по своей лингвистической природесвязей, большинство из которых до сих пор плохо изучено.
Хочется надеяться, что вближайшее время будет существенно расширена возможность такого моделирования– с варьированием типов единиц и контекстов – с учетом разнообразных признаков ипараметров. Такая работа, по-видимому, может быть осуществлена при подключенииСейчас мы проводим серию психолингвистических экспериментов по оценке связности между разнымиединицами текста (словами, предложениями, абзацами).2945специально подобранных и лингвистически сбалансированных коллекций, когдакаждой задаче соответствует своя коллекция (или набор коллекций).Естественно, что во время коммуникативного акта человек непрерывнопланирует (программирует) свою речь или свое восприятие, осуществляянеобходимые регулировки, переключения и т.д.
С этой точки зрения, каждаяследующая единица должна быть каким-то образом «сверена» и согласована с тем,что уже произнесено (или воспринято) к текущему моменту. Точность прогнозаоценивается в прикладном направлении, имеющем до сих пор только английскоеназвание “readability” (что соответствует не столько «читабельности», сколько«понимабельности» текста, т.е. правильному извлечению смысла даже при бегломчтении или наличии искажений).По-видимому, минимальное «окно сверки» («окно анализа») равно однойединице (например, одному высказыванию или одному слову); минимальноенеобходимое прогнозирование является в то же время как будто типичным,статистически преобладающим (ср.
работы по 'cloze tests' или missing-words: [1; 2; 4;14; 22; 77] и др.); максимальное же прогнозирование определяется текстом икоммуникативной ситуацией в целом. Мы к этому вернемся в последнем параграфеэтой главы.В традиции когнитивных теорий принято рассматривать текст как реализациюнекоторого фрейма. Основоположник этого подхода Марвин Минский определяетфрейм как структуру данных, предназначенную для представления некоторойтиповой ситуации [129].
Например, существуют фреймы бытовой, деловой и научнойкоммуникативных ситуаций, позволяющие прогнозировать развитие событий в этойситуации (в частности, порождение и восприятие текстов разных функциональныхстилей). Знание адресатом (слушающим) соответствующего фрейма, по-видимому,соотносится со знанием адресата смысла (цельности) и смысловой связности текста,где текст выступает как реализация этого фрейма.Существенно противопоставление следующих типов целей и, соответственно,исследовательских процедур исследования текстов:o понимания и интерпретации текста человеком, чем занимаются в руслетрадиционного и/или когнитивистского подходов (см., например, работыМ.Б.
Бергельсон [91-93], а также работы зарубежных авторов (частичнорассматриваемые ниже);o в духе прикладных задач – автоматического понимания текста (или,например, автоматического извлечения информации из текста, задачмашинного перевода, автоматического реферирования и пр. (см., например,[127; 146; 125]).Различие такого рода подходов предполагает помещение в центр исследованияразных носителей языка. В случае прикладных исследований в качестве«искусственного носителя языка» выступает автомат.
Естественным следствиемтакого различия является степень вовлеченности того, что можно назвать «базойзнаний», позволяющей осуществлять прогнозирование развития событий наосновании знания видов коммуникативных ситуаций (внелингвистических данных).Очевидно, что автомат «испытывает затруднения» в формировании некотороймакроструктуры текста, являющейся результатом функционирования в процедурах46восприятия (понимания, интерпретации) не только структурных составляющихтекста, но и так называемых фоновых и выводных знаний. Степень вовлеченностифоновых и выводных знаний, по-видимому, зависит от типа фрейма и от знаниякоммуникантом этого фрейма30.§ 3.2.Анализ текста в парадигме когнитивных исследованийКратко остановимся на наиболее плодотворных положениях современныхисследований восприятия и понимания текста31.
Отправной точкой является то, что«связный текст – больше чем язык сам по себе и гораздо больше, чемпоследовательность отдельных предложений»32 (см., например, обзор по [39]).Процедуры восприятия и понимания текста традиционно трактуются какмногоуровневые33. Однако требуют исследования такие вопросы, как количество иприрода уровней, взаимодействие этих уровней и т.д. А.С.
Штерн выделяла триуровня восприятия: сенсорный, перцептивный и смысловой [153]. Эти три уровнявыделяются, главным образом, на основании психофизиологических критериеввосприятия и переработки информации, но не языковых критериев; в частности,сенсорный («нижний») уровень не является языковым. В работе [39], посвященной,впрочем, пониманию письменного текста, выделяется пять следующих уровней:поверхностная структура, текстовая база как система пропозиций, модель ситуациикак система референций, контекст коммуникации и функциональный стиль текста(или, может быть, речевой жанр) – the surface code, the propositional textbase, thereferential situation model, the communication context, and the discourse genre. Первыетри уровня традиционно принимаются большинством психолингвистов, начиная сработы [79].
На уровне поверхностной структуры адресат работает с такимиединицами, как слова (вероятно, даже словоформы) и поверхностная структураклаузы (структурной составляющей текста, характеризующейся смысловой,синтаксической и просодической целостностью, но не превышающей некоторыйкритический объем34). «База текста, как правило, представляет собойструктурированное множество (систему) пропозиций»35 [39: 168]; вероятно, при этомречь идет только об эксплицитно выраженных пропозициях. Модель ситуацииотносит адресата к смыслу текста, в ее построении принимают участие как сам текст(explicit text, текст в узком смысле), так и фоновые знания адресата.Коммуникативный уровень соотносится с прагматическими составляющимикоммуникативной ситуации.
Уровень функционального стиля и/или речевого жанраТип фрейма, в свою очередь, связан с функциональным типом текста и/или речевыми жанрами. Однакососуществование разных научных парадигм вводит разную терминологию.31В рамках данной работы используется термин «текст» как синоним терминам «дискурс» и «текст в широкомсмысле». В большинстве анализируемых теорий, напротив, использовался термин «дискурс».
Обзор основныхтеорий восприятия звучащего текста (дискурса) см. в Gernsbacher 1994; Clark 1993; Levelt 1989; Rubin 1995.32«Connected discourse is more than language per se, and much more than a sequence of individual sentences»[39: 164].33Ср. положение многоуровневой организации деятельности по Бернштейну (Бернштейн 1966). Идеимногоуровневости, более или менее прямолинейно заимствованные из психологии и психофизиологии, оказализначительное влияние на психолингвистические теории.34Ср. приводимое далее положение о том, что для обработки поверхностной структуры задействуетсякратковременная память, т.о.
объем этой структуры не может превышать психофизиологические возможностиданного вида памяти.35«The textbase is normally represented as a structured set of propositions» [39: 168].3047(text genre) в зарубежных исследованиях соотносят с различными классами иподклассами, во многом соответствующими выделяемым рядом исследователей (см.,например, [6]).Некоторые положения и термины в предлагаемой Грэссером [39] схеме небесспорны и требуют уточнений.В частности, структура, называемая «базой текста» (text base) в разных работахпонимается двояким образом:1)как система пропозиций, как правило, соответствующих отдельнымвысказываниям текста;2)как макроструктура, для возникновения которой важным (даженеобходимым) является использование фоновых и выводных знаний;индивидуальные пропозиции входят в эту макроструктуру на правах членов,вступающих в определенные иерархические отношения [51].
Фоновые знаниязаполняют смысловые лакуны, неизбежные практически в любом тексте, а выводныезнания выводят следствия из пропозиций и их сочетаний и привносят элементупорядоченности, вносимой адресатом. Таким образом, второе понимание «базытекста» ближе к модели ситуации, причем степень близости определяется степеньювовлеченности фоновых и выводных знаний адресата в восприятие и пониманиетекста.Рассмотрим гипотезу Джонсон-Лэйрда, уточняющую место пропозициональнойструктуры в восприятии и понимании текста (см.
обсуждение в [113])36. СогласноФ. Джонсон-Лэйрду, структура пропозиций представляет собой лишь один из видов«семантической записи», которой пользуется человек при восприятии текста и длясохранения результатов этого процесса в памяти. Два других вида – это «ментальныемодели» и образы [48].