Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 14
Текст из файла (страница 14)
Главный заданный принцип заключается в подборе коллекции.Сначала подбирая, а потом описывая коллекцию и/или набор коллекций – черезсвертку – мы обеспечиваем адекватный контекст для решения задач вычислительногоэксперимента: контекст коллекции (а в результате отчасти и текстовый контекст).43Глава 3.Семантическая и информационная структуры прианализе текстов и/или коллекций.Основные элементы этих структурВ третьей главе мы рассмотрим теоретические подходы и приведем примеры,которые были получены в ходе наших экспериментов по изучению текстов, преждевсего, экспериментов с информантами.
Как уже было сказано, ключевым для главыявляется представление о вариативности и неединственности структур текста,извлекаемых при его восприятии (анализе). Часть экспериментов с информантамипредставляла собой восприятие звучащего текста, однако некоторые результатыэтих экспериментов могут быть небезынтересны для наших лекций. Основннойакцент в этой главе делается на исследовании текста.§ 3.1.Текст.
Общие положенияОпределим основные характеристики текста, существенные для исследованиятекста в контексте речевой коммуникации (порождения и восприятия речи):o развернутость, или «последовательность знаковых единиц» (например, [131]);o отдельнооформленность [130];o связность и цельность (например, [130]).Развернутость соотносится с вопросом о размерности и уровне иерархии такойединицы, как текст, структурными составляющими которого являются слова,синтагмы, фразы, сверхфразовые единства.Для нас текст – основная конструктивная единица языка и, как уже былосказано, базовый лингвистический контекст, в котором реализуются единицы болеенизких уровней (слово, коллокация, синтагма, высказывание (фраза), сверхфразовоеединство и композиционный фрагмент).
Конструктивность и базовость текстакажется очевидной, однако в очередной раз сошлемся на краткую и авторитетнуюформулировку В.Б.Касевича: «будучи целостной единицей, текст обнаруживает поотношению к своим структурным компонентам (сверхфразовым единствам/абзацам,высказываниям, тем более – словам) свойство неаддитивности: характеристикитекста невыводимы полностью из признаков его составляющих; в первую очередь,передаваемое текстом значение несводимо к сумме значений компонентов» [114].Отдельнооформленность предполагает, с одной стороны, наличие сигналовначала и конца, а с другой – представление о фреймах: знании носителей языка оструктуре текстов разных функциональных стилей (текстовой и коммуникативнойкомпетенции) [153].
Выделяют «внешнюю» и «внутреннюю» (смысловую) связность.И. Беллерт определяет связный текст как «такую последовательность высказыванийS1,…,Sn, в которой семантическая интерпретация высказывания Si (при 2<i<n) зависитот интерпретации высказываний в последовательности S1,…,Si-1» [90: 172]. Можносказать, что в основе связности и цельности текста – взаимосвязанность ивзаимообусловленность его структурных составляющих.
Связность реализуется какпространственная (контактно расположенные структурные составляющие),«логическая» и ассоциативная (см., например, [119]).Цельность и связность текста являются важными, но сложно формализуемымихарактеристиками текста. Цельность обычно определяют как наличие единой темы(предметной области, набора ситуаций). Свойство связности (когерентности)44относится к структурной организации текста. При этом различают смысловую(тематическую) и синтаксическую связность (см., например, [130]).
Средиформализуемых средств смысловой связности рассматривают, например, связующиеслова (союзы, слова с темпоральными и причинно-следственными значениями) имеханизмы референции и кореференции (повторяющиеся в тексте слова, другие видыповторной номинации). Синтаксическая связность текста – и высказываний какструктурных составляющих текста – выражается, прежде всего, через семантикосинтаксическую структурированность этих единиц.Исследователи связности текста пользуются разной терминологией.
Впоследних исследованиях все чаще разделяют когезию и когерентность (например,см. [120]). Когезия – связь элементов текста, при которых интерепретация однихэлементов зависит от других [120]. Когерентность соотносима с прагматическойстороной, она выводит нас за пределы текста в коммуникативную ситуацию испирается на базу знаний адресата. Когерентность в наибольшей степени связана спрезумпцией осмысленности и реализаций (смысловых) ожиданий адресата. Однако вреальных моделях понимания текста носителем языка четко разграничить эти дваразных вида связности бывает невозможно29.В процедурах речевой деятельности цельность и связность реализуются черезмеханизмы контекстной предсказуемости. Естественно допустить, что если мывозьмем в пределах текста произвольную точку, отвечающую границе между некимиязыковыми единицами, то характеристики ее правого непосредственного «соседа»будут далеко не случайными.
По-видимому, в дополнение к другим структурнымхарактеристикам текст может быть описан как взаимодействие метафорическипонимаемых «кривых сил связей между словами» – или между более сложнымиединицами текста, где некоторые позиции будут оказывать сильное воздействие нато, что может появиться справа, а другие будут предсказывать своихнепосредственных «соседей» достаточно слабо.
Множественность таких кривыхопределяется множеством признаков и параметров, по которым осуществляетсясвязывание. Природа этих связей/предсказуемостей может быть различногопроисхождения:(1) связаннойслексическойисемантическойсочетаемостью/несочетаемостью, (2) определяющейся правилами синтаксиса,(3) соотносимой с информационной значимостью, (4) задаваемой коммуникативнойситуацией вообще и задачей коммуникации в частности.
Предсказуемость можетносить и более сложный характер, когда позиции предсказываются нехарактеристиками непосредственного «соседа» (предшествующего элемента), но наосновании знания слушающего о смысловой связности и/или целостности (теме,смысле текста). Силы связей между словами (реже более сложными единицамианализа) хорошо описывается и предсказывается в математических сетевых моделях(напр., [124]).
Однако у этих моделей пока существует естественное ограничение ввиде уже упоминаемого множества разнотипных по своей лингвистической природесвязей, большинство из которых до сих пор плохо изучено. Хочется надеяться, что вближайшее время будет существенно расширена возможность такого моделирования– с варьированием типов единиц и контекстов – с учетом разнообразных признаков ипараметров. Такая работа, по-видимому, может быть осуществлена при подключенииСейчас мы проводим серию психолингвистических экспериментов по оценке связности между разнымиединицами текста (словами, предложениями, абзацами).2945специально подобранных и лингвистически сбалансированных коллекций, когдакаждой задаче соответствует своя коллекция (или набор коллекций).Естественно, что во время коммуникативного акта человек непрерывнопланирует (программирует) свою речь или свое восприятие, осуществляянеобходимые регулировки, переключения и т.д.
С этой точки зрения, каждаяследующая единица должна быть каким-то образом «сверена» и согласована с тем,что уже произнесено (или воспринято) к текущему моменту. Точность прогнозаоценивается в прикладном направлении, имеющем до сих пор только английскоеназвание “readability” (что соответствует не столько «читабельности», сколько«понимабельности» текста, т.е. правильному извлечению смысла даже при бегломчтении или наличии искажений).По-видимому, минимальное «окно сверки» («окно анализа») равно однойединице (например, одному высказыванию или одному слову); минимальноенеобходимое прогнозирование является в то же время как будто типичным,статистически преобладающим (ср.
работы по 'cloze tests' или missing-words: [1; 2; 4;14; 22; 77] и др.); максимальное же прогнозирование определяется текстом икоммуникативной ситуацией в целом. Мы к этому вернемся в последнем параграфеэтой главы.В традиции когнитивных теорий принято рассматривать текст как реализациюнекоторого фрейма. Основоположник этого подхода Марвин Минский определяетфрейм как структуру данных, предназначенную для представления некоторойтиповой ситуации [129]. Например, существуют фреймы бытовой, деловой и научнойкоммуникативных ситуаций, позволяющие прогнозировать развитие событий в этойситуации (в частности, порождение и восприятие текстов разных функциональныхстилей).
Знание адресатом (слушающим) соответствующего фрейма, по-видимому,соотносится со знанием адресата смысла (цельности) и смысловой связности текста,где текст выступает как реализация этого фрейма.Существенно противопоставление следующих типов целей и, соответственно,исследовательских процедур исследования текстов:o понимания и интерпретации текста человеком, чем занимаются в руслетрадиционного и/или когнитивистского подходов (см., например, работыМ.Б.
Бергельсон [91-93], а также работы зарубежных авторов (частичнорассматриваемые ниже);o в духе прикладных задач – автоматического понимания текста (или,например, автоматического извлечения информации из текста, задачмашинного перевода, автоматического реферирования и пр. (см., например,[127; 146; 125]).Различие такого рода подходов предполагает помещение в центр исследованияразных носителей языка.
В случае прикладных исследований в качестве«искусственного носителя языка» выступает автомат. Естественным следствиемтакого различия является степень вовлеченности того, что можно назвать «базойзнаний», позволяющей осуществлять прогнозирование развития событий наосновании знания видов коммуникативных ситуаций (внелингвистических данных).Очевидно, что автомат «испытывает затруднения» в формировании некотороймакроструктуры текста, являющейся результатом функционирования в процедурах46восприятия (понимания, интерпретации) не только структурных составляющихтекста, но и так называемых фоновых и выводных знаний. Степень вовлеченностифоновых и выводных знаний, по-видимому, зависит от типа фрейма и от знаниякоммуникантом этого фрейма30.§ 3.2.Анализ текста в парадигме когнитивных исследованийКратко остановимся на наиболее плодотворных положениях современныхисследований восприятия и понимания текста31.
Отправной точкой является то, что«связный текст – больше чем язык сам по себе и гораздо больше, чемпоследовательность отдельных предложений»32 (см., например, обзор по [39]).Процедуры восприятия и понимания текста традиционно трактуются какмногоуровневые33. Однако требуют исследования такие вопросы, как количество иприрода уровней, взаимодействие этих уровней и т.д. А.С.