Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 20
Текст из файла (страница 20)
НОС обладают существенно большей степенью компрессии по разнымусловиям; степень компрессии существенно зависит от функционального стилятекста. НОС – последовательности лучше всего распознающихся словоупотребленийтекста – рассматриваются как свертки текстов, то есть как варианты вторичныхтекстов (полученных в результате понимания исходного)57.Лакунарные тексты представляют собой формализованный вариант исключениякаждого четвертого слова (замены каждого четвертого слова амплитудномодулированным белым шумом).
Естественно, лакунарные эксперименты можно инужно проводить как для письменных, так и для звучащих текстов (исследуя“readability” и контекстную предсказуемость) [111-113]. Лакунарные текстыоказываются подвергнутыми незначительной компрессии, принцип удаления слов изтекста абсолютно формален – каждое четвертое; таким образом, среди удаленныхЗа пределами формата глав этого учебника, ориентированного, главным образом, на письменныйтекст, остались очень интересные результаты:• функциональный стиль текста определяет распределение опорных слов57 в пределах текста;• функциональный стиль текста определяет выбор процедур идентификации слов текста; разныемодели идентификации через обращение к словарю (lexical access) – когортные vs. сетевые моделивосприятия – отражают особенности разных процедур идентификации слов текста57.При распознавании слов художественного текста класс поиска, формируемый с опорой на начальныйслог (с учетом дополнительных факторов), основывается на сравнительно небольшом числе гипотез исравнительно «коротком пути» их верификации.
Наилучшая распознаваемость – у двусложных слов, они жеявляются наиболее частотными ритмическими структурами в рассматриваемом тексте. Для распознавании словделового текста приходится допустить более широкое использование других – «некогортных» – стратегийвосприятия, дополняющих / замещающих собственно когортные.
Эта часть наших данных скорее согласуется спредставлениями модели SHORTLIST, в рамках которой не акцентируется значимость начальной позициислова (см., например, [71]).Различие в сегменте, преимущественно запускающем процедуру поиска слов в словаре («lexical access»), неявляется единственным различием. Главное различие в последовательности / параллельности процедуробработки. Главное преимущество сетевых моделей в том, что они предполагают параллельную обработкуинформации по разным путям проверки (например, сегмент, число слогов, место ударения и т.д.). Для болеепростых ситуаций коммуникации (известная тема, короткие слова, короткие синтагмы и фразы) ифункциональных стилей художественного текста или тем более бытового разговора может оказатьсядостаточной когортной модели распознавания слов в тексте.
При усложнении ситуации коммуникации снеобходимостью включаются более сложные модели. Сетевые модели позволяют параллельную обработку,достигают необходимого результата (слова-кандидата) с большей вероятностью при больших искажениях – каксубъективных (например, сложная предметная область или незнание ее адресатом), так и объективных(внесения помех в объект (текст) или передачу объекта. Более того – сетевые модели и параллельный анализвходной информации приближают нас к учету психофизиологической природе распознавания и пониманиятекста.
Именно эти модели подходят для наиболее востребованных в компьютерной лингвистикеинформационно насыщенных текстов (научном, официально деловом, тексте новостных сообщений).5763слов оказываются слова с разными фонетическими и/или внефонетическимихарактеристиками (служебные и знаменательные, полноударные и клитики, элементытемы и ремы и т.д.).Эксперименты по восстановлению текста на основании обоих вариантовкомпрессированных текстов предоставляют возможность исследования контекстнойпредсказуемости и шире – понимания текста.
Лакунарный текст и НОС существенноразличаются по принципу сжатия и степени компрессии. Использование этих методикпозволило по-новому взглянуть на роль общеязыковой частотности / частотывстречаемости для указанных функциональных стилей (в словарях С.Шарова иО.Ляшевской), собственно смысловых и коммуникативных структур с точки зренияконтекстной предсказуемости.
Выводы, полученные на материале двухэкспериментальных режимов – зашумленный и лакунарный текст – подтверждаюти/или взаимодополняют друг друга.Общеязыковая частота встречаемостиДеловой лакунарный текст• При восприятии лакунарного делового текста (в отличие от восприятия текстав шуме) общеязыковая частотность словоформ играет существенную роль.• Для этого текста возможно переструктурирование словаря в результатеподстройки слушающего под особенности этого текста.• На конечном фрагменте текста редкие лексемы восстанавливаются значимолучше, чем на начальном или конечном.Художественный лакунарный текст• Для художественного текста общеязыковая частотность словоформ играетсущественную роль.• Для художественного текста общеязыковая частотность лексем играетсущественную роль.• Не происходит переструктурирования словаря по мере продвиженияслушающего по тексту (по мере понимания смысла текста [тема и наборподтем текста]).• Нет значимых различий в восстанавливаемости редких словоформ (и редкихлексем) на конечном фрагменте и на начальном (или конечном) фрагментетекста.Общим свойством, характеризующим восстановление и делового, ихудожественного лакунарных текстов, является значимость роли общеязыковойчастотности словоформ (как основных единиц перцептивного словаря): чем вышечастота встречаемости, чем лучше точная восстанавливаемость.
При восприятиитекста в шуме этот признак имел значение лишь для художественного текста. Дляхудожественного лакунарного текста значимым признаком оказалась также частотавстречаемости лексемы, что может отражать то, что задача восстановления отдельных(лакунаризируемых) единиц может задействовать в стратегии восприятия и болеевысокий уровень – уровень понимания сюжета. Восприятие (и восстановление)лакунарного делового текста в существенно меньшей степени включает процедурупонимания: испытуемые незнакомы с предметной областью текста.Собственно смысловая структураДеловой лакунарный текст• Имеет место подстройка слушающего под особенности текста; в результатеэтой подстройки частотность слова (или более крупной структурной64составляющей текста) по тексту имеет существенное значение при оценкестепени предсказуемости.• На конечном фрагменте КС восстанавливаются значительно лучше, чем неКС.• По мере продвижения слушающего от начального фрагмента текста кконечному происходит улучшение предсказуемости КС, в результате чего наконечном фрагменте КС восстанавливаются несколько лучше, чем неКС.• Данные о роли собственно смысловых структур на материале лакунарногоэксперимента аналогичны данным эксперимента по восприятию текста вшуме.Художественный лакунарный текст• Подстройка слушающего под особенности текста не сопровождаетсяизменением частотности элементов текста по сравнению с общеязыковойчастотой встречаемости.• На начальном фрагменте КС восстанавливаются значительно хуже, чем неКС.• Данные о роли собственно смысловых структур на материале лакунарногоэксперимента и на материале эксперимента по восприятию текста в шумедополняют друг друга.Общим для восприятия делового и художественного лакунарных текстовявляется то, что от начального к конечному фрагменту текста происходит увеличениепредсказуемости позиций КС, то есть понимание текста сопровождаетсяформированием смысловых вех.В процедурах восприятия текста конкурируют разные «окна сверки»контекстной предсказуемости, каждому из которых присваиваются разные веса.Наибольший вес минимальное «окно сверки» имеет для восстановления компонентовнеоднословных целостностей, например, для фразеологизмов и так далее, во всегорло, от всей души, чтобы духу твоего не было; сложных номинаций внутреннийрынок, транспортные средства и т.д.
(т.е. для коллокаций и конструкций). Текстовое«окно сверки» является максимальным; формирование смысловых вех характеризуетименно такое «окно сверки». Для художественного текста, по-видимому, характерновзаимодействие «окна сверки», равного всему художественному тексту и равногосмысловому блоку текста.Коммуникативная структураДеловой лакунарный текст• От начального к конечному фрагменту текста происходит увеличениепредсказуемости позиций темы.• На конечном фрагменте элементы темы восстанавливаются значительнолучше, чем элементы ремы.• Данные о роли коммуникативных структур на материале лакунарногоэксперимента аналогичны данным эксперимента по восприятию текста вшуме.Художественный лакунарный текст• В условиях этого экспериментального режима нейтрализуется различие впредсказуемости между элементами темы и ремы.• Нейтрализуется зависимость предсказуемости элементов темы и ремы отпродвижения по тексту (от смыслового блока).65• Данные о роли собственно смысловых структур на материале лакунарногоэксперимента и на материале эксперимента по восприятию текста в шумевзаимодополняют друг друга.Можно ли НОС представить в виде свертки текста, а затем в «обратном»эксперименте восстановить текст на основании этих наборов, полученных на разныхтекстах (функциональных стилях) и разных фрагментах? НОС – упорядоченныепоследовательности (фонетических) словоформ, где опорные слова являютсянаиболее распознаваемыми при восприятии текста в шуме58.
Более традиционнымвидом сверток является набор ключевых слов (НКС), в котором задан порядок –порядок введения КС в текст. КС отражают тему текста, а упорядоченность слов вНКС активирует ассоциативные связи, необходимые для существования любоготекста (что проявляется в возможности развертывания НКС в цельный и связныйтекст). НКС и НОС можно рассматривать как разные виды сверток текста,отражающих разные виды смыслового структурирования.
НОС – представляетсвертку более динамичного характера (отражающего процедуры он-лайн-пониманиятекста), НКС – свертку статичного характера, понимание текста в целомпредшествует определению КС, всвертке представлены результаты ужесвершившегося действия.Особенности НОС как сверток текста исследовались в двух серияхэксперимента по восстановление текста на основании (1) полного НОС и(2) фрагмента НОС, соответствующего начальному фрагменту текста.
Экспериментпроводился в письменно-письменной форме59.В основу эксперимента легли следующие гипотезы:• НОС позволяют осуществить построение целостного связного текста;• НОС задают функциональный стиль развертываемого текста;• НОС определяют предметную (тематическую) область развертываемого текста;• развертывание НОС позволяет определить позиции слов и/или конструкций,обладающих максимальной контекстной предсказуемостью.Определение того, принадлежат ли восстановленные тексты тому жефункциональному стилю, что и исходный, производилось на основании двухкритериев:• экспертная оценка:o заключение эксперта о принадлежности восстановленного текста к данномуфункциональному стилю (деловому или художественному),o степень статичности vs.
динамичности смены описываемых ситуаций (какдополнительный признак);• количественные (формальные) критерии:o коэффициент лексического разнообразия текстов (КЛР), что отражаетстепень разнообразия лексических средств при построении текста исоотносится с функциональным стилем текста (разнообразие лексики(высокий КЛР) характеризует художественный текст, а клишированность(низкий КЛР) – деловой текст),Результаты аналогичных экспериментов, в которых НОС были опорными словами при распознавании текстовв других режимах искажения описаны в [158].59В письменной инструкции было указано: «Перед Вами последовательность слов, извлеченных из текста.Попробуйте на их основе восстановить текст».5866o длина текстов в словах (как дополнительный признак).Существенное значение для рассматриваемого собственно смысловогоструктурирования текста имеет степень динамичности текста, которая определяетсяколичеством описываемых ситуаций:• Пересечение НОС и НКС существенно выше для статичного делового текста посравнению с динамическим художественным (52% vs.