Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 19
Текст из файла (страница 19)
Такимобразом, в общем случае неединственность коммуникативного структурированияопределяется структурой коммуникативной ситуации. На такого роданеединственность обратила в свое время внимание Е.В. Падучева, отметив, чторазличие в описании коммуникативной структуры высказывания – это различие в егофункционировании при решении тех или иных задач, например (по [135: 109–112]:59(1) Установить линейно-интонационную структуру при синтезе предложения изего синтаксического представления. «В рамках этой задачи откоммуникативной структуры требуется, чтобы в ней содержалась вся <…>дополнительная семантическая или прагматическая информация, котораядолжна быть добавлена к синтаксическому представлению предложения».(2) Выяснить, какие значения передаются в данном языке варьированиемлинейно-интонационной структуры высказывания.(3) Выразить оптимальным образом (например, при переходе от семантическогопредставления предложения к синтаксическому) заданное содержание – смысли разного рода акценты, контрасты, меняющиеся фокусировки и проч.
и т.д.Очевидно, что решение каждой из перечисленных задач задает свой типкоммуникативного структурирования.Мы будем отталкиваться от общих «психолингвистических» представлений оключевых словах (КС)54 на основании работ, выполненных в рамках научной школыЛ.В. Сахарного и А.С. Штерн, а также на основании работ А.И. Новикова (например,[130; 131]). КС определяются в ходе эксперимента с информантами, которые должныпрослушать текст, подумать над его содержанием и выписать 10-15 слов, наиболееважных с точки зрения его содержания.Наиболее функциональными, таким образом, могли бы стать основныеположения, изложенные в работах Л.В. Сахарного и А.С. Штерн и их учеников.Кратко их можно сформулировать следующим образом:КС отражают тему текста;их упорядоченность – в наборе ключевых слов (НКС) – может трактоватьсякак эксплицитно невыраженная рема текста;при допущении того, что рема в тексте может быть не выражена эксплицитно(но лишь за счет ассоциативных связей), НКС рассматривается как один изминимальных вариантов «текста»;такого типа «текст» характеризуется «ядерной» цельностью и минимальнойсвязностью (см., например, [18; 146]).Первое положение кажется максимально обоснованным.
Оставшиеся требуютдополнительного обсуждения. По-видимому, расширение понятия «текст»,позволяющее включить НКС в множество возможных текстов, не является для наснеобходимым. В то же время возможность развертывания НКС в процедурахпорождения текста является экспериментально доказанной. Для порождения такогорода текстов необходима инструкция, запускающая механизм: например, «напишитесвязный осмысленный текст, употребив слова…» [133]. Вероятно, упорядоченностьслов в НКС активирует ассоциативные связи, необходимые для существованиялюбого текста [133].
Понимание ремы как «связующего элемента», соединяющеготемы и подтемы, оказывается противоречащим выше описываемому подходу кисследованию тема-рематической структуры и представлению о реме как оконституирующем компоненте (как высказывания, так и текста).Немного о результатах, полученных в экспериментах по восприятию звучащеготекста в шуме (сигнал/шум 0 дБ), с одной стороны, иллюстрирующих некоторые изВпрочем, вычислительный подход к оценке КС как наиболее значимых для текста (коллекции) иногдавыступал в качестве самостоятельной задачи, а не только для сопоставления результатов двух разныхэкспериментов.5460положений об информационной и коммуникативной структуре текста, с другой –позволяющие оценить осуществляемую текущим образом подстройку под текст(процедуры анализа и понимания).Коммуникативная структураДля делового текста (1) элементы темы распознаются лучше, чем элементы ремы(особенно на конечном фрагменте); (2) от начального к конечному фрагментутекста происходит улучшение распознаваемости каждого из элементов;(3) перцептивно значимой является позиция перед паузой.Для художественного текста (1) элементы ремы распознаются лучше, чемэлементы темы (особенно на конечном фрагменте); (2) от начального к конечномуфрагменту текста происходит ухудшение распознаваемости элементов темы иулучшение элементов ремы; (3) мелодика (прежде всего, понижение частотыосновного тона) представляет собой перцептивно наиболее значимыйфонетический признак для коммуникативного членения художественного текста;этот признак маркирует новое (не только для структуры «тема vs.
рема», но и«данное vs. новое»).Собственно смысловая структура• Для делового текста (1) КС распознаются лучше, чем неКС (особенно на конечномфрагменте); (2) от начального к конечному фрагменту текста происходитулучшение распознаваемости каждого из элементов; (3) перцептивно значимойявляется позиция перед паузой.• Для художественного текста (1) неКС распознаются лучше, чем КС (наначальном и конечном фрагментах); (2) наилучшей распознаваемостью обладаетсередина текста (здесь происходит нейтрализация противопоставления КС vs.неКС); (3) мелодика (прежде всего, понижение частоты основного тона) –перцептивно наиболее значимый фонетический признак маркирования КС.При распознавании слов делового текста наиболее существенным является факторзнакомства с текстом (его темой, структурой и наиболее частотными словами), КС иэлементы темы (как им и положено) распознаются сравнительно неплохо, конецтекста предсказуем и хорошо распознается.
Для художественного текста бόльшая«опорность» приходится на начальный (преамбула) и срединный (развитие сюжета)композиционные фрагменты и по-разному соотносится с компонентамикоммуникативного и смыслового членения: с темой для преамбулы, с диалогом(особенно неКС или ремой) для срединного фрагмента. Таким образом, говоря оструктурах текста и процедурах анализа, мы должны учитывать разнообразные видыконтекста, в частности, функциональный стиль, композиционную структуру ириторическую связность текста.Рассуждая о текущем словаре и ключевых словах в главе 2, мы уже упомянули,что выходя на более высокий уровень анализа и сопоставляя – (1) «текущие словари»,принадлежащие тексту и коллекциям разной степени однородности («уровнявложенности»), (2) ключевые слова, характеризующие текст и коллекции разнойстепени вложенности – можем получить полноценную информацию не только дляинформационно насыщенных текстов, но и для художественных текстов.Естественно, такого рода анализ предполагает сопоставление эксперимента синформантами и вычислительного эксперимента (для последнего особую значимостьприобретает формирование контрастивной коллекции).
Для научных текстов наличие61пересечений как характеристика степени тематической однородности коллекций ицентральном/периферийном положении текста в информационном пространствеколлекций не противоречит общей методике анализа (Пивоварова, Ягунова 2011).Поэтому остановимся на более сложном примере анализа информационных структурциклов Н.В.Гоголя:o «Петербургскиеповести» – максимальная компактность и прозрачностьинформационной структуры; достаточно большие наборы ключевых слов,выделяемых на основании и эксперимента с информантами, и вычислительногоэксперимента; два набора ключевых слов – выделяемых на основаниивычислительного эксперимента55 и эксперимента с информантами – хорошодемонстрируютразличия между двумя типами информационных структур:извлекаемой человеком в процессе понимании текстов vs.
выделяемой автоматомпри реализации процедур информационного поиска.o «Украинская тематика» (Цикл «Миргород» и «Вечера на хуторе близ Диканьки») –максимальная неоднородность структуры; списки ключевых слов, выделяемые входе вычислительного эксперимента, интуитивно кажутся наиболее адекватнымидля понимания текстов носителем языка.o поэма «Мертвые души» – демонстрирует промежуточную картину.Сопоставление с данными о распределении потенциально ключевого слова впространстве текста позволяет произвести формализованную классификацию типовКС (типы действующих лиц, ключевые слова, аккумулирующие содержательные вехиописания и/или рассуждения и т.д.) [154-156].Исследуя наборы ключевых слов мы – в зависимости от методики интерпретацииполученных данных – можем создать свертку разной степени компрессии. Этоопределяется выбором единицы анализа. В выше приведенных рассуждениях(результатах) была использована традиционная для КС единица анализа: лексема.Словоформы из анкет информантов нормализовались и представлялись в виде спискалексем.
Однако в то же время для решения ряда других задач нужно представлятьданные в виде более компактных лексико-семантических единиц (с точностью досинонима, с точностью до ближайших дериватов (объединяя, напр., статистика истатистический), с точностью до тематического класса56. Однако без использованиятезауруса эта задача решается неоднозначно, мнения экспертов часто не совпадают. В[126] приводятся крайне интересные решения выделения-построения-использования«лексических цепочек в построении тематического представления текста (там же,глава 19: 375-393).
Конечно же, предлагаемые решения базируются на использованиитезаурусного представления РуТез [126], и заставляют серьезно задуматьсялингвистов.Ср. КС, выделенные на основании tf-idf: Акакиевич, рука, шинель, Ковалев, лицо, ростовщик, Акакий,медж, асессор, Яковлевич, пуф, коллежский, маиор, нос, титулярный, Шиллер, квартальный, коломна,Чартков, бакенбарды, лорнет, Пискарев, время, прыщик, проспект, департамент, Рафаэль, Чертокуцкий,голова, Фидель, чорт, комната, Психея, портрет, художник, происшествие, человек, слово, чиновник, Невский,Испания, дама, глаза, штаб-офицерша, казаться, Гофман, беспрестанный.56Устоявшейся терминологии нет, в [158] я использовала термины «классов эквивалентности» и «классовусловной эквивалентности».5562§ 3.5.Избыточность.
Компрессия текста. Свертки текстаМы обозначим контуры парадигмы исследования восприятия и понимания текста– делового и художественного – на материале экспериментально полученныхкомпрессированных текстов (в результате лингвистической компрессии), то есть этитексты можно охарактеризовать как имеющие и адаптационную, и лингвистическуюкомпрессию.
В качестве компрессированных вариантов представления текстарассматривается два типа: лакунарный текст и наборы опорных слов (НОС). Подопорными словами мы здесь понимаем слова, характеризующиеся максимальнойразборчивостью в одном из экспериментальных режимов. Для примера ограничимсятолько одним: восприятием текста в шуме. Предполагается, что высокаяразборчивость (не менее 30% информантов) отражает высокую информационнуюзначимость этих слов, что проявляется и в их реализации, и в результатах восприятия(понимания).