Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 20
Текст из файла (страница 20)
Для научных текстов наличие61пересечений как характеристика степени тематической однородности коллекций ицентральном/периферийном положении текста в информационном пространствеколлекций не противоречит общей методике анализа (Пивоварова, Ягунова 2011).Поэтому остановимся на более сложном примере анализа информационных структурциклов Н.В.Гоголя:o «Петербургскиеповести» – максимальная компактность и прозрачностьинформационной структуры; достаточно большие наборы ключевых слов,выделяемых на основании и эксперимента с информантами, и вычислительногоэксперимента; два набора ключевых слов – выделяемых на основаниивычислительного эксперимента55 и эксперимента с информантами – хорошодемонстрируютразличия между двумя типами информационных структур:извлекаемой человеком в процессе понимании текстов vs. выделяемой автоматомпри реализации процедур информационного поиска.o «Украинская тематика» (Цикл «Миргород» и «Вечера на хуторе близ Диканьки») –максимальная неоднородность структуры; списки ключевых слов, выделяемые входе вычислительного эксперимента, интуитивно кажутся наиболее адекватнымидля понимания текстов носителем языка.o поэма «Мертвые души» – демонстрирует промежуточную картину.Сопоставление с данными о распределении потенциально ключевого слова впространстве текста позволяет произвести формализованную классификацию типовКС (типы действующих лиц, ключевые слова, аккумулирующие содержательные вехиописания и/или рассуждения и т.д.) [154-156].Исследуя наборы ключевых слов мы – в зависимости от методики интерпретацииполученных данных – можем создать свертку разной степени компрессии.
Этоопределяется выбором единицы анализа. В выше приведенных рассуждениях(результатах) была использована традиционная для КС единица анализа: лексема.Словоформы из анкет информантов нормализовались и представлялись в виде спискалексем. Однако в то же время для решения ряда других задач нужно представлятьданные в виде более компактных лексико-семантических единиц (с точностью досинонима, с точностью до ближайших дериватов (объединяя, напр., статистика истатистический), с точностью до тематического класса56. Однако без использованиятезауруса эта задача решается неоднозначно, мнения экспертов часто не совпадают.
В[126] приводятся крайне интересные решения выделения-построения-использования«лексических цепочек в построении тематического представления текста (там же,глава 19: 375-393). Конечно же, предлагаемые решения базируются на использованиитезаурусного представления РуТез [126], и заставляют серьезно задуматьсялингвистов.Ср. КС, выделенные на основании tf-idf: Акакиевич, рука, шинель, Ковалев, лицо, ростовщик, Акакий,медж, асессор, Яковлевич, пуф, коллежский, маиор, нос, титулярный, Шиллер, квартальный, коломна,Чартков, бакенбарды, лорнет, Пискарев, время, прыщик, проспект, департамент, Рафаэль, Чертокуцкий,голова, Фидель, чорт, комната, Психея, портрет, художник, происшествие, человек, слово, чиновник, Невский,Испания, дама, глаза, штаб-офицерша, казаться, Гофман, беспрестанный.56Устоявшейся терминологии нет, в [158] я использовала термины «классов эквивалентности» и «классовусловной эквивалентности».5562§ 3.5.Избыточность.
Компрессия текста. Свертки текстаМы обозначим контуры парадигмы исследования восприятия и понимания текста– делового и художественного – на материале экспериментально полученныхкомпрессированных текстов (в результате лингвистической компрессии), то есть этитексты можно охарактеризовать как имеющие и адаптационную, и лингвистическуюкомпрессию. В качестве компрессированных вариантов представления текстарассматривается два типа: лакунарный текст и наборы опорных слов (НОС).
Подопорными словами мы здесь понимаем слова, характеризующиеся максимальнойразборчивостью в одном из экспериментальных режимов. Для примера ограничимсятолько одним: восприятием текста в шуме. Предполагается, что высокаяразборчивость (не менее 30% информантов) отражает высокую информационнуюзначимость этих слов, что проявляется и в их реализации, и в результатах восприятия(понимания).
НОС обладают существенно большей степенью компрессии по разнымусловиям; степень компрессии существенно зависит от функционального стилятекста. НОС – последовательности лучше всего распознающихся словоупотребленийтекста – рассматриваются как свертки текстов, то есть как варианты вторичныхтекстов (полученных в результате понимания исходного)57.Лакунарные тексты представляют собой формализованный вариант исключениякаждого четвертого слова (замены каждого четвертого слова амплитудномодулированным белым шумом). Естественно, лакунарные эксперименты можно инужно проводить как для письменных, так и для звучащих текстов (исследуя“readability” и контекстную предсказуемость) [111-113]. Лакунарные текстыоказываются подвергнутыми незначительной компрессии, принцип удаления слов изтекста абсолютно формален – каждое четвертое; таким образом, среди удаленныхЗа пределами формата глав этого учебника, ориентированного, главным образом, на письменныйтекст, остались очень интересные результаты:• функциональный стиль текста определяет распределение опорных слов57 в пределах текста;• функциональный стиль текста определяет выбор процедур идентификации слов текста; разныемодели идентификации через обращение к словарю (lexical access) – когортные vs.
сетевые моделивосприятия – отражают особенности разных процедур идентификации слов текста57.При распознавании слов художественного текста класс поиска, формируемый с опорой на начальныйслог (с учетом дополнительных факторов), основывается на сравнительно небольшом числе гипотез исравнительно «коротком пути» их верификации. Наилучшая распознаваемость – у двусложных слов, они жеявляются наиболее частотными ритмическими структурами в рассматриваемом тексте. Для распознавании словделового текста приходится допустить более широкое использование других – «некогортных» – стратегийвосприятия, дополняющих / замещающих собственно когортные. Эта часть наших данных скорее согласуется спредставлениями модели SHORTLIST, в рамках которой не акцентируется значимость начальной позициислова (см., например, [71]).Различие в сегменте, преимущественно запускающем процедуру поиска слов в словаре («lexical access»), неявляется единственным различием.
Главное различие в последовательности / параллельности процедуробработки. Главное преимущество сетевых моделей в том, что они предполагают параллельную обработкуинформации по разным путям проверки (например, сегмент, число слогов, место ударения и т.д.). Для болеепростых ситуаций коммуникации (известная тема, короткие слова, короткие синтагмы и фразы) ифункциональных стилей художественного текста или тем более бытового разговора может оказатьсядостаточной когортной модели распознавания слов в тексте.
При усложнении ситуации коммуникации снеобходимостью включаются более сложные модели. Сетевые модели позволяют параллельную обработку,достигают необходимого результата (слова-кандидата) с большей вероятностью при больших искажениях – каксубъективных (например, сложная предметная область или незнание ее адресатом), так и объективных(внесения помех в объект (текст) или передачу объекта. Более того – сетевые модели и параллельный анализвходной информации приближают нас к учету психофизиологической природе распознавания и пониманиятекста.
Именно эти модели подходят для наиболее востребованных в компьютерной лингвистикеинформационно насыщенных текстов (научном, официально деловом, тексте новостных сообщений).5763слов оказываются слова с разными фонетическими и/или внефонетическимихарактеристиками (служебные и знаменательные, полноударные и клитики, элементытемы и ремы и т.д.).Эксперименты по восстановлению текста на основании обоих вариантовкомпрессированных текстов предоставляют возможность исследования контекстнойпредсказуемости и шире – понимания текста. Лакунарный текст и НОС существенноразличаются по принципу сжатия и степени компрессии.
Использование этих методикпозволило по-новому взглянуть на роль общеязыковой частотности / частотывстречаемости для указанных функциональных стилей (в словарях С.Шарова иО.Ляшевской), собственно смысловых и коммуникативных структур с точки зренияконтекстной предсказуемости. Выводы, полученные на материале двухэкспериментальных режимов – зашумленный и лакунарный текст – подтверждаюти/или взаимодополняют друг друга.Общеязыковая частота встречаемостиДеловой лакунарный текст• При восприятии лакунарного делового текста (в отличие от восприятия текстав шуме) общеязыковая частотность словоформ играет существенную роль.• Для этого текста возможно переструктурирование словаря в результатеподстройки слушающего под особенности этого текста.• На конечном фрагменте текста редкие лексемы восстанавливаются значимолучше, чем на начальном или конечном.Художественный лакунарный текст• Для художественного текста общеязыковая частотность словоформ играетсущественную роль.• Для художественного текста общеязыковая частотность лексем играетсущественную роль.• Не происходит переструктурирования словаря по мере продвиженияслушающего по тексту (по мере понимания смысла текста [тема и наборподтем текста]).• Нет значимых различий в восстанавливаемости редких словоформ (и редкихлексем) на конечном фрагменте и на начальном (или конечном) фрагментетекста.Общим свойством, характеризующим восстановление и делового, ихудожественного лакунарных текстов, является значимость роли общеязыковойчастотности словоформ (как основных единиц перцептивного словаря): чем вышечастота встречаемости, чем лучше точная восстанавливаемость.
При восприятиитекста в шуме этот признак имел значение лишь для художественного текста. Дляхудожественного лакунарного текста значимым признаком оказалась также частотавстречаемости лексемы, что может отражать то, что задача восстановления отдельных(лакунаризируемых) единиц может задействовать в стратегии восприятия и болеевысокий уровень – уровень понимания сюжета. Восприятие (и восстановление)лакунарного делового текста в существенно меньшей степени включает процедурупонимания: испытуемые незнакомы с предметной областью текста.Собственно смысловая структураДеловой лакунарный текст• Имеет место подстройка слушающего под особенности текста; в результатеэтой подстройки частотность слова (или более крупной структурной64составляющей текста) по тексту имеет существенное значение при оценкестепени предсказуемости.• На конечном фрагменте КС восстанавливаются значительно лучше, чем неКС.• По мере продвижения слушающего от начального фрагмента текста кконечному происходит улучшение предсказуемости КС, в результате чего наконечном фрагменте КС восстанавливаются несколько лучше, чем неКС.• Данные о роли собственно смысловых структур на материале лакунарногоэксперимента аналогичны данным эксперимента по восприятию текста вшуме.Художественный лакунарный текст• Подстройка слушающего под особенности текста не сопровождаетсяизменением частотности элементов текста по сравнению с общеязыковойчастотой встречаемости.• На начальном фрагменте КС восстанавливаются значительно хуже, чем неКС.• Данные о роли собственно смысловых структур на материале лакунарногоэксперимента и на материале эксперимента по восприятию текста в шумедополняют друг друга.Общим для восприятия делового и художественного лакунарных текстовявляется то, что от начального к конечному фрагменту текста происходит увеличениепредсказуемости позиций КС, то есть понимание текста сопровождаетсяформированием смысловых вех.В процедурах восприятия текста конкурируют разные «окна сверки»контекстной предсказуемости, каждому из которых присваиваются разные веса.Наибольший вес минимальное «окно сверки» имеет для восстановления компонентовнеоднословных целостностей, например, для фразеологизмов и так далее, во всегорло, от всей души, чтобы духу твоего не было; сложных номинаций внутреннийрынок, транспортные средства и т.д.