Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 17
Текст из файла (страница 17)
На следующем этапе на основании синтаксическогоанализа из этих предложений выделяются наиболее значащие фрагменты.2. На первом этапе применяется алгоритм синтаксического анализа предложенийтекста, в результате чего выделяются наиболее существенные части этихпредложений. На следующем этапе статистическому анализу подвергаются лишьнаиболее существенные части предложений текста.3. «Вес слова» определяется на основании статистического и синтаксическогоанализа, так, в зависимости от синтаксической роли одно и то же существительноебудет иметь разный вес (например, существительное в роли подлежащего болеезначимо, чем это же существительное в составе предложно-падежнойконструкции).По-видимому, в идеале перечисленные способы автоматического реферированиядолжны, во-первых, выделять наиболее значимые для понимания текста слова,конструкции и предложения, а во-вторых, характеризовать распределение этихнаиболее значимых единиц (а) в структуре текста и (б) в структуре высказываний каксоставляющих текста.
Следовательно, налицо необходимость соотнесенияисследований в области автоматического реферирования и моделирования«поверхностного» восприятия и понимания текста человеком, то есть в условияхограничений на «базу знаний» адресата. Разработано нескольких эффективныхалгоритмов реферирования для информационно-аналитических и научно-техническихтекстов (например, [58; 74]).В этом отношении большой лингвистический интерес вызывает только чтовышедшая монография Н.В.Лукашевич «Тезаурусы в задачах информационногопоиска» и те главы, которые посвящены как описанию связности текста, так исозданию по их результатам моделей автоматического реферерирования [126]. Насбольше интересуют экстрактивные аннотации, использующие фрагменты исходноготекста (система анализа текста) для порождения текста аннотации (вторичноготекста).
В работе указываются те лингвистические признаки, которые лежат в основеопределения веса (уровня значимости) фрагмента (от слова до предложения): позицияв тексте, частотность слов, именованные сущности и т.д. Одним из новых и наиболееактуальных (во всяком случае в лингвистическом смысле) вопросов являетсясоздание аннотации на основе многих текстов (вероятно, в качестве таких наборов. 3) вот с ними-то (собаками) я (Ланцелот) подружился.
4) они (собаки) меня (Ланцелота) поняли, потому что 5) (собаки) любят своих хозяев (жителей)и 6) (собаки) желают добра им (своим хозяевам, жителям). мы (Ланцелот и собаки) болтали почти до рассветаИсходный текст: Ланцелот. Боязливые жители вашего города травили меня собаками. А собаки у вас оченьтолковые. Вот с ними-то я и подружился. Они меня поняли, потому что любят своих хозяев и желают имдобра.
Мы болтали почти до рассвета (Шварц 1962: 334)54документов могут выступать кластеры (сюжеты), тексты, организованные в циклы, а,возможно, и более сложные лингвистические информационные объекты). Присоставлении таких аннотаций (обзорных рефератов) «необходимо решать такиевопросы, как:- борьба с избыточностью информации,- идентификация важных различий между документами,- обеспечение тематической связности текста, что усложняется тем, чтопредложения могут браться из разных источников» [126: 266].Проблема модели аннотирования оказывается на стыке не только разныхпараграфов (этой главы), но и разных глав: текущей и следующей. Лингвистическизначимым является анализ композиционной структуры текста (или анализриторических отношений в терминах теории риторических структур [75]). Даже длянаучных текстов выделяются разные типы (в разном количестве и с разными весами)композиционных (или риторических) структур.
И это возвращает нас к проблемеоднородности коллекции или кластера не только в отношении тематической, ностилевой однородности [70]. Как уже было сказано, композиционную структуру мырассматриваем как одну из стилевых характеристик текста или коллекции. Некоторыестилевые характеристики можно предсказать уже на уровне задачи описанияисходных параметров выбора коллекции: событие, череда сходных событий,аналитика, интервью и т.д.§ 3.4.Коммуникативная и информационная (смысловая) структурытекстаПри восприятии речи основной задачей адресата является извлечение смысла(значения) или, вернее, смысловой структуры, которая отвечает тексту как некоторойцелостности.
Смысловая структура суть «структура содержания» в отличие отрассматриваемой в предыдущей главе просодической структуры. Смысловаяструктура заведомо многослойна и неоднородна. По-видимому, плодотворновыделять два типа смысловых структур: коммуникативная и собственно смысловаяструктуры. Далее, каждый из этих типов смысловых структур делится еще на дваподтипа:o коммуникативная структура:• тема-рематическая;• структура «данное vs. новое»;47o информационная (собственно смысловая) структура :• структура пропозиций;• структура «ключевые слова vs.
неключевые слова».Остановимся также на таком виде представления коммуникативной исмысловой структур, как «база текста» (text base). «База текста» представляет собойвид иерархической пропозициональной структуры текста: макроструктура, вкоторой индивидуальные пропозиции (соответствующие отдельным высказываниямтекста) вступают в определенные иерархические отношения [53]. В формированиетакой макроструктуры, по-видимому, существенный вклад вносят:47Термин «собственно смысловая структура» условен, терминология в этой области еще не устоялась.55-фоновые знания, «настраивающие» адресата на определенную тематическуюобласть и заполняющие смысловые лакуны, присутствующие в подавляющемчисле текстов;выводные знания (выведение адресатом следствий из пропозиций и их сочетаний).По-видимому, о «базе текста» имеет смысл говорить в контексте подстройкиадресата под структурные особенности текста в процессе его восприятия.
Кроме того,в целом ряде случаев представление такого типа о структуре текста можетсоотноситьсяспотенциальнымипутямиосуществленияконтекстнойпредсказуемости в достаточно широких «окнах сверки», например, от фразы дотекста целиком.Самая глубинная (и в то же время самая грубая) структура, которую можноприписать любому предикативному смысловому образованию – это темарематическая структура как сопряжение основных коммуникативных компонентоввысказывания (равно и текста)48. По-видимому, глубинность этой структурызаключается в глубокой когнитивной природе этого противопоставления.
Ч. Хоккет,исследуя языковые универсалии, пишет: «В каждом человеческом языке можновстретить тип предложения двучленной структуры, конституенты которой разумнобыло бы именовать «тема» – «рема» («topic» vs. «comment») (Хоккет 1970: 70).В качестве собственно смысловой структуры текста будем рассматривать лишьструктуру, задаваемую распределением в тексте ключевых слов (КС) – как основныхсмысловых вех текста – на фоне неключевых слов (неКС). Структуру подобного рода,возможно, есть основания соотнести с хорошо известным в психологии восприятияпротивопоставлением фигуры и фона. Намеренно упрощая ситуацию можно сказать,что фигура – это наиболее значимая информация, «смысловые вехи» текста (или егофрагмента). Фон же обеспечивает успешное извлечение этих смысловых вех.Мы рассматриваем коммуникативное структурирование высказывания (тема ирема, данное и новое); очевидно, однако, что коммуникативная структуравысказывания и коммуникативная структура текста существенным образомвзаимодействуют в процессах функционирования (порождения и восприятия текста).Подобное взаимодействие проявляется, в частности, в том, что функционированиекомпонентов структуры высказываний зависит от места расположения в тексте(продвижения от начала к концу текста), что соотносится со структурой «новое vs.данное»49.
Очевидно, в рамках таких динамических процессов происходитвзаимодействие коммуникативной и смысловой структур.Мы будем говорить о потенциальной значимости коммуникативных и смысловыхструктур для восприятия не только письменного, но и звучащего текста. Проблемойкоммуникативного членения занимались представители разных научных школ,наиболее существенными для данной работы являются следующие положения:1. Кажется плодотворным выделение Т.Е. Янко двух основных типовкоммуникативныхзначений:конституирующееречевойактинеПредставления о том, что из себя представляет тема-рематическая структура и, соответственно, тема и рема(topic & comment, topic & focus, etc.) существенным образом зависят от парадигмы исследования (см.,например, обзор «On the notion of topic» [42].
В данной работе тема и рема выделяется на основаниирезультатов эксперимента, в котором эксперты-лингвисты определяют компоненты темы в предъявляемыхтекстах.49Существуют попытки исследования собственно коммуникативной структуры текста (см. [145]). В настоящейработе предложенная Л.В.