Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 17
Текст из файла (страница 17)
Информационный анализ неизбежно сопряжен с потерей части информации(информационный сброс). Определение более или менее информативныхсоставляющих текста может и должно опираться на лингвистические исследования.Реализация процедур понимания «снизу – вверх» (от поверхностных структур кденотативным представлениям) описывается следующим образом: «основноеназначение лингвистических структур … состоит в том, чтобы создавать контекст,необходимый и достаточный для вычленения на каждом уровне информативныхединиц, которые переходят в структуры следующего уровня» [125: 31].Лингвистически контролируемый информационный сброс позволяет автоматуфункционировать в отсутствие идеальных условий: снимать структурныеТак, например, переход к новой предметной области требует построения новой системы автоматическогопонимания.4352ограничения на обрабатываемые тексты (например, автомат может принимать на входсинтаксически неправильные или неполные предложения), допускает работу снеполными словарями и базами знаний.
Возможно, исследование функционированиятакого рода модели может рассматриваться как моделирование понимания текста«искусственным носителем языка» в разных коммуникативных условиях, для текстовразных функциональных стилей.Одним из наиболее востребованных механизмов автоматической обработкитекста является его компрессия. Задачей такого рода компрессии является получениереферата и/или аннотации: компактной формулировки содержания одного текста илимонотематического массива текстов (группы текстов на одну тему). Принципы истепень сжатия определяются, как правило, задачами конкретной системы. Реферати/или аннотация являются вторичными текстами.Основным проблемным вопросом, решаемым при моделировании пониманиятекста автоматом (и построения вторичных текстов), являются цельность и связностьтекста.
Решение такого рода вопроса невозможно без обращения к проблемамреференции. Формализуемыми (в разной степени) средствами обеспечения связностиявляются следующие:• повторяющиеся в тексте понятия (субъекты, объекты, явления и т.д.) в одномлексическом выражении;• повторяющиеся в тексте понятия (субъекты, объекты, явления и т.д.) в разныхлексических выражениях (например, в виде однокоренных дериватов или словодного лексико-семантического поля)44;• местоимения и местоименные слова (см., например, [134]), чаще всего они такжеотносятся к средствам выражения повторяющихся в тексте понятий;обозначающиеобобщенныелогико• «слова-текстопостроители»45,композиционные связи между элементами – разного уровня составляющими –текста (например, итак, резюмируя, следовательно, особо подчеркнем, все же,так же, однако и т.д.);• союзные слова характеризующие, главным образом, связи между клаузами, а непредложениями и занимающие промежуточное положение: с одной стороны, онипередают синтаксические отношения (как союзы), с другой стороны, их значениесоотносятся со значением некоторого полнозначного знаменательного слова(повтор понятия в предложении).Для повторения одних и тех же понятий вне зависимости от их лексическоговыражения И.П.
Севбо вводит понятие нанизывание [146]. Для получениякомпрессированного текста предварительно необходимо осуществить его«развертывание»: в итоге для текста строятся схемы нанизывания через каноническиекусты, в которых восстанавливаются все связи46. В своей (уже ставшей классической)Вопрос о частоте встречаемости в тексте таких единиц, как словоформы и лексемы (то есть в одномлексическом выражении) и таких классов, как «класс условной эквивалентности» и «однокоренной классусловной эквивалентности» лексемы (то есть в разном лексическом выражении) рассматривается в главах 4–6.Признак «частота встречаемости в тексте» рассматривается в настоящей работе в контексте исследованиякоммуникативной структуры текста, формировании наборов ключевых слов текста и процедур«поверхностного понимания» в целом.45И.П.
Севбо называет эти слова опорными [146], в настоящей же работе понятие опорные слова вводитсясовсем в другом смысле: как наиболее распознающиеся (подробнее см. выше).46Пример записи текста в канонических кустах (из [146]):1) Боязливые жители вашего города травили меня (Ланцелота) собакамиа 2) собаки у вас (жителей) очень толковые4453книге «Структура связного текста и автоматизация реферирования» И.П. Севбоописывает результат своего эксперимента по составлению аннотации текстов разныхфункциональных жанров на основании особенностей нанизывания: синтаксическаяструктура упрощенных нормализованных предложений и сведения о повторяемости втексте понятий и слов.Обычно для автоматического реферирования используют один из следующихспособов (иногда комбинацию способов) (см., например, [146] и многие др.):1.
На основании статистического алгоритма из текста отбираются наиболеесущественные предложения. На следующем этапе на основании синтаксическогоанализа из этих предложений выделяются наиболее значащие фрагменты.2. На первом этапе применяется алгоритм синтаксического анализа предложенийтекста, в результате чего выделяются наиболее существенные части этихпредложений. На следующем этапе статистическому анализу подвергаются лишьнаиболее существенные части предложений текста.3. «Вес слова» определяется на основании статистического и синтаксическогоанализа, так, в зависимости от синтаксической роли одно и то же существительноебудет иметь разный вес (например, существительное в роли подлежащего болеезначимо, чем это же существительное в составе предложно-падежнойконструкции).По-видимому, в идеале перечисленные способы автоматического реферированиядолжны, во-первых, выделять наиболее значимые для понимания текста слова,конструкции и предложения, а во-вторых, характеризовать распределение этихнаиболее значимых единиц (а) в структуре текста и (б) в структуре высказываний каксоставляющих текста.
Следовательно, налицо необходимость соотнесенияисследований в области автоматического реферирования и моделирования«поверхностного» восприятия и понимания текста человеком, то есть в условияхограничений на «базу знаний» адресата. Разработано нескольких эффективныхалгоритмов реферирования для информационно-аналитических и научно-техническихтекстов (например, [58; 74]).В этом отношении большой лингвистический интерес вызывает только чтовышедшая монография Н.В.Лукашевич «Тезаурусы в задачах информационногопоиска» и те главы, которые посвящены как описанию связности текста, так исозданию по их результатам моделей автоматического реферерирования [126].
Насбольше интересуют экстрактивные аннотации, использующие фрагменты исходноготекста (система анализа текста) для порождения текста аннотации (вторичноготекста). В работе указываются те лингвистические признаки, которые лежат в основеопределения веса (уровня значимости) фрагмента (от слова до предложения): позицияв тексте, частотность слов, именованные сущности и т.д. Одним из новых и наиболееактуальных (во всяком случае в лингвистическом смысле) вопросов являетсясоздание аннотации на основе многих текстов (вероятно, в качестве таких наборов. 3) вот с ними-то (собаками) я (Ланцелот) подружился. 4) они (собаки) меня (Ланцелота) поняли, потому что 5) (собаки) любят своих хозяев (жителей)и 6) (собаки) желают добра им (своим хозяевам, жителям).
мы (Ланцелот и собаки) болтали почти до рассветаИсходный текст: Ланцелот. Боязливые жители вашего города травили меня собаками. А собаки у вас оченьтолковые. Вот с ними-то я и подружился. Они меня поняли, потому что любят своих хозяев и желают имдобра. Мы болтали почти до рассвета (Шварц 1962: 334)54документов могут выступать кластеры (сюжеты), тексты, организованные в циклы, а,возможно, и более сложные лингвистические информационные объекты). Присоставлении таких аннотаций (обзорных рефератов) «необходимо решать такиевопросы, как:- борьба с избыточностью информации,- идентификация важных различий между документами,- обеспечение тематической связности текста, что усложняется тем, чтопредложения могут браться из разных источников» [126: 266].Проблема модели аннотирования оказывается на стыке не только разныхпараграфов (этой главы), но и разных глав: текущей и следующей. Лингвистическизначимым является анализ композиционной структуры текста (или анализриторических отношений в терминах теории риторических структур [75]).
Даже длянаучных текстов выделяются разные типы (в разном количестве и с разными весами)композиционных (или риторических) структур. И это возвращает нас к проблемеоднородности коллекции или кластера не только в отношении тематической, ностилевой однородности [70]. Как уже было сказано, композиционную структуру мырассматриваем как одну из стилевых характеристик текста или коллекции. Некоторыестилевые характеристики можно предсказать уже на уровне задачи описанияисходных параметров выбора коллекции: событие, череда сходных событий,аналитика, интервью и т.д.§ 3.4.Коммуникативная и информационная (смысловая) структурытекстаПри восприятии речи основной задачей адресата является извлечение смысла(значения) или, вернее, смысловой структуры, которая отвечает тексту как некоторойцелостности. Смысловая структура суть «структура содержания» в отличие отрассматриваемой в предыдущей главе просодической структуры.
Смысловаяструктура заведомо многослойна и неоднородна. По-видимому, плодотворновыделять два типа смысловых структур: коммуникативная и собственно смысловаяструктуры. Далее, каждый из этих типов смысловых структур делится еще на дваподтипа:o коммуникативная структура:• тема-рематическая;• структура «данное vs. новое»;47o информационная (собственно смысловая) структура :• структура пропозиций;• структура «ключевые слова vs.