Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 22
Текст из файла (страница 22)
Вероятно, это незначительное расхождение связано синдивидуальными стратегиями порождения текста (богатство сюжетной линии,использование синонимических ресурсов и местоименной лексики).Художественный текст, НОС для начального фрагмента (преамбула изавязка).1. Все развернутые тексты – как и исходный текст – относятся к художественномуфункциональному стилю. Большинство развернутых художественных текстовхарактеризуется статичностью (отсутствием смены ситуаций). Как правило, приразворачивании НОС для начального фрагмента текста восстанавливаетсястатичный текст, а не сюжет с двумя действующими лицами и фрагментамидиалога.2.
Степень разнообразия лексем может быть связана со степенью статичности текста:восстановленные тексты являются более статичными, чем исходные, и КЛР длялексем восстановленных текстов ниже, чем для исходного текста. Возможнымподтверждением статичности восстанавливаемого фрагмента художественноготекста служит то, что КЛР для лексем восстановленных художественных иделовых текстов (начальные фрагменты) различаются лишь на уровне тенденции.3. Результаты восстановления текста – развертывания НОС в текст – позволилиопределить позиции слов, обладающих максимальной контекстнойпредсказуемостью.Главным результатом является подтверждение гипотезы о том, что НОС (длявсего текста) задают функциональный стиль тех текстов, что восстанавливаютсяиспытуемыми в эксперименте. То, что восстановленные тексты принадлежат тому жефункциональному стилю, что и исходные, подтверждается не только качественными,но и количественными критериями.
Значимость различий между КЛР (для словоформ68и лексем) восстановленных деловых и художественных текстов являетсяколичественным показателем принадлежности текстов к разным функциональнымстилям.Полученные данные не противоречат гипотезе о том, что НОС (для начальногофрагмента текст) задают функциональный стиль тех текстов, что восстанавливаютсяиспытуемыми в эксперименте. Важным результатом является взаимосвязькомпозиционного начального фрагмента со степенью «статичности vs.динамичности» всего текста: для статичного делового текста статичность сохраняетсяв восстановленных текстах.
Для динамичного художественного текста степеньстатичности повышается: фрагменты «преамбула и завязывание сюжета» имеютбóльшую динамичность, чем восстанавливаемые тексты.69Глава 4.Объект исследования современной лингвистики текста.Текст vs. информационный потокВ четвертой главе мы рассмотрим, главным образом, общие подходы и планына будущее; также приведем конкретные примеры и те данные, которые былиполучены в ходе наших экспериментов с информантами и/или вычислительныхэкспериментов. Ключевым для этой главы является представление о вариативностиинформационной структуры в соотношении таких единиц анализа как текст vs.информационный поток. Одним из пунктов было исследование типологии текстов сточки зрения способа реализации информационной структуры§ 4.1.Объекты исследованияИнформационный потоксовременнойлингвистикитекста.Изменившиеся условия существования человека коренным образом перестроилипроцедуру анализа информации.
Развитие технологий информационного ифактографического поиска открывает новое поле деятельности для специалистов вобласти компьютерной лингвистики текста. Раньше основным и единственнымобъектом лингвистического исследования был текст (его анализ, понимание). Нодля того, чтобы полноценно жить в информационном обществе, человек долженобрабатывать огромное количество информации. Лавина информации, содержащаясяв информационных потоках, не может быть воспринята и проанализированачеловеком в силу его психофизиологических ограничений.
Новый информационныйобъект – информационный поток – требует использования новых технологий,которые выступают в качестве посредника при извлечении адресатомкоммуницируемого смысла. В нашей «лингвистической» работе информационныйпоток понимается, прежде всего, как множество текстов, выступающих какединый объект: адресатов интересует смысл, заключенный сразу в сотнях и дажетысячах текстов.Гораздо подробнее – всесторонне и модельно – тема информационных потоковрассматривается Д.В.Ландэ в части 6 данного пособия. Однако мы, лингвисты, умеемработать, главным образом, с теми объектами, которые имеют лингвистическуюприроду. Тематические информационные потоки гораздо ближе к сфере интересов ивозможностей лингвистики, именно их мы в своих работах чаще всего называеминформационными потоками, учитывая структурные связи между текстами(документами) и внутри самих текстов.«В самом естественном языке устойчивость частот слов (существование ансамблястатистически однородных текстов) вызывает сомнение.
Любой целостный текстобладает индивидуальностью. Попытка найти реальные статистически однородныеансамбли текстов никому еще не удавалось. Точнее говоря, не удавалось наблюдатьтакой набор текстов, в которых слова встречались с одинаковым спектром частот. Вто же время словник любого текста, который по разумным содержательнымсоображениям удается считать замкнутым, можно упорядочить» (Часть VI.Глава 2«Самоподобие в информационном пространстве» данного пособия).Использование принцип самоподобия в интернетике по самым разным причинамсоотносится с задачей выбора контекста.
Одним из вариантов информационныхпотоков является коллекция текстов. В качестве такого рода коллекций могутвыступать самые разные коллекции, с точки зрения, как структуры коллекции, так и70структуры текста (или подколлекций этой коллекции). Это плодотворная иувлекательная тема, которую в этом учебном пособии нам удалось лишь затронуть(глава 2 и 4).Что такое информационное пространство? Является ли общее информационноепространство видом контекста? Вероятно, да.
Но пока еще трудно нащупатьлингвистические принципы организации такого рода контекста. И явноинформационное пространство – в современном информационном обществе –выходит за рамки привычных лингвистических контекстов (наподобие, скажем,Национального корпуса). Идеи так называемого Semantic WEB уже ближе кинформационному пространству, хотя и не покрывают всей сложности имногообразия связей, сосуществующих в сети. Может ли математическоеисследование информационного пространство приблизить нас к пониманию природылингвистических объектов? Думаю, что на этот вопрос должен быть положительныйответ. В результате мы поймем информационную и лингвистическую природу такихобъектов как текст, кластер (сюжет), коллекция, тематическая коллекция,… можемпродолжить, и назвать в качестве примера еще полнотекстовую базу результатоводнотипных запросов поисковых машин.Одна из основных практических особенностей с коллекциями состоит еще в том,что это система коммуникации «автомат→человек», а часто и в необходимостикомпрессированной выдачи информации человеку: например, набора ключевых словили даже аннотации (или обзорного реферата).
Набор ключевых слов – сверткаисходного текста, проблемы формирования набора ключевых слов связаныисключительно с анализом текстового материала коллекции, требования к выборуединицы анализа гораздо менее четкие, чем при аннотировании.В «качестве информационного портрета темы, соответствующей запросу, можнорассматривать множество ключевых слов, наиболее точно (по статистическим исмысловым алгоритмам) отражающее информацию, получаемую в результате поискапо данному запросу. Построение информационных портретов в реальнофункционирующих системах выполняется на основе эмпирических и статистическихметодов, основу которых, как и в случае автореферирования, составляют частотнолингвистические алгоритмы».
Например, «информационный портрет может бытьреализован как отдельная семантическая карта или как таблица на экране срезультатами поиска» [123: 167]. Да, действительно, информационные портретычасто «живут» в ИПС, помогая уточнять систему запроса. Однако это далеко неединственное применение наборов ключевых слов как информационных портретовтемы (коллекции того или иного вида). Позволю себе заметить также, что существуетобилие уже упомянутых статистических и смысловых алгоритмов для полученияинформационных портретов.
В ряде случаев для получения таких портретовиспользуют элементы Information Extraction (например, для извлечения наименованийперсон, организаций, географических наименований), в результате элементамианализа становятся как слова, так и коллокации, что сближает наборы ключевых слов(или словосочетаний), выделяемых автоматически и в ходе эксперимента синформантами.При создании (обзорной) аннотации осуществляется и анализ исходноготекстового материала коллекции, и синтез текста аннотации. Все это налагает гораздоболее жесткие требования к выбору единиц, к последовательности их размещения иреализации связности (тематической и семантико-синтаксической).71«На сегодня существует множество путей решения задачи, которые достаточночетко подразделяются на два направления – квазиреферирования и краткогоизложения содержания первичных документов.
Квазиреферирование основано наэкстрагировании фрагментов документов, – выделении наиболее информативныхфраз и формировании из них квазирефератов.Краткое изложение исходного материала основывается на выделении из текстовс помощью методов искусственного интеллекта и специальных информационныхязыков наиболее существенной информации и порождении новых текстов,содержательно обобщающих первичные документы» [123: 158].Представлял бы крайний интерес лингвистический анализ аннотаций всопоставлении со структурой исходного объекта: степень информационнойнасыщенности (vs. воздействия на адресата, напр., в интервью и даже некоторыхвидах аналитики), статичность vs. динамичность (событие vs. сюжет сосменяющимися ситуациями vs. череда повторяющихся событий), компактность vs.диффузность информационной структуры и т.д.§ 4.2.Коллокации и конструкции как составляющие текстовВ предыдущей главе выборка анализируемых текстов – текстов в условномотрыве от коллекций как баз текстов – была ограничена возможностямиэкспериментов с информантами, т.е.
объектом исследования становились отдельныетексты (см. [158]). Попробуем реализовать следующий виток, когда объектомисследования становятся большая текстовая коллекция объемом в миллионысловоупотреблений и тематически однородные кластеры (подколекции). В результатеразличных вычислительных экспериментов на основе таких коллекций мы получаемданные, с одной стороны, позволяющие соотнести особенности структуры двухразных объектов (коллекции vs. единичные тексты), с другой – определитьинтересующие нас типы текстов (структур текстов) и, тем самым, сузить материалдля экспериментальной работы с информантами. В результате мы имеем возможностьнаиболее тщательно исследовать роль контекста: большой коллекции текстов →тематически однородной подколлекции текстов (сюжет или кластер) → единичноготекста и → минимального синтаксического контекста (подробнее см.