Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 22
Текст из файла (страница 22)
Вто же время словник любого текста, который по разумным содержательнымсоображениям удается считать замкнутым, можно упорядочить» (Часть VI.Глава 2«Самоподобие в информационном пространстве» данного пособия).Использование принцип самоподобия в интернетике по самым разным причинамсоотносится с задачей выбора контекста. Одним из вариантов информационныхпотоков является коллекция текстов.
В качестве такого рода коллекций могутвыступать самые разные коллекции, с точки зрения, как структуры коллекции, так и70структуры текста (или подколлекций этой коллекции). Это плодотворная иувлекательная тема, которую в этом учебном пособии нам удалось лишь затронуть(глава 2 и 4).Что такое информационное пространство? Является ли общее информационноепространство видом контекста? Вероятно, да. Но пока еще трудно нащупатьлингвистические принципы организации такого рода контекста. И явноинформационное пространство – в современном информационном обществе –выходит за рамки привычных лингвистических контекстов (наподобие, скажем,Национального корпуса). Идеи так называемого Semantic WEB уже ближе кинформационному пространству, хотя и не покрывают всей сложности имногообразия связей, сосуществующих в сети. Может ли математическоеисследование информационного пространство приблизить нас к пониманию природылингвистических объектов? Думаю, что на этот вопрос должен быть положительныйответ.
В результате мы поймем информационную и лингвистическую природу такихобъектов как текст, кластер (сюжет), коллекция, тематическая коллекция,… можемпродолжить, и назвать в качестве примера еще полнотекстовую базу результатоводнотипных запросов поисковых машин.Одна из основных практических особенностей с коллекциями состоит еще в том,что это система коммуникации «автомат→человек», а часто и в необходимостикомпрессированной выдачи информации человеку: например, набора ключевых словили даже аннотации (или обзорного реферата). Набор ключевых слов – сверткаисходного текста, проблемы формирования набора ключевых слов связаныисключительно с анализом текстового материала коллекции, требования к выборуединицы анализа гораздо менее четкие, чем при аннотировании.В «качестве информационного портрета темы, соответствующей запросу, можнорассматривать множество ключевых слов, наиболее точно (по статистическим исмысловым алгоритмам) отражающее информацию, получаемую в результате поискапо данному запросу.
Построение информационных портретов в реальнофункционирующих системах выполняется на основе эмпирических и статистическихметодов, основу которых, как и в случае автореферирования, составляют частотнолингвистические алгоритмы». Например, «информационный портрет может бытьреализован как отдельная семантическая карта или как таблица на экране срезультатами поиска» [123: 167]. Да, действительно, информационные портретычасто «живут» в ИПС, помогая уточнять систему запроса. Однако это далеко неединственное применение наборов ключевых слов как информационных портретовтемы (коллекции того или иного вида).
Позволю себе заметить также, что существуетобилие уже упомянутых статистических и смысловых алгоритмов для полученияинформационных портретов. В ряде случаев для получения таких портретовиспользуют элементы Information Extraction (например, для извлечения наименованийперсон, организаций, географических наименований), в результате элементамианализа становятся как слова, так и коллокации, что сближает наборы ключевых слов(или словосочетаний), выделяемых автоматически и в ходе эксперимента синформантами.При создании (обзорной) аннотации осуществляется и анализ исходноготекстового материала коллекции, и синтез текста аннотации.
Все это налагает гораздоболее жесткие требования к выбору единиц, к последовательности их размещения иреализации связности (тематической и семантико-синтаксической).71«На сегодня существует множество путей решения задачи, которые достаточночетко подразделяются на два направления – квазиреферирования и краткогоизложения содержания первичных документов. Квазиреферирование основано наэкстрагировании фрагментов документов, – выделении наиболее информативныхфраз и формировании из них квазирефератов.Краткое изложение исходного материала основывается на выделении из текстовс помощью методов искусственного интеллекта и специальных информационныхязыков наиболее существенной информации и порождении новых текстов,содержательно обобщающих первичные документы» [123: 158].Представлял бы крайний интерес лингвистический анализ аннотаций всопоставлении со структурой исходного объекта: степень информационнойнасыщенности (vs.
воздействия на адресата, напр., в интервью и даже некоторыхвидах аналитики), статичность vs. динамичность (событие vs. сюжет сосменяющимися ситуациями vs. череда повторяющихся событий), компактность vs.диффузность информационной структуры и т.д.§ 4.2.Коллокации и конструкции как составляющие текстовВ предыдущей главе выборка анализируемых текстов – текстов в условномотрыве от коллекций как баз текстов – была ограничена возможностямиэкспериментов с информантами, т.е.
объектом исследования становились отдельныетексты (см. [158]). Попробуем реализовать следующий виток, когда объектомисследования становятся большая текстовая коллекция объемом в миллионысловоупотреблений и тематически однородные кластеры (подколекции). В результатеразличных вычислительных экспериментов на основе таких коллекций мы получаемданные, с одной стороны, позволяющие соотнести особенности структуры двухразных объектов (коллекции vs.
единичные тексты), с другой – определитьинтересующие нас типы текстов (структур текстов) и, тем самым, сузить материалдля экспериментальной работы с информантами. В результате мы имеем возможностьнаиболее тщательно исследовать роль контекста: большой коллекции текстов →тематически однородной подколлекции текстов (сюжет или кластер) → единичноготекста и → минимального синтаксического контекста (подробнее см. [158; 162]).
Мыв своем исследовании языка и речи идем от реализации, от имеющегося в нашемраспоряжении материала.Рассматриваем все связанные сочетания двух и более лексических единиц,которые выделяются нами из текста на основании статистических критериев и/илиэкспериментов с информантами. Выделяемые единицы представляют собойнеоднородное множество, требующее интерпретации (см. главу 2).
Возвращаемся ктеме «единица и контекст» уже на витке, приближающемся к конкретным текстам(своего рода связка между главой 2 и 4):минимальный контекст, в котором реализуются лексические и морфологосинтаксические явления;текстовый контекст, включающий в себя фрагменты текста вплоть до текстацеликом;контекст, предполагающий учет текстов определенного типа (заданногофункционального стиля, отобранной коллекции текстов и т.д.)72Неоднословнные связанные сегменты выступают, прежде всего, какструктурные составляющие текста или однородных коллекций (например, сюжетов).Анализ этих структурных составляющих позволяет исследовать структуру текстаи/или текстов.
Единицы и контекст(-ы) анализируются во взаимодействии: контекст икоммуникативная задача определяют выбор единиц анализа. Тематически однороднаяколлекция (сюжет) изучается методами, пришедшими из лингвистики текста(дискурса).Нами оценивались следующие данные:o полученные в ходе вычислительных экспериментов:o список наиболее связанных n-грамм по коллекции;o список наиболее связанных n-грамм по подколлекции (подколлекцияявляется тематически более однородной, чем исходная коллекция);o отдельные тексты, представленные в виде последовательности связанныхсочетаний («сегментов» в терминологии автора программы).o полученные в ходе эксперимента с информантами отдельные тексты,представленные в виде последовательности связанных сочетаний.Подтвердились следующие гипотезы:o с увеличением степени однородности (коллекция→ однороднаяколлекция→текст) характерными становятся более длинные n-граммы;o с увеличением степени однородности (коллекция→ однороднаяколлекция→текст) увеличивается число конструкций (в соотношенииконструкция vs.
типовая коллокация), увеличивается число предикативныхсочетаний;o набор связанных сочетаний, подсчитанных для каждого текста отдельно входе вычислительного эксперимента, сходен с набором сочетаний,полученных в ходе экспериментов с информантами,o набор связанных сочетаний, выделенный в ходе экспериментов синформантами, содержит несколько больше предикативных сочетаний, чемнабор связанных сочетаний, сформированный в ходе вычислительногоэксперимента.Такое исследование предполагает сочетание вычислительного эксперимента иэксперимента с информантами.
В ходе вычислительного эксперимента мерысовместной встречаемости определяется на основании видоизмененной меры Дайса(Dice) [19]: 2 * f ( x, y ) Dice' ( x, y ) = log 2 f ( x) + f ( y) ,где f(x) и f(y) – частота встречаемости слов x и y в коллекции, а f(x,y) – частотасовместной встречаемости слов x и y.Процесс вычислительного эксперимента можно коротко описать следующималгоритмом. Сначала для всех пар слов по всей коллекции считается коэффициентДайса.
Затем для каждого конкретного текста, представляющего собой цепочку словили, вернее, цепочку пересекающихся пар (слово х с предшествующим словом ислово х с последующим словом), осуществляется «сборка» связанных сегментов. Припоследовательном прохождении от слова к слову в каждом тексте уже известнысоответствующие значения меры Дайса для всех пересекающихся пар. На основаниизначений этой статистической меры слова объединяются в связанные группы сучетом ближайшего контекста (принимается решение о том, надо ли присоединить73текущее слово к предыдущему).
Слово не присоединяется к предыдущему, еслизначение коэффициента Дайса для данной пары ниже порогового, или если оно ниже,чем среднее арифметическое того же коэффициента для левой и правой пары. Во всехостальных случаях слово присоединяется. Связанный сегмент может включать неболее семи слов (мы ни разу не приблизились к этому порогу). В результате такоговычислительного эксперимента мы получаем набор связанных сочетаний,подсчитанных для каждого текста отдельно, а затем объединенный в некое подобиечастотного словаря связанных сочетаний.
Программа, реализующая этот алгоритм,доступна для скачивания с сайта ее создателя: http://donelaitis.vdu.lt/~vidas/tools.htm.Используемая мера выделяет связанные сегменты (как коллокации, так иконструкции), характеризующиеся информационной ценностью на материалеоднородной коллекции текстов (ср. [20; 21]).
Свое предположение мы провериличерез сопоставление с результатами, полученными с помощью стандартныхстатистических мер MI и t-score, с ключевыми словами, выделяемыми на основаниикоэффициента важности tf-idf (этот коэффициент позволяет оценить степеньважности слова по отношению к той или иной коллекции (подколлекции)) и рядомдополнительных методик. Выдвинутое предположение об информационнойзначимости связанных сегментов, выделяемых с помощью меры Дайса на материалетематически однородной коллекций текстов, подтверждается в ходе предыдущихисследований с использованием меры MI (напр., [159; 161]). При рассмотренииуказанных сегментов в рамках единичных текстов (по результатам вычислительногоэксперимента и эксперимента с информантами) будем называть их значимымиструктурными составляющими текста (значимыми для анализа текстов).Материалом послужили тексты и/или коллекции:o тексты портала Лента.ру за 2010 год - 40000 текстов общим объемом около 9,5млн.