Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 23
Текст из файла (страница 23)
токенов (т.е. словоупотреблений и знаков препинания);o два сюжета (или кластера), т.е. две небольших коллекции тематическиоднородных текстов, полученных с помощью ресурса «Галактика Зум»61:приезд А. Шварцнеггера в Москву - 360 текстов, около110 тыс.токенов,назначение С. Собянина - 660 текстов, 170 тыс. токенов,все тексты кластеров берутся из новостного потока, они близки повремени появления и посвящены одному событию;o три текста о А.
Шварцнеггере (из Лента.ру, РИАН, Газета.ру) и два текста оСобянине (Лента.ру, РИАН) для экспериментов с информантами.Конечно, эти тексты (наряду со прочими текстами кластеров) использовалисьи в вычислительных экспериментах, т.ч. задача состояла в сопоставлениирезультатов этих двух экспериментов для каждого рассматриваемого текста.Крайне важен этап выбора конкретных новостных сюжетов (кластеров), а далеесреди них – наиболее представительных текстов. Конечно, все мы знаем, чторезультаты кластеризации текстов не всегда нас полностью удовлетворяют. Дляисследования выбирается «чистый и компактный» кластер сравнительно большогообъема, состоящий из максимально тематически однородных текстов.
Отбиралиськластеры с информационно значимым сюжетом (по субъективной оценке), имеющиечетко выстроенный сюжет (основное действующее лицо (или лица), основное61 Этот материал любезно предоставлен нам Александром Антоновым и Станиславом Баглеем, ГалактикаZoom: galaktika-zoom.ru, http://www.webground.su74действие, сопровождающие действующие лица и/или организации, сопровождающиедействия, время, место и т.д.).
О других характеристиках скажем чуть ниже.В эксперименте с информантами – эксперименте по шкалированию – принялоучастие около 20 студентов СПбГУ и РГПУ им. А.И.Герцена, получающихгуманитарное образование62. Эксперимент с информантами представлял собой оценкусвязности между текстоформами (пробельными словами) в тексте в шкале от 0 до 5,где 5 – соответствовало максимальной, а 0 – минимальной степени связности. Ванкете информанту предлагался текст с «пробелами для заполнения» и инструкция,требующая оценить «степень связности между словами или словом и знакомпрепинания в шкале от 0 до 5 баллов.
«0» соответствует минимальной силесвязности, а «5» – максимальной силе связности. Проставьте эти баллы (от 0 до 5)во ВСЕ позиции, между ВСЕМИ словами и/или словами и знаками препинания».Информантам отдельно не объяснялся принцип оценки связности, они должны былидействовать, опираясь на интуитивные представления о связности и, конечно, на своютекстовую базу знаний. Экспериментатор не навязывает информанту предпочтение,например, синтаксического или лексико-семантического подхода, однако полученныеданные позволяют судить о том, что информанты в целом справляются споставленной задачей. Усредненные данные по группе информантов, представилинепротиворечивую оценку степени связности между словами. На основании этихданных можно выстраивать сколь угодно длинные цепочки слов в соответствии сустанавливаемым пороговым значением связности.
Эмпирически мы подобралипороговое значение, равное 3,7 баллам. Если полученное число было больше, чем 3,7,пару слов рассматривали как связную, если меньше – как не связную.Носитель языка имеет интуитивные представления о неслучайновстречающихся сочетаниях слов: текстовые базы по текстам разных функциональныхстилей, по текстам разных тематик или по текстам, посвященным определенной теме.На основании этого знания адресат воспринимает каждый конкретный текст какнепротиворечащий некоторой текстовой базе адресата (в качестве ее аналога привычислительном эксперименте выступают коллекции и подколлекции текстов разнойстепени однородности). Тематически однородные кластеры представляли достаточнообсуждаемые события, поэтому нельзя было предположить, что информанты незнакомы с этими темами.
Эксперимент проводился примерно через месяц послеописываемых событий, так что эти темы не могли быть забыты.Наибольший интерес представляет анализ данных, полученных на материалекластеров для словоформ. При интерпретации данных по рассматриваемым сюжетаммы опирались на данные, полученные на материале двух сюжетов и пяти указанныхтекстов, однако для иллюстрации возможностей предлагаемого метода приведемрезультаты только двух текстов: одного текста о А.
Шварценергере и одного текста оС. Собянине из «Лента.ру» 2010 года63.Сюжет в целом и анализируемый текст о А. Шварценергере гораздо болеединамичные (последовательность нескольких ситуаций) и более сложные потематической структуре: реализующий, например, темы а) приезд известногокиноактера, б) приезд губернатора Калифорнии, в) встреча с президентомПользуясь случаем, хотим поблагодарить Галину Доброву за помощь в проведении эксперимента.В статье мы ограниваемся новостными текстами, однако при интерпретации данных частично учитывалисьтакже результаты, полученные на материале научных текстов (тематически однородная коллекция материаловконференции «Корпусная лингвистика» и 4 текста из этой коллекции)626375Д.
Медведевым, г) активное использование твиттеров, д) инвестирование проекта«Сколково». Носитель языка (или автомат) «вправе» сам устанавливать значимостькаждой из тем. Сюжет в целом и анализируемый текст о С. Собянине гораздо болеестатичные и имеют сравнительно простую тематическую структуру («выборы»представляют собой вариант частотного фрейма).Различие в рассматриваемых сюжетах непосредственно отразилось нарезультатах эксперимента. Для иллюстрации в таблицах 1 и 2 представленысегменты, состоящие не менее чем из трех текстоформ (слов, разделителем междукоторыми служат пробелы и/или знаки препинания) – данные вычислительногоэксперимента и эксперимента с информантами – на материале сюжета и текста оА.
Шварценеггере (табл. 1) и о С.Собянине (табл. 2). Полужирным шрифтомвыделены сегменты или их фрагменты, которые присутствуют как в списке, полученном в ходе вычислительного эксперимента, так и в эксперименте с информантами64.Таблица 1. Связанные сегменты, состоящие не менее чем из трех текстоформВычислительный экспериментЭксперимент с информантами,текстоКоллекцияСюжетоШварценеггере Единичныйтексто единичныйА. Шварценеггера(Лента.ру 2010 г) (однородная коллекция)А. Шварценеггератем не менееглобальноеинновационное только что приземлился Губернатор Калифорнии АрнольдпартнерствоШварценеггерв связи спредставителейведущих могу дождаться встречи прилетел в Москву.компанийв 2009 годус губернатором калифорниивскоре после этогов российскую столицуто же времямогу дождаться встречиНе могу дождаться встречи сответилкалифорнийскомупрезидентом Медведевымгубернаторувнастоящее во главе делегациианглоязычнаяверсия российский президент ДмитрийвремятвитаМедведев ответилсо ссылкой насоздатьнастоящий ответил ему взаимностью в своем микроблогетехнологический бумвозбужденосфере высоких технологийэто же времядобро пожаловать в Москвууголовное делопо сравнению с только что приземлилсяЖду встречи с вамив 2008 годутогда вам сказалМедведев добавил микроблоги т.д.которыезанимаютсяс делегацией представителейинновационнымиразработкамион встретится с российскимиих российскими партнерамиминистрамироссийскаявенчурнаяво время посещения Медведевымкомпаниястать мэром москвыроссийский президент завел себеGlobal Technology Symposiumглавамиамериканскихинвестиционных компанийвидение дальнейшего развитияSilicon Valley Bankпост мэра москвысамыхразныхсобытийпроисходитиюне этого годапосленепродолжительнойбеседыи т.д.В графу «Сюжет о Шварценеггере (однородная коллекция)» попала верхушка наиболее частотных связанныхсегментов, упорядоченных по частоте, остальные графы (наборы) представлены полностью.6476Предложенная нами методика учитывает различные виды контекстов:«тематический» (сюжет) и «стилистический» (Лента.ру) (см.
табл. 1). В«стилистическом» контексте существенными оказывались характерные для СМИконструкции и обороты (например, в настоящее время, со ссылкой на), из которыхнельзя сделать выводы о конкретном содержании текстов, но можно составить общеевпечатление об их стилистической направленности (см. табл. 1). В «тематическом»контексте наиболее значимыми оказывались сложные номинации (глобальноеинновационное партнерство) и предикативные конструкции, описывающие ситуацию(только что приземлился) (см. табл.
1). Структурные составляющие сюжета далиболее полное и объективное представление о сюжете, чем структурные составляющиеединичного текста. Информанты в целом выделяли более длинные сегменты, чемпрограмма. Информанты были нацелены на описание ситуаций, они выделялибольшее число предикативных сочетаний – длинные конструкции в целом болеетипичны, чем длинные коллокации.Число пересекающихся длинных связанных сегментов, выделяемыхпрограммой и информантами, в существенной степени зависит от типа текста.
Дляболее динамичных сюжетов и текстов (включающих описание последовательностисобытий) число пересечений меньше, для более статичных – больше65. Это один изпараметров, позволяющих оценить структуру единичного текста и текстов сюжета вцелом. Мы ни в коей мере не рассматривали эксперимент с информантами каквариант оценки работы программы; вычислительный эксперимент и эксперимент синформантами имели одинаковый статус.Набор длинных связанных сегментов, выделяемых информантами, на нашвзгляд, может считаться самоценным для анализа структуры текста, т.к.