Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 24
Текст из файла (страница 24)
Собянине из «Лента.ру» 2010 года63.Сюжет в целом и анализируемый текст о А. Шварценергере гораздо болеединамичные (последовательность нескольких ситуаций) и более сложные потематической структуре: реализующий, например, темы а) приезд известногокиноактера, б) приезд губернатора Калифорнии, в) встреча с президентомПользуясь случаем, хотим поблагодарить Галину Доброву за помощь в проведении эксперимента.В статье мы ограниваемся новостными текстами, однако при интерпретации данных частично учитывалисьтакже результаты, полученные на материале научных текстов (тематически однородная коллекция материаловконференции «Корпусная лингвистика» и 4 текста из этой коллекции)626375Д.
Медведевым, г) активное использование твиттеров, д) инвестирование проекта«Сколково». Носитель языка (или автомат) «вправе» сам устанавливать значимостькаждой из тем. Сюжет в целом и анализируемый текст о С. Собянине гораздо болеестатичные и имеют сравнительно простую тематическую структуру («выборы»представляют собой вариант частотного фрейма).Различие в рассматриваемых сюжетах непосредственно отразилось нарезультатах эксперимента. Для иллюстрации в таблицах 1 и 2 представленысегменты, состоящие не менее чем из трех текстоформ (слов, разделителем междукоторыми служат пробелы и/или знаки препинания) – данные вычислительногоэксперимента и эксперимента с информантами – на материале сюжета и текста оА.
Шварценеггере (табл. 1) и о С.Собянине (табл. 2). Полужирным шрифтомвыделены сегменты или их фрагменты, которые присутствуют как в списке, полученном в ходе вычислительного эксперимента, так и в эксперименте с информантами64.Таблица 1. Связанные сегменты, состоящие не менее чем из трех текстоформВычислительный экспериментЭксперимент с информантами,текстоКоллекцияСюжетоШварценеггере Единичныйтексто единичныйА. Шварценеггера(Лента.ру 2010 г) (однородная коллекция)А. Шварценеггератем не менееглобальноеинновационное только что приземлился Губернатор Калифорнии АрнольдпартнерствоШварценеггерв связи спредставителейведущих могу дождаться встречи прилетел в Москву.компанийв 2009 годус губернатором калифорниивскоре после этогов российскую столицуто же времямогу дождаться встречиНе могу дождаться встречи сответилкалифорнийскомупрезидентом Медведевымгубернаторувнастоящее во главе делегациианглоязычнаяверсия российский президент ДмитрийвремятвитаМедведев ответилсо ссылкой насоздатьнастоящий ответил ему взаимностью в своем микроблогетехнологический бумвозбужденосфере высоких технологийэто же времядобро пожаловать в Москвууголовное делопо сравнению с только что приземлилсяЖду встречи с вамив 2008 годутогда вам сказалМедведев добавил микроблоги т.д.которыезанимаютсяс делегацией представителейинновационнымиразработкамион встретится с российскимиих российскими партнерамиминистрамироссийскаявенчурнаяво время посещения Медведевымкомпаниястать мэром москвыроссийский президент завел себеGlobal Technology Symposiumглавамиамериканскихинвестиционных компанийвидение дальнейшего развитияSilicon Valley Bankпост мэра москвысамыхразныхсобытийпроисходитиюне этого годапосленепродолжительнойбеседыи т.д.В графу «Сюжет о Шварценеггере (однородная коллекция)» попала верхушка наиболее частотных связанныхсегментов, упорядоченных по частоте, остальные графы (наборы) представлены полностью.6476Предложенная нами методика учитывает различные виды контекстов:«тематический» (сюжет) и «стилистический» (Лента.ру) (см.
табл. 1). В«стилистическом» контексте существенными оказывались характерные для СМИконструкции и обороты (например, в настоящее время, со ссылкой на), из которыхнельзя сделать выводы о конкретном содержании текстов, но можно составить общеевпечатление об их стилистической направленности (см. табл. 1). В «тематическом»контексте наиболее значимыми оказывались сложные номинации (глобальноеинновационное партнерство) и предикативные конструкции, описывающие ситуацию(только что приземлился) (см. табл. 1). Структурные составляющие сюжета далиболее полное и объективное представление о сюжете, чем структурные составляющиеединичного текста.
Информанты в целом выделяли более длинные сегменты, чемпрограмма. Информанты были нацелены на описание ситуаций, они выделялибольшее число предикативных сочетаний – длинные конструкции в целом болеетипичны, чем длинные коллокации.Число пересекающихся длинных связанных сегментов, выделяемыхпрограммой и информантами, в существенной степени зависит от типа текста.
Дляболее динамичных сюжетов и текстов (включающих описание последовательностисобытий) число пересечений меньше, для более статичных – больше65. Это один изпараметров, позволяющих оценить структуру единичного текста и текстов сюжета вцелом. Мы ни в коей мере не рассматривали эксперимент с информантами каквариант оценки работы программы; вычислительный эксперимент и эксперимент синформантами имели одинаковый статус.Набор длинных связанных сегментов, выделяемых информантами, на нашвзгляд, может считаться самоценным для анализа структуры текста, т.к. вполневероятно, что они отражают расстановку структурных составляющих текста, важныхдля восприятия (ср. идею о том, что при восприятии адресат стремится оперироватьнаиболее крупными оперативными единицами, в главе 3).
Продемонстрируем это напримере текста, в котором длинные связанные сегменты интерпретировались в духегештальтпсихологии в качестве фигуры (они выделены полужирным шрифтом), а всеостальные фрагменты текста рассматриваются как фон:Губернатор Калифорнии Арнольд Шварценеггер 10 октября прилетел в Москву./ После прибытия в российскую столицу он сделал в своем микроблоге на Twitterсоответствующую запись (Только что приземлился в Москве.
Прекрасный день. Не могудождаться встречи с президентом Медведевым), а также разместил фотографию,сделанную по дороге из аэропорта.Вскоре после этого российский президент Дмитрий Медведев ответилкалифорнийскому губернатору в своем микроблоге: @Schwarzenegger, добропожаловать в Москву. Англоязычная версия твита Медведева также содержала слова"Жду встречи с вами и вашей делегацией в @skolkovo".Кроме того, Медведев добавил микроблог Шварценеггера в друзья. ГубернаторКалифорнии ответил ему взаимностью.Как сообщает РИА Новости, Шварценеггер приехал в Россию с делегациейпредставителей венчурных фондов и инновационных компаний Кремниевой долины.Планируется, что помимо президента Медведева, он встретится с российскимиминистрами.Президент России и губернатор Калифорнии в этом году уже встречались - этопроизошло в июне / во время посещения Медведевым США.
В это же времяроссийский президент завел себе микроблог.По нашим предварительным данным, для научных текстов такого рода пересечений гораздо больше, чем дляновостных текстов.6577Объединение набора двухсловных и длинных связанных сегментовувеличивает вес темы «значимость визита А. Шварцнеггера для развития высокихтехнологий», а насколько эта тема важна – решать адресату, т.е. тому, ктоанализирует и понимает этот текст. Возможно, причина невыделения сегментов,несущих такую информацию, в том, что большинство информантов – гуманитарии,однако структура рассматриваемых текстов как минимум позволяет прочтение, вкотором «развитие высоких технологий» является второстепенным фактом.На материале результатов вычислительных экспериментов картина болеенеоднозначная.
Если для кластера в целом длинные связанные сегментыинформативны, то в случае единичного текста в указанном примере длинныхсвязанных сегментов мало, мы не можем извлечь ценную информацию (понять текст)из их набора (во всяком случае до включения в «расширенный набор» связанныхсегментов, состоящих из 2 текстоформ) (подробнее см. [161]).Почему, если рассматривать каждый из текстов из кластера про Шварцнеггера,то длинных связанных сегментов, полученных в результате вычислительногоэксперимента, практически никогда не оказывается достаточно для анализаинформационной структуры этого текста? Почему для этого материала столь великоразличие между набором длинных связанных сегментов, полученных в результатеэксперимента с информантами и вычислительного эксперимента?Основные причины лежат динамичности текста и в особенностях семантикосинтаксической структуры анализируемого в примере текста.
Телетайпный,отрывочный стиль написания большинства текстов кластера про А. Шварцнеггера(возможно, обыгрывающий общение в твиттере) характеризуется короткимиструктурами и навязывает короткие связанные сегменты. Характеристикуанализируемого текста можно дополнить отсутствием четко выраженнойкомпозиционной структуры сюжета и уже упоминающимся разнообразием тем.Выбор примера – и кластера (сюжета), и текста как его наиболее яркогопредставителя – обусловил резкое различие между результатами эксперимента синформантами и вычислительного эксперимента.В качестве контрпримера приведем кластер текстов о С.
Собянине и один изних (также из Лента.ру). Наблюдаем значительное сходство между наборамидлинных связанных сегментов, полученных в результате эксперимента синформантами и вычислительного эксперимента. Длинные связанные сегменты,полученные в результате эксперимента с информантами, рассмотрим в силу нашегодопущения как достаточные для анализа (понимания) текста.Длинные связанные сегменты, полученные в результате вычислительногоэксперимента, обладают, главным образом, одним «недостатком»: в их состав непопадают наименования персон, действующих лиц этого сюжета.