Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 24
Текст из файла (страница 24)
вполневероятно, что они отражают расстановку структурных составляющих текста, важныхдля восприятия (ср. идею о том, что при восприятии адресат стремится оперироватьнаиболее крупными оперативными единицами, в главе 3). Продемонстрируем это напримере текста, в котором длинные связанные сегменты интерпретировались в духегештальтпсихологии в качестве фигуры (они выделены полужирным шрифтом), а всеостальные фрагменты текста рассматриваются как фон:Губернатор Калифорнии Арнольд Шварценеггер 10 октября прилетел в Москву./ После прибытия в российскую столицу он сделал в своем микроблоге на Twitterсоответствующую запись (Только что приземлился в Москве.
Прекрасный день. Не могудождаться встречи с президентом Медведевым), а также разместил фотографию,сделанную по дороге из аэропорта.Вскоре после этого российский президент Дмитрий Медведев ответилкалифорнийскому губернатору в своем микроблоге: @Schwarzenegger, добропожаловать в Москву. Англоязычная версия твита Медведева также содержала слова"Жду встречи с вами и вашей делегацией в @skolkovo".Кроме того, Медведев добавил микроблог Шварценеггера в друзья.
ГубернаторКалифорнии ответил ему взаимностью.Как сообщает РИА Новости, Шварценеггер приехал в Россию с делегациейпредставителей венчурных фондов и инновационных компаний Кремниевой долины.Планируется, что помимо президента Медведева, он встретится с российскимиминистрами.Президент России и губернатор Калифорнии в этом году уже встречались - этопроизошло в июне / во время посещения Медведевым США. В это же времяроссийский президент завел себе микроблог.По нашим предварительным данным, для научных текстов такого рода пересечений гораздо больше, чем дляновостных текстов.6577Объединение набора двухсловных и длинных связанных сегментовувеличивает вес темы «значимость визита А. Шварцнеггера для развития высокихтехнологий», а насколько эта тема важна – решать адресату, т.е.
тому, ктоанализирует и понимает этот текст. Возможно, причина невыделения сегментов,несущих такую информацию, в том, что большинство информантов – гуманитарии,однако структура рассматриваемых текстов как минимум позволяет прочтение, вкотором «развитие высоких технологий» является второстепенным фактом.На материале результатов вычислительных экспериментов картина болеенеоднозначная. Если для кластера в целом длинные связанные сегментыинформативны, то в случае единичного текста в указанном примере длинныхсвязанных сегментов мало, мы не можем извлечь ценную информацию (понять текст)из их набора (во всяком случае до включения в «расширенный набор» связанныхсегментов, состоящих из 2 текстоформ) (подробнее см. [161]).Почему, если рассматривать каждый из текстов из кластера про Шварцнеггера,то длинных связанных сегментов, полученных в результате вычислительногоэксперимента, практически никогда не оказывается достаточно для анализаинформационной структуры этого текста? Почему для этого материала столь великоразличие между набором длинных связанных сегментов, полученных в результатеэксперимента с информантами и вычислительного эксперимента?Основные причины лежат динамичности текста и в особенностях семантикосинтаксической структуры анализируемого в примере текста.
Телетайпный,отрывочный стиль написания большинства текстов кластера про А. Шварцнеггера(возможно, обыгрывающий общение в твиттере) характеризуется короткимиструктурами и навязывает короткие связанные сегменты. Характеристикуанализируемого текста можно дополнить отсутствием четко выраженнойкомпозиционной структуры сюжета и уже упоминающимся разнообразием тем.Выбор примера – и кластера (сюжета), и текста как его наиболее яркогопредставителя – обусловил резкое различие между результатами эксперимента синформантами и вычислительного эксперимента.В качестве контрпримера приведем кластер текстов о С.
Собянине и один изних (также из Лента.ру). Наблюдаем значительное сходство между наборамидлинных связанных сегментов, полученных в результате эксперимента синформантами и вычислительного эксперимента. Длинные связанные сегменты,полученные в результате эксперимента с информантами, рассмотрим в силу нашегодопущения как достаточные для анализа (понимания) текста.Длинные связанные сегменты, полученные в результате вычислительногоэксперимента, обладают, главным образом, одним «недостатком»: в их состав непопадают наименования персон, действующих лиц этого сюжета. Если бы мыдобавили к этому набору набор двухсловных связанных сегментов или наименованияперсон (с элементами Ф.И.О.), то вся информация, необходимая для восстановлениятекста, присутствовала бы в объединенном наборе.
Для рассматриваемого текстанабор двухсловных связанных сегментов с элементами ФИО следующий: Собянинутвержден, Сергей Собянин, за Собянина, Юрий Лужков, Дмитрия Медведева,помимо Собянина, Игорь Левитин, соратник Лужкова, Валерий Шанцев, ЛюдмилаШвецова, Медведев объявил, Сергее Собянине, Дмитрия Медведева, избратьСобянина, Сергей Собянин, Владимира Путина, Дмитрия Медведева, ВладимираПутина.78Таблица 2. Связанные сегменты из текста про С.
Собянина , состоящие не менее, чем из 366текстоформКластерпроС. Собянина Вычислительный эксперимент(однородная коллекция)Эксперимент с информантамиСергей Собянин утвержденна пост мэраМосковской городской думыпроголосовали 32 депутататот же деньгубернатор Нижегородской областинового мэра Москвыиз 35 депутатовМосковской городской думыпроголосовали 32 депутатаучаствовали 34 человекаприсяга нового мэратот же деньКак сообщалось ранее18 : 00на посту мэра МосквыМосковской городской думыпроголосовали 32 депутатапротив высказались двоеголосование в МосгордумеКак сообщалось ранееторжественноемероприятиеинаугурация нового мэраизбрании нового градоначальника планируется провестируководившийисполнительной в 18:00центральном Федеральном округевластьюкандидатуру Сергея Собянина9 октября партия21 октября 2010 годапредставила президенту четыре нового градоначальника Москвына посту мэракандидатурыдобросовестноисполнятьисполнительной властью столицывозложенныесписок единоросов попалигубернаторНижегородской с утратой доверия президентаблагополучию его жителейобластиСоответствующий указ Дмитрияучаствовали 34 человекапрошлом - вице-мэрМедведеваисполняющая обязанности вице- на пост мэра Москвыгубернатором Тюменской областимэраостановил свой выборостановил свой выборгубернатор Нижегородской областиисполняющая обязанности вицепо его словампосле этого фракциямэра Москвыприсяга нового мэраиз 35 местпрезидент Медведев объявилМосковская городская думаорганах власти началсяаппарата правительства РФруководившийисполнительной городепообещалаподдержатьвыборКогалымХантывластьюДмитрия Медведевамансийский округагородеКогалымХантыответственные государственные в9 октября партияпостыМансийский округаизбрании нового градоначальникагубернатором Тюменской области в разные годызанималответственныедо 2008 годадо 2008 годагосударственные постыиз 35 месторганах власти началсяответственныегосударственныепостыРезультаты вычислительного эксперимента и эксперимента с информантамиэксплицируют разные информационные структуры одного и того же текста: разныеварианты извлечения информации в соответствии с намерениями и возможностямиадресата.
Адресат (носитель языка или автомат) выделяет важные вехи в тексте наосновании коммуникативной ситуации, собственных целей и задач. Разныевозможности и задачи соответствуют разным коллекциям (в соответствиитематической областью коллекции и/или разной степенью однородности) или разнымбазам знаний информантов (степени компетентности информантов).
Главное – мыпроиллюстрировали то, что получаемые результаты в существенной степени зависятот лингвистической природы моделируемого объекта: в первую очередь, сюжетаПолужирным шрифтом выделены те сегменты или их фрагменты, которые присутствуют в списках,полученных как в ходе вычислительного эксперимента, так и эксперимента с информантами.6679(кластера), а во вторую – конкретного текста как представителя этого кластера.Следовательно, лингвистический анализ объекта (набора объектов) может и –надеюсь, во многих случаях должен – предшествовать вычислительным процедурам,выделяя те закономерности, которые можно предсказать на начальном этапе(«постановке» задачи коммуникации, формулировке гипотез методами лингвистикитекста).§ 4.3.Свертки для описания разных информационных объектов: оттекстов до информационных потоковПри всем различии рассматриваемых информационных объектов – текст иинформационный поток – нас интересует то, что они обладают информационной(смысловой) структурой и могут быть свернуты до набора слов и словосочетаний.Этот набор может выступать представителем (носителем) информационнойструктуры объекта (и текста, и информационного потока).
Эту тему мы поднимали впервом параграфе этой главы.Напомним, что ключевыми словами (или аналогами ключевых слов) в разныхконтекстах называют, напр.:1 выписанные группой информантов слова, наиболее важные для решенияпоставленных в инструкции задач (обычно – понимания текста),уровень значимости слова определяется как относительная частота еговстречаемости в протоколах информантов,2 автоматически выделяемые неслучайно встречающиеся в документах слова исловосочетания, важные для рассматриваемой выборки (выдачи) в рамках общегомассива документов,уровень значимости слова рассчитывается на основании некоего алгоритма.Чтобы осуществить свертывание текста в виде КС, этот текст нужно понять.Поэтому естественно считать, что свертки представляют собой результат пониманиятекста или, иначе говоря, извлечения смысла из текста.