Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 25
Текст из файла (страница 25)
Если бы мыдобавили к этому набору набор двухсловных связанных сегментов или наименованияперсон (с элементами Ф.И.О.), то вся информация, необходимая для восстановлениятекста, присутствовала бы в объединенном наборе. Для рассматриваемого текстанабор двухсловных связанных сегментов с элементами ФИО следующий: Собянинутвержден, Сергей Собянин, за Собянина, Юрий Лужков, Дмитрия Медведева,помимо Собянина, Игорь Левитин, соратник Лужкова, Валерий Шанцев, ЛюдмилаШвецова, Медведев объявил, Сергее Собянине, Дмитрия Медведева, избратьСобянина, Сергей Собянин, Владимира Путина, Дмитрия Медведева, ВладимираПутина.78Таблица 2. Связанные сегменты из текста про С. Собянина , состоящие не менее, чем из 366текстоформКластерпроС. Собянина Вычислительный эксперимент(однородная коллекция)Эксперимент с информантамиСергей Собянин утвержденна пост мэраМосковской городской думыпроголосовали 32 депутататот же деньгубернатор Нижегородской областинового мэра Москвыиз 35 депутатовМосковской городской думыпроголосовали 32 депутатаучаствовали 34 человекаприсяга нового мэратот же деньКак сообщалось ранее18 : 00на посту мэра МосквыМосковской городской думыпроголосовали 32 депутатапротив высказались двоеголосование в МосгордумеКак сообщалось ранееторжественноемероприятиеинаугурация нового мэраизбрании нового градоначальника планируется провестируководившийисполнительной в 18:00центральном Федеральном округевластьюкандидатуру Сергея Собянина9 октября партия21 октября 2010 годапредставила президенту четыре нового градоначальника Москвына посту мэракандидатурыдобросовестноисполнятьисполнительной властью столицывозложенныесписок единоросов попалигубернаторНижегородской с утратой доверия президентаблагополучию его жителейобластиСоответствующий указ Дмитрияучаствовали 34 человекапрошлом - вице-мэрМедведеваисполняющая обязанности вице- на пост мэра Москвыгубернатором Тюменской областимэраостановил свой выборостановил свой выборгубернатор Нижегородской областиисполняющая обязанности вицепо его словампосле этого фракциямэра Москвыприсяга нового мэраиз 35 местпрезидент Медведев объявилМосковская городская думаорганах власти началсяаппарата правительства РФруководившийисполнительной городепообещалаподдержатьвыборКогалымХантывластьюДмитрия Медведевамансийский округагородеКогалымХантыответственные государственные в9 октября партияпостыМансийский округаизбрании нового градоначальникагубернатором Тюменской области в разные годызанималответственныедо 2008 годадо 2008 годагосударственные постыиз 35 месторганах власти началсяответственныегосударственныепостыРезультаты вычислительного эксперимента и эксперимента с информантамиэксплицируют разные информационные структуры одного и того же текста: разныеварианты извлечения информации в соответствии с намерениями и возможностямиадресата.
Адресат (носитель языка или автомат) выделяет важные вехи в тексте наосновании коммуникативной ситуации, собственных целей и задач. Разныевозможности и задачи соответствуют разным коллекциям (в соответствиитематической областью коллекции и/или разной степенью однородности) или разнымбазам знаний информантов (степени компетентности информантов). Главное – мыпроиллюстрировали то, что получаемые результаты в существенной степени зависятот лингвистической природы моделируемого объекта: в первую очередь, сюжетаПолужирным шрифтом выделены те сегменты или их фрагменты, которые присутствуют в списках,полученных как в ходе вычислительного эксперимента, так и эксперимента с информантами.6679(кластера), а во вторую – конкретного текста как представителя этого кластера.Следовательно, лингвистический анализ объекта (набора объектов) может и –надеюсь, во многих случаях должен – предшествовать вычислительным процедурам,выделяя те закономерности, которые можно предсказать на начальном этапе(«постановке» задачи коммуникации, формулировке гипотез методами лингвистикитекста).§ 4.3.Свертки для описания разных информационных объектов: оттекстов до информационных потоковПри всем различии рассматриваемых информационных объектов – текст иинформационный поток – нас интересует то, что они обладают информационной(смысловой) структурой и могут быть свернуты до набора слов и словосочетаний.Этот набор может выступать представителем (носителем) информационнойструктуры объекта (и текста, и информационного потока).
Эту тему мы поднимали впервом параграфе этой главы.Напомним, что ключевыми словами (или аналогами ключевых слов) в разныхконтекстах называют, напр.:1 выписанные группой информантов слова, наиболее важные для решенияпоставленных в инструкции задач (обычно – понимания текста),уровень значимости слова определяется как относительная частота еговстречаемости в протоколах информантов,2 автоматически выделяемые неслучайно встречающиеся в документах слова исловосочетания, важные для рассматриваемой выборки (выдачи) в рамках общегомассива документов,уровень значимости слова рассчитывается на основании некоего алгоритма.Чтобы осуществить свертывание текста в виде КС, этот текст нужно понять.Поэтому естественно считать, что свертки представляют собой результат пониманиятекста или, иначе говоря, извлечения смысла из текста. Рассмотрим примерэкспериментального исследования информационной значимости сверток (с точкизрения той задачи, которая стояла перед информантами).
С помощью такогоэксперимента изучалась возможность восстановления исходного смысла илиинформационной структуры текста.Ресурс Галактика-Зум (http://galaktika-zoom.ru/, также см. http://webground.su )предоставляет возможности для проведения исследования на материале сверток(наборов) автоматически определяемых ключевых слов. Для каждой выдачи (всоответствии с запросом) этот ресурс вычисляет и предоставляет пользователюИнформационный портрет (или Инфорпотрет), т.е. набор автоматическиопределяемых слов и словосочетаний, важных для рассматриваемой выборки (среза)в рамках общего массива документов. Инфопортрет как сверка множества текстовявляется основной возможностью для извлечения адресатом целостнойинформационной структуры: большой объем не позволяет человеку оперироватьнепосредственно с каждым текстом.Основной задачей данного эксперимента было определить, является лиИнфопортрет реальной сверткой текста, т.е.
сможет ли информант восстановить понему информацию об объекте, описанном в данном тексте, в частности, информациюпроцедурно-временного характера. Для этого перед информантами ставится задача80определения временного периода, к которому относится группа текстов. При этом изсвертки должны быть удалены все непосредственные указания на временной период(месяц, квартал, конкретные даты).Нами анализировались новостные тексты: их достаточное количество повыбранной нами тематике, они, в основном, компактны и ограничены лексически.
Вкачестве запросов были выбраны запросы «ЕГЭ» и «единый государственныйэкзамен», т.е. выбирались тексты, содержащие данные слово или словосочетание.Основания для выбора именно таких запросов были следующие:• «ЕГЭ» («единый государственный экзамен») может быть по праву названо однимиз «ключевых слов» 2009 года. Актуальность и востребованность этой темыпозволила получить в выдаче большое количество текстов (см.
табл. 1). Причемвыборочный анализ текстов выдачи показывает, что тематически они достаточнооднородны.• Тема «ЕГЭ» (или «единый государственный экзамен») была выбрана из-за того,что в самой природе рассматриваемого объекта (и текстов, его описывающих)заключена периодизация и хорошо знакомый лингвистам принцип построениясюжета. Причем эти периоды несут особую информационную нагруженность(подготовка – проведение – подведение итогов), что позволяет в процедурепроведения эксперимента с информантами через определение интервалаэксплицировать основную информацию, содержащуюся в предъявляемыхИнфопортретах.На вход системе «Галактика-Зум» были посланы запросы: (1) «ЕГЭ» и (2) «единыйгосударственный экзамен». Результаты этих запросов система распределила по 9выборкам, где каждая из выборок содержит документы, относящиеся к одному изпрошедших месяцев 2009 года (от января по сентябрь включительно).
В общейсложности 9 выборок содержало 7768 текстов для запроса «ЕГЭ» и 2232 для «единыйгосударственный экзамен». Два эксперимента – эксперимент 1 («ЕГЭ») иэксперимент 2 («единый государственный экзамен») – содержал по 9информационных портретов (для каждого по 9 выборок своего запроса). Каждомуинформанту выдавалась инструкция:«Каждый из 9 листов соответствует выборке одного месяца 2009года.Ваша задача оценить и отметить на каждом листе свой выбор:1. предположительный период: подготовка к экзамену – проведение экзамена –подведение итогов;2.
месяц: от января до сентября 2009 года;3. критерии, особенности, комментарии и т.д.»67Информанты – 16 (17) студентов и аспирантов СПбГУ гуманитарных специальностей. Они не являлисьспециалистами в предметной области (переход на систему ЕГЭ) ни в силу профессиональной деятельности, нив силу жизненного опыта (т.к.