Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 25
Текст из файла (страница 25)
Рассмотрим примерэкспериментального исследования информационной значимости сверток (с точкизрения той задачи, которая стояла перед информантами). С помощью такогоэксперимента изучалась возможность восстановления исходного смысла илиинформационной структуры текста.Ресурс Галактика-Зум (http://galaktika-zoom.ru/, также см. http://webground.su )предоставляет возможности для проведения исследования на материале сверток(наборов) автоматически определяемых ключевых слов. Для каждой выдачи (всоответствии с запросом) этот ресурс вычисляет и предоставляет пользователюИнформационный портрет (или Инфорпотрет), т.е.
набор автоматическиопределяемых слов и словосочетаний, важных для рассматриваемой выборки (среза)в рамках общего массива документов. Инфопортрет как сверка множества текстовявляется основной возможностью для извлечения адресатом целостнойинформационной структуры: большой объем не позволяет человеку оперироватьнепосредственно с каждым текстом.Основной задачей данного эксперимента было определить, является лиИнфопортрет реальной сверткой текста, т.е.
сможет ли информант восстановить понему информацию об объекте, описанном в данном тексте, в частности, информациюпроцедурно-временного характера. Для этого перед информантами ставится задача80определения временного периода, к которому относится группа текстов. При этом изсвертки должны быть удалены все непосредственные указания на временной период(месяц, квартал, конкретные даты).Нами анализировались новостные тексты: их достаточное количество повыбранной нами тематике, они, в основном, компактны и ограничены лексически. Вкачестве запросов были выбраны запросы «ЕГЭ» и «единый государственныйэкзамен», т.е. выбирались тексты, содержащие данные слово или словосочетание.Основания для выбора именно таких запросов были следующие:• «ЕГЭ» («единый государственный экзамен») может быть по праву названо однимиз «ключевых слов» 2009 года.
Актуальность и востребованность этой темыпозволила получить в выдаче большое количество текстов (см. табл. 1). Причемвыборочный анализ текстов выдачи показывает, что тематически они достаточнооднородны.• Тема «ЕГЭ» (или «единый государственный экзамен») была выбрана из-за того,что в самой природе рассматриваемого объекта (и текстов, его описывающих)заключена периодизация и хорошо знакомый лингвистам принцип построениясюжета.
Причем эти периоды несут особую информационную нагруженность(подготовка – проведение – подведение итогов), что позволяет в процедурепроведения эксперимента с информантами через определение интервалаэксплицировать основную информацию, содержащуюся в предъявляемыхИнфопортретах.На вход системе «Галактика-Зум» были посланы запросы: (1) «ЕГЭ» и (2) «единыйгосударственный экзамен». Результаты этих запросов система распределила по 9выборкам, где каждая из выборок содержит документы, относящиеся к одному изпрошедших месяцев 2009 года (от января по сентябрь включительно). В общейсложности 9 выборок содержало 7768 текстов для запроса «ЕГЭ» и 2232 для «единыйгосударственный экзамен». Два эксперимента – эксперимент 1 («ЕГЭ») иэксперимент 2 («единый государственный экзамен») – содержал по 9информационных портретов (для каждого по 9 выборок своего запроса). Каждомуинформанту выдавалась инструкция:«Каждый из 9 листов соответствует выборке одного месяца 2009года.Ваша задача оценить и отметить на каждом листе свой выбор:1.
предположительный период: подготовка к экзамену – проведение экзамена –подведение итогов;2. месяц: от января до сентября 2009 года;3. критерии, особенности, комментарии и т.д.»67Информанты – 16 (17) студентов и аспирантов СПбГУ гуманитарных специальностей. Они не являлисьспециалистами в предметной области (переход на систему ЕГЭ) ни в силу профессиональной деятельности, нив силу жизненного опыта (т.к. сами сдавали традиционные экзамены). Процедуры принятия решения ииспользуемые ими критерии не связаны со специальными знаниями и навыками (напр., аналитической работойс информационными потоками). Смысловая структура текстов (выборок текстов) данной предметной области вбольшинстве случаев неоднородна и предполагает конкуренцию критериев, т.к.
включает в себя в качествеподтем как минимум три: окончание школы – сдача ЕГЭ – поступление в вуз. Второй эксперимент проводилсячерез 2,5 месяца после первого с той же бригадой информантов (добавился один новый). Методика проведенияэксперимента должна была минимизировать влияние индивидуальных ассоциативных связей.
Собраннаябригада участвовала в двух экспериментах. В промежутке результаты эксперимента с информантами необсуждались. Сопоставительный анализ протоколов второго эксперимента исключают возможность влияния наего результаты первого эксперимента; таким образом, мы считаем, что экспериментальный дизайнудовлетворяет требованиям чистоты эксперимента.6781На основании результатов определения испытуемыми периода в эксперименте1 («ЕГЭ») можно выделить четыре класса (по убыванию числа правильных исогласованных ответов информантов):1. Февраль, март, сентябрь (подготовка экзамена и подведение итогов);2.
Январь (подготовка экзамена);3. Апрель, август (подготовка экзамена и подведение итогов);4. Май, июнь, июль (неопределенность проведение экзамена/подведение итогов).Свертки, предъявленные испытуемым в ходе Эксперимента 2 («единыйгосударственный экзамен»), дали другое распределение правильных и согласованныхответов испытуемых:1. июль, февраль (подведение итогов и подготовка, соответственно);2.
апрель (проведение экзаменов вместо подготовки);3. январь, май, сентябрь (подготовка, проведение, и подведение итогов,соответственно);4. июнь (подготовка экзамена вместо проведения, но сравнительно высокаясогласованность);5. август, март (подведение итогов и подготовка, соответственно).Анализ тем текстов разных выдач показывает, что однозначное определениепериода и месяца не обязательно должны соответствовать друг другу. Срокипроведения ЕГЭ колеблются от апреля до июля (согласно приказу «Об утверждениисроковиединогорасписанияпроведения…»(http://www1.ege.edu.ru/content/view/475/36/):o досрочное проведение – апрель,o для основной массы выпускников 2009 года – июнь (а также 26 и 29мая),o для выпускников прошлых лет – июль.Выборочный анализ текстов выдач по рассматриваем запросам (месяцы апрельиюль) показывает, что выдача на запрос «единый государственный экзамен» вбольшей степени ориентированы на «проблемные» случаи, а на запрос «ЕГЭ» – натипичные.
Для «апреля» (Эксперимент 2) проблемным является досрочноепроведение ЕГЭ (высокая согласованность и сравнительно неплохое восстановлениемесяца). Для июня и июля – сдача ЕГЭ выпускниками прошлых лет (неравноеположение выпускников 2009 года и прошлых лет, т.е. более сложные условия дляпоследних). Поэтому «июнь» дает большее внимание к подготовке, а июль кподведению итогов.Задача краткого обсуждения результатов сверток по коллекциям документов,сформированным двумя сходными запросами, позволил дать анализ, прежде всего,лингвистической природе коллекции.
Например, проследить (1) роль шкалыинформационная насыщенность vs. воздействие на адресата, (2) взаимодействие ипереплетение тем и подтем сложного сюжетного объекта, (3) композиционнуюструктуру сюжета, выстраивающуюся по законам нарратива. Все эти параметрыявляются, прежде всего, лингвистическими и информационными. Отметим, чтошкала от информационно насыщенного текста до текста, реализующего воздействиена адресата, была (в данной предметной области) задана, прежде всего, на уровнезапроса.Применяя нарративную метафору, можно рассмотреть девять сверток (длякаждого из периодов, которому соответствовала одна выборка) как компоненты82единой смысловой структуры высокого уровня, характеризующейся динамичнойсменой ситуаций (при том, что каждая из этих ситуаций сама имеет сложнуюсмысловую структуру).
Тогда свертку «январь» можно описать как преамбулу (фазуориентации), «февраль» как основу завязывания сюжета, «сентябрь» – как коду(мораль всей истории). Именно эти компоненты нарратива ведут себя сходнымобразом и для запроса «ЕГЭ», и для запроса «единый государственный экзамен».Наиболее сюжетными и неоднозначными оказались свертки «апрель–июль», накоторых происходит развитие сюжета. Анализ результатов экспериментовдемонстрирует разные сюжетные линии. Степень «воздействия на адресата» (напр.,убеждения) задает разные направления: типичное положение дел (для«информационных текстов») или проблемные случаи (для «текстов воздействия наадресата»).Методы экспериментальной лингвистики – психолингвистики и лингвистикитекста – находят свое применение в исследовании нового для лингвистики объекта.Список используемой литературы1.
Aborn M. еt al. Sources of contextual constraint upon words in sentences // J. of Exp. Psychology. 1959,vol. 57.2. Alderson J. C. Native and non-native speaker performance on cloze tests // Language Learning. 1980,vol.30.3. McNamara, D.S., Kintsch, E., Songer, N.B., & Kintsch, W.. Are good text always better? Textcoherence, background knowledge, and levels of understanding in learning from text. Cognition andInstruction, 1996, 14, 1-43.4. Bachman L. F.