Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 25

PDF-файл Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 25 Системы автоматизированного проектирования (САПР) (13021): Книга - 11 семестр (3 семестр магистратуры)Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика: Системы автоматизированного проектирования2017-12-21СтудИзба

Описание файла

PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.

Просмотр PDF-файла онлайн

Текст 25 страницы из PDF

Рассмотрим примерэкспериментального исследования информационной значимости сверток (с точкизрения той задачи, которая стояла перед информантами). С помощью такогоэксперимента изучалась возможность восстановления исходного смысла илиинформационной структуры текста.Ресурс Галактика-Зум (http://galaktika-zoom.ru/, также см. http://webground.su )предоставляет возможности для проведения исследования на материале сверток(наборов) автоматически определяемых ключевых слов. Для каждой выдачи (всоответствии с запросом) этот ресурс вычисляет и предоставляет пользователюИнформационный портрет (или Инфорпотрет), т.е.

набор автоматическиопределяемых слов и словосочетаний, важных для рассматриваемой выборки (среза)в рамках общего массива документов. Инфопортрет как сверка множества текстовявляется основной возможностью для извлечения адресатом целостнойинформационной структуры: большой объем не позволяет человеку оперироватьнепосредственно с каждым текстом.Основной задачей данного эксперимента было определить, является лиИнфопортрет реальной сверткой текста, т.е.

сможет ли информант восстановить понему информацию об объекте, описанном в данном тексте, в частности, информациюпроцедурно-временного характера. Для этого перед информантами ставится задача80определения временного периода, к которому относится группа текстов. При этом изсвертки должны быть удалены все непосредственные указания на временной период(месяц, квартал, конкретные даты).Нами анализировались новостные тексты: их достаточное количество повыбранной нами тематике, они, в основном, компактны и ограничены лексически. Вкачестве запросов были выбраны запросы «ЕГЭ» и «единый государственныйэкзамен», т.е. выбирались тексты, содержащие данные слово или словосочетание.Основания для выбора именно таких запросов были следующие:• «ЕГЭ» («единый государственный экзамен») может быть по праву названо однимиз «ключевых слов» 2009 года.

Актуальность и востребованность этой темыпозволила получить в выдаче большое количество текстов (см. табл. 1). Причемвыборочный анализ текстов выдачи показывает, что тематически они достаточнооднородны.• Тема «ЕГЭ» (или «единый государственный экзамен») была выбрана из-за того,что в самой природе рассматриваемого объекта (и текстов, его описывающих)заключена периодизация и хорошо знакомый лингвистам принцип построениясюжета.

Причем эти периоды несут особую информационную нагруженность(подготовка – проведение – подведение итогов), что позволяет в процедурепроведения эксперимента с информантами через определение интервалаэксплицировать основную информацию, содержащуюся в предъявляемыхИнфопортретах.На вход системе «Галактика-Зум» были посланы запросы: (1) «ЕГЭ» и (2) «единыйгосударственный экзамен». Результаты этих запросов система распределила по 9выборкам, где каждая из выборок содержит документы, относящиеся к одному изпрошедших месяцев 2009 года (от января по сентябрь включительно). В общейсложности 9 выборок содержало 7768 текстов для запроса «ЕГЭ» и 2232 для «единыйгосударственный экзамен». Два эксперимента – эксперимент 1 («ЕГЭ») иэксперимент 2 («единый государственный экзамен») – содержал по 9информационных портретов (для каждого по 9 выборок своего запроса). Каждомуинформанту выдавалась инструкция:«Каждый из 9 листов соответствует выборке одного месяца 2009года.Ваша задача оценить и отметить на каждом листе свой выбор:1.

предположительный период: подготовка к экзамену – проведение экзамена –подведение итогов;2. месяц: от января до сентября 2009 года;3. критерии, особенности, комментарии и т.д.»67Информанты – 16 (17) студентов и аспирантов СПбГУ гуманитарных специальностей. Они не являлисьспециалистами в предметной области (переход на систему ЕГЭ) ни в силу профессиональной деятельности, нив силу жизненного опыта (т.к. сами сдавали традиционные экзамены). Процедуры принятия решения ииспользуемые ими критерии не связаны со специальными знаниями и навыками (напр., аналитической работойс информационными потоками). Смысловая структура текстов (выборок текстов) данной предметной области вбольшинстве случаев неоднородна и предполагает конкуренцию критериев, т.к.

включает в себя в качествеподтем как минимум три: окончание школы – сдача ЕГЭ – поступление в вуз. Второй эксперимент проводилсячерез 2,5 месяца после первого с той же бригадой информантов (добавился один новый). Методика проведенияэксперимента должна была минимизировать влияние индивидуальных ассоциативных связей.

Собраннаябригада участвовала в двух экспериментах. В промежутке результаты эксперимента с информантами необсуждались. Сопоставительный анализ протоколов второго эксперимента исключают возможность влияния наего результаты первого эксперимента; таким образом, мы считаем, что экспериментальный дизайнудовлетворяет требованиям чистоты эксперимента.6781На основании результатов определения испытуемыми периода в эксперименте1 («ЕГЭ») можно выделить четыре класса (по убыванию числа правильных исогласованных ответов информантов):1. Февраль, март, сентябрь (подготовка экзамена и подведение итогов);2.

Январь (подготовка экзамена);3. Апрель, август (подготовка экзамена и подведение итогов);4. Май, июнь, июль (неопределенность проведение экзамена/подведение итогов).Свертки, предъявленные испытуемым в ходе Эксперимента 2 («единыйгосударственный экзамен»), дали другое распределение правильных и согласованныхответов испытуемых:1. июль, февраль (подведение итогов и подготовка, соответственно);2.

апрель (проведение экзаменов вместо подготовки);3. январь, май, сентябрь (подготовка, проведение, и подведение итогов,соответственно);4. июнь (подготовка экзамена вместо проведения, но сравнительно высокаясогласованность);5. август, март (подведение итогов и подготовка, соответственно).Анализ тем текстов разных выдач показывает, что однозначное определениепериода и месяца не обязательно должны соответствовать друг другу. Срокипроведения ЕГЭ колеблются от апреля до июля (согласно приказу «Об утверждениисроковиединогорасписанияпроведения…»(http://www1.ege.edu.ru/content/view/475/36/):o досрочное проведение – апрель,o для основной массы выпускников 2009 года – июнь (а также 26 и 29мая),o для выпускников прошлых лет – июль.Выборочный анализ текстов выдач по рассматриваем запросам (месяцы апрельиюль) показывает, что выдача на запрос «единый государственный экзамен» вбольшей степени ориентированы на «проблемные» случаи, а на запрос «ЕГЭ» – натипичные.

Для «апреля» (Эксперимент 2) проблемным является досрочноепроведение ЕГЭ (высокая согласованность и сравнительно неплохое восстановлениемесяца). Для июня и июля – сдача ЕГЭ выпускниками прошлых лет (неравноеположение выпускников 2009 года и прошлых лет, т.е. более сложные условия дляпоследних). Поэтому «июнь» дает большее внимание к подготовке, а июль кподведению итогов.Задача краткого обсуждения результатов сверток по коллекциям документов,сформированным двумя сходными запросами, позволил дать анализ, прежде всего,лингвистической природе коллекции.

Например, проследить (1) роль шкалыинформационная насыщенность vs. воздействие на адресата, (2) взаимодействие ипереплетение тем и подтем сложного сюжетного объекта, (3) композиционнуюструктуру сюжета, выстраивающуюся по законам нарратива. Все эти параметрыявляются, прежде всего, лингвистическими и информационными. Отметим, чтошкала от информационно насыщенного текста до текста, реализующего воздействиена адресата, была (в данной предметной области) задана, прежде всего, на уровнезапроса.Применяя нарративную метафору, можно рассмотреть девять сверток (длякаждого из периодов, которому соответствовала одна выборка) как компоненты82единой смысловой структуры высокого уровня, характеризующейся динамичнойсменой ситуаций (при том, что каждая из этих ситуаций сама имеет сложнуюсмысловую структуру).

Тогда свертку «январь» можно описать как преамбулу (фазуориентации), «февраль» как основу завязывания сюжета, «сентябрь» – как коду(мораль всей истории). Именно эти компоненты нарратива ведут себя сходнымобразом и для запроса «ЕГЭ», и для запроса «единый государственный экзамен».Наиболее сюжетными и неоднозначными оказались свертки «апрель–июль», накоторых происходит развитие сюжета. Анализ результатов экспериментовдемонстрирует разные сюжетные линии. Степень «воздействия на адресата» (напр.,убеждения) задает разные направления: типичное положение дел (для«информационных текстов») или проблемные случаи (для «текстов воздействия наадресата»).Методы экспериментальной лингвистики – психолингвистики и лингвистикитекста – находят свое применение в исследовании нового для лингвистики объекта.Список используемой литературы1.

Aborn M. еt al. Sources of contextual constraint upon words in sentences // J. of Exp. Psychology. 1959,vol. 57.2. Alderson J. C. Native and non-native speaker performance on cloze tests // Language Learning. 1980,vol.30.3. McNamara, D.S., Kintsch, E., Songer, N.B., & Kintsch, W.. Are good text always better? Textcoherence, background knowledge, and levels of understanding in learning from text. Cognition andInstruction, 1996, 14, 1-43.4. Bachman L. F.

Свежие статьи
Популярно сейчас
А знаете ли Вы, что из года в год задания практически не меняются? Математика, преподаваемая в учебных заведениях, никак не менялась минимум 30 лет. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Нашёл ошибку?
Или хочешь предложить что-то улучшить на этой странице? Напиши об этом и получи бонус!
Бонус рассчитывается индивидуально в каждом случае и может быть в виде баллов или бесплатной услуги от студизбы.
Предложить исправление
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
4980
Авторов
на СтудИзбе
471
Средний доход
с одного платного файла
Обучение Подробнее