Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 23

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 23 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 232017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 23)

токенов (т.е. словоупотреблений и знаков препинания);o два сюжета (или кластера), т.е. две небольших коллекции тематическиоднородных текстов, полученных с помощью ресурса «Галактика Зум»61:приезд А. Шварцнеггера в Москву - 360 текстов, около110 тыс.токенов,назначение С. Собянина - 660 текстов, 170 тыс. токенов,все тексты кластеров берутся из новостного потока, они близки повремени появления и посвящены одному событию;o три текста о А.

Шварцнеггере (из Лента.ру, РИАН, Газета.ру) и два текста оСобянине (Лента.ру, РИАН) для экспериментов с информантами.Конечно, эти тексты (наряду со прочими текстами кластеров) использовалисьи в вычислительных экспериментах, т.ч. задача состояла в сопоставлениирезультатов этих двух экспериментов для каждого рассматриваемого текста.Крайне важен этап выбора конкретных новостных сюжетов (кластеров), а далеесреди них – наиболее представительных текстов. Конечно, все мы знаем, чторезультаты кластеризации текстов не всегда нас полностью удовлетворяют. Дляисследования выбирается «чистый и компактный» кластер сравнительно большогообъема, состоящий из максимально тематически однородных текстов.

Отбиралиськластеры с информационно значимым сюжетом (по субъективной оценке), имеющиечетко выстроенный сюжет (основное действующее лицо (или лица), основное61 Этот материал любезно предоставлен нам Александром Антоновым и Станиславом Баглеем, ГалактикаZoom: galaktika-zoom.ru, http://www.webground.su74действие, сопровождающие действующие лица и/или организации, сопровождающиедействия, время, место и т.д.).

О других характеристиках скажем чуть ниже.В эксперименте с информантами – эксперименте по шкалированию – принялоучастие около 20 студентов СПбГУ и РГПУ им. А.И.Герцена, получающихгуманитарное образование62. Эксперимент с информантами представлял собой оценкусвязности между текстоформами (пробельными словами) в тексте в шкале от 0 до 5,где 5 – соответствовало максимальной, а 0 – минимальной степени связности. Ванкете информанту предлагался текст с «пробелами для заполнения» и инструкция,требующая оценить «степень связности между словами или словом и знакомпрепинания в шкале от 0 до 5 баллов.

«0» соответствует минимальной силесвязности, а «5» – максимальной силе связности. Проставьте эти баллы (от 0 до 5)во ВСЕ позиции, между ВСЕМИ словами и/или словами и знаками препинания».Информантам отдельно не объяснялся принцип оценки связности, они должны былидействовать, опираясь на интуитивные представления о связности и, конечно, на своютекстовую базу знаний. Экспериментатор не навязывает информанту предпочтение,например, синтаксического или лексико-семантического подхода, однако полученныеданные позволяют судить о том, что информанты в целом справляются споставленной задачей. Усредненные данные по группе информантов, представилинепротиворечивую оценку степени связности между словами. На основании этихданных можно выстраивать сколь угодно длинные цепочки слов в соответствии сустанавливаемым пороговым значением связности.

Эмпирически мы подобралипороговое значение, равное 3,7 баллам. Если полученное число было больше, чем 3,7,пару слов рассматривали как связную, если меньше – как не связную.Носитель языка имеет интуитивные представления о неслучайновстречающихся сочетаниях слов: текстовые базы по текстам разных функциональныхстилей, по текстам разных тематик или по текстам, посвященным определенной теме.На основании этого знания адресат воспринимает каждый конкретный текст какнепротиворечащий некоторой текстовой базе адресата (в качестве ее аналога привычислительном эксперименте выступают коллекции и подколлекции текстов разнойстепени однородности). Тематически однородные кластеры представляли достаточнообсуждаемые события, поэтому нельзя было предположить, что информанты незнакомы с этими темами.

Эксперимент проводился примерно через месяц послеописываемых событий, так что эти темы не могли быть забыты.Наибольший интерес представляет анализ данных, полученных на материалекластеров для словоформ. При интерпретации данных по рассматриваемым сюжетаммы опирались на данные, полученные на материале двух сюжетов и пяти указанныхтекстов, однако для иллюстрации возможностей предлагаемого метода приведемрезультаты только двух текстов: одного текста о А.

Шварценергере и одного текста оС. Собянине из «Лента.ру» 2010 года63.Сюжет в целом и анализируемый текст о А. Шварценергере гораздо болеединамичные (последовательность нескольких ситуаций) и более сложные потематической структуре: реализующий, например, темы а) приезд известногокиноактера, б) приезд губернатора Калифорнии, в) встреча с президентомПользуясь случаем, хотим поблагодарить Галину Доброву за помощь в проведении эксперимента.В статье мы ограниваемся новостными текстами, однако при интерпретации данных частично учитывалисьтакже результаты, полученные на материале научных текстов (тематически однородная коллекция материаловконференции «Корпусная лингвистика» и 4 текста из этой коллекции)626375Д.

Медведевым, г) активное использование твиттеров, д) инвестирование проекта«Сколково». Носитель языка (или автомат) «вправе» сам устанавливать значимостькаждой из тем. Сюжет в целом и анализируемый текст о С. Собянине гораздо болеестатичные и имеют сравнительно простую тематическую структуру («выборы»представляют собой вариант частотного фрейма).Различие в рассматриваемых сюжетах непосредственно отразилось нарезультатах эксперимента. Для иллюстрации в таблицах 1 и 2 представленысегменты, состоящие не менее чем из трех текстоформ (слов, разделителем междукоторыми служат пробелы и/или знаки препинания) – данные вычислительногоэксперимента и эксперимента с информантами – на материале сюжета и текста оА.

Шварценеггере (табл. 1) и о С.Собянине (табл. 2). Полужирным шрифтомвыделены сегменты или их фрагменты, которые присутствуют как в списке, полученном в ходе вычислительного эксперимента, так и в эксперименте с информантами64.Таблица 1. Связанные сегменты, состоящие не менее чем из трех текстоформВычислительный экспериментЭксперимент с информантами,текстоКоллекцияСюжетоШварценеггере Единичныйтексто единичныйА. Шварценеггера(Лента.ру 2010 г) (однородная коллекция)А. Шварценеггератем не менееглобальноеинновационное только что приземлился Губернатор Калифорнии АрнольдпартнерствоШварценеггерв связи спредставителейведущих могу дождаться встречи прилетел в Москву.компанийв 2009 годус губернатором калифорниивскоре после этогов российскую столицуто же времямогу дождаться встречиНе могу дождаться встречи сответилкалифорнийскомупрезидентом Медведевымгубернаторувнастоящее во главе делегациианглоязычнаяверсия российский президент ДмитрийвремятвитаМедведев ответилсо ссылкой насоздатьнастоящий ответил ему взаимностью в своем микроблогетехнологический бумвозбужденосфере высоких технологийэто же времядобро пожаловать в Москвууголовное делопо сравнению с только что приземлилсяЖду встречи с вамив 2008 годутогда вам сказалМедведев добавил микроблоги т.д.которыезанимаютсяс делегацией представителейинновационнымиразработкамион встретится с российскимиих российскими партнерамиминистрамироссийскаявенчурнаяво время посещения Медведевымкомпаниястать мэром москвыроссийский президент завел себеGlobal Technology Symposiumглавамиамериканскихинвестиционных компанийвидение дальнейшего развитияSilicon Valley Bankпост мэра москвысамыхразныхсобытийпроисходитиюне этого годапосленепродолжительнойбеседыи т.д.В графу «Сюжет о Шварценеггере (однородная коллекция)» попала верхушка наиболее частотных связанныхсегментов, упорядоченных по частоте, остальные графы (наборы) представлены полностью.6476Предложенная нами методика учитывает различные виды контекстов:«тематический» (сюжет) и «стилистический» (Лента.ру) (см.

табл. 1). В«стилистическом» контексте существенными оказывались характерные для СМИконструкции и обороты (например, в настоящее время, со ссылкой на), из которыхнельзя сделать выводы о конкретном содержании текстов, но можно составить общеевпечатление об их стилистической направленности (см. табл. 1). В «тематическом»контексте наиболее значимыми оказывались сложные номинации (глобальноеинновационное партнерство) и предикативные конструкции, описывающие ситуацию(только что приземлился) (см. табл.

1). Структурные составляющие сюжета далиболее полное и объективное представление о сюжете, чем структурные составляющиеединичного текста. Информанты в целом выделяли более длинные сегменты, чемпрограмма. Информанты были нацелены на описание ситуаций, они выделялибольшее число предикативных сочетаний – длинные конструкции в целом болеетипичны, чем длинные коллокации.Число пересекающихся длинных связанных сегментов, выделяемыхпрограммой и информантами, в существенной степени зависит от типа текста.

Дляболее динамичных сюжетов и текстов (включающих описание последовательностисобытий) число пересечений меньше, для более статичных – больше65. Это один изпараметров, позволяющих оценить структуру единичного текста и текстов сюжета вцелом. Мы ни в коей мере не рассматривали эксперимент с информантами каквариант оценки работы программы; вычислительный эксперимент и эксперимент синформантами имели одинаковый статус.Набор длинных связанных сегментов, выделяемых информантами, на нашвзгляд, может считаться самоценным для анализа структуры текста, т.к.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее