Главная » Просмотр файлов » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 25

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 25 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 252020-08-25СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 25)

Если бы мыдобавили к этому набору набор двухсловных связанных сегментов или наименованияперсон (с элементами Ф.И.О.), то вся информация, необходимая для восстановлениятекста, присутствовала бы в объединенном наборе. Для рассматриваемого текстанабор двухсловных связанных сегментов с элементами ФИО следующий: Собянинутвержден, Сергей Собянин, за Собянина, Юрий Лужков, Дмитрия Медведева,помимо Собянина, Игорь Левитин, соратник Лужкова, Валерий Шанцев, ЛюдмилаШвецова, Медведев объявил, Сергее Собянине, Дмитрия Медведева, избратьСобянина, Сергей Собянин, Владимира Путина, Дмитрия Медведева, ВладимираПутина.78Таблица 2. Связанные сегменты из текста про С. Собянина , состоящие не менее, чем из 366текстоформКластерпроС. Собянина Вычислительный эксперимент(однородная коллекция)Эксперимент с информантамиСергей Собянин утвержденна пост мэраМосковской городской думыпроголосовали 32 депутататот же деньгубернатор Нижегородской областинового мэра Москвыиз 35 депутатовМосковской городской думыпроголосовали 32 депутатаучаствовали 34 человекаприсяга нового мэратот же деньКак сообщалось ранее18 : 00на посту мэра МосквыМосковской городской думыпроголосовали 32 депутатапротив высказались двоеголосование в МосгордумеКак сообщалось ранееторжественноемероприятиеинаугурация нового мэраизбрании нового градоначальника планируется провестируководившийисполнительной в 18:00центральном Федеральном округевластьюкандидатуру Сергея Собянина9 октября партия21 октября 2010 годапредставила президенту четыре нового градоначальника Москвына посту мэракандидатурыдобросовестноисполнятьисполнительной властью столицывозложенныесписок единоросов попалигубернаторНижегородской с утратой доверия президентаблагополучию его жителейобластиСоответствующий указ Дмитрияучаствовали 34 человекапрошлом - вице-мэрМедведеваисполняющая обязанности вице- на пост мэра Москвыгубернатором Тюменской областимэраостановил свой выборостановил свой выборгубернатор Нижегородской областиисполняющая обязанности вицепо его словампосле этого фракциямэра Москвыприсяга нового мэраиз 35 местпрезидент Медведев объявилМосковская городская думаорганах власти началсяаппарата правительства РФруководившийисполнительной городепообещалаподдержатьвыборКогалымХантывластьюДмитрия Медведевамансийский округагородеКогалымХантыответственные государственные в9 октября партияпостыМансийский округаизбрании нового градоначальникагубернатором Тюменской области в разные годызанималответственныедо 2008 годадо 2008 годагосударственные постыиз 35 месторганах власти началсяответственныегосударственныепостыРезультаты вычислительного эксперимента и эксперимента с информантамиэксплицируют разные информационные структуры одного и того же текста: разныеварианты извлечения информации в соответствии с намерениями и возможностямиадресата.

Адресат (носитель языка или автомат) выделяет важные вехи в тексте наосновании коммуникативной ситуации, собственных целей и задач. Разныевозможности и задачи соответствуют разным коллекциям (в соответствиитематической областью коллекции и/или разной степенью однородности) или разнымбазам знаний информантов (степени компетентности информантов). Главное – мыпроиллюстрировали то, что получаемые результаты в существенной степени зависятот лингвистической природы моделируемого объекта: в первую очередь, сюжетаПолужирным шрифтом выделены те сегменты или их фрагменты, которые присутствуют в списках,полученных как в ходе вычислительного эксперимента, так и эксперимента с информантами.6679(кластера), а во вторую – конкретного текста как представителя этого кластера.Следовательно, лингвистический анализ объекта (набора объектов) может и –надеюсь, во многих случаях должен – предшествовать вычислительным процедурам,выделяя те закономерности, которые можно предсказать на начальном этапе(«постановке» задачи коммуникации, формулировке гипотез методами лингвистикитекста).§ 4.3.Свертки для описания разных информационных объектов: оттекстов до информационных потоковПри всем различии рассматриваемых информационных объектов – текст иинформационный поток – нас интересует то, что они обладают информационной(смысловой) структурой и могут быть свернуты до набора слов и словосочетаний.Этот набор может выступать представителем (носителем) информационнойструктуры объекта (и текста, и информационного потока).

Эту тему мы поднимали впервом параграфе этой главы.Напомним, что ключевыми словами (или аналогами ключевых слов) в разныхконтекстах называют, напр.:1 выписанные группой информантов слова, наиболее важные для решенияпоставленных в инструкции задач (обычно – понимания текста),уровень значимости слова определяется как относительная частота еговстречаемости в протоколах информантов,2 автоматически выделяемые неслучайно встречающиеся в документах слова исловосочетания, важные для рассматриваемой выборки (выдачи) в рамках общегомассива документов,уровень значимости слова рассчитывается на основании некоего алгоритма.Чтобы осуществить свертывание текста в виде КС, этот текст нужно понять.Поэтому естественно считать, что свертки представляют собой результат пониманиятекста или, иначе говоря, извлечения смысла из текста. Рассмотрим примерэкспериментального исследования информационной значимости сверток (с точкизрения той задачи, которая стояла перед информантами).

С помощью такогоэксперимента изучалась возможность восстановления исходного смысла илиинформационной структуры текста.Ресурс Галактика-Зум (http://galaktika-zoom.ru/, также см. http://webground.su )предоставляет возможности для проведения исследования на материале сверток(наборов) автоматически определяемых ключевых слов. Для каждой выдачи (всоответствии с запросом) этот ресурс вычисляет и предоставляет пользователюИнформационный портрет (или Инфорпотрет), т.е. набор автоматическиопределяемых слов и словосочетаний, важных для рассматриваемой выборки (среза)в рамках общего массива документов. Инфопортрет как сверка множества текстовявляется основной возможностью для извлечения адресатом целостнойинформационной структуры: большой объем не позволяет человеку оперироватьнепосредственно с каждым текстом.Основной задачей данного эксперимента было определить, является лиИнфопортрет реальной сверткой текста, т.е.

сможет ли информант восстановить понему информацию об объекте, описанном в данном тексте, в частности, информациюпроцедурно-временного характера. Для этого перед информантами ставится задача80определения временного периода, к которому относится группа текстов. При этом изсвертки должны быть удалены все непосредственные указания на временной период(месяц, квартал, конкретные даты).Нами анализировались новостные тексты: их достаточное количество повыбранной нами тематике, они, в основном, компактны и ограничены лексически.

Вкачестве запросов были выбраны запросы «ЕГЭ» и «единый государственныйэкзамен», т.е. выбирались тексты, содержащие данные слово или словосочетание.Основания для выбора именно таких запросов были следующие:• «ЕГЭ» («единый государственный экзамен») может быть по праву названо однимиз «ключевых слов» 2009 года. Актуальность и востребованность этой темыпозволила получить в выдаче большое количество текстов (см.

табл. 1). Причемвыборочный анализ текстов выдачи показывает, что тематически они достаточнооднородны.• Тема «ЕГЭ» (или «единый государственный экзамен») была выбрана из-за того,что в самой природе рассматриваемого объекта (и текстов, его описывающих)заключена периодизация и хорошо знакомый лингвистам принцип построениясюжета. Причем эти периоды несут особую информационную нагруженность(подготовка – проведение – подведение итогов), что позволяет в процедурепроведения эксперимента с информантами через определение интервалаэксплицировать основную информацию, содержащуюся в предъявляемыхИнфопортретах.На вход системе «Галактика-Зум» были посланы запросы: (1) «ЕГЭ» и (2) «единыйгосударственный экзамен». Результаты этих запросов система распределила по 9выборкам, где каждая из выборок содержит документы, относящиеся к одному изпрошедших месяцев 2009 года (от января по сентябрь включительно).

В общейсложности 9 выборок содержало 7768 текстов для запроса «ЕГЭ» и 2232 для «единыйгосударственный экзамен». Два эксперимента – эксперимент 1 («ЕГЭ») иэксперимент 2 («единый государственный экзамен») – содержал по 9информационных портретов (для каждого по 9 выборок своего запроса). Каждомуинформанту выдавалась инструкция:«Каждый из 9 листов соответствует выборке одного месяца 2009года.Ваша задача оценить и отметить на каждом листе свой выбор:1. предположительный период: подготовка к экзамену – проведение экзамена –подведение итогов;2.

месяц: от января до сентября 2009 года;3. критерии, особенности, комментарии и т.д.»67Информанты – 16 (17) студентов и аспирантов СПбГУ гуманитарных специальностей. Они не являлисьспециалистами в предметной области (переход на систему ЕГЭ) ни в силу профессиональной деятельности, нив силу жизненного опыта (т.к.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6418
Авторов
на СтудИзбе
307
Средний доход
с одного платного файла
Обучение Подробнее