Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 19

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 19 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 192017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 19)

Такимобразом, в общем случае неединственность коммуникативного структурированияопределяется структурой коммуникативной ситуации. На такого роданеединственность обратила в свое время внимание Е.В. Падучева, отметив, чторазличие в описании коммуникативной структуры высказывания – это различие в егофункционировании при решении тех или иных задач, например (по [135: 109–112]:59(1) Установить линейно-интонационную структуру при синтезе предложения изего синтаксического представления. «В рамках этой задачи откоммуникативной структуры требуется, чтобы в ней содержалась вся <…>дополнительная семантическая или прагматическая информация, котораядолжна быть добавлена к синтаксическому представлению предложения».(2) Выяснить, какие значения передаются в данном языке варьированиемлинейно-интонационной структуры высказывания.(3) Выразить оптимальным образом (например, при переходе от семантическогопредставления предложения к синтаксическому) заданное содержание – смысли разного рода акценты, контрасты, меняющиеся фокусировки и проч.

и т.д.Очевидно, что решение каждой из перечисленных задач задает свой типкоммуникативного структурирования.Мы будем отталкиваться от общих «психолингвистических» представлений оключевых словах (КС)54 на основании работ, выполненных в рамках научной школыЛ.В. Сахарного и А.С. Штерн, а также на основании работ А.И. Новикова (например,[130; 131]). КС определяются в ходе эксперимента с информантами, которые должныпрослушать текст, подумать над его содержанием и выписать 10-15 слов, наиболееважных с точки зрения его содержания.Наиболее функциональными, таким образом, могли бы стать основныеположения, изложенные в работах Л.В. Сахарного и А.С. Штерн и их учеников.Кратко их можно сформулировать следующим образом:КС отражают тему текста;их упорядоченность – в наборе ключевых слов (НКС) – может трактоватьсякак эксплицитно невыраженная рема текста;при допущении того, что рема в тексте может быть не выражена эксплицитно(но лишь за счет ассоциативных связей), НКС рассматривается как один изминимальных вариантов «текста»;такого типа «текст» характеризуется «ядерной» цельностью и минимальнойсвязностью (см., например, [18; 146]).Первое положение кажется максимально обоснованным.

Оставшиеся требуютдополнительного обсуждения. По-видимому, расширение понятия «текст»,позволяющее включить НКС в множество возможных текстов, не является для наснеобходимым. В то же время возможность развертывания НКС в процедурахпорождения текста является экспериментально доказанной. Для порождения такогорода текстов необходима инструкция, запускающая механизм: например, «напишитесвязный осмысленный текст, употребив слова…» [133]. Вероятно, упорядоченностьслов в НКС активирует ассоциативные связи, необходимые для существованиялюбого текста [133].

Понимание ремы как «связующего элемента», соединяющеготемы и подтемы, оказывается противоречащим выше описываемому подходу кисследованию тема-рематической структуры и представлению о реме как оконституирующем компоненте (как высказывания, так и текста).Немного о результатах, полученных в экспериментах по восприятию звучащеготекста в шуме (сигнал/шум 0 дБ), с одной стороны, иллюстрирующих некоторые изВпрочем, вычислительный подход к оценке КС как наиболее значимых для текста (коллекции) иногдавыступал в качестве самостоятельной задачи, а не только для сопоставления результатов двух разныхэкспериментов.5460положений об информационной и коммуникативной структуре текста, с другой –позволяющие оценить осуществляемую текущим образом подстройку под текст(процедуры анализа и понимания).Коммуникативная структураДля делового текста (1) элементы темы распознаются лучше, чем элементы ремы(особенно на конечном фрагменте); (2) от начального к конечному фрагментутекста происходит улучшение распознаваемости каждого из элементов;(3) перцептивно значимой является позиция перед паузой.Для художественного текста (1) элементы ремы распознаются лучше, чемэлементы темы (особенно на конечном фрагменте); (2) от начального к конечномуфрагменту текста происходит ухудшение распознаваемости элементов темы иулучшение элементов ремы; (3) мелодика (прежде всего, понижение частотыосновного тона) представляет собой перцептивно наиболее значимыйфонетический признак для коммуникативного членения художественного текста;этот признак маркирует новое (не только для структуры «тема vs.

рема», но и«данное vs. новое»).Собственно смысловая структура• Для делового текста (1) КС распознаются лучше, чем неКС (особенно на конечномфрагменте); (2) от начального к конечному фрагменту текста происходитулучшение распознаваемости каждого из элементов; (3) перцептивно значимойявляется позиция перед паузой.• Для художественного текста (1) неКС распознаются лучше, чем КС (наначальном и конечном фрагментах); (2) наилучшей распознаваемостью обладаетсередина текста (здесь происходит нейтрализация противопоставления КС vs.неКС); (3) мелодика (прежде всего, понижение частоты основного тона) –перцептивно наиболее значимый фонетический признак маркирования КС.При распознавании слов делового текста наиболее существенным является факторзнакомства с текстом (его темой, структурой и наиболее частотными словами), КС иэлементы темы (как им и положено) распознаются сравнительно неплохо, конецтекста предсказуем и хорошо распознается.

Для художественного текста бόльшая«опорность» приходится на начальный (преамбула) и срединный (развитие сюжета)композиционные фрагменты и по-разному соотносится с компонентамикоммуникативного и смыслового членения: с темой для преамбулы, с диалогом(особенно неКС или ремой) для срединного фрагмента. Таким образом, говоря оструктурах текста и процедурах анализа, мы должны учитывать разнообразные видыконтекста, в частности, функциональный стиль, композиционную структуру ириторическую связность текста.Рассуждая о текущем словаре и ключевых словах в главе 2, мы уже упомянули,что выходя на более высокий уровень анализа и сопоставляя – (1) «текущие словари»,принадлежащие тексту и коллекциям разной степени однородности («уровнявложенности»), (2) ключевые слова, характеризующие текст и коллекции разнойстепени вложенности – можем получить полноценную информацию не только дляинформационно насыщенных текстов, но и для художественных текстов.Естественно, такого рода анализ предполагает сопоставление эксперимента синформантами и вычислительного эксперимента (для последнего особую значимостьприобретает формирование контрастивной коллекции).

Для научных текстов наличие61пересечений как характеристика степени тематической однородности коллекций ицентральном/периферийном положении текста в информационном пространствеколлекций не противоречит общей методике анализа (Пивоварова, Ягунова 2011).Поэтому остановимся на более сложном примере анализа информационных структурциклов Н.В.Гоголя:o «Петербургскиеповести» – максимальная компактность и прозрачностьинформационной структуры; достаточно большие наборы ключевых слов,выделяемых на основании и эксперимента с информантами, и вычислительногоэксперимента; два набора ключевых слов – выделяемых на основаниивычислительного эксперимента55 и эксперимента с информантами – хорошодемонстрируютразличия между двумя типами информационных структур:извлекаемой человеком в процессе понимании текстов vs.

выделяемой автоматомпри реализации процедур информационного поиска.o «Украинская тематика» (Цикл «Миргород» и «Вечера на хуторе близ Диканьки») –максимальная неоднородность структуры; списки ключевых слов, выделяемые входе вычислительного эксперимента, интуитивно кажутся наиболее адекватнымидля понимания текстов носителем языка.o поэма «Мертвые души» – демонстрирует промежуточную картину.Сопоставление с данными о распределении потенциально ключевого слова впространстве текста позволяет произвести формализованную классификацию типовКС (типы действующих лиц, ключевые слова, аккумулирующие содержательные вехиописания и/или рассуждения и т.д.) [154-156].Исследуя наборы ключевых слов мы – в зависимости от методики интерпретацииполученных данных – можем создать свертку разной степени компрессии. Этоопределяется выбором единицы анализа. В выше приведенных рассуждениях(результатах) была использована традиционная для КС единица анализа: лексема.Словоформы из анкет информантов нормализовались и представлялись в виде спискалексем.

Однако в то же время для решения ряда других задач нужно представлятьданные в виде более компактных лексико-семантических единиц (с точностью досинонима, с точностью до ближайших дериватов (объединяя, напр., статистика истатистический), с точностью до тематического класса56. Однако без использованиятезауруса эта задача решается неоднозначно, мнения экспертов часто не совпадают. В[126] приводятся крайне интересные решения выделения-построения-использования«лексических цепочек в построении тематического представления текста (там же,глава 19: 375-393).

Конечно же, предлагаемые решения базируются на использованиитезаурусного представления РуТез [126], и заставляют серьезно задуматьсялингвистов.Ср. КС, выделенные на основании tf-idf: Акакиевич, рука, шинель, Ковалев, лицо, ростовщик, Акакий,медж, асессор, Яковлевич, пуф, коллежский, маиор, нос, титулярный, Шиллер, квартальный, коломна,Чартков, бакенбарды, лорнет, Пискарев, время, прыщик, проспект, департамент, Рафаэль, Чертокуцкий,голова, Фидель, чорт, комната, Психея, портрет, художник, происшествие, человек, слово, чиновник, Невский,Испания, дама, глаза, штаб-офицерша, казаться, Гофман, беспрестанный.56Устоявшейся терминологии нет, в [158] я использовала термины «классов эквивалентности» и «классовусловной эквивалентности».5562§ 3.5.Избыточность.

Компрессия текста. Свертки текстаМы обозначим контуры парадигмы исследования восприятия и понимания текста– делового и художественного – на материале экспериментально полученныхкомпрессированных текстов (в результате лингвистической компрессии), то есть этитексты можно охарактеризовать как имеющие и адаптационную, и лингвистическуюкомпрессию.

В качестве компрессированных вариантов представления текстарассматривается два типа: лакунарный текст и наборы опорных слов (НОС). Подопорными словами мы здесь понимаем слова, характеризующиеся максимальнойразборчивостью в одном из экспериментальных режимов. Для примера ограничимсятолько одним: восприятием текста в шуме. Предполагается, что высокаяразборчивость (не менее 30% информантов) отражает высокую информационнуюзначимость этих слов, что проявляется и в их реализации, и в результатах восприятия(понимания).

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее