Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 20

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 20 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 202017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 20)

НОС обладают существенно большей степенью компрессии по разнымусловиям; степень компрессии существенно зависит от функционального стилятекста. НОС – последовательности лучше всего распознающихся словоупотребленийтекста – рассматриваются как свертки текстов, то есть как варианты вторичныхтекстов (полученных в результате понимания исходного)57.Лакунарные тексты представляют собой формализованный вариант исключениякаждого четвертого слова (замены каждого четвертого слова амплитудномодулированным белым шумом).

Естественно, лакунарные эксперименты можно инужно проводить как для письменных, так и для звучащих текстов (исследуя“readability” и контекстную предсказуемость) [111-113]. Лакунарные текстыоказываются подвергнутыми незначительной компрессии, принцип удаления слов изтекста абсолютно формален – каждое четвертое; таким образом, среди удаленныхЗа пределами формата глав этого учебника, ориентированного, главным образом, на письменныйтекст, остались очень интересные результаты:• функциональный стиль текста определяет распределение опорных слов57 в пределах текста;• функциональный стиль текста определяет выбор процедур идентификации слов текста; разныемодели идентификации через обращение к словарю (lexical access) – когортные vs. сетевые моделивосприятия – отражают особенности разных процедур идентификации слов текста57.При распознавании слов художественного текста класс поиска, формируемый с опорой на начальныйслог (с учетом дополнительных факторов), основывается на сравнительно небольшом числе гипотез исравнительно «коротком пути» их верификации.

Наилучшая распознаваемость – у двусложных слов, они жеявляются наиболее частотными ритмическими структурами в рассматриваемом тексте. Для распознавании словделового текста приходится допустить более широкое использование других – «некогортных» – стратегийвосприятия, дополняющих / замещающих собственно когортные.

Эта часть наших данных скорее согласуется спредставлениями модели SHORTLIST, в рамках которой не акцентируется значимость начальной позициислова (см., например, [71]).Различие в сегменте, преимущественно запускающем процедуру поиска слов в словаре («lexical access»), неявляется единственным различием. Главное различие в последовательности / параллельности процедуробработки. Главное преимущество сетевых моделей в том, что они предполагают параллельную обработкуинформации по разным путям проверки (например, сегмент, число слогов, место ударения и т.д.). Для болеепростых ситуаций коммуникации (известная тема, короткие слова, короткие синтагмы и фразы) ифункциональных стилей художественного текста или тем более бытового разговора может оказатьсядостаточной когортной модели распознавания слов в тексте.

При усложнении ситуации коммуникации снеобходимостью включаются более сложные модели. Сетевые модели позволяют параллельную обработку,достигают необходимого результата (слова-кандидата) с большей вероятностью при больших искажениях – каксубъективных (например, сложная предметная область или незнание ее адресатом), так и объективных(внесения помех в объект (текст) или передачу объекта. Более того – сетевые модели и параллельный анализвходной информации приближают нас к учету психофизиологической природе распознавания и пониманиятекста.

Именно эти модели подходят для наиболее востребованных в компьютерной лингвистикеинформационно насыщенных текстов (научном, официально деловом, тексте новостных сообщений).5763слов оказываются слова с разными фонетическими и/или внефонетическимихарактеристиками (служебные и знаменательные, полноударные и клитики, элементытемы и ремы и т.д.).Эксперименты по восстановлению текста на основании обоих вариантовкомпрессированных текстов предоставляют возможность исследования контекстнойпредсказуемости и шире – понимания текста.

Лакунарный текст и НОС существенноразличаются по принципу сжатия и степени компрессии. Использование этих методикпозволило по-новому взглянуть на роль общеязыковой частотности / частотывстречаемости для указанных функциональных стилей (в словарях С.Шарова иО.Ляшевской), собственно смысловых и коммуникативных структур с точки зренияконтекстной предсказуемости.

Выводы, полученные на материале двухэкспериментальных режимов – зашумленный и лакунарный текст – подтверждаюти/или взаимодополняют друг друга.Общеязыковая частота встречаемостиДеловой лакунарный текст• При восприятии лакунарного делового текста (в отличие от восприятия текстав шуме) общеязыковая частотность словоформ играет существенную роль.• Для этого текста возможно переструктурирование словаря в результатеподстройки слушающего под особенности этого текста.• На конечном фрагменте текста редкие лексемы восстанавливаются значимолучше, чем на начальном или конечном.Художественный лакунарный текст• Для художественного текста общеязыковая частотность словоформ играетсущественную роль.• Для художественного текста общеязыковая частотность лексем играетсущественную роль.• Не происходит переструктурирования словаря по мере продвиженияслушающего по тексту (по мере понимания смысла текста [тема и наборподтем текста]).• Нет значимых различий в восстанавливаемости редких словоформ (и редкихлексем) на конечном фрагменте и на начальном (или конечном) фрагментетекста.Общим свойством, характеризующим восстановление и делового, ихудожественного лакунарных текстов, является значимость роли общеязыковойчастотности словоформ (как основных единиц перцептивного словаря): чем вышечастота встречаемости, чем лучше точная восстанавливаемость.

При восприятиитекста в шуме этот признак имел значение лишь для художественного текста. Дляхудожественного лакунарного текста значимым признаком оказалась также частотавстречаемости лексемы, что может отражать то, что задача восстановления отдельных(лакунаризируемых) единиц может задействовать в стратегии восприятия и болеевысокий уровень – уровень понимания сюжета. Восприятие (и восстановление)лакунарного делового текста в существенно меньшей степени включает процедурупонимания: испытуемые незнакомы с предметной областью текста.Собственно смысловая структураДеловой лакунарный текст• Имеет место подстройка слушающего под особенности текста; в результатеэтой подстройки частотность слова (или более крупной структурной64составляющей текста) по тексту имеет существенное значение при оценкестепени предсказуемости.• На конечном фрагменте КС восстанавливаются значительно лучше, чем неКС.• По мере продвижения слушающего от начального фрагмента текста кконечному происходит улучшение предсказуемости КС, в результате чего наконечном фрагменте КС восстанавливаются несколько лучше, чем неКС.• Данные о роли собственно смысловых структур на материале лакунарногоэксперимента аналогичны данным эксперимента по восприятию текста вшуме.Художественный лакунарный текст• Подстройка слушающего под особенности текста не сопровождаетсяизменением частотности элементов текста по сравнению с общеязыковойчастотой встречаемости.• На начальном фрагменте КС восстанавливаются значительно хуже, чем неКС.• Данные о роли собственно смысловых структур на материале лакунарногоэксперимента и на материале эксперимента по восприятию текста в шумедополняют друг друга.Общим для восприятия делового и художественного лакунарных текстовявляется то, что от начального к конечному фрагменту текста происходит увеличениепредсказуемости позиций КС, то есть понимание текста сопровождаетсяформированием смысловых вех.В процедурах восприятия текста конкурируют разные «окна сверки»контекстной предсказуемости, каждому из которых присваиваются разные веса.Наибольший вес минимальное «окно сверки» имеет для восстановления компонентовнеоднословных целостностей, например, для фразеологизмов и так далее, во всегорло, от всей души, чтобы духу твоего не было; сложных номинаций внутреннийрынок, транспортные средства и т.д.

(т.е. для коллокаций и конструкций). Текстовое«окно сверки» является максимальным; формирование смысловых вех характеризуетименно такое «окно сверки». Для художественного текста, по-видимому, характерновзаимодействие «окна сверки», равного всему художественному тексту и равногосмысловому блоку текста.Коммуникативная структураДеловой лакунарный текст• От начального к конечному фрагменту текста происходит увеличениепредсказуемости позиций темы.• На конечном фрагменте элементы темы восстанавливаются значительнолучше, чем элементы ремы.• Данные о роли коммуникативных структур на материале лакунарногоэксперимента аналогичны данным эксперимента по восприятию текста вшуме.Художественный лакунарный текст• В условиях этого экспериментального режима нейтрализуется различие впредсказуемости между элементами темы и ремы.• Нейтрализуется зависимость предсказуемости элементов темы и ремы отпродвижения по тексту (от смыслового блока).65• Данные о роли собственно смысловых структур на материале лакунарногоэксперимента и на материале эксперимента по восприятию текста в шумевзаимодополняют друг друга.Можно ли НОС представить в виде свертки текста, а затем в «обратном»эксперименте восстановить текст на основании этих наборов, полученных на разныхтекстах (функциональных стилях) и разных фрагментах? НОС – упорядоченныепоследовательности (фонетических) словоформ, где опорные слова являютсянаиболее распознаваемыми при восприятии текста в шуме58.

Более традиционнымвидом сверток является набор ключевых слов (НКС), в котором задан порядок –порядок введения КС в текст. КС отражают тему текста, а упорядоченность слов вНКС активирует ассоциативные связи, необходимые для существования любоготекста (что проявляется в возможности развертывания НКС в цельный и связныйтекст). НКС и НОС можно рассматривать как разные виды сверток текста,отражающих разные виды смыслового структурирования.

НОС – представляетсвертку более динамичного характера (отражающего процедуры он-лайн-пониманиятекста), НКС – свертку статичного характера, понимание текста в целомпредшествует определению КС, всвертке представлены результаты ужесвершившегося действия.Особенности НОС как сверток текста исследовались в двух серияхэксперимента по восстановление текста на основании (1) полного НОС и(2) фрагмента НОС, соответствующего начальному фрагменту текста.

Экспериментпроводился в письменно-письменной форме59.В основу эксперимента легли следующие гипотезы:• НОС позволяют осуществить построение целостного связного текста;• НОС задают функциональный стиль развертываемого текста;• НОС определяют предметную (тематическую) область развертываемого текста;• развертывание НОС позволяет определить позиции слов и/или конструкций,обладающих максимальной контекстной предсказуемостью.Определение того, принадлежат ли восстановленные тексты тому жефункциональному стилю, что и исходный, производилось на основании двухкритериев:• экспертная оценка:o заключение эксперта о принадлежности восстановленного текста к данномуфункциональному стилю (деловому или художественному),o степень статичности vs.

динамичности смены описываемых ситуаций (какдополнительный признак);• количественные (формальные) критерии:o коэффициент лексического разнообразия текстов (КЛР), что отражаетстепень разнообразия лексических средств при построении текста исоотносится с функциональным стилем текста (разнообразие лексики(высокий КЛР) характеризует художественный текст, а клишированность(низкий КЛР) – деловой текст),Результаты аналогичных экспериментов, в которых НОС были опорными словами при распознавании текстовв других режимах искажения описаны в [158].59В письменной инструкции было указано: «Перед Вами последовательность слов, извлеченных из текста.Попробуйте на их основе восстановить текст».5866o длина текстов в словах (как дополнительный признак).Существенное значение для рассматриваемого собственно смысловогоструктурирования текста имеет степень динамичности текста, которая определяетсяколичеством описываемых ситуаций:• Пересечение НОС и НКС существенно выше для статичного делового текста посравнению с динамическим художественным (52% vs.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее