Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014)

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 6

PDF-файл Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf), страница 6 Анализ текстовых данных и информационный поиск (63257): Книга - 10 семестр (2 семестр магистратуры)Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика.2020-08-25СтудИзба

Описание файла

PDF-файл из архива "Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf", который расположен в категории "". Всё это находится в предмете "анализ текстовых данных и информационный поиск" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст 6 страницы из PDF

Однако степень фразеологизации и идиоматизации в языке можетбыть разной. Поэтому правильнее было бы сказать, что фразеологизмы и идиомырасположены на шкале от инвентарных к конструктивным единицам. Кроме тогобольшую проблему представляют составные слова: «в отличие от» в современномязыке является инвентарной единицей, но состоит из трех пробельных слов(текстоформ). Каждый прикладник на своей шкуре испытал всю сложность инеоднозначность решения задачи разделения на слова (графематического анализа ипарсинга). К этой же проблеме относится, например, задача выделения(объединения?) компонентов сложных номинаций. Обо всем этом пойдет речь вданной главе.«С морфологической точки зрения слова — конечные составляющиевысказывания, т.

е. такие структурные единицы, взаимодействие которых и создаетвысказывание безотносительно к его устройству. Это значит, что, во-первых, поотношению к высказыванию словá являются мельчайшими интегрантами и, вовторых, статус слова предполагает лишь (относительную) цельность и автономность всоставе высказывания» [113: 821]. Именно по этой причине сложно, а подчас иневозможно анализировать информационную (или коммуникативную) структурутекста на уровне этих мельчайших интегрантов.В [98] было выдвинуто понятие «текущего словаря»: подобно тому, как всамом начале восприятия осуществляется фаза ориентировки (знакомство скоммуникативной ситуацией, подстройка под нее, подстройка под диктора), имеетместо и своего рода подстройка под лексико-семантические особенностивоспринимаемого текста, что позволяет сузить рабочую область словаря: перейти отобщего словаря к текущему.

Соответственно облегчаются и становятся болееэффективными процедуры идентификации (поиска в текущем словаре), ведь словарьслушающего переструктурировался.Остановимся подробнее на следующих вопросах:o как происходит подстройка слушающего под структурные особенности текста;o как формируется «текущий словарь» в процессе восприятия речи;18o как соотносится формирование «текущего словаря» с извлечением смысловойструктуры текста и ключевых слов как наиболее ярких представителей этойструктуры.Согласно [99: 136] «…«общий» словарь разбит на потенциальные «текущие» потематическому принципу, примерно так же, как это имеет место для словарейидеографического или тезаурусного типа, создаваемых лексикографами».Соотношение общего словаря и потенциальных текущих, вероятно, соответствуетсоотношению словаря, полученного на репрезентативном корпусе, и подсловарей,полученных на соответствующих подкорпусах9.В процессе восприятия речи «один из тематических словарей можетактивироваться, в результате чего и появляется возможность обращения к«текущему» словарю» (там же).

Активация рассматривается в цитируемой работе, повидимому, в традиционном контексте сетевых моделей как активация по некоторомузаданному семантическому стимулу-признаку (в частности на материале работ посемантическому праймингу (ср. [101])). «…Уровень активации не используемых вданный момент подсловарей, будучи существенно ниже, как бы временно выводит ихиз игры, тем самым поле поиска словарных единиц существенно сужается» [99: 136].Процедуры поиска в таком переструктурированном словаре по всей видимостидолжны быть наиболее легкими и быстрыми. Однако даже столь прямолинейнорешаемая задача разбиения всего общего словаря на потенциально текущие можетбыть достаточно сложно реализуемой:o как правило, возникают сложности при отнесении к какому-либо тематическомуподсловарю сравнительно частотной лексики;o возможны сложности при определении степени дробности такого родатематических словарей;o вероятно, возможность осуществления такого рода структурирования словаря(построения системы вложенных словарей) зависит, во-первых, отфункционального стиля рассматриваемых текстов (жанра, типа и т.д.) и, вовторых, от анализируемых предметных областей.Например, можно представить себе тезаурусного типа систему вложенныхсловарей научного (ср., например, библиотечные рубрикаторы и классификаторы)или делового функциональных стилей.

В какой-то степени подобную схему можнопредставить и для новостных текстов (новостных сообщений, новостных лент).Формирование «текущего» словаря осуществляется на этапе восприятия первыхкомпозиционных фрагментов текста. В дальнейшем «текущий» словарь, будучи ужесформированным, претерпевает изменения по мере узнавания структуры текста,таким образом, активированная сеть отвечает на каждый новый квант информации.Функционирование этой сети тоже в значительной степени зависит от стиля текста.Использование представления о роли «текущего» словаря в процедурах анализатекста неизбежно ставит вопрос о том, насколько при этом оказываютсявзаимосвязанными «текущий» словарь и ключевые слова. «Можно сказать, вероятно,что набор ключевых слов для заданного текста представляет собой подмножествословарных единиц, которые принадлежат «текущему» словарю…» (там же: 137).Предложенное А.В.

Венцовым и В.Б. Касевичем решение вопроса заключается в том,Построение тематических словарей разных уровней вложенности является обязательным компонентоммногих моделей автоматического понимания текста. В качестве единиц такого рода словарей выступают нетолько словоформы и лексемы, но и сложные номинации.919что «…«текущий» словарь задает широкую тематику, всю предметную область…, анабор ключевых слов очерчивает в ней определенную подобласть» (там же: 137). Повидимому, это решение соответствует основным особенностям текстов научного,делового, отчасти новостного функциональных стилей.

Вариативность возможныхпересечений подмножеств «текущего» словаря и набора ключевых слов являетсяпрямым следствием вариативности стратегий анализа и типа текста. Кроме уженазванных параметров, таких как функциональный стиль и предметная область, намой взгляд, стоит указать еще два:o степень статичности-динамичности текста,o степень информационной насыщенности, которой противопоставляетсяфункция воздействия на адресата (и другие возможные функции).Под такой характеристикой как «динамичность» понимается наличие в текстенескольких ситуаций, сменяющих друг друга. Под статичностью, соответственно, –минимальное количество ситуаций (одна-две). Все три перечисленныхфункциональных стиля имеют, казалось бы, явно выраженную статическую природу.Они занимают на шкале «статичность» vs.

«динамичность» положение близкое кстатичности, однако могут отстоять от этого полюса. Аналогично обстоит дело синформационной насыщенностью.Существенное пересечение «текущего словаря» и набора ключевых словхарактеризует, прежде всего, статичные и информационно насыщенные тексты.Максимальное число ключевых слов такого текста вводится в начальномкомпозиционном фрагменте, таким образом, и область, и подобласть задаются всамом начале анализа10.Тексты, относящиеся к научной публицистике, учебной литературе, новостнойаналитике, интервью и т.д.

оказываются в более уязвимом положении. Более того,часть ключевых слов таких текстов может вообще никогда не оказаться напересечении с «текущими словарями», ориентированными на разные предметныеобласти.С другой стороны – при решении вопросов о соотношении «текущего словаря»и ключевых слов при анализе (письменных) текстов, принадлежащих некоторымколлекциям и подколлекциям, мы выходим на более высокий уровень анализа исопоставляем:o «текущие словари», принадлежащие тексту и коллекциям разной степениоднородности;o ключевые слова, характеризующие текст и коллекции (подколлекции).Переход на этот уровень анализа позволяет получить представление о наличиипересечений как характеристике степени тематической однородности коллекций ицентральном/периферийном положении текста в информационном пространствеколлекций не только для информационно насыщенных текстов (напр., [138]), но ихудожественных текстов [156], см.

чуть подробнее в параграфе 4 главы 3.Научный текст, представляющий описание работы программы, скорее всего, будет менее статичным, чемтекст, в котором идет обсуждение некоторого положения дел.1020§ 2.2.Избыточность. Контекстная предсказуемостьПри исследовании процессов восприятия и понимания текста – устного илиписьменного – неизбежно обращение к вопросам, связанным с информационнойизбыточностью как неотъемлемому свойству любого текста. Употребляя термин«информационная избыточность»мы подчеркиваем, что для нас подход кисследованию избыточности связан с тем направлением в лингвистике, котороенаследует идеи теории информации.

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5183
Авторов
на СтудИзбе
435
Средний доход
с одного платного файла
Обучение Подробнее