Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 22

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 22 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 222020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 22)

Вероятно, это незначительное расхождение связано синдивидуальными стратегиями порождения текста (богатство сюжетной линии,использование синонимических ресурсов и местоименной лексики).Художественный текст, НОС для начального фрагмента (преамбула изавязка).1. Все развернутые тексты – как и исходный текст – относятся к художественномуфункциональному стилю. Большинство развернутых художественных текстовхарактеризуется статичностью (отсутствием смены ситуаций). Как правило, приразворачивании НОС для начального фрагмента текста восстанавливаетсястатичный текст, а не сюжет с двумя действующими лицами и фрагментамидиалога.2.

Степень разнообразия лексем может быть связана со степенью статичности текста:восстановленные тексты являются более статичными, чем исходные, и КЛР длялексем восстановленных текстов ниже, чем для исходного текста. Возможнымподтверждением статичности восстанавливаемого фрагмента художественноготекста служит то, что КЛР для лексем восстановленных художественных иделовых текстов (начальные фрагменты) различаются лишь на уровне тенденции.3. Результаты восстановления текста – развертывания НОС в текст – позволилиопределить позиции слов, обладающих максимальной контекстнойпредсказуемостью.Главным результатом является подтверждение гипотезы о том, что НОС (длявсего текста) задают функциональный стиль тех текстов, что восстанавливаютсяиспытуемыми в эксперименте. То, что восстановленные тексты принадлежат тому жефункциональному стилю, что и исходные, подтверждается не только качественными,но и количественными критериями.

Значимость различий между КЛР (для словоформ68и лексем) восстановленных деловых и художественных текстов являетсяколичественным показателем принадлежности текстов к разным функциональнымстилям.Полученные данные не противоречат гипотезе о том, что НОС (для начальногофрагмента текст) задают функциональный стиль тех текстов, что восстанавливаютсяиспытуемыми в эксперименте. Важным результатом является взаимосвязькомпозиционного начального фрагмента со степенью «статичности vs.динамичности» всего текста: для статичного делового текста статичность сохраняетсяв восстановленных текстах.

Для динамичного художественного текста степеньстатичности повышается: фрагменты «преамбула и завязывание сюжета» имеютбóльшую динамичность, чем восстанавливаемые тексты.69Глава 4.Объект исследования современной лингвистики текста.Текст vs. информационный потокВ четвертой главе мы рассмотрим, главным образом, общие подходы и планына будущее; также приведем конкретные примеры и те данные, которые былиполучены в ходе наших экспериментов с информантами и/или вычислительныхэкспериментов. Ключевым для этой главы является представление о вариативностиинформационной структуры в соотношении таких единиц анализа как текст vs.информационный поток. Одним из пунктов было исследование типологии текстов сточки зрения способа реализации информационной структуры§ 4.1.Объекты исследованияИнформационный потоксовременнойлингвистикитекста.Изменившиеся условия существования человека коренным образом перестроилипроцедуру анализа информации.

Развитие технологий информационного ифактографического поиска открывает новое поле деятельности для специалистов вобласти компьютерной лингвистики текста. Раньше основным и единственнымобъектом лингвистического исследования был текст (его анализ, понимание). Нодля того, чтобы полноценно жить в информационном обществе, человек долженобрабатывать огромное количество информации. Лавина информации, содержащаясяв информационных потоках, не может быть воспринята и проанализированачеловеком в силу его психофизиологических ограничений.

Новый информационныйобъект – информационный поток – требует использования новых технологий,которые выступают в качестве посредника при извлечении адресатомкоммуницируемого смысла. В нашей «лингвистической» работе информационныйпоток понимается, прежде всего, как множество текстов, выступающих какединый объект: адресатов интересует смысл, заключенный сразу в сотнях и дажетысячах текстов.Гораздо подробнее – всесторонне и модельно – тема информационных потоковрассматривается Д.В.Ландэ в части 6 данного пособия. Однако мы, лингвисты, умеемработать, главным образом, с теми объектами, которые имеют лингвистическуюприроду. Тематические информационные потоки гораздо ближе к сфере интересов ивозможностей лингвистики, именно их мы в своих работах чаще всего называеминформационными потоками, учитывая структурные связи между текстами(документами) и внутри самих текстов.«В самом естественном языке устойчивость частот слов (существование ансамблястатистически однородных текстов) вызывает сомнение.

Любой целостный текстобладает индивидуальностью. Попытка найти реальные статистически однородныеансамбли текстов никому еще не удавалось. Точнее говоря, не удавалось наблюдатьтакой набор текстов, в которых слова встречались с одинаковым спектром частот. Вто же время словник любого текста, который по разумным содержательнымсоображениям удается считать замкнутым, можно упорядочить» (Часть VI.Глава 2«Самоподобие в информационном пространстве» данного пособия).Использование принцип самоподобия в интернетике по самым разным причинамсоотносится с задачей выбора контекста.

Одним из вариантов информационныхпотоков является коллекция текстов. В качестве такого рода коллекций могутвыступать самые разные коллекции, с точки зрения, как структуры коллекции, так и70структуры текста (или подколлекций этой коллекции). Это плодотворная иувлекательная тема, которую в этом учебном пособии нам удалось лишь затронуть(глава 2 и 4).Что такое информационное пространство? Является ли общее информационноепространство видом контекста? Вероятно, да.

Но пока еще трудно нащупатьлингвистические принципы организации такого рода контекста. И явноинформационное пространство – в современном информационном обществе –выходит за рамки привычных лингвистических контекстов (наподобие, скажем,Национального корпуса). Идеи так называемого Semantic WEB уже ближе кинформационному пространству, хотя и не покрывают всей сложности имногообразия связей, сосуществующих в сети. Может ли математическоеисследование информационного пространство приблизить нас к пониманию природылингвистических объектов? Думаю, что на этот вопрос должен быть положительныйответ. В результате мы поймем информационную и лингвистическую природу такихобъектов как текст, кластер (сюжет), коллекция, тематическая коллекция,… можемпродолжить, и назвать в качестве примера еще полнотекстовую базу результатоводнотипных запросов поисковых машин.Одна из основных практических особенностей с коллекциями состоит еще в том,что это система коммуникации «автомат→человек», а часто и в необходимостикомпрессированной выдачи информации человеку: например, набора ключевых словили даже аннотации (или обзорного реферата).

Набор ключевых слов – сверткаисходного текста, проблемы формирования набора ключевых слов связаныисключительно с анализом текстового материала коллекции, требования к выборуединицы анализа гораздо менее четкие, чем при аннотировании.В «качестве информационного портрета темы, соответствующей запросу, можнорассматривать множество ключевых слов, наиболее точно (по статистическим исмысловым алгоритмам) отражающее информацию, получаемую в результате поискапо данному запросу. Построение информационных портретов в реальнофункционирующих системах выполняется на основе эмпирических и статистическихметодов, основу которых, как и в случае автореферирования, составляют частотнолингвистические алгоритмы».

Например, «информационный портрет может бытьреализован как отдельная семантическая карта или как таблица на экране срезультатами поиска» [123: 167]. Да, действительно, информационные портретычасто «живут» в ИПС, помогая уточнять систему запроса. Однако это далеко неединственное применение наборов ключевых слов как информационных портретовтемы (коллекции того или иного вида). Позволю себе заметить также, что существуетобилие уже упомянутых статистических и смысловых алгоритмов для полученияинформационных портретов.

В ряде случаев для получения таких портретовиспользуют элементы Information Extraction (например, для извлечения наименованийперсон, организаций, географических наименований), в результате элементамианализа становятся как слова, так и коллокации, что сближает наборы ключевых слов(или словосочетаний), выделяемых автоматически и в ходе эксперимента синформантами.При создании (обзорной) аннотации осуществляется и анализ исходноготекстового материала коллекции, и синтез текста аннотации. Все это налагает гораздоболее жесткие требования к выбору единиц, к последовательности их размещения иреализации связности (тематической и семантико-синтаксической).71«На сегодня существует множество путей решения задачи, которые достаточночетко подразделяются на два направления – квазиреферирования и краткогоизложения содержания первичных документов.

Квазиреферирование основано наэкстрагировании фрагментов документов, – выделении наиболее информативныхфраз и формировании из них квазирефератов.Краткое изложение исходного материала основывается на выделении из текстовс помощью методов искусственного интеллекта и специальных информационныхязыков наиболее существенной информации и порождении новых текстов,содержательно обобщающих первичные документы» [123: 158].Представлял бы крайний интерес лингвистический анализ аннотаций всопоставлении со структурой исходного объекта: степень информационнойнасыщенности (vs. воздействия на адресата, напр., в интервью и даже некоторыхвидах аналитики), статичность vs. динамичность (событие vs. сюжет сосменяющимися ситуациями vs. череда повторяющихся событий), компактность vs.диффузность информационной структуры и т.д.§ 4.2.Коллокации и конструкции как составляющие текстовВ предыдущей главе выборка анализируемых текстов – текстов в условномотрыве от коллекций как баз текстов – была ограничена возможностямиэкспериментов с информантами, т.е.

объектом исследования становились отдельныетексты (см. [158]). Попробуем реализовать следующий виток, когда объектомисследования становятся большая текстовая коллекция объемом в миллионысловоупотреблений и тематически однородные кластеры (подколекции). В результатеразличных вычислительных экспериментов на основе таких коллекций мы получаемданные, с одной стороны, позволяющие соотнести особенности структуры двухразных объектов (коллекции vs. единичные тексты), с другой – определитьинтересующие нас типы текстов (структур текстов) и, тем самым, сузить материалдля экспериментальной работы с информантами. В результате мы имеем возможностьнаиболее тщательно исследовать роль контекста: большой коллекции текстов →тематически однородной подколлекции текстов (сюжет или кластер) → единичноготекста и → минимального синтаксического контекста (подробнее см.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.