Главная » Просмотр файлов » Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 22

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 22 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 222017-12-21СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 22)

Вто же время словник любого текста, который по разумным содержательнымсоображениям удается считать замкнутым, можно упорядочить» (Часть VI.Глава 2«Самоподобие в информационном пространстве» данного пособия).Использование принцип самоподобия в интернетике по самым разным причинамсоотносится с задачей выбора контекста. Одним из вариантов информационныхпотоков является коллекция текстов.

В качестве такого рода коллекций могутвыступать самые разные коллекции, с точки зрения, как структуры коллекции, так и70структуры текста (или подколлекций этой коллекции). Это плодотворная иувлекательная тема, которую в этом учебном пособии нам удалось лишь затронуть(глава 2 и 4).Что такое информационное пространство? Является ли общее информационноепространство видом контекста? Вероятно, да. Но пока еще трудно нащупатьлингвистические принципы организации такого рода контекста. И явноинформационное пространство – в современном информационном обществе –выходит за рамки привычных лингвистических контекстов (наподобие, скажем,Национального корпуса). Идеи так называемого Semantic WEB уже ближе кинформационному пространству, хотя и не покрывают всей сложности имногообразия связей, сосуществующих в сети. Может ли математическоеисследование информационного пространство приблизить нас к пониманию природылингвистических объектов? Думаю, что на этот вопрос должен быть положительныйответ.

В результате мы поймем информационную и лингвистическую природу такихобъектов как текст, кластер (сюжет), коллекция, тематическая коллекция,… можемпродолжить, и назвать в качестве примера еще полнотекстовую базу результатоводнотипных запросов поисковых машин.Одна из основных практических особенностей с коллекциями состоит еще в том,что это система коммуникации «автомат→человек», а часто и в необходимостикомпрессированной выдачи информации человеку: например, набора ключевых словили даже аннотации (или обзорного реферата). Набор ключевых слов – сверткаисходного текста, проблемы формирования набора ключевых слов связаныисключительно с анализом текстового материала коллекции, требования к выборуединицы анализа гораздо менее четкие, чем при аннотировании.В «качестве информационного портрета темы, соответствующей запросу, можнорассматривать множество ключевых слов, наиболее точно (по статистическим исмысловым алгоритмам) отражающее информацию, получаемую в результате поискапо данному запросу.

Построение информационных портретов в реальнофункционирующих системах выполняется на основе эмпирических и статистическихметодов, основу которых, как и в случае автореферирования, составляют частотнолингвистические алгоритмы». Например, «информационный портрет может бытьреализован как отдельная семантическая карта или как таблица на экране срезультатами поиска» [123: 167]. Да, действительно, информационные портретычасто «живут» в ИПС, помогая уточнять систему запроса. Однако это далеко неединственное применение наборов ключевых слов как информационных портретовтемы (коллекции того или иного вида).

Позволю себе заметить также, что существуетобилие уже упомянутых статистических и смысловых алгоритмов для полученияинформационных портретов. В ряде случаев для получения таких портретовиспользуют элементы Information Extraction (например, для извлечения наименованийперсон, организаций, географических наименований), в результате элементамианализа становятся как слова, так и коллокации, что сближает наборы ключевых слов(или словосочетаний), выделяемых автоматически и в ходе эксперимента синформантами.При создании (обзорной) аннотации осуществляется и анализ исходноготекстового материала коллекции, и синтез текста аннотации.

Все это налагает гораздоболее жесткие требования к выбору единиц, к последовательности их размещения иреализации связности (тематической и семантико-синтаксической).71«На сегодня существует множество путей решения задачи, которые достаточночетко подразделяются на два направления – квазиреферирования и краткогоизложения содержания первичных документов. Квазиреферирование основано наэкстрагировании фрагментов документов, – выделении наиболее информативныхфраз и формировании из них квазирефератов.Краткое изложение исходного материала основывается на выделении из текстовс помощью методов искусственного интеллекта и специальных информационныхязыков наиболее существенной информации и порождении новых текстов,содержательно обобщающих первичные документы» [123: 158].Представлял бы крайний интерес лингвистический анализ аннотаций всопоставлении со структурой исходного объекта: степень информационнойнасыщенности (vs.

воздействия на адресата, напр., в интервью и даже некоторыхвидах аналитики), статичность vs. динамичность (событие vs. сюжет сосменяющимися ситуациями vs. череда повторяющихся событий), компактность vs.диффузность информационной структуры и т.д.§ 4.2.Коллокации и конструкции как составляющие текстовВ предыдущей главе выборка анализируемых текстов – текстов в условномотрыве от коллекций как баз текстов – была ограничена возможностямиэкспериментов с информантами, т.е.

объектом исследования становились отдельныетексты (см. [158]). Попробуем реализовать следующий виток, когда объектомисследования становятся большая текстовая коллекция объемом в миллионысловоупотреблений и тематически однородные кластеры (подколекции). В результатеразличных вычислительных экспериментов на основе таких коллекций мы получаемданные, с одной стороны, позволяющие соотнести особенности структуры двухразных объектов (коллекции vs.

единичные тексты), с другой – определитьинтересующие нас типы текстов (структур текстов) и, тем самым, сузить материалдля экспериментальной работы с информантами. В результате мы имеем возможностьнаиболее тщательно исследовать роль контекста: большой коллекции текстов →тематически однородной подколлекции текстов (сюжет или кластер) → единичноготекста и → минимального синтаксического контекста (подробнее см. [158; 162]).

Мыв своем исследовании языка и речи идем от реализации, от имеющегося в нашемраспоряжении материала.Рассматриваем все связанные сочетания двух и более лексических единиц,которые выделяются нами из текста на основании статистических критериев и/илиэкспериментов с информантами. Выделяемые единицы представляют собойнеоднородное множество, требующее интерпретации (см. главу 2).

Возвращаемся ктеме «единица и контекст» уже на витке, приближающемся к конкретным текстам(своего рода связка между главой 2 и 4):минимальный контекст, в котором реализуются лексические и морфологосинтаксические явления;текстовый контекст, включающий в себя фрагменты текста вплоть до текстацеликом;контекст, предполагающий учет текстов определенного типа (заданногофункционального стиля, отобранной коллекции текстов и т.д.)72Неоднословнные связанные сегменты выступают, прежде всего, какструктурные составляющие текста или однородных коллекций (например, сюжетов).Анализ этих структурных составляющих позволяет исследовать структуру текстаи/или текстов.

Единицы и контекст(-ы) анализируются во взаимодействии: контекст икоммуникативная задача определяют выбор единиц анализа. Тематически однороднаяколлекция (сюжет) изучается методами, пришедшими из лингвистики текста(дискурса).Нами оценивались следующие данные:o полученные в ходе вычислительных экспериментов:o список наиболее связанных n-грамм по коллекции;o список наиболее связанных n-грамм по подколлекции (подколлекцияявляется тематически более однородной, чем исходная коллекция);o отдельные тексты, представленные в виде последовательности связанныхсочетаний («сегментов» в терминологии автора программы).o полученные в ходе эксперимента с информантами отдельные тексты,представленные в виде последовательности связанных сочетаний.Подтвердились следующие гипотезы:o с увеличением степени однородности (коллекция→ однороднаяколлекция→текст) характерными становятся более длинные n-граммы;o с увеличением степени однородности (коллекция→ однороднаяколлекция→текст) увеличивается число конструкций (в соотношенииконструкция vs.

типовая коллокация), увеличивается число предикативныхсочетаний;o набор связанных сочетаний, подсчитанных для каждого текста отдельно входе вычислительного эксперимента, сходен с набором сочетаний,полученных в ходе экспериментов с информантами,o набор связанных сочетаний, выделенный в ходе экспериментов синформантами, содержит несколько больше предикативных сочетаний, чемнабор связанных сочетаний, сформированный в ходе вычислительногоэксперимента.Такое исследование предполагает сочетание вычислительного эксперимента иэксперимента с информантами.

В ходе вычислительного эксперимента мерысовместной встречаемости определяется на основании видоизмененной меры Дайса(Dice) [19]: 2 * f ( x, y ) Dice' ( x, y ) = log 2 f ( x) + f ( y) ,где f(x) и f(y) – частота встречаемости слов x и y в коллекции, а f(x,y) – частотасовместной встречаемости слов x и y.Процесс вычислительного эксперимента можно коротко описать следующималгоритмом. Сначала для всех пар слов по всей коллекции считается коэффициентДайса.

Затем для каждого конкретного текста, представляющего собой цепочку словили, вернее, цепочку пересекающихся пар (слово х с предшествующим словом ислово х с последующим словом), осуществляется «сборка» связанных сегментов. Припоследовательном прохождении от слова к слову в каждом тексте уже известнысоответствующие значения меры Дайса для всех пересекающихся пар. На основаниизначений этой статистической меры слова объединяются в связанные группы сучетом ближайшего контекста (принимается решение о том, надо ли присоединить73текущее слово к предыдущему).

Слово не присоединяется к предыдущему, еслизначение коэффициента Дайса для данной пары ниже порогового, или если оно ниже,чем среднее арифметическое того же коэффициента для левой и правой пары. Во всехостальных случаях слово присоединяется. Связанный сегмент может включать неболее семи слов (мы ни разу не приблизились к этому порогу). В результате такоговычислительного эксперимента мы получаем набор связанных сочетаний,подсчитанных для каждого текста отдельно, а затем объединенный в некое подобиечастотного словаря связанных сочетаний.

Программа, реализующая этот алгоритм,доступна для скачивания с сайта ее создателя: http://donelaitis.vdu.lt/~vidas/tools.htm.Используемая мера выделяет связанные сегменты (как коллокации, так иконструкции), характеризующиеся информационной ценностью на материалеоднородной коллекции текстов (ср. [20; 21]).

Свое предположение мы провериличерез сопоставление с результатами, полученными с помощью стандартныхстатистических мер MI и t-score, с ключевыми словами, выделяемыми на основаниикоэффициента важности tf-idf (этот коэффициент позволяет оценить степеньважности слова по отношению к той или иной коллекции (подколлекции)) и рядомдополнительных методик. Выдвинутое предположение об информационнойзначимости связанных сегментов, выделяемых с помощью меры Дайса на материалетематически однородной коллекций текстов, подтверждается в ходе предыдущихисследований с использованием меры MI (напр., [159; 161]). При рассмотренииуказанных сегментов в рамках единичных текстов (по результатам вычислительногоэксперимента и эксперимента с информантами) будем называть их значимымиструктурными составляющими текста (значимыми для анализа текстов).Материалом послужили тексты и/или коллекции:o тексты портала Лента.ру за 2010 год - 40000 текстов общим объемом около 9,5млн.

Характеристики

Список файлов книги

Свежие статьи
Популярно сейчас
Как Вы думаете, сколько людей до Вас делали точно такое же задание? 99% студентов выполняют точно такие же задания, как и их предшественники год назад. Найдите нужный учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6455
Авторов
на СтудИзбе
305
Средний доход
с одного платного файла
Обучение Подробнее