Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 23

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 23 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 232020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 23)

[158; 162]). Мыв своем исследовании языка и речи идем от реализации, от имеющегося в нашемраспоряжении материала.Рассматриваем все связанные сочетания двух и более лексических единиц,которые выделяются нами из текста на основании статистических критериев и/илиэкспериментов с информантами. Выделяемые единицы представляют собойнеоднородное множество, требующее интерпретации (см. главу 2). Возвращаемся ктеме «единица и контекст» уже на витке, приближающемся к конкретным текстам(своего рода связка между главой 2 и 4):минимальный контекст, в котором реализуются лексические и морфологосинтаксические явления;текстовый контекст, включающий в себя фрагменты текста вплоть до текстацеликом;контекст, предполагающий учет текстов определенного типа (заданногофункционального стиля, отобранной коллекции текстов и т.д.)72Неоднословнные связанные сегменты выступают, прежде всего, какструктурные составляющие текста или однородных коллекций (например, сюжетов).Анализ этих структурных составляющих позволяет исследовать структуру текстаи/или текстов.

Единицы и контекст(-ы) анализируются во взаимодействии: контекст икоммуникативная задача определяют выбор единиц анализа. Тематически однороднаяколлекция (сюжет) изучается методами, пришедшими из лингвистики текста(дискурса).Нами оценивались следующие данные:o полученные в ходе вычислительных экспериментов:o список наиболее связанных n-грамм по коллекции;o список наиболее связанных n-грамм по подколлекции (подколлекцияявляется тематически более однородной, чем исходная коллекция);o отдельные тексты, представленные в виде последовательности связанныхсочетаний («сегментов» в терминологии автора программы).o полученные в ходе эксперимента с информантами отдельные тексты,представленные в виде последовательности связанных сочетаний.Подтвердились следующие гипотезы:o с увеличением степени однородности (коллекция→ однороднаяколлекция→текст) характерными становятся более длинные n-граммы;o с увеличением степени однородности (коллекция→ однороднаяколлекция→текст) увеличивается число конструкций (в соотношенииконструкция vs.

типовая коллокация), увеличивается число предикативныхсочетаний;o набор связанных сочетаний, подсчитанных для каждого текста отдельно входе вычислительного эксперимента, сходен с набором сочетаний,полученных в ходе экспериментов с информантами,o набор связанных сочетаний, выделенный в ходе экспериментов синформантами, содержит несколько больше предикативных сочетаний, чемнабор связанных сочетаний, сформированный в ходе вычислительногоэксперимента.Такое исследование предполагает сочетание вычислительного эксперимента иэксперимента с информантами. В ходе вычислительного эксперимента мерысовместной встречаемости определяется на основании видоизмененной меры Дайса(Dice) [19]: 2 * f ( x, y ) Dice' ( x, y ) = log 2 f ( x) + f ( y) ,где f(x) и f(y) – частота встречаемости слов x и y в коллекции, а f(x,y) – частотасовместной встречаемости слов x и y.Процесс вычислительного эксперимента можно коротко описать следующималгоритмом.

Сначала для всех пар слов по всей коллекции считается коэффициентДайса. Затем для каждого конкретного текста, представляющего собой цепочку словили, вернее, цепочку пересекающихся пар (слово х с предшествующим словом ислово х с последующим словом), осуществляется «сборка» связанных сегментов. Припоследовательном прохождении от слова к слову в каждом тексте уже известнысоответствующие значения меры Дайса для всех пересекающихся пар.

На основаниизначений этой статистической меры слова объединяются в связанные группы сучетом ближайшего контекста (принимается решение о том, надо ли присоединить73текущее слово к предыдущему). Слово не присоединяется к предыдущему, еслизначение коэффициента Дайса для данной пары ниже порогового, или если оно ниже,чем среднее арифметическое того же коэффициента для левой и правой пары. Во всехостальных случаях слово присоединяется.

Связанный сегмент может включать неболее семи слов (мы ни разу не приблизились к этому порогу). В результате такоговычислительного эксперимента мы получаем набор связанных сочетаний,подсчитанных для каждого текста отдельно, а затем объединенный в некое подобиечастотного словаря связанных сочетаний. Программа, реализующая этот алгоритм,доступна для скачивания с сайта ее создателя: http://donelaitis.vdu.lt/~vidas/tools.htm.Используемая мера выделяет связанные сегменты (как коллокации, так иконструкции), характеризующиеся информационной ценностью на материалеоднородной коллекции текстов (ср.

[20; 21]). Свое предположение мы провериличерез сопоставление с результатами, полученными с помощью стандартныхстатистических мер MI и t-score, с ключевыми словами, выделяемыми на основаниикоэффициента важности tf-idf (этот коэффициент позволяет оценить степеньважности слова по отношению к той или иной коллекции (подколлекции)) и рядомдополнительных методик. Выдвинутое предположение об информационнойзначимости связанных сегментов, выделяемых с помощью меры Дайса на материалетематически однородной коллекций текстов, подтверждается в ходе предыдущихисследований с использованием меры MI (напр., [159; 161]). При рассмотренииуказанных сегментов в рамках единичных текстов (по результатам вычислительногоэксперимента и эксперимента с информантами) будем называть их значимымиструктурными составляющими текста (значимыми для анализа текстов).Материалом послужили тексты и/или коллекции:o тексты портала Лента.ру за 2010 год - 40000 текстов общим объемом около 9,5млн.

токенов (т.е. словоупотреблений и знаков препинания);o два сюжета (или кластера), т.е. две небольших коллекции тематическиоднородных текстов, полученных с помощью ресурса «Галактика Зум»61:приезд А. Шварцнеггера в Москву - 360 текстов, около110 тыс.токенов,назначение С. Собянина - 660 текстов, 170 тыс. токенов,все тексты кластеров берутся из новостного потока, они близки повремени появления и посвящены одному событию;o три текста о А. Шварцнеггере (из Лента.ру, РИАН, Газета.ру) и два текста оСобянине (Лента.ру, РИАН) для экспериментов с информантами.Конечно, эти тексты (наряду со прочими текстами кластеров) использовалисьи в вычислительных экспериментах, т.ч.

задача состояла в сопоставлениирезультатов этих двух экспериментов для каждого рассматриваемого текста.Крайне важен этап выбора конкретных новостных сюжетов (кластеров), а далеесреди них – наиболее представительных текстов. Конечно, все мы знаем, чторезультаты кластеризации текстов не всегда нас полностью удовлетворяют. Дляисследования выбирается «чистый и компактный» кластер сравнительно большогообъема, состоящий из максимально тематически однородных текстов. Отбиралиськластеры с информационно значимым сюжетом (по субъективной оценке), имеющиечетко выстроенный сюжет (основное действующее лицо (или лица), основное61 Этот материал любезно предоставлен нам Александром Антоновым и Станиславом Баглеем, ГалактикаZoom: galaktika-zoom.ru, http://www.webground.su74действие, сопровождающие действующие лица и/или организации, сопровождающиедействия, время, место и т.д.).

О других характеристиках скажем чуть ниже.В эксперименте с информантами – эксперименте по шкалированию – принялоучастие около 20 студентов СПбГУ и РГПУ им. А.И.Герцена, получающихгуманитарное образование62. Эксперимент с информантами представлял собой оценкусвязности между текстоформами (пробельными словами) в тексте в шкале от 0 до 5,где 5 – соответствовало максимальной, а 0 – минимальной степени связности.

Ванкете информанту предлагался текст с «пробелами для заполнения» и инструкция,требующая оценить «степень связности между словами или словом и знакомпрепинания в шкале от 0 до 5 баллов. «0» соответствует минимальной силесвязности, а «5» – максимальной силе связности. Проставьте эти баллы (от 0 до 5)во ВСЕ позиции, между ВСЕМИ словами и/или словами и знаками препинания».Информантам отдельно не объяснялся принцип оценки связности, они должны былидействовать, опираясь на интуитивные представления о связности и, конечно, на своютекстовую базу знаний. Экспериментатор не навязывает информанту предпочтение,например, синтаксического или лексико-семантического подхода, однако полученныеданные позволяют судить о том, что информанты в целом справляются споставленной задачей.

Усредненные данные по группе информантов, представилинепротиворечивую оценку степени связности между словами. На основании этихданных можно выстраивать сколь угодно длинные цепочки слов в соответствии сустанавливаемым пороговым значением связности. Эмпирически мы подобралипороговое значение, равное 3,7 баллам.

Если полученное число было больше, чем 3,7,пару слов рассматривали как связную, если меньше – как не связную.Носитель языка имеет интуитивные представления о неслучайновстречающихся сочетаниях слов: текстовые базы по текстам разных функциональныхстилей, по текстам разных тематик или по текстам, посвященным определенной теме.На основании этого знания адресат воспринимает каждый конкретный текст какнепротиворечащий некоторой текстовой базе адресата (в качестве ее аналога привычислительном эксперименте выступают коллекции и подколлекции текстов разнойстепени однородности). Тематически однородные кластеры представляли достаточнообсуждаемые события, поэтому нельзя было предположить, что информанты незнакомы с этими темами.

Эксперимент проводился примерно через месяц послеописываемых событий, так что эти темы не могли быть забыты.Наибольший интерес представляет анализ данных, полученных на материалекластеров для словоформ. При интерпретации данных по рассматриваемым сюжетаммы опирались на данные, полученные на материале двух сюжетов и пяти указанныхтекстов, однако для иллюстрации возможностей предлагаемого метода приведемрезультаты только двух текстов: одного текста о А. Шварценергере и одного текста оС.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.