Главная » Просмотр файлов » Диссертация

Диссертация (1148605), страница 36

Файл №1148605 Диссертация (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)) 36 страницаДиссертация (1148605) страница 362019-06-29СтудИзба
Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Текст из файла (страница 36)

180):1. Инвариантный словарь по ЧС стандартизованных словоформ2 длясписков5главныхредакций:Основной,Летописной,Киприановской,Распространенной и редакции Синопсиса;1Kendall M.G., Smith B.B. The problem of m rankings [Electronic resourse] // Annals of Mathematical Statistics. 1939.Vol.10. №3.URL: http://projecteuclid.org/DPubS?service=UI&version=1.0&verb=Display&handle=euclid.aoms/1177732186 (датаобращения 20.10.2013).2Далее в тексте и на графиках – ЧС словоформ, т.к.

ЧС рукописных словоформ не анализировались с помощьюэтой методики. Только для анализа по методикам В.В.Фуфаева и М.В.Арапова-М.М.Херц отождествлялисьсловоформы с одинаковым буквенным составом, но разным набором выносных букв. Такая дополнительная1792. Инвариантный словарь по ЧС лексем для списков 5 главных редакций;3. Инвариантный словарь по ЧС словоформ для 8 списков «Сказания»;4. Инвариантный словарь по ЧС лексем для 8 списков «Сказания»;5.

Инвариантный словарь по ЧС словоформ для пары «Распространеннаяредакция – сокращенный вариант»;6. Инвариантный словарь по ЧС лексем для пары «Распространеннаяредакция – сокращенный вариант»;7. Инвариантный словарь по ЧС словоформ для пары «Основная редакция –беллетризованный вариант»;8. Инвариантный словарь по ЧС лексем для пары «Основная редакция –беллетризованный вариант».В качестве иллюстрации в приложении Л приведены инвариантныйчастотный словарь (таблица Л.1) и инвариантные ранговые словари (таблицы Л.2Л.3), составленные по 8 спискам «Сказания».При составлении инвариантных словарей слова из общей части словниковрассматриваемых текстов были упорядочены в соответствии с их частотами вкаждом из текстов и ранжированы по убыванию частот.

Затем из полученныхранговых словарей для каждого слова были сформированы кортежи рангов,причем первым элементом в кортеже записан ранг слова в самом раннем варианте«Сказания» в пределах рассматриваемого комплекта.Поясним сказанное на примере частотного ИС, составленного на материале5 главных редакций «Сказания» (см. таблицу 13).В таблице 13 каждой лексеме соответствует кортеж из ее частот в разныхсписках. Первый элемент в каждом кортеже – частота лексемы в списке Основнойредакции, которая считается начальным состоянием текста, остальные редакциирасположены в порядке их возникновения (см. приложение Л.1).обработка сделана из-за желания получить количественные корреляты содержательных особенностей редакцийпри анализе ЧС словоформ.180Таблица 13 ― Фрагмент частотного ИС лексем для 5 редакций «Сказания»лексемаFAFBFCFDFEИ7606901203796568ЖЕ306281210340197КНЯЗЬ269246301288247НА210196215196169ВЕЛИКИИ206165227230184СВОИ184173175187157БЫТИ17415820318792ОН153184284154120ТЪ1481129310068Примечания1 F – абсолютная частота в тексте редакции2 А – Основная редакция, B – Летописная редакция, C – Киприановская редакция, D –Распространенная редакция, E – редакция СинопсисаФрагмент рангового ИС для того же набора списков приведен в таблице 14.Таблица 14 ― Фрагмент рангового ИС лексем для 5 редакций «Сказания»лексемаИЖЕКНЯЗЬНАВЕЛИКИИСВОИБЫТИОНТЪr, ранг лексемы в спискеABCD1111226233234455574466116787785389121518E13254611918Примечание ― А – Основная редакция, B – Летописная редакция, C – Киприановскаяредакция, D – Распространенная редакция, E – редакция СинопсисаЧастотные и ранговые ИС были составлены с помощью процедуры наVisual Basic1.В ранговом ИС, полученном с помощью процедуры на Visual Basic, вкаждом из словарей нет упорядочивания по алфавиту внутри групп лексическихединиц с одинаковой частотой: слова попадают в инвариантный словарь впорядке их появления в списке, соответствующем начальному состоянию текста .С одной стороны, это позволяет с большей легкостью соотнести группыкомпактно расположенных слов с эпизодами «Сказания», с другой стороны,1Автор благодарит С.Л.Пущина за предоставленные макросы на Visual Basic для проведения расчетов по методикеВ.В.Фуфаева.181переходкалфавитномуупорядочениюединицсловарявнутригруппредкочастотных слов влияет на значение ранга1 (это также существенно дляметодики М.В.Арапова-М.М.Херц).

Поэтому для всех инвариантных частотныхсловарей были дополнительно построены инвариантные ранговые словари салфавитным упорядочиванием внутри групп лексических единиц с одинаковойчастотой. Способ упорядочивания почти не влияет на форму S-распределения изначение коэффициента конкордации (см. рисунок 17 на с. 187 и графики Sраспределений в Приложении П).Способ упорядочивания существенно влияет на лексических состав разныхучастков рассматриваемого распределения, но это влияние в работе детально неисследовалось. Отчасти о нем можно судить по результатам, приводимым в § 4.5.ПоданнымранговыхИСвычислялсякоэффициентКендэла W.

Для всех комплектов списков значениеконкордацииW превышает 0,5.Коэффициент конкордации был рассчитан для всех 16 (=8х2) ранговыхинвариантных словарей (8 ИС с алфавитным упорядочиванием + 8 ИС снеалфавитным упорядочиванием).Исходные данные для расчета W содержатся в таблицах ранговыхинвариантных словарей, в строках (ni) помещены слова, в столбцах (mj) – рангикаждого слова в инвариантном словаре (см. приложения Л.2 и Л.3).Опишем пошагово расчет коэффициента конкордации W Кендэла:1.

Вычислить сумму рангов для каждой строки ni, i  1…k, суммировавранги в столбцах mj, относящихся к одной строке, j  1…r.2. Вычислить средний ранг, разделив сумму рангов для всех строк наколичество строк k.3. Вычислить отклонение суммы рангов для каждой строки от среднегоранга.4. Для нахождения S возвести полученные отклонения в квадрат ипросуммировать.1Это еще одна «оборотная сторона медали» при использовании ранга в качестве независимой величины. Ср.невозможность избавления от рангового искажения в методике В.П.Маслова.1825. Вычислить коэффициент конкордации по формуле (13):W12 Sk (r 3  r)(13)2где k – количество рангов (в данном случае равно объему словаря);r – количество ранговых распределений (т.е., количество списков, покоторым строится инвариантный словарь);S – сумма квадратов отклонений рангов от ранговой средней.Значение коэффициента конкордации W для анализируемых групп и парсписков «Сказания» приведены в таблице 15.Таблица 15 ― Значение коэффициента конкордации Кендэла W для ранговых ИСсписков «Сказания» с алфавитным и неалфавитным упорядочиванием лексических единиц,имеющих одинаковую частотуИнвариантный словарь (ИС)Единица ИСсловоформалексемаИС5главныхредакций словоформа«Сказания»ЛексемаИСОсновнойредакциии словоформабеллетризованного вариантаЛексемаИС Распространенной редакции и словоформасокращенного вариантаЛексемаИС 8 списков «Сказания»Объем ИС25249442970011541134932921Wалф0,710,800,720,810,840,930,800,86Wнеалф0,720,800,740,790,820,890,770,88По данным таблицы 15 можно сделать вывод, что коэффициентконкордации слабо чувствителен к способу упорядочивания низкочастотныхлексических единиц.Общая (т.е.

инвариантная) часть словаря невелика для комплектов словарейиз 5 и 8 списков (напомним, что в среднем в полном ЧС словоформ «Сказания»имеется 3500 словоформ, а в полном ЧС лексем – 1800 лексем), но значительнадля комплектов из двух списков.Можно подсчитать, какое количество словоупотреблений охватываютпостроенные инвариантные словари – величину покрытия (ВП) – и определитьдолю этих словоупотреблений в каждом тексте – ВП, в процентах (см. таблицу16).183Таблица 16 ― Величина покрытия комплектов и пар списков «Сказания» лексикойпостроенных по ним инвариантных словарейНазвание редакции (списка)ВПВП, в %ИС словоформ по 8 спискам «Сказания»Основная411438Летописная389539Киприановская449140Распространенная447939Редакция Синопсиса320037Сокращенный269540Компилятивный464741Беллетризованный345541ИС лексем по 8 спискам «Сказания»Основная850677Летописная775579Киприановская883178Распространенная882377Редакция Синопсиса654077Сокращенный553181Компилятивный872678Беллетризованный681680ИС словоформ по 5 спискам «Сказания»Основная514947Летописная486249Киприановская550549Распространенная524946Редакция Синопсиса386445ИС лексем по 5 спискам «Сказания»Основная910283Летописная829284Киприановская959185Распространенная948083Редакция Синопсиса714184ИС словоформ Распространенной редакции и ее сокращенного вариантаРаспространенная656257Сокращенный462368ИС лексем Распространенной редакции и ее сокращенного вариантаРаспространенная990988Сокращенный639994ИС словоформ Основной редакции и ее беллетризованного вариантаОсновная663760Беллетризованный582869ИС лексем Основной редакции и ее беллетризованного вариантаОсновная9979Беллетризованный80969096184Из таблицы 16 видно, что лексика инвариантного словаря покрывает от 38до 96% словоупотреблений в сравниваемых комплектах и подавляющую частьсловоупотреблений в парах текстов «Сказания».Теперь можно вернуться к обсуждению коэффициента конкордации.Высокий коэффициент конкордации подтверждает принадлежность выборок (т.е.,инвариантных частотных словарей списков «Сказания») к одной генеральнойсовокупности и служит основанием для применения метода структурнотопологической динамики.

Таким образом, коэффициент конкордации уже сам посебеимеетпрактическуюзначимостьдлялингвостатистики,постоянносталкивающейся с проблемой репрезентативности выборок и соотнесения их сгенеральнойсовокупностьюиможетприменятьсядляустановленияоднородности выборки.Возможность применения коэффициента конкордации для установлениянеоднородности генеральной совокупности позволяет выдвинуть следующуюгипотезу: коэффициент конкордации W пригоден для кластеризации текстов. Втом случае, если предположение верно, коэффициент конкордации долженуменьшиться при введении постороннего текста, например, другой тематики, вряд однородных текстов.Тестированиепроизводилосьначастотныхсловаряхлексемснеалфавитным упорядочиванием. Для проверки гипотезы был взят рассказН.С.Лескова «Совместитель» (8825 словоупотреблений), лемматизирован спомощью морфологического анализатора mystem (Яndex), дополнительно былисделаны следующие замены для единообразия представления инфинитива всловаре лексем: -ться  тися, -ать  -ати, -ять  -яти, -еть  -ети, -ить  -ити.Каждый частотный словарь «Сказания» поочередно заменялся частотнымсловарем рассказа Лескова, в каждом случае формировался инвариантныйсловарь и вычислялся коэффициент конкордации (результаты см.

в таблице 17).185Таблица 17 ― Изменение значения коэффициента конкордации и количества лексем винвариантном словаре при подстановке текста «Совместителя» Н.С.Лескова вместо одного изсписков «Сказания»ОбъемНазвание редакции (списка) Значение WИСОсновная0,77169Летописная0,77168Киприановская0,79176Распространенная0,77169Редакция Синопсиса0,79178Сокращенный0,78188Компилятивный0,77169Беллетризованный0,78171Примечания1 Название редакции (списка) – в этом столбце указан список, вместо которогоподставлялся текст «Совместителя»2 Значение W – значение коэффициента конкордации Кендэла, вычисленное дляинвариантного словаря 7 списков «Сказания» и текста «Совместителя»Из таблицы 17 видно, что коэффициент конкордации остается по-прежнемувысоким (0,77–0,79), но резко уменьшается объем инвариантного словаря: с 494(см.

Характеристики

Список файлов диссертации

Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)
Свежие статьи
Популярно сейчас
Почему делать на заказ в разы дороже, чем купить готовую учебную работу на СтудИзбе? Наши учебные работы продаются каждый год, тогда как большинство заказов выполняются с нуля. Найдите подходящий учебный материал на СтудИзбе!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
6487
Авторов
на СтудИзбе
303
Средний доход
с одного платного файла
Обучение Подробнее