Автореферат (1148604), страница 2

Файл №1148604 Автореферат (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)) 2 страницаАвтореферат (1148604) страница 22019-06-292019-06-29СтудИзба

Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Разногласия наблюдаются не только в выбореаналитической модели, но и во мнении исследователей относительно объема(достаточности) материала репрезентативной выборки (этот вопроснерелевантен только при изучении выборки, совпадающей с генеральнойсовокупностью, т.е. при описании частотной структуры целых объектов).Характеристики гиперболических ранговых распределений частотлексики текстов на естественном языке указывают на негауссовость такихраспределений: дисперсия увеличивается с объемом выборки, выборочнаясредняявеличинанеинформативнаидажебессмысленнаиз-занеопределенности генеральной средней (Шелухин, Беляков, 1992, Кудрин,2002). При этом в лингвостатистике на протяжении более чем полувека широкоприменяются методы классической статистики, в том числе установлениехарактеристик генеральной совокупности по выборке и многочисленныеметоды оценки.

Таким образом, исследователь оказывается перед выборомодного из альтернативных классов распределений: гауссовых или негауссовых.С одной стороны, представляется несомненной негауссовостьсовокупностей (в настоящей работе принимается гипотеза именно онегауссовой природе лексико-статистических распределений), имеющих резкоасимметричное распределение, и невыполнение для них центральнойпредельной теоремы (ЦПТ, даже существование которой не принимается вовнимание некоторыми исследователями), а также неопределенность для нихмоментов любого порядка, в частности, дисперсии, что определяетнекорректность использования традиционных статистических методовмоделирования и оценки (см., напр., работу С.Д.Хайтуна - Хайтун, [20― ―?]).Принятие идеи негауссовости для лингвостатистических распределений делает5неправомерным приписывание слову в языке определенной вероятности,оставляя возможность говорить только о частоте по корпусу.Вслед за констатацией этого факта, исследователь оказывается вситуации отсутствия удовлетворительных способов описания негауссовыхраспределений при наличии нескольких вариантов техники осуществлениятакого описания.

Последнее обстоятельство ставит вопрос о необходимостилибо выбора лучшей из имеющихся моделей, либо создания новойуниверсальной модели.В связи с этим к рассмотрению привлекаются модели из другихпредметных областей, тем более, если эти модели самими их создателямитрактуются как универсальные (метод RHA, S-распределение, Нраспределение), применимые к любому материалу с подобными свойствами(когда можно говорить только о частоте по корпусу – выборочной частоте).При этом, как показывает опыт моделирования, если модель обладаетвысокой степенью адекватности, то её приложение к новому, в данном случаелингвистическому, материалу может обнаружить новые нетривиальныесвойства последнего.

Однако, подобная универсальность для частиобсуждаемых в диссертации моделей ранее никогда не подтверждалась наедином текстовом материале.С другой стороны, кривая распределения (при разбиении на зоны)неплохо описывается некоторыми гауссовыми (в смысле выполнения для нихЦПТ) законами распределения (см. работы Г. Я. Мартыненко– Мартыненко,1978, 2009 – и Г. Хердана – Herdan, 1964).Таким же спорным вопросом, как и адекватность статистическогоаппарата,являетсяаналитическийвидраспределения,егоодномодальность / полимодальность (споры проистекают из соображений осмешанной / однородной природе генеральной совокупности), параметрытеоретического распределения и некоторые другие.Таким образом, методологические вопросы моделирования структурытекста как поликомпонентного объекта требуют прояснения. Дискуссионныеметодологические основания были исследованы в настоящей работе с точкизрения их реализации в конкретных статистических моделях ипроинтерпретированы с помощью изучения сопоставимости полученныхрезультатов моделирования.Содержательно исследование представляет собой построение метамоделилексико-статистической структуры вариативного текста – «Сказания оМамаевом побоище» («Сказания»).

Частотные словари «Сказания о Мамаевомпобоище» после подтверждения роста дисперсии в спектровых распределенияхвариантов текста были обработаны с помощью каждого из выбранных средствизучения совокупностей, после чего были произведены сопоставленияхарактеристик этих средств и содержательный анализ результатовприменительно к тексту «Сказания».Степеньразработанностипроблемы.Проблемаприродыгауссовости / негауссовости Н-распределений является одной из тех проблем,обсуждение которых, несмотря на его напряженность, не получило своего6завершения (Яблонский, 1977, Арапов, Шрейдер, 1978, Мартыненко, 1978,2009, Налимов, 1979, Шелухин, Беляков, 1992, Кудрин, 2002, Хайтун, 1983,2005, Popescu, Mačutek, Altmann, 2009 и др.).

Нередко при моделированиикомпонентной структуры текстов принимается не принципиальное, аоперациональное допущение об устойчивости / неустойчивости частот (безобсуждения вопроса о существовании вероятности), определяемое наосновании опыта исследователя и эмпирического материала, в то время каксобственно математический аппарат негауссовых распределений слаборазработан, не говоря уже о практике его использования при описанииконкретного материала. В силу этого, сам факт того, что настоящая работа –первая, в которой исследуется сопоставимость моделей, которые не используютпредставленияогауссовостилингвостатистическихраспределений,принципиально отличает её от подавляющего числа исследований в даннойобласти.Указанное положение дел, связанное с содержательно-типологическойограниченностью материала исследований и научными позициями авторов,привело к тому, что для разных дискретных и недискретных объектов былиразработаны концептуально различные методы без попыток апробацииметодики на инородном (в частности, лингвистическом) материаледостаточного объема.При этом, хотя накапливается всё больше аргументов в пользу того, чторечь идет об использовании нового класса теоретических статистик, проводятсяноваторские работы (причем на эмпирическом материале разных дисциплин),статус – предметно-специфический или универсальный – получаемыхрезультатов не прояснен.

Таким образом, сама история моделированияколичественных соотношений компонентов в объекте, характеризующемсясвойствами целостности и системности, предполагает проведение именномеждисциплинарных исследований в этой области.Следует отметить, что вопрос об аппроксимации одного и того жеэмпирического материала разными математическими моделями неоднократноставилсявисследованияхпоматематическойлингвистике(Пиотровский, Бектаев, Пиотровская, 1977, Мартыненко, 1978, Тулдава, 1986,Крылов Ю.К., 1996, Кромер, 2001).

Однако подавляющее большинствоисследований сводится к подтверждению адекватности одной модели дляразного эмпирического материала, поэтому эквивалентность/специфичностьмоделей компонентной структуры негауссовых совокупностей равно как иметоды оценки качества их аппроксимации остается совершеннонеразработанной областью.Компонентная же структура вариативного текста как самостоятельныйпредмет изучения ранее не исследовалась вовсе, и статистические данные осоотношении компонентов в вариантах одного текста представлены впервыеименно в настоящей работе.

При этом впервые средневековый рукописныйтекст представлен как текста вариативный, несмотря на подготовленностьтакой трактовки текста результатами, полученными текстологами ипалеографами.7Актуальность проведенного исследования обоснована отсутствиемданных о сопоставимости результатов, получаемых с помощью разныхмоделей, в том числе, моделей, созданных в разных дисциплинах, в которыхбыли предложены модели статистической структуры поликомпонентныхобъектов, часть из которых опирается на гауссовость распределениясовокупности компонентов, а часть – на негауссовость.В силу вышесказанного проведенное исследование является крайнеактуальным, поскольку результаты исследования проясняют характер и степеньуниверсальности наиболее распространенных техник изучения негауссовыхсовокупностей.

Актуальность усиливается тем, что, при наличии большогообъема эмпирических данных по лингвостатистике, отдельные массивы этихданных разрабатываются внутри нескольких альтернативных версийпредставлений о природе лингвостатистических распределений, посколькуразвитие этой области идет не путем накопления и обобщения данных,полученных предшествующими исследователями, а путем выдвижения новоговзгляда на предметную область. Такая ситуация характерна дляреволюционного, а не кумулятивного типа развития и свидетельствует одефиците обобщающих концепций в этой области.Кромепрояснениятеоретическихвопросов,выявлениеинтерпретационной силы и активизация применения негауссовых моделей,описывающих компонентную структуру текста, являются крайне важными длязадач, связанных с машинным обучением, поскольку в этой области проблемасходимости параметров выборки к параметрам генеральной совокупностиотносится к критичным.

При проецировании модели, построенной пообучающей выборке и улучшенной по проверочной, на тестовые данные(Ripley, 1996) часто происходит ухудшение качества, что объясняетсяпринадлежностью выборок к разным генеральным совокупностям. Можновыдвинуть гипотезу, что ухудшение качества обусловлено также инегауссовостью лингвистических совокупностей, проявляющейся в постоянномпоявлении маргинальных значений признаков и приводящей к изменениюсредних значений признака в обучающей и тестовой выборке и, что еще хуже, кчрезмерно близкой подгонке параметров имитационной модели.Кроме того, идея негауссовости распределений лексики по числуупотреблений полностью соответствует взглядам на порождение текста, как напроцесс, определяющийся не вероятностью появления слова, а целямииндивидуума, порождающего этот текст (Налимов, 1979, Шрейдер, 1996).Вышеизложенное свидетельствует об обоснованности и необходимостиучета негауссовости при обработке данных и установлении универсальностимоделей, не опирающихся на гауссовские статистики.Цель настоящего исследования заключается в построении метамоделилингвостатистических распределений частот лексики вариативного текста,которая позволит, с одной стороны, выявить сопоставимые меры и параметрырассматриваемых моделей и показать различия моделей, а с другой – выявитьсодержательноинтерпретируемыеколичественныехарактеристикидиахронических изменений текста.

В соответствии с поставленной целью в8работе осуществляется прояснение универсальности и интерпретационнойсилы моделей, не учитывающих гауссовость лингвостатистическихраспределений,сравнениехарактерааппроксимацииэмпирическихраспределений лексики разными теоретическими распределениями иобсуждение характера получаемых результатов и их интерпретируемости.Достижение этой цели потребовало решения следующих задач:1.

Описание и критический анализ разных подходов (статических идинамических) к изучению поликомпонентных объектов, а также выявлениеконцептуально значимых признаков для их сопоставления. В работерассматриваются следующие средства изучения совокупностей:― информационный язык RHA Т.Г.Петрова, применяемый для описанияобъектов разной природы (Петров, 1971, 2008, Петров, Фарафонова, 2005);― структурно-топологический анализ временных рядов В.

Характеристики

Тип файла

PDF-файл

Размер

1,36 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

negaussovoe-modelirovanie-leksiko-statisticheskoj-struktury-variativnogo-teksta-na-primere-skazanija-o-mamaevom-poboische.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.