Диссертация (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)), страница 4
Описание файла
Файл "Диссертация" внутри архива находится в папке "Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)". PDF-файл из архива "Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)", который расположен в категории "". Всё это находится в предмете "филология" из Аспирантура и докторантура, которые можно найти в файловом архиве СПбГУ. Не смотря на прямую связь этого архива с СПбГУ, его также можно найти и в других разделах. , а ещё этот архив представляет собой кандидатскую диссертацию, поэтому ещё представлен в разделе всех диссертаций на соискание учёной степени кандидата филологических наук.
Просмотр PDF-файла онлайн
Текст 4 страницы из PDF
Разногласия наблюдаются не только в выборе аналитическоймодели, но и во мнении исследователей относительно объема (достаточности)материала репрезентативной выборки (этот вопрос нерелевантен только приизучении выборки, совпадающей с генеральной совокупностью, т.е. при описаниичастотной структуры целых объектов).Характеристики гиперболических ранговых распределений частот лексикитекстов на естественном языке указывают на негауссовость таких распределений:дисперсия увеличивается с объемом выборки, выборочная средняя величинанеинформативна и даже бессмысленна из-за неопределенности генеральнойсредней1. При этом в лингвостатистике на протяжении более чем полувекашироко применяются методы классической статистики, в том числе установлениехарактеристик генеральной совокупности по выборке и многочисленные методыоценки.
Таким образом, исследователь оказывается перед выбором одного изальтернативных классов распределений: гауссовых или негауссовых.Соднойстороны,представляетсянесомненнойнегауссовостьсовокупностей (в настоящей работе принимается гипотеза именно о негауссовойприроде лексико-статистических распределений), имеющих резко асимметричноераспределение, и невыполнение для них центральной предельной теоремы (ЦПТ,даже существование которой не принимается во внимание некоторымиисследователями), а также неопределенность для них моментов любого порядка, в1Шелухин О.И., Беляков И.В. Негауссовские процессы. СПб., 1992.
312 с. ; Кудрин Б.И. Математика ценозов:видовое, ранговое, ранговое по параметру гиперболические H-распределения и законы Лотки, Ципфа, Парето,Мандельброта // Ценологические исследования. 2002. Вып. 19 : Философские основания технетики. С.357―412.11частности,дисперсии,чтоопределяетнекорректностьиспользованиятрадиционных статистических методов моделирования и оценки (см., напр.,работу С.Д.Хайтуна1). Принятие идеи негауссовости для лингвостатистическихраспределений делает неправомерным приписывание слову в языке определеннойвероятности, оставляя возможность говорить только о частоте по корпусу.Вслед за констатацией этого факта, исследователь оказывается в ситуацииотсутствия удовлетворительных способов описания негауссовых распределенийпри наличии нескольких вариантов техники осуществления такого описания.Последнее обстоятельство ставит вопрос о необходимости либо выбора лучшейиз имеющихся моделей, либо создания новой универсальной модели.В связи с этим к рассмотрению привлекаются модели из других предметныхобластей, тем более, если эти модели самими их создателями трактуются какуниверсальные (метод RHA, S-распределение, Н-распределение), применимые клюбому материалу с подобными свойствами (когда можно говорить только очастоте по корпусу – выборочной частоте).При этом, как показывает опыт моделирования, если модель обладаетвысокой степенью адекватности, то её приложение к новому, в данном случаелингвистическому, материалу может обнаружить новые нетривиальные свойствапоследнего.
Однако, подобная универсальность для части обсуждаемых вдиссертации моделей ранее никогда не подтверждалась на едином текстовомматериале.С другой стороны, кривая распределения (при разбиении на зоны) неплохоописывается некоторыми гауссовыми (в смысле выполнения для них ЦПТ)законами распределения (см. Г.Я.Мартыненко, 19782, 20093, Herdan, 19644).Таким же спорным вопросом, как и адекватность статистического аппарата,являетсяаналитическийвидраспределения,егоодномодальность / полимодальность (споры проистекают из соображений о1Хайтун С.Д.
Феномен негауссовости социальных явлений. [20― ―?]. URL: http://kudrinbi.ru/public/481/index.htm(дата обращения: 20.10.2013).2Мартыненко Г.Я. Некоторые закономерности концентрации и рассеяния элементов в лингвистических и другихсложных системах // Структурная и прикладная лингвистика. 1978. Вып.1. С.63―79.3Мартыненко Г. Я. Введение в теорию числовой гармонии текста.
СПб., 2009. 252 с.4Herdan G. Quantitative Linguistics. Berlin, Heidelberg, London. 1964. 284 р.12смешанной / однороднойприродегенеральнойсовокупности),параметрытеоретического распределения и некоторые другие.Таким образом, методологические вопросы моделирования структурытекста как поликомпонентного объекта требуют прояснения. Дискуссионныеметодологические основания были исследованы в настоящей работе с точкизренияихреализациипроинтерпретированысвконкретныхпомощьюизучениястатистическихсопоставимостимоделяхиполученныхрезультатов моделирования.Содержательно исследование представляет собой построение метамоделилексико-статистической структуры вариативного текста – «Сказания о Мамаевомпобоище» («Сказания»). Частотные словари «Сказания о Мамаевом побоище»после подтверждения роста дисперсии в спектровых распределениях вариантовтекста были обработаны с помощью каждого из выбранных средств изучениясовокупностей, после чего были произведены сопоставления характеристик этихсредств и содержательный анализ результатов применительно к тексту«Сказания».Степеньразработанностипроблемы.Проблемаприродыгауссовости / негауссовости Н-распределений является одной из тех проблем,обсуждение которых, несмотря на его напряженность, не получило своегозавершения1.
Нередко при моделировании компонентной структуры текстовпринимаетсянепринципиальное,аоперациональноедопущениеобустойчивости / неустойчивости частот (без обсуждения вопроса о существованиивероятности), определяемое на основании опыта исследователя и эмпирическогоматериала, в то время каксобственно математический аппарат негауссовыхраспределений слабо разработан, не говоря уже о практике его использования при1Яблонский А.И.
Модели и методы математического исследования науки : Науч.-аналит. обзор. М., 1977. 128 с. ;Налимов В.В. Вероятностная модель языка : о соотношении естеств. и искусств. языков М., 1979. 304 с. ; ХайтунС.Д. Негауссовость социальных явлений // Социологические исследования. 1983. №1.
С.144―152 ; Хайтун С.Д.Негауссовость социальных явлений и эволюция // Электрификация металлургических предприятий Сибири. 2005.Вып.12. С.291―300 ; Кудрин Б.И. Математика ценозов: видовое, ранговое, ранговое по параметругиперболические H-распределения и законы Лотки, Ципфа, Парето, Мандельброта // Ценологические исследования/ Технетика. 2002. Вып. 19 : Философские основания технетики.
С.357―412 ; Шелухин О.И., Беляков И.В.Негауссовские процессы. СПб., 1992. 312 с. ; Мартыненко Г.Я. Некоторые закономерности концентрации ирассеяния элементов в лингвистических и других сложных системах // Структурная и прикладная лингвистика.1978. Вып.1. С.63―79 ; Его же. Введение в теорию числовой гармонии текста. СПб., 2009. 252 с.13описании конкретного материала. В силу этого, сам факт того, что настоящаяработа – первая, в которой исследуется сопоставимость моделей, которые неиспользуют представления о гауссовости лингвостатистических распределений,принципиально отличает её от подавляющего числа исследований в даннойобласти.Указанное положение дел, связанное с содержательно-типологическойограниченностью материала исследований и научными позициями авторов,привело к тому, что для разных дискретных и недискретных объектов былиразработаны концептуально различные методы без попыток апробации методикина инородном (в частности, лингвистическом) материале достаточного объема.При этом, хотя накапливается всё больше аргументов в пользу того, чторечь идет об использовании нового класса теоретических статистик, проводятсяноваторские работы (причем на эмпирическом материале разных дисциплин),статус – предметно-специфический или универсальный – получаемых результатовне прояснен.
Таким образом, сама история моделирования количественныхсоотношенийкомпонентовцелостностиивобъекте,системности,характеризующемсяпредполагаетпроведениесвойствамиименномеждисциплинарных исследований в этой области.Следует отметить, что вопрос об аппроксимации одного и того жеэмпирического материала разными математическими моделями неоднократноставился в исследованиях по математической лингвистике1. Однако подавляющеебольшинство исследований сводится к подтверждению адекватности одноймоделидляразногоэмпирическогоматериала,поэтомуэквивалентность/специфичность моделей компонентной структуры негауссовыхсовокупностей равно как и методы оценки качества их аппроксимации остаетсясовершенно неразработанной областью.1Кромер В.В.
Ранговые полисемические распределения в синхронии и диахронии // Квантитативная лингвистика исемантика: Сб. науч. тр. Новосибирск, 2001. Вып. 3. С.25―33 ; Крылов Ю.К. Вероятностно-статистические моделисинергетизма // Ценологические исследования. Вып. 1-2. Математическое описание ценозов и закономерноститехнетики. М.-Абакан, 1996. С.110―142 ; Мартыненко Г.Я. Некоторые закономерности концентрации и рассеянияэлементов в лингвистических и других сложных системах // Структурная и прикладная лингвистика. 1978. Вып.1.С.63―79 ; Пиотровский Р.Г., Бектаев К.Б., Пиотровская А.А.
Математическая лингвистика. М., 1977. 382 с. ;Тулдава Ю.А. О частотном спектре лексики текста // Квантитативная лингвистика и автоматический анализтекстов. 1986. С.139―162.14Компонентная же структура вариативного текста как самостоятельныйпредмет изучения ранее не исследовалась вовсе, и статистические данные осоотношении компонентов в вариантах одного текста представлены впервыеименно в настоящей работе.
При этом впервые средневековый рукописный текстпредставлен как текста вариативный, несмотря на подготовленность такойтрактовки текста результатами, полученными текстологами и палеографами.Актуальность проведенного исследования обоснована отсутствием данныхо сопоставимости результатов, получаемых с помощью разных моделей, в томчисле, моделей, созданных в разных дисциплинах, в которых были предложенымодели статистической структуры поликомпонентных объектов, часть из которыхопирается на гауссовость распределения совокупности компонентов, а часть – нанегауссовость.В силу вышесказанного проведенное исследование является крайнеактуальным, поскольку результаты исследования проясняют характер и степеньуниверсальности наиболее распространенных техник изучения негауссовыхсовокупностей. Актуальность усиливается тем, что, при наличии большогообъема эмпирических данных по лингвостатистике, отдельные массивы этихданныхразрабатываютсявнутринесколькихальтернативныхверсийпредставлений о природе лингвостатистических распределений, посколькуразвитие этой области идет не путем накопления и обобщения данных,полученных предшествующими исследователями, а путем выдвижения новоговзгляда на предметную область.
Такая ситуация характерна для революционного,а не кумулятивного типа развития и свидетельствует о дефиците обобщающихконцепций в этой области.Кроме прояснения теоретических вопросов, выявление интерпретационнойсилыиактивизацияприменениянегауссовыхмоделей,описывающихкомпонентную структуру текста, являются крайне важными для задач, связанныхс машинным обучением, поскольку в этой области проблема сходимостипараметров выборки к параметрам генеральной совокупности относится ккритичным.