Диссертация (1148605), страница 20

Файл №1148605 Диссертация (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)) 20 страницаДиссертация (1148605) страница 202019-06-292019-06-29СтудИзба

Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 20)

То, что мыинтуитивно ощущаем разницу между частыми и редкими словами, причем слово,которое оказывается частым в одном тексте, почти всегда оказывается частым и вдругом тексте, не представляется типичной ситуацией, если рассмотреть весьнабор случаев, когда возникает ранговое распределение. Автор, которыйсчитается ведущим в своей области, крайне редко сохраняет такой высокий статусв другой области.

Журнал, профильный по данной тематике, очевидно, неявляется профильным по другой, он может перестать быть профильным поданной тематике с течением времени и т. п. Одним словом, устойчивость статусасама есть вещь скорее нуждающаяся в объяснении, чем такая, которая может чтолибо объяснить»3.1Там же. С. 10.Там же.

С. 11.3Там же.291Критика традиционного подхода к описанию ранговых гиперболическихраспределений в лингвостатистике как результата случайного процесса сводится,таким образом, к оспариванию правильности допущения о существованиигипотетического объекта – «статистического ансамбля “однородных” текстов»1 и,как следствие, сомнительности утверждения об устойчивости частоты слов вестественном языке.Как указывают М.В.Арапов и Ю.А.Шрейдер, «еще в книге Хердана(имеется в виду «Language as Сhance and Choice» – Л.К.) отмечалось, что хотяформа ранговых распределений довольно устойчива, эмпирическая оценкачастоты появления фиксированного слова существенно зависит от исследуемогокорпуса текстов.

Обычно объяснение этого сводится к тому, что вероятностьпоявления данного слова в тексте определяется не системой языка в целом, нодостаточно узким подъязыком. Однако опыт скорее указывает на то, что частотаданного слова в тексте есть характеристика самого текста. Наконец, тот факт, чтов тексте имеется достаточно много слов (порядка половины словника),употребляемых ровно по одному разу, вероятностные механизмы никак необъясняют. Не объясняют они также четкую зависимость между объемомсловника и длиной текста»2.

Ю.А.Шрейдер и М.В.Арапов предлагают описыватьсоотношение между объемом словаря и объемом текста следующей формулой:L=NlnN, где L – количество словоупотреблений в тексте, N – объем словаря3 (ср.формулу, предложенную Г.Хипсом4: V= αNβ, β – от 0,4 до 0,6 для европейскихязыков, α – от 10 до 100; в обеих формулах V – объем словаря, N – объем текста,параметры α и β подбираются эмпирически). Ряд подобных формул приводится вработах Г.Хердана5, А.П.Левича6 и Ю.А.Тулдавы7.Ю.А.Шрейдер и М.В.Арапов обосновали закон Ципфа, основываясь накомбинаторных1методахвсочетаниисвариационнымисчислениемиТам же. С. 12.Закон Ципфа и принцип диссимметрии системы.

С.76.3Там же. С.94.4Heaps H. Information retrieval: computational and theoretical aspects // Library and information science. 1978.P.206―208.5Herdan G. Type-token mathematics. P.76―77.6Левич А.П. Структура экологических сообществ. М., 1982. С.36―50.7Тулдава Ю.А. Проблемы и методы квантитативно-системного исследования лексики. Таллин, 1987. С.167―170.292экстремальными принципами, поскольку были убеждены в негауссовой природеН-распределений и считали исследование таких распределений методамиклассической статистики непозволительной и грубой ошибкой.

В частности,Ю.А.Шрейдером была сформулирована теорема о том, что репрезентативнаявыборка должна быть того же порядка, что и генеральная совокупность (т.е.,около 10%)1.В работе 1978 года Ю.А.Шрейдер и М.В.Арапов указывают, что «сферойдействия этого закона <закона Ципфа – Л.К.> являются естественно возникшиесложные системы.

У специалистов по статистике … сложилось скептическоеотношение к «доморощенным» законам типа закона Ципфа. Статистики склоннывидеть в них самодеятельные попытки естествоиспытателей аппроксимироватьменее сложными функциями частные случаи известных в статистике законовраспределенияслучайныхвеличин.Статистиков,по-видимому,смущалоотсутствие естественных вероятностных механизмов, которые можно было бысчитать ответственными за возникновение распределений типа распределенияЦипфа»2.Нужно отметить, что сам Дж.Ципф полностью осознавал непригодностьпредложенной им формулы f x r = const для описания области малых частот(“steps”), хотя и пытался подвести под данные полевого учета принципнаименьшего усилия (“Principle of Least Effort”)3.

С учетом этого факта,категоричныевысказывания4Г.ХерданавадресЦипфаиегозаконавоспринимаются несколько иначе. Ю.А.Шрейдер с соавторами5, в свою очередь,предлагают переходить от гиперболы к ступенчатой функции, начиная снекоторого момента, который соответствует частоте F  Fmax .1Шрейдер Ю.А., Шаров А.А. Системы и модели. М., 1982. С. 104.Закон Ципфа и принцип диссимметрии системы. С.75.3Zipf G.K. Human behavior and the principle of least effort.

An introduction to human ecology.4См., напр., работу: Herdan G. Type-token mathematics. ’S-Gravenhage, 1960. P.35.5Арапов М.В. Ефимова Е.Н., Шрейдер Ю.А. Ранговые распределения в тексте и языке // Научно-техническаяинформация. Сер.2. 1975. № 2.293Математическая модель, предложенная Ю.А.Шрейдером и М.В.Араповым,заключается в отыскании минимума произведения асимметрий разбиения икоразбиения некоторого эмпирического распределения1.«Пусть А = {X1, X2, …, Xi, XN} – разбиение М.

Разбиение A* = {Y1, Y2, …,Yj, YP} является коразбиением к разбиению А, если:1) любое пересечение Xi∩Yj≠ 0 содержит не более одного элемента;2) Xi∩Yj≠ 0 следует Xk∩Yj ≠ 0 для всех классов Xk разбиения А таких, чтоnk≥ni.Все коразбиения А* данного разбиения А изоморфны и определяются самимисходным разбиением, достаточно рассматривать только одно разбиение»2.Авторы модели формулируют принцип максимума диссимметрии системыкак условие минимальности величины Ф = Н(А)Н(А*). Собственно принципмаксимума диссимметрии системы состоит в том, что «наиболее вероятным (илиэталонным) состоянием системы считается то, где достигает минимума величинаФ. Минимум величины Н(А) определяет наиболее вероятное состояние системыпросто потому, что минимуму Н(А) соответствует максимальный статистическийвес данного состояния в силу равенства P( A) L!, где L – длина текста,H ( A)NH ( A) n!i– число возможных преобразований на множестве, разбитомi 1на классы численностью n1, n2, … nN»3.В итоге авторы получают красивый для интерпретации результат: минимумпроизведенияразбиенияикоразбиениядостигается,еслиимеетместораспределение Ципфа4.Исследованием модели устанавливается, что эталонная форма ранговогораспределения имеет вид гиперболы, симметричной относительно биссектрисыпервого квадранта, в частности, в разбиении А есть ровно один класс смаксимальным числом элементов, а объем словаря V равен числу употреблений1Закон Ципфа и принцип диссимметрии системы.

С.81.Там же. С.82―83.3Закон Ципфа и принцип диссимметрии системы. С.89.4Там же. С. 91.294самого частого слова1. Исследования реальных текстов показывают, однако, чтораспределение частот слов в них подчиняется закону, который должен содержатьпо крайней мере два параметра2.Средиисследователей,вовлеченныхв«ципфиаду»,Ю.А.Шрейдерпоследовательно проводил идею о негауссовости гиперболических ранговыхраспределений, сосредоточиваясь на интерпретации формы кривой распределениякакналичия(отсутствия)смысла,свойствазавершенности,красотыврассматриваемом тексте.

Самые интересные результаты, связанные с этимисвойствами, были получены Ю.К.Орловым, которому удалось показать, что главыромана «Война и мир», взятые целиком, описываются распределением Ципфалучше, чем произвольные фрагменты любой длины: «на очень крупных текстахобнаружилось, что можно добиться лучшего совпадения, если в качестве Z(ципфовского объема – Л.К.) подставлять объемы частей (томов, книг и т.п., накоторые эти тексты поделены автором)»3.Ю.К.Орловым также было введено понятие дифференциальной скоростисловаря, зависящей от отношения ципфовского объема к длине текста ивыдвинута следующая гипотеза: «при порождении или восприятии текста в тойили иной форме осуществляется (по-видимому, вне сознания) контроль именно задифференциальной скоростью роста словаря, и ситуация, когда относительноеприращение словаря начинает вдвое отставать от относительного приращениятекста, опосредствуется в сознании как некая завершенность, законченностьтекста.

Дальнейшее уменьшение этой величины начинает ощущаться, как«затянутость» и т.п.»4. Ю.К.Орлов, по-видимому, был единственным, ктопостановил вопрос о различиях статистической структуры текста и фрагментатекста и указал, что фрагментарность проявляется «провисанием» кривой вобласти средних частот5, (то есть, меньшими значениями частот средней зоны1Там же.Там же. С.94.3Орлов Ю.К. Модель частотной структуры лексики // Исследования в области вычислительной лингвистики илингвостатистики. М., 1978.

Характеристики

Тип файла

PDF-файл

Размер

23,89 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

negaussovoe-modelirovanie-leksiko-statisticheskoj-struktury-variativnogo-teksta-na-primere-skazanija-o-mamaevom-poboische.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.