Диссертация (1148605), страница 18

Файл №1148605 Диссертация (Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)) 18 страницаДиссертация (1148605) страница 182019-06-292019-06-29СтудИзба

Негауссовое моделирование лексико-статистической структуры вариативного текста (на примере «Сказания о Мамаевом побоище»)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 18)

С помощьюэтой методики, как представляется ее автору, можно описывать и отслеживатьпроцесс изменения компонентного состава объекта.Даже этот беглый и не претендующий на полноту набросок позволяетзафиксировать обилие и, одновременно, несогласованность идей и данных вокруг1Арапов М.В., Шрейдер Ю.А.

Закон Ципфа и принцип диссимметрии системы. С.91.Там же. С.75.3URL: http://kudrinbi.ru (дата обращения 20.10.2013).4Фуфаев В.В., Фуфаева Л.Д. Каноническая модель структурно-топологической динамики Н-распределения // XIсессия Всесоюзного научного семинара «Кибернетика электрических систем». 1989. С.42.5Петров Т.Г. Обоснование варианта общей классификации геохимических систем // Вестник ЛГУ. 1971.

№18.Вып. 3. С.30―38.281феномена гиперболических распределений. Были получены интереснейшиерезультаты, но на разнородном материале, либо, напротив, тождественныйэмпирический материал описывался разными функциями, и большинство авторовпретендовали на всеобщность и универсализм предложенных ими аналитическихвыражений и концепций. При всем этом до сих пор не поставлена точка вобъяснении механизма, приводящего к гиперболическому распределению приобилии идей и мнений по этому поводу. Ситуация качественно не изменилась запоследние 25 лет, и до сих пор справедливы слова Ю.К.Крылова: «Большинствоиз … формул, представляющих разновидности формулировок закона Ципфа,получено на чисто эмпирической основе и направлено на уточнение описанияэкспериментально наблюдаемых зависимостей… Предлагаемые зависимостиспособны ответить лишь на вопрос о том, каковы статистические закономерностиорганизации лексики, но оставляют в стороне наиболее существенный вопрос опричинах, ответственных за структуру этой организации»1.Интересно, что зарубежные исследователи воспользовались формулойЦипфа более утилитарно, но и среди них наблюдается такой же разброс мнений опригодности и универсальности закона Ципфа (и, шире, “power laws”).

Обустойчивом интересе к этой зависимости могут свидетельствовать хотя бы 25выпусков журнала «Glottometrics», выходящего с 2001 г.Достижения западных исследователей в этой области резюмированы ниже.Обзор не претендует на какие-либо окончательные выводы, его целью является«нащупывание» методологических камней преткновения в рассматриваемойобласти.Авторы книги «Основы статистической обработки естественного языка»2критично конкретны при характеристике зависимости Ципфа: «закон невыполняется для первых нескольких высокочастотных слов, … в окрестностиранга со значением 100 наблюдается небольшое “выпячивание” кривой» и делают1Крылов Ю.К. Стационарная модель порождения связного текста // Квантитативная лингвистика иавтоматический анализ текстов.

1987. С.81.2Manning C., Schütze H., Foundations of Statistical Natural Language Processing, MIT Press, Cambridge, 1999. 680 р.82заключение: «из закона Ципфа следует, что для большинства слов данные об ихупотребительности будут чрезвычайно разбросанными»1.И.-И.Попеску, Я.Машутек и Г.Альтманн подробно рассматривают такиеважные при моделировании компонентной структуры текстов характеристики,какоднородность / неоднородностьдискретность / непрерывностьтекстаединицикорпусасовокупности,текстов,корректностьаппроксимации. Так, тексты значительной длины, по определению, считаютсянеоднородными, поскольку написаны не за один раз. Такая трактовка позволяетфактическисчитатьнеоднороднойлюбуюколлекциютекстов2.Авторыпридерживаются гипотезы, что распределения, для которых выполняется законЦипфа, представляют собой наложение нескольких слоев, каждый из которыхпредставлен однородными единицами (см.

подробнее п. 1.2.7)3. Интересно такжемнение авторов об устойчивости статистических характеристик лексическихединиц в корпусе текстов: они отвергают принцип «чем больше выборка, темустойчивее статистические характеристики», заменяя его на принцип «чембольше выборка, тем более неоднородным становится текст»4. Такой «ход», хотятили не хотят этого И.Попеску с соавторами, означает фактическое признаниенегауссового характера лингвистических распределений.Центральный для многих отечественных исследователей (см. напр., работыЮ.К.Орлова, С.Д.Хайтуна, Ю.А.Шрейдера) вопрос о характеристиках текстов,идеально соотносящихся с законом Ципфа, по-видимому, является совершенно непринципиальным для И.-И.Попеску, Я.Машутека и Г.Альтманна: «Некоторыеисследователи убеждены, что закон Ципфа-Мандельброта выполняется для текста1Ibid.

P.24―25.Авторы поясняют, что текст можно считать однородным, если в качестве его единиц выступают предложения,слова или слоги, но текст становится неоднородным, если исследователь выделяет классы внутри единиц текста,например, классифицирует слова по частям речи.

“Long texts are automatically inhomogeneous because they cannot bewritten in one go. … A text may be considered homogeneous if clauses, words or syllables are considered its elements. Forhomogeneous systems, Menzerath’s law holds; for non-homogeneous systems its counterpart, the allometric law holds.Both are power functions… But if, at a certain linguistic level, we do not consider the entities as a uniform class, e.g.

theclass of “words” is partitioned in parts of speech, the text automatically gets non-homogeneous” (Aspects of WordFrequencies. P.8).3Popescu I.-I., Mačutek J., Altmann G. Aspects of word frequencies. P. 13-14.4« The statistical dictum “the larger the sample, the more reliable are the results” does not hold in textology (but perhaps ingrammar), but the motto “the larger the sample, the more inhomogeneous is the text” does. …The classical statistical testsusually fail when applied to corpora» (Aspects of Word Frequencies. P.8.).283целиком, другие убеждены, что он выполняется и для частей текста. Главноездесь – убеждения»1.Предметомустойчивогоинтересаявляетсяреализацияципфовскогораспределения для текста, порожденного в результате случайного процесса (т.н.“monkey typing”).

Б.Мандельброт оспаривает2, что случайный механизм сможетпородить «ципфовский текст» (1961 г.). В.Ли, напротив, показывает, чтораспределенияслучайныхпоследовательностейсимволовнеотличаютсяпринципиально от распределений текстов на естественном языке3. Этой жепозиции придерживаются и некоторые другие авторы4, которые получаютаналитическое выражение для зависимости Ципфа, вычисляя вероятностьнапечатать слово длиной k при равновероятном появлении символов алфавита ипробела. М.Расселл, кроме того, считает устойчивыми и приводит в качествеэталонных значения параметра γ = 1 и константы C = 0,1. Показательноследующееисследование,проведенноеК.МаннингомиГ.Шютце5:онисмоделировали на компьютере процесс порождения случайных текстов изалфавита, состоящего из 26 символов и пробела, присвоив каждому символуодинаковую вероятность появления.

Распределение длины «слова» в полученныхими случайных «текстах», действительно, описывается степенной функцией, но впроизведениях этого «генератора» слов длиной n + 1 в 26 раз больше, чем длинойn,иимеетсяпостоянноедлявсейсовокупностиотношениечастотывстречаемости «слов», длина которых отличается на 1 символ («слова» длиной nвстречаются чаще, чем «слова» длиной n + 1)6, чего не наблюдается в реальныхтекстах.1«Some researchers believe that Zipf-Mandelbrot´s law holds for whole texts, others believe that it holds for parts, too.The emphasis is on «believe». Aspects of Word Frequencies.

P.8.2Цит. по: Harremoës P., Topsøe F. Zipf’s law, hyperbolic distributions and entropy loss // General Theory of InformationTransfer and Combinatorics, Springer-Verlag. Berlin, Heidelberg, 2006.3Li W. Random texts exhibit Zipf's-law-like word frequency distribution. // IEEE Transactions on Information Theory.1992. Vol.38. № 6. Р.1842―1845.4Russell M. Data Mining [Electronic resourse]: Lecture 3.

[2008]. URL: http://www.eee.bham.ac.uk/russellm/ee3j2.htm(дата обращения: 15.05.2013) ; Zhu Xiaojin. Words, Zipf’s Law, Miller’s Monkeys [Electronic resourse]: Lectures.[2007]. URL: pages.cs.wisc.edu/~jerryzhu/cs838/words.pdf (дата обращения: 15.05.2013).5Foundations of Statistical Natural Language Processing. P.28―29.6«One can show that the words generated by such a generator obey a power law of the form Mandelbrot suggested. Thekey insights are (i) that there are 26 times more words of length n + 1 than length n, and (ii) that there is a constant ratio by84По-видимому,длячастиавторовнеявляетсяпринципиальнымпрепятствием использование разных значений параметра при моделированииразных участков распределения: высокочастотная зона описывается степеннойфункцией с одним значением параметра, низкочастотная – с другим1.На работе Y.Caron, P.Makris и N.Vincent «Use of power law models indetecting region of interest» следует остановиться несколько подробнее, посколькув ней описывается применение зависимости Ципфа для определения «областиинтереса» (ROI, region of interest) при анализе изображений2.В качестве учитываемой единицы принимается последовательность из 3пикселей; на графике часто встречающимся последовательностям (в «голове»распределения) соответствуют однородные участки изображения (фон), а редковстречающимся паттернам соответствуют детали и контуры изображения3.

Прианализе кривых распределения последовательностей пикселей для однородных инеоднородных участков изображения выяснилось, что распределение дляотносительно неоднородных участков является более пологим в хвосте, чем дляоднородных, а для последних, напротив, характерна пологая левая частьраспределения (см. рисунки 2 и 3, заимствованные из цитируемой работы)4.АвторыстатьипредлагаютпользоватьсявторымзакономЦипфа(описывающим соотношение «частота элемента – количество элементов с такойчастотой») для выделения «областей интереса», маркером также являетсяколичество уникальных последовательностей пикселей.which words of length n are more frequent than words of length n + 1.

These two opposing trends combine into theregularity of Mandelbrot’s law». Ibid. P.28―29.1Montemurro M. Beyond the Zipf-Mandelbrot law in quantitative linguistics [Electronic resourse]. [2001] URL:http://www-stat.stanford.edu/~owen/courses/306a/ZipfAndGutenberg.pdf (дата обращения: 20.10.2013) ; Caron Y.,Makris P., Vincent N. Use of power law models in detecting region of interest [Electronic resourse] // Pattern Recognition.2007. Vol.40.

Характеристики

Тип файла

PDF-файл

Размер

23,89 Mb

Материал

Тип материала

Кандидатская диссертация

Предмет

Филология

Высшее учебное заведение

СПбГУ

Список файлов диссертации

negaussovoe-modelirovanie-leksiko-statisticheskoj-struktury-variativnogo-teksta-na-primere-skazanija-o-mamaevom-poboische.rar

Автореферат.pdf

Диссертация.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.