Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448), страница 65

Файл №1185448 Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf) 65 страницаАвт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014) (1185448) страница 652020-08-252020-08-25СтудИзба

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 65)

26):.Величина - в нашем примере - относительное количество дохода, получаемогопервыми по рангу людьми, доля которых (относительно всех людей) равна .Для v ≈ 0.2 справедливо µ ≈ 0.8 , т.е., действительно, 20% людей имеют 80%доходов.Законы ЦипфаДж. Ципф (G. Zіpf) изучал использование статистических свойств языка втекстовых документах и выявил несколько эмпирических законов, которыепредставил как эмпирическое доказательство своего «принципа наименьшегоколичества усилий».

Он экспериментально показал, что распределение словестественного языка подчиняется закону, который часто называют первым закономЦипфа, относящимся к распределению частоты слов в тексте. Этот закон можносформулировать таким образом. Если для какого-нибудь довольно большого текстасоставить список всех слов, которые встретились в нем, а потом ранжировать этислова в порядке убывания частоты их появления в тексте, то для любого словапроизведение его ранга и частоты появления будет величиной постоянной: f ⋅ r = c ,где- частота встречаемости слова в тексте;- ранг слова в списке;эмпирическая постоянная величина (коэффициент Ципфа). Для славянских языков, вчастности, коэффициент Ципфа составляет приблизительно 0,06-0,07.Приведенная зависимость отражает тот факт, что существует небольшойсловарь, который составляет большую часть слов текста. Это главным образомслужебные слова.

Например, приведенный в [15] анализ романа «Том Сойер»,позволил выделить 11.000 английских слов. При этом было обнаружено двенадцатьслов (the, and, и др.), каждое из которых охватывает более 1 % лексем в романе.Закон Ципфа был многократно проверен на многих массивах. Ципф объяснял233приведенное выше гиперболическое распределение «принципом наименьшегоколичества усилий» предполагая что при создании текста меньше усилий уходит наповторение некоторых слов, чем на использование новых, т.е. на обращение к«оперативной памяти, а не к долговременной».Ципф сформулировал еще одну закономерность, так называемый второй законЦипфа, состоящий в том, что частота и количество слов, которые входят в текст сданной частотой, также связанны подобным соотношением, а именно:где- количество различных слов, каждое из которых используется втекстераз,- константа нормирования.Существует простая количественная модель определения зависимости частотыот ранга.

Предположим, что генерируется случайный текст обезьяной на пишущеймашинке. С вероятностьюгенерируется пробел, а с вероятностью- другиесимволы, каждый из которых имеет равную вероятность. Показано, что полученныйтаким образом текст будет давать результаты, близкие по форме к распределениюЦипфа. Эта модель была усовершенствована в соответствии с фактическимиэмпирическими данными, когда вероятности генерации отдельных символов былизаданы на основе анализа большого текстового массива [16].

Полученноесоответствие не доказывает закона Ципфа, но вполне его объясняет с помощьюпростой модели.Более сложную модель генерации случайного текста, удовлетворяющеговторому закону Ципфа, предложил Г.А. Саймон (H.A. Sіmon) [17].Условия этой модели достаточно просты: если текст достиг размера вслов,тогда то, каким будет-е слово текста определяется двумя допущениями:1. Пусть- количество разных слов, каждое из которых использовалосьраз среди первыхслов текста. Тогда вероятность того, что-ымокажется слово, которое до того использовалосьраз пропорционально- общему количеству появления всех слов, каждое из которых доэтого использовалосьраз.2.

С вероятностью-ым словом будет новое слово.Распределение Ципфа часто искажается на практике ввиду недостаточныхобъемов текстовых корпусов, что приводит к проблеме оценки параметровстатистических моделей. Вместе с тем соотношение между рангом и частотой былавзята Солтоном в 1975 г. как отправная точка длявыбора терминов дляиндексирования. Далее им рассматривалась идея сортировки слов в соответствии с ихчастотой в текстовом массиве.

Как второй шаг высокочастотные слова могут бытьустранены, потому что они не являются хорошими различительными признаками дляотдельных документов из текстового массива. На третьем шаге термы с низкойчастотой, определяемой некоторым порогом (например, слова, которые встречаютсятолько единожды или дважды) удаляются, потому что они встречаются так нечасто,что редко используются в запросах пользователей. Используя этот подход, можнозначительно уменьшить размер индекса поисковой системы.

Более принципиальныйподход к подбору индексных термов – учет их весовых значений. В весовых моделяхсреднечастотные термы оказываются самыми весомыми, так как они являются234наиболее существенными при отборе того или иного документа (наиболее частотныеслова встречаются одновременно в большом количестве документов, анизкочастотные могут не входить в документы, интересующие пользователя).Еще один эмпирический закон, сформулированный Ципфом состоит в том, чтоколичество значений словакоррелирует с квадратным корнем его частоты.Подразумевалось, что нечасто используемые слова более однозначны, а этоподтверждает то, что высокочастотные слова не подходят для внесения в индексыинформационно-поисковых систем.Ципф также определил, что длина слова обратно пропорциональна его частоте,что может быть легко проверено путем простого анализа списка служебных слов.Последний закон действительно служит примером принципа экономии усилий: болеекороткие слова требуют меньше усилий при воспроизведении, и таким образом,используются более часто.

Этот «закон» можно подтвердить, рассматриваяприведенную выше модель генерации слов обезьяной. Легко видеть, что вероятностьгенерации слова уменьшается с длиной, вероятность слова изнепробельныхсимволов равна:где- вероятность генерации пробела.Хотя закон Ципфа дает интересные общие характеристики слов в текстовыхмассивах, в общем случае замечены некоторые ограничения его применимости приполучении статистических характеристик документальных массивов, состоящих измножества независимых документов разных авторов.Законам Ципфа удовлетворяют не только слова из одного текста, но многиеобъекты современного информационного пространства.Закономерность БредфордаЗакономерность С. Бредфорда (S. Bredford), известного документалиста, одногоиз авторов универсальной десятичной классификации – УДК, состоит в следующем:если научные журналы расположить в порядке убывания числа помещенных в нихстатей по конкретному предмету, то полученный список можно разбить на три зонытаким образом, чтобы количество статей в каждой зоне по заданному предмету былаодинаковой.

Эти три зоны представляют: ядро - профильные журналы,непосредственно посвященные рассмотренной тематике, журналы, частичнопосвященные заданной области и журналы, тематика которых довольно далека отрассмотренного предмета. С. Бредфорд в 1934 г. установил следующее соотношениедля количества журналов в разных зонах [18]:N3 N2== const ,N 2 N1где количество журналов в первой зоне - N1 , во второй - N 2 , в третьей - N 3 .Бредфорд вначале рассматривал найденную закономерность только какспецифический случай распределения Ципфа для системы периодических изданий понауке и технике.

Однако в дальнейшем оказалось, что эта же закономерностьсправедлива и для периодических изданий из многих других предметных областей[19], а также для наборов веб-сайтов, относящихся к некоторой выбранной тематике.235Закон ХипсаВ компьютерной лингвистике эмпирический закон Г.С. Хипса (H.S. Heaps)связывает объем документа с объемом словаря уникальных слов, которые входят вэтот документ [20]. Казалось бы, словарь уникальных слов должен насыщаться, а егообъем стабилизироваться при увеличении объемов текста.Оказывается, это не так! Для всех известных сегодня текстов в соответствии сзаконом Хипса, эти значения связаны соотношением (рис. 6.5):гдеэто объем словаря уникальных слов, составленный из текста, которыйсостоит изуникальных слов,и – определенные эмпирически параметры.

Дляевропейских языковпринимает значение от 10 до 100, а - от 0.4 до 0.6.Рис. Часть VI.5. Типичный график, подтверждающий закон Хипса: по оси абсцисс –количество слов в тексте, по оси ординат – объем словаря – количество уникальныхсловЗакон Хипса справедлив не только для уникальных слов, но и для многихдругих информационных объектов, что вполне естественно, так как уже доказано[21], что он является следствием закона Ципфа.§ 2.2.Степенное распределение и самоподобиеНаиболее частыми (как обычно считается), универсальными законамираспределения случайных величин, встречаемыми в различных естественнонаучныхисследованиях, является нормальный закон – распределение Гаусса:,Частая встречаемость нормального закона объясняется тем, что когда случайнаявеличина является суммой независимых случайных величин, то ее распределениеприближается к нормальному. Именно это утверждение является содержанием такназываемой центральной предельной теоремы теории вероятностей.

Заметим, что236часто в конкретных исследованиях гауссово распределение случайной величиныпринимается в силу привычки или удобства.Б. Мандельброт был одним из первых, кто обратил пристальное внимание нато, что не менее универсальным, часто встречаемым законом распределенияслучайной величины является степенное (часто говорят гиперболическое)распределение с плотностью вероятности:илигде– вероятность того, что,аи- некоторые положительныеконстанты, параметры распределения.Следует отметить, что приведенное выше распределение рассматривалосьБ. Мандельбротом (B.

Mandelbrot) как уточнение закона Ципфа и его частоназывают распределением Ципфа-Мандельброта. При этом оказалось, чтоблизкая к единице величина, которая может изменяться в зависимости от свойствтекста и языка. Соответственно,Напомним, гиперболическое распределениеназвано в честь В. Парето, адискретный закон распределения с ранжированной переменной был назван в честьД. Ципфа, который сформулировал его для описания частоты употребления слов.Самоподобие или инвариантность относительно изменений масштаба илиразмера являет собой отличительную черту многих законов природы и бесчисленныхявлений в мире, мы которого окружающих.

«Самоподобие является вдействительности одной из решающих симметрий, которая формирует нашувселенную и оказывает влияние на наши попытки ее понять» [22].Самоподобие информационного пространства выражается, в первую очередь втом, что при бурном росте этого пространства в последние десятилетия,гиперболичные частотные и ранговые распределения, получаемые в такихсодержательных разрезах, как, например, источники и авторы документов,практически не изменяют свою форму.

Закономерности, открытые такими учеными,как Зипф, Брэдфорд, Лотки и другие, в полной мере свидетельствуют о самоподобииинформационного пространства. С другой стороны, самоподобие (скейлинг) можнорассматриватьикакследствиеобщихструктурныхзакономерностейинформационного пространства.Явление, которое имеет свойство самогоподобия, выглядит одинаково илиодинаково себя ведет при его рассмотрении с разной степенью «увеличения» или вразном масштабе. Масштабирующей величиной может быть пространство (длина,ширина) или время.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Тип материала

Книга

Предмет

Анализ текстовых данных и информационный поиск

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

avt.-obrabotka-tekstov-na-estestvennom-jazyke-i-komp.-lingvistika.-bolshakova-2014.pdf.rar

Авт. обработка текстов на естественном языке и комп. лингвистика. Большакова (2014).pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.