Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика, страница 65
Описание файла
PDF-файл из архива "Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика", который расположен в категории "". Всё это находится в предмете "системы автоматизированного проектирования (сапр)" из 11 семестр (3 семестр магистратуры), которые можно найти в файловом архиве МГТУ им. Н.Э.Баумана. Не смотря на прямую связь этого архива с МГТУ им. Н.Э.Баумана, его также можно найти и в других разделах. Архив можно найти в разделе "книги и методические указания", в предмете "интеллектуальные подсистемы сапр" в общих файлах.
Просмотр PDF-файла онлайн
Текст 65 страницы из PDF
На самом деле, ранговое распределение состоит нев выполнении формулы (6.2) или какой-либо другой аналогичной ей, а в том, чтобыкаждому элементу x ∈V сопоставлялся ранговый определенный интервал.Ниже будут оподробно бсуждаться параметры некоторых распределений,присущих многим информационным процессам, с учетом которых можно строитьмодели одновременно в рамках теории информационного поиска и концепциисложных сетей.Распределение ПаретоАнализируя общественные процессы, В.
Парето (V. Pareto) рассмотрелсоциальную среду как пирамиду, на вершине которой находятся люди,представляющие элиту. Парето в 1906 году установил, что около 80 процентов землив Италии принадлежит лишь 20 процентам ее жителей. Он пришел к заключению, чтопараметры полученного им распределения приблизительно одинаковы ипринципиально не различаются в разных странах и в разное время. Парето такжеустановил, что точно такая же закономерность наблюдается и в распределениидоходов между людьми, которое описывается уравнением, где–величина дохода,- количество людей с доходом, равным или превышающим,и- параметры распределения. В математической статистике это распределениеполучило имя Парето, при этом предполагаются естественные ограничения напараметры:.
Распределению Парето присуще свойство устойчивости,т.е. сумма двух случайных переменных, которые имеют распределение Парето, такжебудет распределена по Парето.Перейдем к более строгой формулировке закона Парето. Предположим, чтопоследовательностьсоответствует размерам доходов отдельныхлюдей. После ранжирования этой последовательности по убыванию получается новаяпоследовательность(элементырасположены в порядкеубывания).Предположим, что- общее число людей, у которых доход составляет неменее, т.е..
Тогода правило Парето можно переписать в таком виде:232.Отсюда:Рассматривается сумма первых) значений величины(есть общая величина дохода наиболее богатых людей -, тосоставляет:гдеПереходя от дискретных величин к непрерывным (предполагая, чтоимеем:),В безразмерных переменных- ипоследнееравенство имеет вид (см. рис. 26):.Величина - в нашем примере - относительное количество дохода, получаемогопервыми по рангу людьми, доля которых (относительно всех людей) равна .Для v ≈ 0.2 справедливо µ ≈ 0.8 , т.е., действительно, 20% людей имеют 80%доходов.Законы ЦипфаДж.
Ципф (G. Zіpf) изучал использование статистических свойств языка втекстовых документах и выявил несколько эмпирических законов, которыепредставил как эмпирическое доказательство своего «принципа наименьшегоколичества усилий». Он экспериментально показал, что распределение словестественного языка подчиняется закону, который часто называют первым закономЦипфа, относящимся к распределению частоты слов в тексте. Этот закон можносформулировать таким образом. Если для какого-нибудь довольно большого текстасоставить список всех слов, которые встретились в нем, а потом ранжировать этислова в порядке убывания частоты их появления в тексте, то для любого словапроизведение его ранга и частоты появления будет величиной постоянной: f ⋅ r = c ,где- частота встречаемости слова в тексте;- ранг слова в списке;эмпирическая постоянная величина (коэффициент Ципфа).
Для славянских языков, вчастности, коэффициент Ципфа составляет приблизительно 0,06-0,07.Приведенная зависимость отражает тот факт, что существует небольшойсловарь, который составляет большую часть слов текста. Это главным образомслужебные слова. Например, приведенный в [15] анализ романа «Том Сойер»,позволил выделить 11.000 английских слов. При этом было обнаружено двенадцатьслов (the, and, и др.), каждое из которых охватывает более 1 % лексем в романе.Закон Ципфа был многократно проверен на многих массивах. Ципф объяснял233приведенное выше гиперболическое распределение «принципом наименьшегоколичества усилий» предполагая что при создании текста меньше усилий уходит наповторение некоторых слов, чем на использование новых, т.е. на обращение к«оперативной памяти, а не к долговременной».Ципф сформулировал еще одну закономерность, так называемый второй законЦипфа, состоящий в том, что частота и количество слов, которые входят в текст сданной частотой, также связанны подобным соотношением, а именно:где- количество различных слов, каждое из которых используется втекстераз,- константа нормирования.Существует простая количественная модель определения зависимости частотыот ранга.
Предположим, что генерируется случайный текст обезьяной на пишущеймашинке. С вероятностьюгенерируется пробел, а с вероятностью- другиесимволы, каждый из которых имеет равную вероятность. Показано, что полученныйтаким образом текст будет давать результаты, близкие по форме к распределениюЦипфа. Эта модель была усовершенствована в соответствии с фактическимиэмпирическими данными, когда вероятности генерации отдельных символов былизаданы на основе анализа большого текстового массива [16]. Полученноесоответствие не доказывает закона Ципфа, но вполне его объясняет с помощьюпростой модели.Более сложную модель генерации случайного текста, удовлетворяющеговторому закону Ципфа, предложил Г.А.
Саймон (H.A. Sіmon) [17].Условия этой модели достаточно просты: если текст достиг размера вслов,тогда то, каким будет-е слово текста определяется двумя допущениями:1. Пусть- количество разных слов, каждое из которых использовалосьраз среди первыхслов текста. Тогда вероятность того, что-ымокажется слово, которое до того использовалосьраз пропорционально- общему количеству появления всех слов, каждое из которых доэтого использовалосьраз.2. С вероятностью-ым словом будет новое слово.Распределение Ципфа часто искажается на практике ввиду недостаточныхобъемов текстовых корпусов, что приводит к проблеме оценки параметровстатистических моделей.
Вместе с тем соотношение между рангом и частотой былавзята Солтоном в 1975 г. как отправная точка длявыбора терминов дляиндексирования. Далее им рассматривалась идея сортировки слов в соответствии с ихчастотой в текстовом массиве. Как второй шаг высокочастотные слова могут бытьустранены, потому что они не являются хорошими различительными признаками дляотдельных документов из текстового массива. На третьем шаге термы с низкойчастотой, определяемой некоторым порогом (например, слова, которые встречаютсятолько единожды или дважды) удаляются, потому что они встречаются так нечасто,что редко используются в запросах пользователей.
Используя этот подход, можнозначительно уменьшить размер индекса поисковой системы. Более принципиальныйподход к подбору индексных термов – учет их весовых значений. В весовых моделяхсреднечастотные термы оказываются самыми весомыми, так как они являются234наиболее существенными при отборе того или иного документа (наиболее частотныеслова встречаются одновременно в большом количестве документов, анизкочастотные могут не входить в документы, интересующие пользователя).Еще один эмпирический закон, сформулированный Ципфом состоит в том, чтоколичество значений словакоррелирует с квадратным корнем его частоты.Подразумевалось, что нечасто используемые слова более однозначны, а этоподтверждает то, что высокочастотные слова не подходят для внесения в индексыинформационно-поисковых систем.Ципф также определил, что длина слова обратно пропорциональна его частоте,что может быть легко проверено путем простого анализа списка служебных слов.Последний закон действительно служит примером принципа экономии усилий: болеекороткие слова требуют меньше усилий при воспроизведении, и таким образом,используются более часто.
Этот «закон» можно подтвердить, рассматриваяприведенную выше модель генерации слов обезьяной. Легко видеть, что вероятностьгенерации слова уменьшается с длиной, вероятность слова изнепробельныхсимволов равна:где- вероятность генерации пробела.Хотя закон Ципфа дает интересные общие характеристики слов в текстовыхмассивах, в общем случае замечены некоторые ограничения его применимости приполучении статистических характеристик документальных массивов, состоящих измножества независимых документов разных авторов.Законам Ципфа удовлетворяют не только слова из одного текста, но многиеобъекты современного информационного пространства.Закономерность БредфордаЗакономерность С.
Бредфорда (S. Bredford), известного документалиста, одногоиз авторов универсальной десятичной классификации – УДК, состоит в следующем:если научные журналы расположить в порядке убывания числа помещенных в нихстатей по конкретному предмету, то полученный список можно разбить на три зонытаким образом, чтобы количество статей в каждой зоне по заданному предмету былаодинаковой.
Эти три зоны представляют: ядро - профильные журналы,непосредственно посвященные рассмотренной тематике, журналы, частичнопосвященные заданной области и журналы, тематика которых довольно далека отрассмотренного предмета. С. Бредфорд в 1934 г. установил следующее соотношениедля количества журналов в разных зонах [18]:N3 N2== const ,N 2 N1где количество журналов в первой зоне - N1 , во второй - N 2 , в третьей - N 3 .Бредфорд вначале рассматривал найденную закономерность только какспецифический случай распределения Ципфа для системы периодических изданий понауке и технике.
Однако в дальнейшем оказалось, что эта же закономерностьсправедлива и для периодических изданий из многих других предметных областей[19], а также для наборов веб-сайтов, относящихся к некоторой выбранной тематике.235Закон ХипсаВ компьютерной лингвистике эмпирический закон Г.С. Хипса (H.S. Heaps)связывает объем документа с объемом словаря уникальных слов, которые входят вэтот документ [20]. Казалось бы, словарь уникальных слов должен насыщаться, а егообъем стабилизироваться при увеличении объемов текста.Оказывается, это не так! Для всех известных сегодня текстов в соответствии сзаконом Хипса, эти значения связаны соотношением (рис.
6.5):гдеэто объем словаря уникальных слов, составленный из текста, которыйсостоит изуникальных слов,и – определенные эмпирически параметры. Дляевропейских языковпринимает значение от 10 до 100, а - от 0.4 до 0.6.Рис. Часть VI.5. Типичный график, подтверждающий закон Хипса: по оси абсцисс –количество слов в тексте, по оси ординат – объем словаря – количество уникальныхсловЗакон Хипса справедлив не только для уникальных слов, но и для многихдругих информационных объектов, что вполне естественно, так как уже доказано[21], что он является следствием закона Ципфа.§ 2.2.Степенное распределение и самоподобиеНаиболее частыми (как обычно считается), универсальными законамираспределения случайных величин, встречаемыми в различных естественнонаучныхисследованиях, является нормальный закон – распределение Гаусса:,Частая встречаемость нормального закона объясняется тем, что когда случайнаявеличина является суммой независимых случайных величин, то ее распределениеприближается к нормальному.