Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379), страница 65

Файл №1027379 Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика) 65 страницаБольшакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика (1027379) страница 652017-12-212017-12-21СтудИзба

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 65)

На самом деле, ранговое распределение состоит нев выполнении формулы (6.2) или какой-либо другой аналогичной ей, а в том, чтобыкаждому элементу x ∈V сопоставлялся ранговый определенный интервал.Ниже будут оподробно бсуждаться параметры некоторых распределений,присущих многим информационным процессам, с учетом которых можно строитьмодели одновременно в рамках теории информационного поиска и концепциисложных сетей.Распределение ПаретоАнализируя общественные процессы, В.

Парето (V. Pareto) рассмотрелсоциальную среду как пирамиду, на вершине которой находятся люди,представляющие элиту. Парето в 1906 году установил, что около 80 процентов землив Италии принадлежит лишь 20 процентам ее жителей. Он пришел к заключению, чтопараметры полученного им распределения приблизительно одинаковы ипринципиально не различаются в разных странах и в разное время. Парето такжеустановил, что точно такая же закономерность наблюдается и в распределениидоходов между людьми, которое описывается уравнением, где–величина дохода,- количество людей с доходом, равным или превышающим,и- параметры распределения. В математической статистике это распределениеполучило имя Парето, при этом предполагаются естественные ограничения напараметры:.

Распределению Парето присуще свойство устойчивости,т.е. сумма двух случайных переменных, которые имеют распределение Парето, такжебудет распределена по Парето.Перейдем к более строгой формулировке закона Парето. Предположим, чтопоследовательностьсоответствует размерам доходов отдельныхлюдей. После ранжирования этой последовательности по убыванию получается новаяпоследовательность(элементырасположены в порядкеубывания).Предположим, что- общее число людей, у которых доход составляет неменее, т.е..

Тогода правило Парето можно переписать в таком виде:232.Отсюда:Рассматривается сумма первых) значений величины(есть общая величина дохода наиболее богатых людей -, тосоставляет:гдеПереходя от дискретных величин к непрерывным (предполагая, чтоимеем:),В безразмерных переменных- ипоследнееравенство имеет вид (см. рис. 26):.Величина - в нашем примере - относительное количество дохода, получаемогопервыми по рангу людьми, доля которых (относительно всех людей) равна .Для v ≈ 0.2 справедливо µ ≈ 0.8 , т.е., действительно, 20% людей имеют 80%доходов.Законы ЦипфаДж.

Ципф (G. Zіpf) изучал использование статистических свойств языка втекстовых документах и выявил несколько эмпирических законов, которыепредставил как эмпирическое доказательство своего «принципа наименьшегоколичества усилий». Он экспериментально показал, что распределение словестественного языка подчиняется закону, который часто называют первым закономЦипфа, относящимся к распределению частоты слов в тексте. Этот закон можносформулировать таким образом. Если для какого-нибудь довольно большого текстасоставить список всех слов, которые встретились в нем, а потом ранжировать этислова в порядке убывания частоты их появления в тексте, то для любого словапроизведение его ранга и частоты появления будет величиной постоянной: f ⋅ r = c ,где- частота встречаемости слова в тексте;- ранг слова в списке;эмпирическая постоянная величина (коэффициент Ципфа).

Для славянских языков, вчастности, коэффициент Ципфа составляет приблизительно 0,06-0,07.Приведенная зависимость отражает тот факт, что существует небольшойсловарь, который составляет большую часть слов текста. Это главным образомслужебные слова. Например, приведенный в [15] анализ романа «Том Сойер»,позволил выделить 11.000 английских слов. При этом было обнаружено двенадцатьслов (the, and, и др.), каждое из которых охватывает более 1 % лексем в романе.Закон Ципфа был многократно проверен на многих массивах. Ципф объяснял233приведенное выше гиперболическое распределение «принципом наименьшегоколичества усилий» предполагая что при создании текста меньше усилий уходит наповторение некоторых слов, чем на использование новых, т.е. на обращение к«оперативной памяти, а не к долговременной».Ципф сформулировал еще одну закономерность, так называемый второй законЦипфа, состоящий в том, что частота и количество слов, которые входят в текст сданной частотой, также связанны подобным соотношением, а именно:где- количество различных слов, каждое из которых используется втекстераз,- константа нормирования.Существует простая количественная модель определения зависимости частотыот ранга.

Предположим, что генерируется случайный текст обезьяной на пишущеймашинке. С вероятностьюгенерируется пробел, а с вероятностью- другиесимволы, каждый из которых имеет равную вероятность. Показано, что полученныйтаким образом текст будет давать результаты, близкие по форме к распределениюЦипфа. Эта модель была усовершенствована в соответствии с фактическимиэмпирическими данными, когда вероятности генерации отдельных символов былизаданы на основе анализа большого текстового массива [16]. Полученноесоответствие не доказывает закона Ципфа, но вполне его объясняет с помощьюпростой модели.Более сложную модель генерации случайного текста, удовлетворяющеговторому закону Ципфа, предложил Г.А.

Саймон (H.A. Sіmon) [17].Условия этой модели достаточно просты: если текст достиг размера вслов,тогда то, каким будет-е слово текста определяется двумя допущениями:1. Пусть- количество разных слов, каждое из которых использовалосьраз среди первыхслов текста. Тогда вероятность того, что-ымокажется слово, которое до того использовалосьраз пропорционально- общему количеству появления всех слов, каждое из которых доэтого использовалосьраз.2. С вероятностью-ым словом будет новое слово.Распределение Ципфа часто искажается на практике ввиду недостаточныхобъемов текстовых корпусов, что приводит к проблеме оценки параметровстатистических моделей.

Вместе с тем соотношение между рангом и частотой былавзята Солтоном в 1975 г. как отправная точка длявыбора терминов дляиндексирования. Далее им рассматривалась идея сортировки слов в соответствии с ихчастотой в текстовом массиве. Как второй шаг высокочастотные слова могут бытьустранены, потому что они не являются хорошими различительными признаками дляотдельных документов из текстового массива. На третьем шаге термы с низкойчастотой, определяемой некоторым порогом (например, слова, которые встречаютсятолько единожды или дважды) удаляются, потому что они встречаются так нечасто,что редко используются в запросах пользователей.

Используя этот подход, можнозначительно уменьшить размер индекса поисковой системы. Более принципиальныйподход к подбору индексных термов – учет их весовых значений. В весовых моделяхсреднечастотные термы оказываются самыми весомыми, так как они являются234наиболее существенными при отборе того или иного документа (наиболее частотныеслова встречаются одновременно в большом количестве документов, анизкочастотные могут не входить в документы, интересующие пользователя).Еще один эмпирический закон, сформулированный Ципфом состоит в том, чтоколичество значений словакоррелирует с квадратным корнем его частоты.Подразумевалось, что нечасто используемые слова более однозначны, а этоподтверждает то, что высокочастотные слова не подходят для внесения в индексыинформационно-поисковых систем.Ципф также определил, что длина слова обратно пропорциональна его частоте,что может быть легко проверено путем простого анализа списка служебных слов.Последний закон действительно служит примером принципа экономии усилий: болеекороткие слова требуют меньше усилий при воспроизведении, и таким образом,используются более часто.

Этот «закон» можно подтвердить, рассматриваяприведенную выше модель генерации слов обезьяной. Легко видеть, что вероятностьгенерации слова уменьшается с длиной, вероятность слова изнепробельныхсимволов равна:где- вероятность генерации пробела.Хотя закон Ципфа дает интересные общие характеристики слов в текстовыхмассивах, в общем случае замечены некоторые ограничения его применимости приполучении статистических характеристик документальных массивов, состоящих измножества независимых документов разных авторов.Законам Ципфа удовлетворяют не только слова из одного текста, но многиеобъекты современного информационного пространства.Закономерность БредфордаЗакономерность С.

Бредфорда (S. Bredford), известного документалиста, одногоиз авторов универсальной десятичной классификации – УДК, состоит в следующем:если научные журналы расположить в порядке убывания числа помещенных в нихстатей по конкретному предмету, то полученный список можно разбить на три зонытаким образом, чтобы количество статей в каждой зоне по заданному предмету былаодинаковой.

Эти три зоны представляют: ядро - профильные журналы,непосредственно посвященные рассмотренной тематике, журналы, частичнопосвященные заданной области и журналы, тематика которых довольно далека отрассмотренного предмета. С. Бредфорд в 1934 г. установил следующее соотношениедля количества журналов в разных зонах [18]:N3 N2== const ,N 2 N1где количество журналов в первой зоне - N1 , во второй - N 2 , в третьей - N 3 .Бредфорд вначале рассматривал найденную закономерность только какспецифический случай распределения Ципфа для системы периодических изданий понауке и технике.

Однако в дальнейшем оказалось, что эта же закономерностьсправедлива и для периодических изданий из многих других предметных областей[19], а также для наборов веб-сайтов, относящихся к некоторой выбранной тематике.235Закон ХипсаВ компьютерной лингвистике эмпирический закон Г.С. Хипса (H.S. Heaps)связывает объем документа с объемом словаря уникальных слов, которые входят вэтот документ [20]. Казалось бы, словарь уникальных слов должен насыщаться, а егообъем стабилизироваться при увеличении объемов текста.Оказывается, это не так! Для всех известных сегодня текстов в соответствии сзаконом Хипса, эти значения связаны соотношением (рис.

6.5):гдеэто объем словаря уникальных слов, составленный из текста, которыйсостоит изуникальных слов,и – определенные эмпирически параметры. Дляевропейских языковпринимает значение от 10 до 100, а - от 0.4 до 0.6.Рис. Часть VI.5. Типичный график, подтверждающий закон Хипса: по оси абсцисс –количество слов в тексте, по оси ординат – объем словаря – количество уникальныхсловЗакон Хипса справедлив не только для уникальных слов, но и для многихдругих информационных объектов, что вполне естественно, так как уже доказано[21], что он является следствием закона Ципфа.§ 2.2.Степенное распределение и самоподобиеНаиболее частыми (как обычно считается), универсальными законамираспределения случайных величин, встречаемыми в различных естественнонаучныхисследованиях, является нормальный закон – распределение Гаусса:,Частая встречаемость нормального закона объясняется тем, что когда случайнаявеличина является суммой независимых случайных величин, то ее распределениеприближается к нормальному.

Характеристики

Тип файла

PDF-файл

Размер

5,66 Mb

Материал

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика

Тип материала

Книга

Предмет

Системы автоматизированного проектирования (САПР)

Высшее учебное заведение

МГТУ им. Н.Э.Баумана

Список файлов книги

bolshakova-e.i.-i-dr.-avtomaticheskaya-obrabotka-tekstov-na-estestvennom-yazyke-i-kompyuternaya-lingvistika-1206463058-1513861681.rar

Большакова Е.И. и др. - Автоматическая обработка текстов на естественном языке и компьютерная лингвистика.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.