KURS_R (Хеш-функции), страница 2

2016-07-31СтудИзба

Описание файла

Документ из архива "Хеш-функции", который расположен в категории "". Всё это находится в предмете "информатика" из , которые можно найти в файловом архиве . Не смотря на прямую связь этого архива с , его также можно найти и в других разделах. Архив можно найти в разделе "рефераты, доклады и презентации", в предмете "информатика, программирование" в общих файлах.

Онлайн просмотр документа "KURS_R"

Текст 2 страницы из документа "KURS_R"

случае установить LINK[i]←R, i←R.

C6.[Вставить новый ключ.] Пометить TABLE[i] как занятый узел

С KEY[i]←K и LINK[i]←0.

В алгоритме допускается срастание нескольких списков, так что после вставки в таблицу записи перемещать не нужно.


С1. Хеширование



Нет


Да

С4. Переход к следующему

С5.Найти сво-

бодный узел.

С6.Вставить

новый ключ





K=KEY[i] R=0

УДАЧА ПЕРЕПОЛНЕНИЕ

Рис. Поиск с вставкой по рассеянной таблице с цепочками.

T ABLE[1]: [ TO ][ ]

TABLE[2]: [ SYV ][ Λ ]

TABLE[3]: [ EN ][ Λ ]

TABLE[4]: [ TRE ][ Λ ]

TABLE[5]: [ FEM ][ Λ ]

TABLE[6]: [_ Λ _]

TABLE[7]: [_ Λ _]

T ABLE[8]: [ SEKS ][ Λ ]

T ABLE[9]: [ FIRE ][ ]

рис. Сросшиеся списки.

На первый взгляд шаг C5 может показаться неэффективным, так как в нем поиск свободной позиции производится последовательно. Но в

действительности в процессе заполнения таблицы суммарное число проб в шаге C5 не превышает количества элементов в таблице; значит, в среднем на каждую вставку тратится не более одной такой пробы!

Разрешение коллизий "открытой адресацией". Другой способ решения проблемы коллизий состоит в том, чтобы полностью отказаться от ссылок и просто просматривать один за другим различные элементы таблицы, пока не будут найдены ключ K или свободная позиция. Не плохо было бы иметь правило, согласно которому каждый ключ K определяет последовательность проб, т.е. последовательность позиций в таблице, которые нужно просматривать всякий раз при вставке или поиске K. Если мы, используя определяемую K последовательность проб, натолкнемся на свободную позицию, то можно сделать вывод, что K нет в таблице, так как та же последовательность проб выполняется каждый раз при обработке данного ключа. Этот общий класс методов У. Петерсон назвал открытой адресацией.

Простейшая схема открытой адресации, известная как линейное

опробование, использует циклическую последовательность

h(K), h(K)-1,…, 0, M-1, M-2,…, h(K)+1 (*)

и описывается следующим образом.

alg L.(Поиск с вставкой по открытой рассеянной таблице.)

Алгоритм позволяет разыскать данный ключ K в таблице из M узлов.

Если K нет в таблице и она не полна, ключ K вставляется.

Узлы таблицы обозначаются через TABLE[i], 0≤i

двум различным типам узлов - свободных и занятых. Занятый узел

содержит ключ KEY[i] и, возможно, другие поля. Значение вспомогательной переменной N равно числу занятых узлов; эта переменная рассматривается как часть таблицы, и при вставке нового ключа ее значение увеличивается на 1.

Данный алгоритм использует хеш-функцию h(K) и линейную

последовательность проб (*) для адресации. Модификации этой

последовательности обсуждаются ниже.

L1.[Хеширование.] Установить i←h(K). (Теперь 0≤i< M.)

L2.[Сравнить.] Если узел TABLE[i] свободен, то перейти на L4. В

противном случае, если KEY[i]=K, алгоритм заканчивается удачно.

L3.[Перейти к следующему.] Установить i←(i-1); если теперь i<0,

Установить i←i+M. Вернуться на L2.

L4.[Вставить.] (Поиск был неудачным.) Если N=M-1, алгоритм

заканчивается по переполнению. В противном

случае установить N←N+1, отметить, что узел TABLE[i] занят и

установить KEY[i]←K.

На рис.( см. ниже) показано, что происходит при вставке с помощью алгоритма~L семи "норвежских" ключей , имеющих коды хеширования 2, 7, 1, 8, 2, 8, 1

соответственно. Последние три ключа- FEM, SEKS и SYV-смещены по

сравнению со своими начальными адресами h(K).

0 [ FEM ]

1 [ TRE ]

2 [ EN ]

3 [ ]

4 [ ]

5 [ SYV ]

6 [_SEKS ]

7 [_ TO ]

8 [ FIRE ]

Рис. Линейная открытая адресация.

Эксперименты с линейным опробованием показывают, что этот метод работает прекрасно, пока таблица не слишком заполнена, но в конце концов процесс замедляется, длинные серии проб становятся все более частыми. Причину такого поведения можно понять, рассмотрев следующую гипотетическую рассеянную таблицу (M=19, N= 9):

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18


Заштрихованные квадраты обозначают занятые позиции. Ключ K, который должен быть вставлен в таблицу следующим, попадет в одну из десяти свободных позиций, но не с равными вероятностями. В самом деле, K будет вставлен в позицию 11, если 11≤h(K)≤15, а в позицию 8 он попадет лишь при h(K)=8. Следовательно, вероятность попасть в

позицию 11 в пять раз больше, чем в позицию 8; длинные списки стремятся стать еще длиннее.

alg D.(Открытая адресация с двойным хешированием.)

Этот алгоритм почти совпадает с алгоритмом L, но использует несколько иную последовательность проб, вычисляя две хеш-функции h1(K) и h2(K). Как обычно, h1(K) порождает величины от 0 до M-1 включительно; но значения h2(K) должны лежать от 1 до M-1 и быть взаимно просты с M. (Например, если M - простое число, то h2(K) может быть любой величиной от 1 до M-1 включительно, или, если M=2m, то h2(K) может быть любым нечетным числом между 1 и 2m-1.)

D1.[Первое хеширование.] Установить i ←h2(K).

D2.[Первая проба.] Если узел TABLE[i] свободен, то перейти

на D6. В противном случае, если KEY[i]=K, алгоритм

заканчивается удачно.

D3.[Второе хеширование.] Установить c←h2(K).

D4.[Перейти к следующему.] Установить i←i-c; если теперь i<0,

Установить i←i+M.

D5.[Сравнение.] Если узел TABLE[i] свободен, то перейти

на D6. В противном случае, если KEY[i]=K, алгоритм заканчивается

удачно; в противном случае вернуться на D4.

D6.[Вставка.] Если N=M-1, алгоритм заканчивается по переполнению. В

противном случае установить N←N+1, пометить узел TABLE[i]как занятый

и установить KEY[i]← K.

Для вычисления h2(K) было предложено несколько способов.

Если M - простое число и h1(K)=K mod M, можно положить h2(K)=1+(K mod (M-1)); но так как M-1 четно, было бы лучше положить h2(K)=1+(K mod (M-2)).

Это наводит на мысль о таком выборе M, чтобы M и M-2были простыми числами-близнецами, например 1021 и 1019. Можно взять h2(K)=1+([K/M] mod (M-2)), ибо частное [K/M] можно получить в регистре как побочный продукт вычисления h1(K).

Сравнение методов. Итак, мы знаем много методов поиска;

чем же нам руководствоваться при выборе наилучшего из них;

для конкретного приложения? Трудно в нескольких словах описать все, что нам хотелось бы учесть при выборе метода поиска, однако следующие соображения, пожалуй, наиболее важны, если мы заинтересованы в сокращении времени поиска и объема занимаемой памяти.

Различные способы разрешения коллизий приводят к различному числу проб. Но это еще не все, так как с изменением метода меняется время пробы, что заметно отражается на времени работы. При линейном опробовании чаще, чем в других методах, происходит обращение к таблице, зато этот метод прост.

Методы цепочек весьма экономны с точки зрения числа проб, но потребность в дополнительном пространстве памяти для полей ссылок иногда (при небольшом размере записей) делает более привлекательной открытую адресацию. Например, если нужно сделать выбор между таблицей с цепочками на 500 элементов и таблицей с открытой адресацией на 1000 элементов, то последняя, очевидно, предпочтительнее, ибо она обеспечивает эффективный поиск среди 500 записей и способна вместить в два раза больше данных. С другой стороны, порой в силу размера записей или их формата пространство под поля ссылок достается фактически бесплатно.

Как соотносятся методы хеширования с другими стратегиями поиска? Сравнивая их по скорости, можно утверждать, что методы хеширования лучше, если число записей велико, поскольку среднее время поиска для методов хеширования остается ограниченным при N →∞ в случае, когда таблица не становится слишком заполненной. Более того, бинарный поиск годится лишь для фиксированных таблиц, в то время как рассеянные таблицы допускают эффективные процедуры вставки.

Таким образом, хеширование имеет свои преимущества. С другой стороны, поиск в рассеянных таблицах все же уступает изученным ранее методам по трем важным пунктам.

a) После неудачного поиска в рассеянной таблице мы знаем лишь то, что нужного ключа там нет. Методы поиска, основанные на сравнениях, всегда дают больше информации; они позволяют найти наибольший ключ ≤ K или наименьший ключ ≥ K , что важно во многих приложениях

(например, для интерполяции значений функции по хранящейся таблице).

Эти же методы можно использовать и для нахождения всех ключей, лежащих между двумя заданными величинами K и K'. Далее, алгоритмы поиска по дереву позволяют легко распечатать содержимое таблицы в возрастающем порядке без специальной сортировки, а это иногда бывает нужно.

b) Часто довольно трудно распределить память для рассеянных таблиц; под хеш-таблицу нужно отвести определенную область памяти, а размер ее не всегда ясен. Если отвести слишком много памяти, то такая расточительность отразится на других списках или на других пользователях ЭВМ, но если отвести мало места, таблица переполнится! При переполнении рассеянной таблицы, вероятно, лучше всего "рехешировать" ее, т.е. отвести больше пространства и изменить хеш-функцию, а затем вставить записи в большую таблицу. Ф.~Хопгуд предложил рехешировать таблицу, если коэффициент заполнения достигнет α0 , заменяя M на d0M.

Алгоритмы поиска со вставкой по дереву не изобилуют тягостными рехешированиями; деревья растут не больше, чем это необходимо. При работе с виртуальной памятью нужно, по всей вероятности, использовать поиск по дереву или цифровой поиск по дереву вместо создания больших рассеянных таблиц, вызывающих подкачку новой страницы почти при каждом хешировании ключа.

c) Наконец, при использовании методов хеширования нужно свято верить в теорию вероятностей, ибо они эффективны лишь в среднем, а наихудший случай просто ужасен! Как и в ситуации с датчиками случайных чисел, мы не можем быть полностью уверенными в том, что при применении к новому множеству данных хеш-функция будет работать удовлетворительно. Поэтому рассеянная память не всегда подходит для работы в реальном масштабе времени, например для управления движением транспорта, поскольку на карту поставлены человеческие жизни. Алгоритмы сбалансированного дерева гораздо безопаснее, ведь они имеют гарантированную верхнюю границу времени поиска.

КАЗАЗСКИЙ ГОСУДАРСТВЕННЫЙ НАЦИОНАЛЬНЫЙ УНИВЕРСИТЕТ

им. АЛЬ-ФАРАБИ

МЕХАНИКО-МАТЕМАТИЧЕСКИЙ ФАКУЛЬТЕТ

Поиск.

Хеш-функции.

(курсовая работа)

Выполнил: студент 3 курса

ПМ-97-3А

Амирханов Бауыржан

А е

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5168
Авторов
на СтудИзбе
438
Средний доход
с одного платного файла
Обучение Подробнее