Лекция 19. Цифровой поиск (1107994)

Файл №1107994 Лекция 19. Цифровой поиск (Электронные лекции)Лекция 19. Цифровой поиск (1107994)2019-04-242019-04-24СтудИзба

Электронные лекции

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Лекции по курсу “Алгоритмы и алгоритмические языки”, 1 курс, 1 поток, 2010/2011 уч.годЛекция 19 Цифровой поиск19.1. Что такое цифровой поиск (поиск подстроки по образцу)?19.1.1. Цифровой поиск – частный случай поиска заданной подстроки (образца) в длиннойстроке (тексте). Поиск подстроки по образцу используется в текстовых редакторах, вИнтернетных поисковиках и т.п. Например, биологи любят искать образцы (заданныецепочки нуклеотидов) в молекулах ДНК.19.1.2.

Примеры цифрового поиска: поиск в словаре, в библиотечном каталоге и т.п., когдаделается поиск по образцу в нескольких текстах (названиях книг, фамилиях авторов,текстах на вызванных сайтах и т.п.). Хороший пример – словарь с высечками, т.е.словарь, в котором обеспечен быстрый доступ к некоторым страницам (например,начальным страницам списков слов, начинающихся на очередную букву алфавита).Иногда используются многоуровневые высечки.Из толкового словаря: «Высечка – отделочный процесс полиграфическогопроизводства для образования с помощью вырубки, высечки на высекательном прессеплощадок на внешнем поле страниц справочных изданий, чтобы можно было быстронаходить начало разделов».Еще один пример – словарь с побуквенными метками для первого и последнего слована каждой страницы (обычно помещаются в верхнем колонтитуле).19.1.3. При цифровом поиске ключи рассматриваются как последовательности символоврассматриваемого алфавита (в частности, цифр или букв).

Развивая идею побуквенныхметок до ее логического завершения, получаем схему поиска. Цифровой поиск –реализация этой идеи. Ожидаемое число сравнений порядка О(logm N), где m - числоразличных букв, используемых в словаре, N – мощность словаря. В худшем случаедерево содержит k, уровней, где k – длина максимального слова.19.2. Пример.Пусть множество используемых букв (алфавит) {A, B, C, D}. Мы добавим к алфавиту ещеодну букву (пробел).

По определении. слова АА, АА , АА, совпадают. Пусть {A, AA,ABB, AC, ADBD, BCA, BCD, CBA} – словарь (множество ключей). Построим m-ичное дерево,где m = 5 = | , A, B, C, D |. Следующая небольшая хитрость позволит иногда сократить поиск:если в словаре есть слово а1а2а3...аk и первые i его букв (i < k) задают уникальное значение:комбинация а1...аi встречается в словаре только один раз, то не нужно строить дерево для j >i, так как слово можно идентифицировать по первым i буквам.На рисунке (внизу) изображено дерево поиска (5-ичное). Прямоугольниками изображенывершины дерева, в овалах – значения слов (ключей) и связанная с ним информация(комментарий к слову или любая другая информация, которую мы будем обрабатывать).

Темсамым любая вершина дерева – массив из m элементов (в данном примере m = 5).Каждый элемент вершины содержит либо ссылку на другую вершину m-ичного дерева, либона содержащий информацию овал (ключ).Рассмотрим корень дерева: как видно из словаря все слова начинаются с А, В или С, причемс C начинается только одно слово – СВА. Поэтому ссылки на узел для слов, начинающихся сА, на узел для слов, начинающихся с В, и на слово CBA (оно единственно).Рассмотрим узел для слов, начинающихся с А: у него пять ссылок на слова A , AA, ABB,AC, ADBD.

Все перечисленные слова уникальны, так что дополнительных узлов не требуется.1(с) Кафедра системного программирования ф-та ВМК МГУ, 2010Лекции по курсу “Алгоритмы и алгоритмические языки”, 1 курс, 1 поток, 2010/2011 уч.годРассмотрим узел для слов, начинающихся с B: оба слова начинаются с комбинации ВС. Этоприводит к необходимости завести еще один узел для слов, начинающихся с ВС. Этообстоятельство ухудшает эффективность, так как рассматриваемое дерево содержит многонулевых указателей (7), что вызывает большой перерасход памяти. Можно, конечно,исправить положение, модифицировав поиск.Очень важное обобщение цифрового поиска: таким же образом можно обрабатывать любыеключи, не привязываясь к байту (8 битам), который обычно используется для кодированияAКорень дерева•nullBC•D•nullCBAA•AB••AAABBC•ACD•nullABCnullnullABCnullnull•DnullADBDnull•BCAD•BCDсимволов алфавита.

Мы можем отсекать от ключа первые m бит, использовать 2m-ичноеразветвление, т.е. строить 2m-ичное дерево поиска (когда цифровой поиск проводится надвоичных деревьях, для разветвления берется один бит: m = 1). В реальной жизнирассмотренные методы используются, например, при поиске внутренних имен, которыестроит компилятор. Чтобы сделать оценку по памяти и по эффективности, необходимымашинные эксперименты, чтобы проанализировать, как будет работать метод дляконкретного словаря..Занесение и исключение рассмотреть самостоятельно.19.3. Программа поиска.19.3.1.

Тип union (объединение). Синтаксически это структура, все поля которой наложеныодно на другое. В Паскале этому соответствует вариантная запись. Семантически – этообласть памяти, в которой хранятся данные разных типов: один и тот же набор битовинтерпретируется несколькими (двумя и более) разными способами.19.3.2. Объявление объединения.union тег {тип имя-члена;тип имя-члена;……………………тип имя-члена;2(с) Кафедра системного программирования ф-та ВМК МГУ, 2010Лекции по курсу “Алгоритмы и алгоритмические языки”, 1 курс, 1 поток, 2010/2011 уч.год} переменные этого объединения;Пример:union tree_node {struct record *r;struct tree * a[M+1];} u;19.3.3.

Текст программы.#include <stdlib.h>#define M 20 //максимальное число символов в ключе#define N 30 //мощность словаряtypedef char key[M]; //ключ – массив из M символовtypedef enum {ident, node} tag; //struct record { //key k;int value;};struct tree { //tag t;union {struct record *r;struct tree * a[M+1];} u;};int ord (char c){if (c == ' ')return 0;return c - 'A' + 1;}struct record *find (struct tree *p, key k){int i = 0;while (p != NULL) {switch (p->t){case ident:for (i = 0; i < M; i++)if (p->u.r->k[i] != k[i])return NULL;return p->u.r;case node:p = p->u.a[ord(k[i++])];}}3(с) Кафедра системного программирования ф-та ВМК МГУ, 2010Лекции по курсу “Алгоритмы и алгоритмические языки”, 1 курс, 1 поток, 2010/2011 уч.годreturn NULL;}19.4. Иногда используют комбинации нескольких методов: цифровой поиск вначале, а затемпереключение на поиск в последовательных таблицах.

Именно так мы и работаем сословарем с высечками: вначале на высечку, а затем либо последовательный поиск, либодихотомический (используя факт упорядоченности слов в словаре, факт отсортированности).Именно так или похожим образом мы и работаем со словарями. Обычно предлагаетсяпользоваться цифровым поиском пока количество различных слов не меньше некоторого k, азатем переключение к последовательным таблицам.19.5. Обобщения: поиск по неполным ключам, поиск по образцу.19.5.1. Формальная постановка задачи поиска по образцу. Даны текст – массив T [N]длины N и образец – массив P[m] длины m ≤ N, где значениями элементов массивов Tи P являются символы некоторого алфавита A.

Говорят, что образец P входит в текстT со сдвигом s (или, что то же самое, с позиции s + 1), если 0 ≤ s ≤ N – m и для всех i =0, 1, …, m – 1 T[s + i] = P [i]. Сдвиг s(T, P) называется допустимым, если P входит в Tсо сдвигом s = s(T, P) и недопустимым в противном случае.Задача поиска подстрок состоит в нахождении множества допустимых сдвиговs(T, P) для заданного текста T и образца P.4(с) Кафедра системного программирования ф-та ВМК МГУ, 2010.

Характеристики

Тип файла

PDF-файл

Размер

156,81 Kb

Материал

Электронные лекции

Тип материала

Лекции

Предмет

Алгоритмы и алгоритмические языки

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

jelektronnye-lekcii.rar

Электронные лекции

Лекции 3—5. Формализация понятия алгоритма.pdf

Лекция 6. Базовые понятия языка Си.pdf

Лекция 7. Арифметические и логические выражения. Массивы.pdf

Лекция 8. Массивы и указатели.pdf

Лекция 9. Функции, структуры, перечисления.pdf

Лекция 10. Динамические структуры данных.pdf

Лекция 11. Сортировка.pdf

Лекция 12. Быстрая сортировка. Рекурсия.pdf

Лекция 13. Хеш-таблицы.pdf

Лекция 14. Хеш-таблицы (окончание).pdf

Лекция 15. Двоичные деревья поиска.pdf

Лекция 16. Двоичные деревья (окончание).pdf

Лекция 17. AVL-деревья.pdf

Лекция 18. AVL-деревья (окончание).pdf

Лекция 19. Цифровой поиск.pdf

Лекция 20. Поиск подстрок по образцу.pdf

Лекция 21. Обход двоичного дерева.pdf

Лекция 22. Топологическая сортировка.pdf

Лекция 23. Алгоритмы перебора множеств.pdf

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.