Для студентов МГУ им. Ломоносова по предмету ДругиеОптимизация выполнения запросов по диапазонам для библиотек индексации, построенных на основе обратного индексаОптимизация выполнения запросов по диапазонам для библиотек индексации, построенных на основе обратного индекса
4,945807
2024-07-182024-07-18СтудИзба
Курсовая работа: Оптимизация выполнения запросов по диапазонам для библиотек индексации, построенных на основе обратного индекса
Описание
Оглавление
1. Введение.................................................................................................................................. 4
2. Библиотека индексации Lucene................................................................................................ 6
3. Структура библиотек индексации............................................................................................. 7
3.1 Получение данных............................................................................................................... 9
3.2 Построение внутренних представлений документов........................................................... 9
3.3 Анализ документа.............................................................................................................. 10
3.4 Индексирование документа............................................................................................... 11
3.5 Гибкая схема...................................................................................................................... 11
3.6 Сегментированная структура индекса................................................................................ 12
4. Сравнение поисковых систем и баз данных............................................................................ 13
5. Постановка задачи.................................................................................................................. 14
6. Существующие решения......................................................................................................... 18
7. Предложение по оптимизации............................................................................................... 26
8. Заключение............................................................................................................................. 34
8. Список использованной литературы....................................................................................... 36
Поисковые системы, основанные на библиотеках индексации в настоящее время используются практически повсеместно: для осуществления Web-поиска, поиска по архивам документов, а также для других специфических задач. Отличительной чертой таких систем является возможность осуществления поиска по неструктурированным или слабоструктурированным массивам данных, таких как множества разнородных документов в различных форматах. Благодаря отсутствию заранее предопределенной структуры данных и возможности неполного соответствия для поиска по запросу, поисковые системы представляют собой удобное средство, предоставляющее возможности постоянного хранения и быстрого поиска по хранимым документам. Библиотеки индексации позволяют связывать с каждым индексируемым документом набор полей, по которым возможно осуществлять поиск. Простейшими примерами служат поля «имя документа» и «содержимое». Кроме того, в таких полях возможно хранить численные даннные, а также дату и время. Существует множество сценариев использования информации, хранимой в этих полях. К примеру, информация о дате публикации статьи может требоваться для создания списка статей, опубликованных за прошедший месяц, кроме того широкое применение такие данные имеют для семантического поиска и анализа (так как, как правило, имеет смысл не абсолютная величина результатов анализа,
изменение показателей за выбранный временной период). Однако структура обратного индекса не оптимизирована для запросов по диапазонам. Несмотря на то, что на дан
1. Введение.................................................................................................................................. 4
2. Библиотека индексации Lucene................................................................................................ 6
3. Структура библиотек индексации............................................................................................. 7
3.1 Получение данных............................................................................................................... 9
3.2 Построение внутренних представлений документов........................................................... 9
3.3 Анализ документа.............................................................................................................. 10
3.4 Индексирование документа............................................................................................... 11
3.5 Гибкая схема...................................................................................................................... 11
3.6 Сегментированная структура индекса................................................................................ 12
4. Сравнение поисковых систем и баз данных............................................................................ 13
5. Постановка задачи.................................................................................................................. 14
6. Существующие решения......................................................................................................... 18
7. Предложение по оптимизации............................................................................................... 26
8. Заключение............................................................................................................................. 34
8. Список использованной литературы....................................................................................... 36
- Введение
Поисковые системы, основанные на библиотеках индексации в настоящее время используются практически повсеместно: для осуществления Web-поиска, поиска по архивам документов, а также для других специфических задач. Отличительной чертой таких систем является возможность осуществления поиска по неструктурированным или слабоструктурированным массивам данных, таких как множества разнородных документов в различных форматах. Благодаря отсутствию заранее предопределенной структуры данных и возможности неполного соответствия для поиска по запросу, поисковые системы представляют собой удобное средство, предоставляющее возможности постоянного хранения и быстрого поиска по хранимым документам. Библиотеки индексации позволяют связывать с каждым индексируемым документом набор полей, по которым возможно осуществлять поиск. Простейшими примерами служат поля «имя документа» и «содержимое». Кроме того, в таких полях возможно хранить численные даннные, а также дату и время. Существует множество сценариев использования информации, хранимой в этих полях. К примеру, информация о дате публикации статьи может требоваться для создания списка статей, опубликованных за прошедший месяц, кроме того широкое применение такие данные имеют для семантического поиска и анализа (так как, как правило, имеет смысл не абсолютная величина результатов анализа,
изменение показателей за выбранный временной период). Однако структура обратного индекса не оптимизирована для запросов по диапазонам. Несмотря на то, что на дан
Характеристики курсовой работы
Предмет
Учебное заведение
Семестр
Просмотров
1
Размер
613,5 Kb
Список файлов
Оптимизация выполнения запросов по диапазонам для библиотек индексации, построенных на основе обратного индекса».doc