Диссертация (1137145)

Файл №1137145 Диссертация (Исследования и разработка алгоритмов поиска в распределенных масштабируемых хранилищах данных)Диссертация (1137145)2019-05-202019-05-20СтудИзба

Исследования и разработка алгоритмов поиска в распределенных масштабируемых хранилищах данных

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

СодержаниеСодержание...................................................................................................... 2Введение .......................................................................................................... 5Глава 1. Обзор алгоритмов распределенных систем хранения ................ 131.1 Алгоритмы распределенных систем хранения с возможностьюпоиска на точное совпадение .......................................................................

131.1.1 Концепция распределенной хэш-таблицы ................................ 141.1.2 Протокол Chord ............................................................................ 151.1.3 Протокол Kademlia ...................................................................... 191.1.4 Pastry..............................................................................................

241.1.5 Применения .................................................................................. 271.2 Алгоритмы распределенных систем хранения с возможностьюпоиска ближайшего соседа в векторных пространствах........................... 321.2.1 Модель навигационного тесного мира Клайнберга ................ 331.2.2 VoroNet......................................................................................... 351.2.3 RayNet .......................................................................................... 381.3 Выводы ................................................................................................. 41Глава 2.

MSW – распределённая структура данных для поискаближайшего соседа в метрических пространствах. ....................................... 442.1 Формулировка задачи поиска ближайшего соседа. Различныевариации. ........................................................................................................ 452.2 Общее описание предлагаемой структуры данных ........................ 472.3 Базовый алгоритм поиска ближайшего соседа ................................ 492.4 Серия поисков ..................................................................................... 522.5 Алгоритм поиска k-ближайших соседей K-NNSearch ....................

532.6 Алгоритм добавления ......................................................................... 5522.7 Алгоритм добавления основанный на устранении локальныхминимумов ..................................................................................................... 572.8Процедураулучшенияпоисковыхсвойствсетизасчётиспользования информации о запросах ...................................................... 612.9 Выводы ................................................................................................. 61Глава 3. Исследование свойств предложенных алгоритмов ....................

623.1 Наборы данных ................................................................................... 633.2 Исследование навигационных свойств: распределение длиныкратчайшего пути и распределение длины пути совершаемой жаднымалгоритмом. ................................................................................................... 643.3 Средняя длина пути жадного алгоритма в графе в зависимости отчисла элементов в структуре........................................................................

743.4 Распределение степеней вершин ....................................................... 763.5 Коэффициент кластеризации ............................................................. 773.6 Вычислительная сложность и точность алгоритма поиска ............ 783.7 MSW – как структура данных для поиска ближайшего соседа.Сравнительный анализ с другими структурами данных для поискаближайшего соседа.

...................................................................................... 813.7.1 Сравниваемые методы ................................................................. 823.7.2 Эксперименты .............................................................................. 863.7.3 Методология оценки .................................................................... 873.8 Улучшения навигационных свойств графа с помощью процедурыRepair_By_Query ...........................................................................................

923.9 Выводы ................................................................................................. 93Глава4.Математическаямодельоптимальныхграфовдляраспределённого поиска ................................................................................... 954.1 Предпосылки разработки модели ......................................................

964.2 Модель ................................................................................................. 974.3 Алгоритм Табу-поиска решений предложенной модели ................ 9934.4 Результаты вычислительных экспериментов ................................. 1014.5 Выводы ............................................................................................... 110Глава 5. Архитектура программной платформы для исследованиясвойствраспределённыхалгоритмовдляпоискавметрическомпространстве .................................................................................................... 1115.1 Базовый абстрактный класс MetricElement .................................... 1125.2 Интерфейс MetricElementFactory..................................................... 1135.3 Работа в n-мерном Евклидовом пространстве ...............................

1145.4 Работа с частотными векторами текстов ........................................ 1145.5 Класс AbstractMetricStructure ........................................................... 1155.6 Класс MetrizedSmallWorld ................................................................ 1165.7 Класс SelfAdaptedMetrizedSmallWorld ............................................ 1165.8 Библиотека алгоритмов AlgoritmLib ............................................... 1175.9 Эксперименты над корпусом текстов Trec-3 ................................. 1175.10 Многопоточная реализация экспериментов с точками d-мерногоЕвклидова пространства .............................................................................

1215.11 Выводы ............................................................................................. 124Заключение .................................................................................................. 125Публикации по теме диссертации .............................................................

127Список литературы ..................................................................................... 129Приложения ................................................................................................. 1364ВведениеВинформационно-вычислительныхсистемахвремядоступакинформации в хранилище данных во многом определяет скорость работывсей системы. Поэтому алгоритмы поиска данных в хранилищах должныподдерживать высокий уровень параллелизма и быть вычислительноэффективными.Технологиибольшихданныхтребуютотсистемоставаться эффективными как с увеличением объёма хранимых данных,так и с возрастающей скоростью их поступления.

Для многих приложений,особенно связанных с алгоритмами анализа данных и машинногообучения, практически весь объем хранилища должен поддерживаться вактивном состоянии и обеспечивать быстрое нахождение и чтение данных,как правило по принципу похожести с предъявляемыми образцами –запросами. Такой вид процессов в хранилищах называют поиском данныхна основе похожести (близости). Для этого на множестве всевозможныххранимых данных (domain) вводят функцию расстояния : × ⟶[!,!!) , отражающую семантику предметной области.

Тогда задачапостроения эффективного хранилища данных может быть сведена к задачепостроения структуры данных S над конечным множеством ⊂ ,позволяющей вычислительно эффективного производить поиск данных«по похожести». Другими словами структура данных S должна позволятьэффективно решать задачу поиска ближайшего соседа, то есть позволятьэффективно вычислять функциюargmin(σ (q, x)), где q ∈ D некоторыйx∈Xинформационный объект – запрос.Важный подкласс таких информационных хранилищ – это хранилища«ключ-значение». Такие системы главным образом поддерживают двеоперации: поиск и хранение данных по заданному ключу используя точноесовпадение.Нахранилищах«ключ-значение»основанымногиепопулярные Web-сервисы.

Например, система обмена сообщениями5Facebook и хранилище сообщений системы SoundCloud используютApache Cassandra; многие продукты Google – такие как Gmail, YouTube,Google Maps – основаны на системе BigTable, которая также являетсяхранилищем «ключ-значение».Одним из возможных подходов к построению масштабируемыххранилищивчастностихранилищ«ключ-значение»,являетсяиспользование и построение структурированных Peer-to-Peer (P2P-сетей).Посредством транспортного уровня, каждый узел P2P сети имеетвозможность передавать и принимать сообщение напрямую от любогодругого участника сети (от этого и происходит название Peer-to-Peer).

Характеристики

Тип файла

PDF-файл

Размер

4,43 Mb

Материал

Исследования и разработка алгоритмов поиска в распределенных масштабируемых хранилищах данных

Тип материала

Кандидатская диссертация

Предмет

Технические науки

Высшее учебное заведение

НИУ ВШЭ

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов диссертации

issledovanija-i-razrabotka-algoritmov-poiska-v-raspredelennyh-masshtabiruemyh-hranilischah-dannyh.rar

Исследования и разработка алгоритмов поиска в распределенных масштабируемых хранилищах данных

Диссертация.pdf

Описание.txt

Прочти меня!!!.txt

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.