Лекция 7. ZooKeeper (2014 Лекции)
Описание файла
Файл "Лекция 7. ZooKeeper" внутри архива находится в папке "2014 Лекции". PDF-файл из архива "2014 Лекции", который расположен в категории "". Всё это находится в предмете "(смрхиод) современные методы распределенного хранения и обработки данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
ZooKeeperZookeeper.apache.orghttp://bigdata.cs.msu.ruРаспределенные приложенияРазличные компоненты ПО выполняются нанескольких компьютерах, но представляют собойодну единую программную систему●Компьютеры могут находится в одной ЛС, либобыть географически удаленными●Для пользователей распределенных приложенийтакая сеть — это один компьютер●http://bigdata.cs.msu.ruПреимуществаМасштабируемость — система может легконаращиваться добавлением новых компьютеров●Избыточность — несколько хостов предоставляютидентичные услуги, отказ одного не приводит котказу всей системы●Экономичность — могут использоваться«бюджетные» хосты, стоимость избыточности незапредельно высока●http://bigdata.cs.msu.ruНазначение ZooKeeperВ распределенных системах требуетсякоординация между хостами — разработкасервисов координации трудоемка и сложна●ZooKeeper — проект с открытым кодом,реализующий централизованные распределенныесервисы для:●– Сохраненияконфигурационной информации– Именования– СинхронизацииГрупповых сервисов–http://bigdata.cs.msu.ruРаспределенный режимhttp://bigdata.cs.msu.ruРаспределенный режимZooKeeper работает на нескольких хостах, всовокупности называемых «ансамблем»●●Хосты в ансамбле знают друг о друге (полный граф)Консистентность — ансамбль из 7 хостов можетпотерять три хоста и не прекратить обслуживание●Клиент подключается к одному хосту ансамбля, ноавтоматически переключается на другой при потересвязи●Записи проходят через лидера ансамбля и требуютподтверждения большинства●http://bigdata.cs.msu.ruАнсамбльВ ансамбле все хосты знают друг о друге.●Один из хостов избирается «лидером», всеостальные становятся «последователями»●Если связь с лидером прервалась, происходятвыборы нового лидера●Каждый хост хранит:●– Данные– Логполностью загруженные в памятьтранзакций на диске– Периодическиеhttp://bigdata.cs.msu.ruснимки состояния на дискеВыборы лидераПример.
Простейшая топология: кольцо●Каждый хост имеетуникальный ID (Eth addr?)●Алгоритм:– Каждый хост посылает свойID следующему (по ч. с.)– Хост получает ID, сравниваетсо своим, если свой больше,полученное сообщение игнорируется,иначе ретранслируется●Сложность O(n^2) сообщений в худшем случае, O(nlogn) всреднем●Лучшие алгоритмы — O(n) на полном графе●http://bigdata.cs.msu.ruГарантии консистентностиПоследовательная консистентность — обновленияс одного клиента применяются к системе в порядкепоступления●Атомарность — обновления либо завершаютсяполностью, либо не завершаются●Единый образ — клиент наблюдает одно и то жесостояние ZooKeeper независимо от хоста, ккоторому он подключен●http://bigdata.cs.msu.ruГарантии консистентности (2)Надежность — если обновление успешно, оносохраняется постоянно и не может быть откатано, покане будет заменено другим обновлением с (другого)клиента●Своевременность — клиенский вид состояниясистемы гарантируется актуальным на определенныйпериод (десятки секунд)– Если клиент не видит обновлений более чемуказанный период времени, он предполагает отказданного хоста и переподключается к другому хостув ансамбле●http://bigdata.cs.msu.ruОтсутствие гарантийНе гарантируется, что в любой момент времени всеклиенты ZooKeeper будут наблюдать одно и то жесостояние●Метод sync() позволяет синхронизовать хосты:последователи обновляют свое состояние всоответствие с состоянием лидера●http://bigdata.cs.msu.ruМодель данныхРазделяемое иерархическое пространство имен,организованное аналогично файловой системе Unix●Узлы называются znode●Znode хранит данные,ссылки на подузлы,либо и то, и другое●Каждый znode имеет ACL с возможность задатьправа на чтение, запись, модификацию и удаление●Данные считываются из znode целиком изаписываются в znode целиком●http://bigdata.cs.msu.ruМодель данных (2)Максимальный размер данных, хранимых в znode— 1MiB●Каждый znode представляет серверы, программыили процессы в распределенном окружении●Путь всегда записывается в канонической форме,всегда абсолютный, используется '/' в качестверазделителя.●Атомарное чтение/запись данных в znode●http://bigdata.cs.msu.ruТипы znode●●●●Ephemeral– Только данные (нет поддеревьев)– Удаляются при завершении сессии клиентаPersistent– Данные и поддеревья– Должны удаляться явноВыбор типа znode — только при созданииSequental: /MyNode-1, /MyNode-2 ...– Последовательная нумерация согласно счетчику вродительском znodehttp://bigdata.cs.msu.ruВремя ZooKeeperВремя ZooKeeper отличается от астрономического●– Zxid— ID транзакцииВерсии●– Version— число изменений в znode– Cversion— число изменений в детях– Aversion— число изменений в ACL znodeTick Time (по умолчанию 2c)●– Тайм-аутыhttp://bigdata.cs.msu.ruизмеряются в tick timeМетаданные znodeStat хранит метаданные znode●– Czxid— ID создания znode– Mzxid— ID изменения znode– Ctime— время от создания znode– Mtime— время от изменения znode– Version,cversion, aversion– EphemeralOwner– DataLength— размер данных– NumChildrenhttp://bigdata.cs.msu.ru— создатель ephemeral znode— число детейСессии●Клиент получает список серверов ZooKeeper при настройке.●Клиент пробует серверы по очереди, пока не подключится.●При подключении создается сессия.●Устанавливается timeout сессии.●Периодическая проверка доступности сервера (heartbeat)Если текущий сервер отказывает, он автоматическизаменяется другим, при этом все ephemeral znodeсохраняются.●http://bigdata.cs.msu.ruСостояния объектаВ каждый момент времени объект находится водном из состояний●– Connecting– Connected– ClosedgetState() возвращаетсостояние●http://bigdata.cs.msu.ruZooKeeper Watches●●Позволяют получать уведомления об изменениях– Одноразовые (нужно переустанавливать)– Посылаются только клиенту, установившему watch– Срабатывают на изменение данных или состоянияСвойства– Сохраняется порядок срабатывания– Клиент получит уведомление до того, как znodeбудет обновлен– Порядок событий watch соответствует порядкуобновления znodehttp://bigdata.cs.msu.ruНаблюдаемые событияhttp://bigdata.cs.msu.ruБазовые операцииCreate — создать znode●Delete — удалить znode●Exists — проверить существование и вернуть Stat●GetACL, setACL — работа с ACL●GetChildren — получить список детей●GetData, setData — работа с данными●Sync - синхронизоваться●http://bigdata.cs.msu.ruИнтерфейс командной строкиls PATH●create [-s] [-e] PATH●delete PATH●set PATH DATA●get PATH●http://bigdata.cs.msu.ruZooKeeper APIСтандартно: Java, C●Дополнительно: C#, Python, …●Java:●– org.apache.zookeeper– org.apache.zookeeper.data– Присоздании объекта zookeeper создаются двенити:●IO-thread для ввода-вывода●Event thread для реакции на событияhttp://bigdata.cs.msu.ruJava APIКонструкторZooKeeper(String connStr, int to, Watcher w);●– connStr:– Порт– To<HOST>[:<PORT>],<HOST>[:<PORT>]по умолчанию: 2181— тайм-аут в миллисекундах— объект для получения извещений, если неnull, конструктор возвращается немедленно–Whttp://bigdata.cs.msu.ruСоздание znodevoid create(String path, byte[] data, LIST<ACL> acl,CreateMode mode);●– Еслиdata == null, данных нет– Mode— persistend/ephimeral + sequentalStat exists(String path, boolean watch);●– Watch== true — установить наблюдениеList<String> getChildren(String path, boolean watch);●getData/setData●http://bigdata.cs.msu.ruZooKeeper exceptions●InterruptedException– Операция●была прерванаKeeperException– Выбрасываются,когда состояние не соответствуетожидаемому (state exceptions), например, приодновременном обновлении znode– Нефатальныесоединение– Фатальныеистеклаhttp://bigdata.cs.msu.ru(recoverable), например, потеряно(unrecoverable), например, сессияACL (Access Control Lists)Применяются только к конкретному znode, нерекурсивные●Права:●– CREATE– READ— создать сына— getChildren()/getData()– WRITE- setData()– DELETE– ADMINhttp://bigdata.cs.msu.ru- delete()— setACL()Схемы ACLWorld — все, что угодно●Auth — любой авторизованный пользователь●Digest — задание логина/пароля●IP — по IP адресам●Например:– Ip:172.0.0.0/8,READ– Digest:username:PWD● PWD — это base64(sha1(password))●ACL acl = new Id(Perms.READ, new Id("ip", "172.0.0.8/8"));●http://bigdata.cs.msu.ruНастраиваемая аутентфикацияДве операции:– Аутентифицировать клиента;– Получить записи из ACL для клиента.●Необходимо реализовать интерфейсAuthentificationProvider●На всех хостах ZooKeeper должны быть определеныодни и те же плагины аутентификации●Встроены: ip, digest●Дополнительные в properties-файлах:authProvider.1=ru.msu.cmc.Auth1authProvider.1=ru.msu.cmc.Auth1●http://bigdata.cs.msu.ruAuthentificationProviderString getScheme();●KeeperException.CodehandleAuthentification(ServerCnxn cnxn, byte[] data);●Boolean isAuthentificated();●– Можетли использоваться для идентификациисоздателя znodeBoolean isValid(String id);●Boolean matches(String id, String acl);●http://bigdata.cs.msu.ruApache CuratorБиблиотека классов, упрощающая работу сZooKeeper со стороны клиента●Управляет подключениями и переподключениями●Стиль использования: «FluentStyle»client.create().forPath("/my/1", data);●Рецепты (recipy)●http://bigdata.cs.msu.ruРецептыФункции высшего порядка, реализующие сервисыZooKeeper●Могут использоваться в приложениях●Стандартные приложения:●– Серверимен;– Конфигурация;– Членствоhttp://bigdata.cs.msu.ruв группе.Синхронизационные рецептыБарьеры (Barriers)●Очереди (Queues)●Замки (Locks)●Двухфазное сохранение (Two Phase Commit)●Выбор лидера (Leader Election)●http://bigdata.cs.msu.ruBarriersТочка в программе.
Программа не можетпродолжить выполнение, пока не выполнитьсянекоторое условие. Например, все N нитей должныдостичь барьера, только после этого выполнениенитей может быть продолжено.DistributedBarrier db = new DistributedBarrier (client,"/barrier1");db.waitOnBarrier();●http://bigdata.cs.msu.ruДвойной барьерN клиентов синхронизируются на входе вкритическую секцию и на выходе из нее.DistributedDoubleBarrier ddb =DistributedDoubleBarrier (client, "/ddb", 5);●ddb.enter();ddb.leave();http://bigdata.cs.msu.ru.