8-Hadoop_HDFS (1158858)

Файл №1158858 8-Hadoop_HDFS (В.А. Крюков, В.А. Бахтин - Распределенные системы)8-Hadoop_HDFS (1158858)2019-09-182019-09-18СтудИзба

В.А. Крюков, В.А. Бахтин - Распределенные системы

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

HadoopВведение в Hadoop иMapReduce.HDFSДанные2006 год – 0.18 зеттабайт 2011 год – 1.8 зеттабайт (10^21)Нью-Йорская фондовая биржа 1 терабайтданных в деньInternet Archive более 2 петабайт и растетсо скоростью 20 терабайт в месяцБольшой адронный коллайдер до 15петабайт данных в годХранение и анализ данных1990 год – 1370 Мбайт, скоростьпередачи до 4.4 Мбайт/c, 5 минут 2010 год – несколько терабайт,скорость передачи 100 Мбайт/c, 2.5часаИспользуем 100 дисков, на каждом изкоторых хранится 1/100 часть данных=> при параллельной работе дисковданные будут прочитаны за 2 минутыHadoopСистема надежного общего хранения ианализа данныхобеспечивает хранение MapReduce - анализ HDFSHadoop и РСУБДСкорость позиционирования улучшается медленнее скоростипередачи данныхПозиционирование – процесс перемещения считывающейголовки к определенному месту диска для чтения или записиданных.Скорость позиционирования определяет задержку привыполнении дисковых операций, тогда как скорость передачиданных определяют пропускную способность каналавзаимодействия с дискомЕсли в схеме обращения к данным преобладают операциипозиционирования, то чтение и запись больших частей набораданных займут больше времени, чем при потоковых операциях,выполняемых со скоростью передачи данныхHadoop и РСУБДПараметрТрадиционная РСУБДMapReduceРазмер данныхГигабайтыПетабайтыДоступИнтерактивный ипакетныйПакетныйОбновленияМногократное чтение изаписьОднократная запись,многократное чтениеСтруктураСтатическая схемаДинамическая схемаЦелостностьВысокаяНизкаяМасштабированиеНелинейноеЛинейноеЧто такое HadoopИнфраструктура (framework) дляпараллельной обработки большихобъемов данных (терабайты) Особенности: Функциональноепрограммирование Автоматическое распараллеливание Перемещение вычислений к даннымOpen Source, http://hadoop.apache.orgКонцепцииПарадигмы программирования: Императивноепрограммирование (ИП) Функциональное программирование (ФП)Работа с данными: Перемещениеданных к вычислительнымресурсам (ПДкВ) Перемещение вычислений к данным(ПВкД)КонцепцииНаиболее популярная сейчастехнология: императивноепрограммирование +перемещение данных к вычислениямПримеры: MPI GPUGPU nVidiaВысокая производительность: nVidiaTesla M2050/2070 – 0,5 TFlops doubleШаги вычислений: Копированиеданных в память GPU Обработка данных в GPU Копирование данных в память хостаПрограммист полностью управляетпроцессом вычислений и перемещенияданныхНедостатки ИП + ПДкВMPI и GPU эффективны при: Небольшихобъемах данных Высокой сложности вычислений Небольшом количестве узлов (сотни)Терабайты данных перемещать долго Управлять логикой передачи данных натысячи узлов сложноПроблемы разработки длякрупных параллельных системМасштабирование на тысячи узловЭффективное распределение нагрузкиЭффективный обмен данными в процессевычисленийОбработка отказов вычислительных узловИмперативное программирование: Всеэти задачи программист должен решать самФункциональноепрограммированиеПрограммист описывает функцию,которую надо вычислить, но не процессвычисления Входные данные не изменяются,создаются новые Поток данных жестко встроен впрограммуЗадачи Hadoop/MapReduceЭффективная обработка терабайтов данныхАвтоматическое распараллеливание натысячи узловАвтоматическое распределение нагрузкиАвтоматическая обработка отказовоборудованияПростота использованияПримеры приложенийРаспределенный grep Распределенная сортировка Инвертированный индекс Подсчет количества запросов к URL Реверсивный web-link графИсторияGoogle: 2003- The Google File System 2004 - MapReduce: Simplified Data Processing onLarge Clusters2005 - Open Source поисковик Apache Nutchиспользует MapReduce2006 – Open Source реализация MapReduceвыделяется в отдельный проект ApacheHadoopКто использует HadoopСостав HadoopHadoop Common – общиекомпоненты HadoopHadoop HDFS –распределеннаяфайловая системаHadoop MapReduce –реализация MapReduceна JavaHadoop HDFSСпециализированная распределеннаяфайловая система для хранения ТерабайтовданныхЦели разработки: Надежноехранение данных на дешевомненадежном оборудовании Высокая пропускная способность ввода-вывода Потоковый доступ к данным Упрощенная модель согласованности: WORMАрхитектура аналогична Google File SystemАрхитектура Hadoop HDFSАрхитектура HDFSУзлы хранения – серверы стандартнойархитектуры Данные хранятся на внутренних дискахсерверов Единое адресное пространство Параллельное чтение и запись на узлы– высокая пропускная способностьMapReduceПрограммная модель параллельнойобработки больших объемов данныхза путем разделения на независимыезадачи MapReduce разработан в Google дляпоисковой системы Использует функциональноепрограммирование, обработку списковФункции MAP и ReduceНазваниязаимствованы изфункциональныхязыков (LISP, ML)Обработка списковMapReduce в HadoopСписки пар: ключ-значениеAAA-123 65mph, 12:00pmZZZ-789 50mph, 12:02pmAAA-123 40mph, 12:05pmReduce выполняется отдельно для разныхключейПоток данных MapReduceПример WordCountПодсчет количества слов в файлахАрхитектура HadoopПеремещение вычислений кданнымЗадача запускается на том узлехранения, который содержит данныедля обработки (фаза MAP) Перемещаются только входные спискидля Reduce, их объем мал (как правило)Результаты Hadoop в TeraSortБайты УзлыMapsReducesВремя5*1011 1 4068 0002 60059 секунд8 0002 70062 секунды10121 46010143 452 190 00010 000173 минуты10153 658 80 00020 000975 минутИсточник: Owen O’Malley and Arun C.

Murth. Winning a 60 Second Dashwith a Yellow Elephant.ОС и режимы работыJava 6Поддерживаемые ОС: Linux(продуктив) Windows (только тестирование) Любой UNIX (не гарантируется)Режимы работы: Локальный Псевдо-распределенный РаспределенныйПрограммирование HadoopJava API Hadoop Plugin для Eclipse Hadoop Streaming - другие языки: Shell Python Rubyидр.Системы на основе HadoopPig – высокоуровневый язык потоков данныхHBase – распределенная база данныхCassandra – multi-master база данных безединой точки отказаHive – хранилище данных (warehouse)Mahout – машинное обучение и извлечениезнанийРаспределенная файловаясистема HDFSМотивация использованияраспределенных файловых систем Архитектура HDFS Команды работы с HDFS Права доступа в HDFS Работа с HDFS из Java программМотивацияЧто нужно для эффективной обработкитерабайтов данных? Большаяемкость Высокая производительная НадежностьТрадиционное решениеСистемы хранения данных Емкость:сотни и тысячи дисков Производительность: сотни ГБ/с Надежность: RAID, дублированиекомпонентов, репликацияПримеры: EMC Symmetrix VMAX, Hitachi VSP,HP XP20000Недостаток: высокая стоимость (миллионыдолларов)Распределенные файловыесистемыМожно ли получить емкость,производительность и надежность дешево?Да, можно.

Google: “TheGoogle File System”, Sanjay Ghemawat,Howard Gobioff, Shun-Tak Leung. Proceedings of the19th ACM Symposium on Operating SystemsPrinciples, 2003, pp. 20-43. Для хранения данных используются дискинедорогих обычных серверов Независимые диски объединяются враспределенную файловую систему GFSПреимущества распределенныхфайловых системВысокая емкость: Многосерверов с внутренними дискамиВысокая производительность: ПараллельнаяинтерфейсовВысокая надежность: Репликациязапись на диски, много сетевыхданных на разные серверыНизкая стоимость: Серверыстандартной архитектуры с LinuxHDFSHadoop Distributed File System (HDFS) –распределенная файловая система,входящая в состав Hadoop Основывается на архитектуре GoogleFile System HDFS - специализированная файловаясистема для приложений HadoopПотребности приложений HadoopТиповое приложение – поисковый робот Файлыиндексов содержимого Webбольших размеров Файлы индексов записываются один раз, азатем только читаются (без изменений) Потоковые операции ввода-вывода Пакетная обработкаОграничения HDFSОптимизация для потоковых операций с большимифайламиМодель доступа к файлам WORM (Write-Once-ReadMany)Запись в файл производиться только один раз, потом толькочтениеНе поддерживается POSIXСлучайный доступ работает медленноНельзя подмонтировать, не работают стандартные Linuxкоманды ls, cp, mkdir и т.п.Кэширование не используетсяНакладные расходы слишком великиАрхитектура HDFSАрхитектура HDFSNamenode (узел имен): Управляющийузел Обеспечивает единое пространство имен Регулирует доступ клиентов Хранит метаданныеDatanode (узел данных) ХранитданныеУзлы имен и данных – серверы Linux (какправило)Хранение файлов в HDFSБлочная структура: Файлразбивается на блоки одинакового размера(64MБ по умолчанию) Блоки хранятся на одном или нескольких узлаххранения Возможна репликация блоковУзел имен хранит метаданные ораспределении блоков по узлам храненияХранение файлов в HDFSРепликацияВ большом кластере всегда будутнеисправные узлыДля защиты от сбоев HDFS используетрепликацию – хранение нескольких копийблокаФактор репликации – количество копий блока(3 шт.

Характеристики

Тип файла

PDF-файл

Размер

1,13 Mb

Материал

В.А. Крюков, В.А. Бахтин - Распределенные системы

Тип материала

Лекции

Предмет

Распределённые системы

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.