Лекция 4. HDFS (2014 Лекции)
Описание файла
Файл "Лекция 4. HDFS" внутри архива находится в папке "2014 Лекции". PDF-файл из архива "2014 Лекции", который расположен в категории "". Всё это находится в предмете "(смрхиод) современные методы распределенного хранения и обработки данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
HDFS (Hadoop Distributed FileSystem)http://bigdata.cs.msu.ruСвойства HDFSОтказоустойчивость: отказ одного узла,хранящего данные, не приведет кнедоступности данных (данныереплицируются)●Ориентация на последовательные операции(streaming) — высокая пропускнаяспособность приоритетнее низкойлатентности●http://bigdata.cs.msu.ruСвойства HDFS (2)Ориентация на файлы большого размера(гигабайты и терабайты)●Масштабируемость на сотни и тысячи узлов●Модель write-once-read-many (однократнаязапись — многократное чтение) — простаямодель когерентности●Отказ от полной поддержки семантикиработы с файлами POSIX (параллельнаязапись, блокировки и т. п.)●http://bigdata.cs.msu.ruСвойства HDFS (3)Учет локальности данных: иерархияфайловая система — стойка (rack) — узел●Взаимодействие с планировщикомMapReduce для размещения вычислительныхузлов «ближе» к используемыми имиданными●Работа в гетерогенных программных иаппаратных средах.●http://bigdata.cs.msu.ruРабота с HDFSИз командной строки (hadoop hdfs <CMD>)●С помощью Linux FUSE (File System in UserSpace)●Java API●HTTP Get (WebDAV в разработке)●http://bigdata.cs.msu.ruИспользуемый транспортHDFS работает поверх сокетов TCP●Для запуска процессов HDFS на узлахиспользуется openssh с установленнымключем доступа (без пароля)●http://bigdata.cs.msu.ruАрхитектураhttp://bigdata.cs.msu.ruNameNodeMaster узел, управляет всеми узлами данных,не реплицируется●Хранит всю иерархическую структурукаталогов файловой системы●Хранит всю метаинформацию о файлах●Ведет лог транзакций EditLog для сохранениявсех операций с ФС●http://bigdata.cs.msu.ruDataNodehttp://bigdata.cs.msu.ruDataNodeХранит блоки фиксированного размера (напр.128 мб)●Не хранит информации о файлах●Периодически отсылает Heartbeat наNameNode●Периодически отсылает список всех блоков(Blockreport) на NameNode●http://bigdata.cs.msu.ruЗапись на HDFSКлиент накапливает данные, пока их размер недостигнет размера блока●Клиент запрашивает у NameNode списокDataNode для записи (DN1, DN2, DN3, ...)●●Клиент пересылает блок на DN1●DN1 сохраняет блок у себя и пересылает на DN2●DN2 сохраняет блок у себя и пересылает на DN3●DN3 сохраняет блок у себяhttp://bigdata.cs.msu.ruMountableHDFSПроекты для представления доступа к HDFSс помощью FUSE в Linux●HDFS монтируется как обычная файловаясистема в пространство имен файловойсистемы локального компьютера●Действуют ограничения на семантику POSIX●http://bigdata.cs.msu.ruКомандная строкаСоздание каталогаhadoop dfs -mkdir /foodir●Удаление файла (перенос в /trash)hadoop dfs -rmr /foodir●Вывод содержимого файлаhadoop dfs -cat /foodir/myfile.txt●http://bigdata.cs.msu.ruJava APIhttp://bigdata.cs.msu.ru.