Лекция 4. HDFS (1185405)
Текст из файла
HDFS (Hadoop Distributed FileSystem)http://bigdata.cs.msu.ruСвойства HDFSОтказоустойчивость: отказ одного узла,хранящего данные, не приведет кнедоступности данных (данныереплицируются)●Ориентация на последовательные операции(streaming) — высокая пропускнаяспособность приоритетнее низкойлатентности●http://bigdata.cs.msu.ruСвойства HDFS (2)Ориентация на файлы большого размера(гигабайты и терабайты)●Масштабируемость на сотни и тысячи узлов●Модель write-once-read-many (однократнаязапись — многократное чтение) — простаямодель когерентности●Отказ от полной поддержки семантикиработы с файлами POSIX (параллельнаязапись, блокировки и т. п.)●http://bigdata.cs.msu.ruСвойства HDFS (3)Учет локальности данных: иерархияфайловая система — стойка (rack) — узел●Взаимодействие с планировщикомMapReduce для размещения вычислительныхузлов «ближе» к используемыми имиданными●Работа в гетерогенных программных иаппаратных средах.●http://bigdata.cs.msu.ruРабота с HDFSИз командной строки (hadoop hdfs <CMD>)●С помощью Linux FUSE (File System in UserSpace)●Java API●HTTP Get (WebDAV в разработке)●http://bigdata.cs.msu.ruИспользуемый транспортHDFS работает поверх сокетов TCP●Для запуска процессов HDFS на узлахиспользуется openssh с установленнымключем доступа (без пароля)●http://bigdata.cs.msu.ruАрхитектураhttp://bigdata.cs.msu.ruNameNodeMaster узел, управляет всеми узлами данных,не реплицируется●Хранит всю иерархическую структурукаталогов файловой системы●Хранит всю метаинформацию о файлах●Ведет лог транзакций EditLog для сохранениявсех операций с ФС●http://bigdata.cs.msu.ruDataNodehttp://bigdata.cs.msu.ruDataNodeХранит блоки фиксированного размера (напр.128 мб)●Не хранит информации о файлах●Периодически отсылает Heartbeat наNameNode●Периодически отсылает список всех блоков(Blockreport) на NameNode●http://bigdata.cs.msu.ruЗапись на HDFSКлиент накапливает данные, пока их размер недостигнет размера блока●Клиент запрашивает у NameNode списокDataNode для записи (DN1, DN2, DN3, ...)●●Клиент пересылает блок на DN1●DN1 сохраняет блок у себя и пересылает на DN2●DN2 сохраняет блок у себя и пересылает на DN3●DN3 сохраняет блок у себяhttp://bigdata.cs.msu.ruMountableHDFSПроекты для представления доступа к HDFSс помощью FUSE в Linux●HDFS монтируется как обычная файловаясистема в пространство имен файловойсистемы локального компьютера●Действуют ограничения на семантику POSIX●http://bigdata.cs.msu.ruКомандная строкаСоздание каталогаhadoop dfs -mkdir /foodir●Удаление файла (перенос в /trash)hadoop dfs -rmr /foodir●Вывод содержимого файлаhadoop dfs -cat /foodir/myfile.txt●http://bigdata.cs.msu.ruJava APIhttp://bigdata.cs.msu.ru.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.