Теоретический минимум по Распределённым Операционным Системам (1158867), страница 2
Текст из файла (страница 2)
Hadoop и MapReduce (GFS, …) – состав – Common (компоненты, стыковка с файловой системой, …) + HDFS + MapReduce (под java, …)
-
Концепции –
-
Функциональное программирование (подобно lisp) + перемещение вычислений к данным
-
Данные почти не пишутся – очень много читаются
-
Простота использования при автоматическом распараллеливании
-
Перемещаются лишь промежуточные списки – их объём мал.
-
Дёшево и сердито, всёгда что-то ломается
-
HDFS – Namenode – знает где и что лежит, DataNode – в нём лежит, Rack1 – шкафы, в которые собраны DataNode
Адресное пространство общее, файл разбивается на независимые блоки, которые реплицируются
Права доступа – дискреционные, команды для работы с файловой системой – свои.
-
MapReduce – Последовательно делается Map данных с получением промежуточных списков, потом их Shuffle (перегруппировка), а потом их Reduce – и результат reduce в совокупности – и есть ответ.
-
Архитектура – Клиент даёт задачу JobTracker, тот её может соптимизировать (сам решить, как данные разбить, …) и отдаёт TackTracker – который выполнит нужную операцию.
Примеры систем hadoop – Hive, Pig, Cassandra
10