Лекция 10. Обзор стека Hadoop. Pig_ Hive_ HBase (1185418)

Файл №1185418 Лекция 10. Обзор стека Hadoop. Pig_ Hive_ HBase (2015 Лекции)Лекция 10. Обзор стека Hadoop. Pig_ Hive_ HBase (1185418)2020-08-252020-08-25СтудИзба

2015 Лекции

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла

Обзор стека Hadoop.Pig, Hive, HBasePigPig – это платформа, предназначенная для анализа больших наборов данных исостоящая из языка высокого уровня для написания программ анализа данных иинфраструктуры для запуска этих программ. Язык характеризуется относительнопростым синтаксисом. Написанные сценарии скрыто преобразуются в задачиMapReduce, которые исполняются на кластере Hadoop. Пользователь можетдобавлять свои собственные функции.http://pig.apache.org/Области применения- Research (исследование данных)- Data mining (построение моделей для дальнейшегоиспользования)- Reporting (построение отчетов)Возможности Pig-Data Types (можно работать с различными типами данных)Filter (различная фильтрация)Group By (группировка по ключу)Join Datasets (объединение по ключу и т.д.)Sort Datasets (сортировка по различным параметрам)Foreach (выполняет итерации по записям массива и преобразование данных)Load (загружает данные из файловой системы)Order (сортирует массив по одному или нескольким полям)Split (разделяет массив на два или более массива)Операторы диагностики- Describe (выводит схему массива (отношения) на экран)- Dump (выводит содержимое массива (отношения) на экран)- Explain (показывает планы исполнения Map Reduce)Схема отношения – последовательность пар “название поля: тип”Pig.

Пример (1)messages = LOAD 'messages';warns = FILTER messages BY $0 MATCHES '.*WARN+.*';STORE warns INTO 'warnings';- Загрузка данных может производиться как из локальногофайла, так и из HDFS.- Результат работы любого оператора – это отношение.Pig. Пример (2)messages = LOAD 'messages';Считываем тестовый набор данных (log-файл, содержащий сообщения) в массив, представляющий собойнабор записей.warns = FILTER messages BY $0 MATCHES '.*WARN+.*';Данные фильтруются (каждая запись состоит из одного столбца, идентифицируемого как $0 или поле 1) спомощью регулярного выражения, которое ищет последовательность символов WARNSTORE warns INTO 'warnings';Сохраняем полученный массив (который теперь содержит только записи, содержащие слово WARN) в новомфайле с названием warnings в файловой системе хоста.Режимы запускаPig может запускаться в следующих режимах:- Локально в интерактивном режиме- На кластере в интерактивном режиме- В виде скриптаВ локальном режиме код для Map Reduce не генерируется!Pig LatinPig Latin – относительно простой язык, выполняющий операторы.

Оператор –это процедура, принимающая входные данные (например, массив, состоящий изнабора записей) и формирующая на выходе другой массив. Массив – это структура,подобная таблице реляционной базы данных, в которой записи аналогичны строкамтаблицы и состоят из полей.Компилятор Pig преобразует код Pig Latin в Map Reduce.-Поддержка богатого набора типов данныхПоддержка SchemaОсновы Pig Latin (1)Скалярные типы данных: int, long, chararray, bytearray,double, float.Отношение – relation (outer bag)Bag – коллекция tuples (заключается в фигурные скобки)Tuple – упорядоченный набор полей, заключенный в круглыескобки (кортеж)Поле – единица данныхОсновы Pig Latin (2)Базовые операцииФункции, встроенные в Pig Latin-AVGCONCATCOUNTDIFFMAXMINSIZESUMTOKENIZEIsEmptyПарсинг- Проверка типов- Проверка ссылок- Генерация кода-Независимость от платформы, на которой выполняется программаПока не встретятся DUMP и STORE, никакие действия не будут выполняться(но будут проверяться и анализироваться)DUMP (вывод результата на экран)STORE (сохранение результата)Load-TextLoader() – загружает данные в текстовом формате, каждая строка – tupleJsonLoader() – загружает данные в JSON формате, каждая строка – tuplePigStorage() – загружает данные из текстового файла с разделителемJsonStorage() – загружает данные из JSON файла и сохраняет их в данном форматеA = load ‘/datadir/datafile’ using PigStorage(‘\t’);A = load ‘/datadir/datafile’ using PigStorage(‘,’) as (f1:int, f2:chararray, f3:float);A = load ‘/datadir/’ using PigStorage(‘,’) as (f1:int, f2:chararray, f3:float);Все имена, кроме ключевых слов, регистро-зависимы.По умолчанию поля загружаются с типом bytearray (бинарная строка).Если у полей нет названия, то к ним можно обращаться через $0, $1 и т.д.Word Count with PigA = load './input.txt';B = foreach A generate flatten(TOKENIZE((chararray)$0)) as word;C = group B by word;D = foreach C generate COUNT(B), group;store D into './wordcount';Запуск скриптовHiveHive – это надстройка над Hadoop для того, чтобы облегчить выполнение такихзадач, как суммирование данных, непрограммируемые запросы и анализ большихнаборов данных:- Hive может быть использован теми, кто знает язык SQL.- Hive создает задания MapReduce, которые исполняются на кластере Hadoop.- Определения таблиц в Hive надстраиваются над данными в HDFS.http://hive.apache.org/Особенности HIVEHive не следует использовать для небольших наборов данных, т.к.

даже для ихобработки запрос может занять несколько минут.Hive позволяет использовать различные форматы Hadoop-данных.Hive хранит метаинформацию в реляционной БД.Физически таблицы хранятся в подкаталогах каталога /user/hive/warehouseКомпоненты HIVEТипы данных-tinyint, smallint, int, bigint, float, doubleboolenstring, binarytimestamparraystructmapunionВстроенные агрегатные функции-count(1) – возвращает число членов группы или число различных значений встолбце.count(DISTINCT col)sum(col) – возвращает сумму всех или только различных значений в столбце.sum(DISTINCT col)avg(col) – возвращает среднее, вычисленное по всем или только по различнымзначениям в столбце.avg(DISTINCT col)max(col) – возвращает максимальное значение в столбце.min(col) – возвращает минимальное значение в столбце.Hive: создание таблицы для хранения данныхCREATE TABLE cite (citing INT, cited INT)ROW FORMAT DELIMITEDFIELDS TERMINATED BY ‘.’STORED AS TEXTFILE;SHOW TABLES;DESCRIBE cite;Word Count with HIVECREATE TABLE docs (line STRING);LOAD DATA INPATH ‘docs’ OVERWRITE INTO TABLE docs;CREATE TABLE word_counts ASSELECT word, count (1) AS count FROM(SELECT explode (split(line, ‘\s’)) AS word FROM docs)GROUP BY wordORDER BY word;Pig и Hive в Microsoft HDInsightPig:https://azure.microsoft.com/da-dk/documentation/articles/hdinsight-hadoop-usepig-ssh/Hive:https://azure.microsoft.com/da-dk/documentation/articles/hdinsight-hadoop-usehive-ssh/HBaseHBase – это колоночная база данных, расположенная поверх HDFS, котораяспособна вместить огромные массивы данных (от гигабайтов до петабайтовданных).

HBase используется тогда, когда нужен произвольный доступ к данным,хранящимся в HDFS, в реальном времени и с правом записи и чтения.Модель доступа к данным в HBase имеет следующие ограничения:- поиск ряда по одному ключу;- не поддерживаются транзакции;- доступны только операции по одной строке.http://hbase.apache.org/Разбор домашнего задания №3Использование Multiple OutputsДля требуемой в задании записи файлов используемMultiple Outputs:http://hadoop.apache.org/docs/r2.6.0/api/org/apache/hadoop/mapreduce/lib/output/MultipleOutputs.html.

Характеристики

Тип файла

PDF-файл

Размер

325,37 Kb

Материал

2015 Лекции

Тип материала

Лекции

Предмет

(СМРХиОД) Современные методы распределенного хранения и обработки данных

Высшее учебное заведение

МГУ им. Ломоносова

Тип файла PDF

PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.

Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.

Список файлов лекций

2015-lekcii.rar

2015 Лекции

Лекция 1. Большие данные_ аналитика и горизонтальная масштабируемость.ppt

Лекция 2. OLAP_ основные понятия.ppt

Лекция 3. Введение в MDX.ppt

Лекция 4. Принципы организации ETL.ppt

Лекция 5. Практические кейсы “Больших данных”.pdf

Лекция 6. Введение в GFS и Google MapReduce.pdf

Лекция 7. HDFS и основы Hadoop Java API.pdf

Лекция 8. Hadoop Java API продолжение. Управление и планирование вычислений.pdf

Лекция 9. Hadoop Streaming_ Joins.pdf

Лекция 10. Обзор стека Hadoop. Pig_ Hive_ HBase.pdf

Лекция 11. Введение в Apache Spark.pdf

Лекция 12. Дополнительные возможности Apache Spark.pdf

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.