Лекция 1. Введение в Big Data (2014 Лекции)
Описание файла
Файл "Лекция 1. Введение в Big Data" внутри архива находится в папке "2014 Лекции". PDF-файл из архива "2014 Лекции", который расположен в категории "". Всё это находится в предмете "(смрхиод) современные методы распределенного хранения и обработки данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Введение в Big DataГоловин Сергей ИгоревичКурынин Роман ВалерьевичЧернов Александр Владимировичhttp://bigdata.cs.msu.ruИспользование термина Big Datahttp://bigdata.cs.msu.ruBig Data в индустрииGoogle — миллиарды проидексированныхстраниц●Twitter — ~100 млн. пользователейежедневно, ~250 млн. твитов в день, ~30млрд. сообщений за время работы●http://bigdata.cs.msu.ruBig Data в наукеLHC — ~37 ТБ необработанных («сырых»)данных в день●Sloan Sky Survey●Геномы●Климатические данные●...●http://bigdata.cs.msu.ruBIGДанные поступают быстрее, чем их возможнообработать●http://bigdata.cs.msu.ruОсобенности Big Data (3V)Volume — данные слишком большие,масштаб данных — петабайты●Variety — данные неоднородные инеочищенные●Velocity — доступ к данным (результатамобработки) должен быть быстрым●http://bigdata.cs.msu.ruData Warehouse (2V)«Предыдущее поколение»: volume, velocity●Пример: банковские транзакции, биржевыетранзакции, база данных торговли●Отличие: данные структурированы,неоднородны, работа ведется с помощьюSQL●http://bigdata.cs.msu.ruHigh-performance computingМассивно-параллельные системы восновном для научного применения●Данные структурированы, однородны●Нагрузка предсказуема●http://bigdata.cs.msu.ruТехнологический фундаментОблачные сервисы●Принципы хранения данных: noSQL, Columnstores●Вычислительная парадигма: map-reduce●Распределенные алгоритмы обработкиданных●http://bigdata.cs.msu.ruИстория развития60е●– Данныев файлах70е●– Реляционнаямодель– ER– Появлениеhttp://bigdata.cs.msu.ruSystem R, IngresИстория развития80е●– СтандартSQL– Массовоевнедрение реляционных СУБД– Экспертныесистемы, объектноориентированные СУБД– СУБД:http://bigdata.cs.msu.ruDB2, Oracle, Sybase, InformixИстория развития90е●– Oracle– Распределенные– ИспользованиесистемSQL СУБДмногопроцессорных2000е●– ПоявлениеnoSQL, отказ от жесткихтребований RDBMShttp://bigdata.cs.msu.ruОблачные вычисленияРазвитие идеи Software-as-a-service →Hardware, Infrastructure, Platform as a service(IaaS)●Иллюзия неограниченных ресурсов(добавление/удаление вычислительныхресурсов «на лету»)●Нет авансовых затрат●Почасовая тарификация●http://bigdata.cs.msu.ruЭкономика облакаОплата по факту использованиявместо резервирования на максимумОбычный data-центрСерый — неиспользуемые ресурсыhttp://bigdata.cs.msu.ruоблакоРиски недостатка мощностиhttp://bigdata.cs.msu.ruТехнологические основы облакаШирокополосный доступ в Интернет●Высокоскоростные локальные сети●Технология виртуализации●http://bigdata.cs.msu.ruAmazon Web Services(aws.amazon.com)Вычислительная платформа, предлагаемаяAmazon.com●Compute Cloud (EC2) — VPS (virtualprivate servers) на основе Xen– ElasticPrivate Cloud (VPC) — логическиизолированная подсеть EC2-узлов c VPNсоединением– VirtualMapReduce — Hadoop на основеEC2 и S3– Elastichttp://bigdata.cs.msu.ruAWSSimple Storage Service (S3) — хранениеданных на основе web-services●DynamoDB — noSQL база данных на SSD●Relational Database Service (RDS) —поддержка масштабируемых MySQL, Informix,Oracle...●http://bigdata.cs.msu.ruAWShttp://bigdata.cs.msu.ru«Большая тройка»Amazon Web Services●Microsoft Azure●Google Cloud Platform●IBM Cloud Computing●http://bigdata.cs.msu.ruMapReduceМодель программирования с параллелизмомпо данным●Обработка и генерация данныхпараллельными распределеннымиалгоритмами на кластерах●http://bigdata.cs.msu.ruApache HadoopOpen Source●Ключевые компоненты:– MapReduce — распределенныеприложения– HDFS — распределенные данные●HDFS (Hadoop Distributed File System)– Распределение больших файлов похостам– Файл — последовательность блоков– Репликация блоков●http://bigdata.cs.msu.ruНедостатки MapReduceMR подход для обработки требует большеузлов, чем параллельные СУБД●Нет поддержки схем данных●Нет индексирования●Императивная модель программирования●Отсутствует операция JOIN●http://bigdata.cs.msu.ruМодельный набор данных(aws.amazon.com/datasets)Google Books Ngrams●– Свободно– Размердоступен на Amazon S32.2ТбПолучаются скользящим окном над корпусомтекстов Google Books с фиксированнымразмером скользящего окна●http://bigdata.cs.msu.run-киThe yellow dog played fetch.●2-grams:– ["The", "yellow"]– ["yellow", 'dog"]– ["dog", "played"]– ["played", "fetch"]– ["fetch", "."]●3-grams– ["The", "yellow", "dog"]– ["yellow", "dog", "played"]– ["dog", "played", "fetch"]– ["played", "fetch", "."]●http://bigdata.cs.msu.ruНабор данных EnglishData - Rows - Compressed Size●1 gram — 472,764,897 - 4.8 GB●2 gram — 6,626,604,215 - 65.6 GB●3 gram — 23,260,642,968 - 218.1 GB●4 gram — 32,262,967,656 - 293.5 GB●5 gram — 24,492,478,978 - 221.5 GB●http://bigdata.cs.msu.ruClouderahttp://bigdata.cs.msu.ruРесурсы в сетиAmazon: aws.amazon.com●Cloudera: cloudera.com●Big Data Univ: bigdatauniversity.com●http://bigdata.cs.msu.ru.