Лекция 1. Введение в Big Data (1185402)
Текст из файла
Введение в Big DataГоловин Сергей ИгоревичКурынин Роман ВалерьевичЧернов Александр Владимировичhttp://bigdata.cs.msu.ruИспользование термина Big Datahttp://bigdata.cs.msu.ruBig Data в индустрииGoogle — миллиарды проидексированныхстраниц●Twitter — ~100 млн. пользователейежедневно, ~250 млн. твитов в день, ~30млрд. сообщений за время работы●http://bigdata.cs.msu.ruBig Data в наукеLHC — ~37 ТБ необработанных («сырых»)данных в день●Sloan Sky Survey●Геномы●Климатические данные●...●http://bigdata.cs.msu.ruBIGДанные поступают быстрее, чем их возможнообработать●http://bigdata.cs.msu.ruОсобенности Big Data (3V)Volume — данные слишком большие,масштаб данных — петабайты●Variety — данные неоднородные инеочищенные●Velocity — доступ к данным (результатамобработки) должен быть быстрым●http://bigdata.cs.msu.ruData Warehouse (2V)«Предыдущее поколение»: volume, velocity●Пример: банковские транзакции, биржевыетранзакции, база данных торговли●Отличие: данные структурированы,неоднородны, работа ведется с помощьюSQL●http://bigdata.cs.msu.ruHigh-performance computingМассивно-параллельные системы восновном для научного применения●Данные структурированы, однородны●Нагрузка предсказуема●http://bigdata.cs.msu.ruТехнологический фундаментОблачные сервисы●Принципы хранения данных: noSQL, Columnstores●Вычислительная парадигма: map-reduce●Распределенные алгоритмы обработкиданных●http://bigdata.cs.msu.ruИстория развития60е●– Данныев файлах70е●– Реляционнаямодель– ER– Появлениеhttp://bigdata.cs.msu.ruSystem R, IngresИстория развития80е●– СтандартSQL– Массовоевнедрение реляционных СУБД– Экспертныесистемы, объектноориентированные СУБД– СУБД:http://bigdata.cs.msu.ruDB2, Oracle, Sybase, InformixИстория развития90е●– Oracle– Распределенные– ИспользованиесистемSQL СУБДмногопроцессорных2000е●– ПоявлениеnoSQL, отказ от жесткихтребований RDBMShttp://bigdata.cs.msu.ruОблачные вычисленияРазвитие идеи Software-as-a-service →Hardware, Infrastructure, Platform as a service(IaaS)●Иллюзия неограниченных ресурсов(добавление/удаление вычислительныхресурсов «на лету»)●Нет авансовых затрат●Почасовая тарификация●http://bigdata.cs.msu.ruЭкономика облакаОплата по факту использованиявместо резервирования на максимумОбычный data-центрСерый — неиспользуемые ресурсыhttp://bigdata.cs.msu.ruоблакоРиски недостатка мощностиhttp://bigdata.cs.msu.ruТехнологические основы облакаШирокополосный доступ в Интернет●Высокоскоростные локальные сети●Технология виртуализации●http://bigdata.cs.msu.ruAmazon Web Services(aws.amazon.com)Вычислительная платформа, предлагаемаяAmazon.com●Compute Cloud (EC2) — VPS (virtualprivate servers) на основе Xen– ElasticPrivate Cloud (VPC) — логическиизолированная подсеть EC2-узлов c VPNсоединением– VirtualMapReduce — Hadoop на основеEC2 и S3– Elastichttp://bigdata.cs.msu.ruAWSSimple Storage Service (S3) — хранениеданных на основе web-services●DynamoDB — noSQL база данных на SSD●Relational Database Service (RDS) —поддержка масштабируемых MySQL, Informix,Oracle...●http://bigdata.cs.msu.ruAWShttp://bigdata.cs.msu.ru«Большая тройка»Amazon Web Services●Microsoft Azure●Google Cloud Platform●IBM Cloud Computing●http://bigdata.cs.msu.ruMapReduceМодель программирования с параллелизмомпо данным●Обработка и генерация данныхпараллельными распределеннымиалгоритмами на кластерах●http://bigdata.cs.msu.ruApache HadoopOpen Source●Ключевые компоненты:– MapReduce — распределенныеприложения– HDFS — распределенные данные●HDFS (Hadoop Distributed File System)– Распределение больших файлов похостам– Файл — последовательность блоков– Репликация блоков●http://bigdata.cs.msu.ruНедостатки MapReduceMR подход для обработки требует большеузлов, чем параллельные СУБД●Нет поддержки схем данных●Нет индексирования●Императивная модель программирования●Отсутствует операция JOIN●http://bigdata.cs.msu.ruМодельный набор данных(aws.amazon.com/datasets)Google Books Ngrams●– Свободно– Размердоступен на Amazon S32.2ТбПолучаются скользящим окном над корпусомтекстов Google Books с фиксированнымразмером скользящего окна●http://bigdata.cs.msu.run-киThe yellow dog played fetch.●2-grams:– ["The", "yellow"]– ["yellow", 'dog"]– ["dog", "played"]– ["played", "fetch"]– ["fetch", "."]●3-grams– ["The", "yellow", "dog"]– ["yellow", "dog", "played"]– ["dog", "played", "fetch"]– ["played", "fetch", "."]●http://bigdata.cs.msu.ruНабор данных EnglishData - Rows - Compressed Size●1 gram — 472,764,897 - 4.8 GB●2 gram — 6,626,604,215 - 65.6 GB●3 gram — 23,260,642,968 - 218.1 GB●4 gram — 32,262,967,656 - 293.5 GB●5 gram — 24,492,478,978 - 221.5 GB●http://bigdata.cs.msu.ruClouderahttp://bigdata.cs.msu.ruРесурсы в сетиAmazon: aws.amazon.com●Cloudera: cloudera.com●Big Data Univ: bigdatauniversity.com●http://bigdata.cs.msu.ru.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.