!digital-transformation (846914), страница 21
Текст из файла (страница 21)
Существовавшие на тот момент решения не справлялись с обработкой данных,которые быстро обновляются или формируются в реальном времени, как, например, в случае получения данных о торговле акциямив реальном времени, — поэтому потребовались новые инструменты.Одно из первых упоминаний проблемы «больших данных» и самого термина «большие данные» связывают с появлением документа NASA, датированного 1997 годом (см. рис. 2.23).1997200020012005В документеНАСАупоминаетсяпроблемабольшихданныхкомпанияGoogleсоздалафайловуюсистему GFSПубликация СозданиеДуга ЛаниApacheс упомина- Hadoopнием «3V»200620082009ЗапускTwitterУ Facebook100 МлнпользователейСогласноWikibonрынокBig Dataдостиг $100М201020112012201320142017EMC покупаетGreen plum.IBM покупаетNetezza,SAP запускаетHANAHP покупаетVertica.OracleпокупаетEndeca.Facebook –1 млрдпользователейYoutube –1 млрдпользователейPostgreSQLпредлагаетподдержкунеструктурированныхданныхс быстрымпоискомСогласноWikibonрынок Big Dataдостиг около$35 млрдОбъем хранениянеструктурированныхданных превзошелобъем структурированныхРис.
2.23. Ключевые события, связанные со становлениемтехнологии больших данных118Глава 2. Новые технологии, определяющие цифровую трансформациюВ 2000 году компания Google создала распределенную файловую систему GFS для внутреннего использования, а в 2003 году описала технологические принципы ее организации.В 2001 году Дуг Лани опубликовал исследование «3D Datamanagement: Controlling Data Volume, Velocity and Variety», в которомформируется концепция так называемых 3V, которая впоследствииприсутствует в большинстве определений понятия Big Data.
Речьидет о таких параметрах, как объем данных (Volume), разнообразиеданных (Variety) и скорость (Velocity).Объем данных (Volume) говорит о необходимости хранить и обрабатывать данные огромного объема — в десятки и сотни Терабайт.Разнообразие форматов данных (Variety) — определяет способность обрабатывать большие массивы данных, поступающие изразных источников в различных форматах.
Многие задачи требуютсовместной обработки данных различных форматов из различныхисточников: например, прогноз погоды на базе многолетних метеорологических наблюдений и снимков, поступающих со спутника.Рисунок 2.24 наглядно показывает, что эволюция вычислительных систем приводит не только к росту объема данных, но и к увеличению доли неструктурированных данных [35].Объем данныхпетабайтытерабайтыгигабайтымегабайтыКликстримВики/блогиРекламаМобильныеданныеДатчики /RFID /устройстваКоммуникацииеКоммерцияСентимент анализАудио/видеоWEB 2.0ERP/CRMКредиторскаязадолженностьНачислениезаработной платыТоварно-материальныезапасыКонтактыОтслеживание сделокДанные о продажахBIG DATAВеб-логиЦифровоймаркетингПоисковыймаркетингРекомендацииЛог файлыПространственные иGPS-данныеДанные о рынкахДанные из системеПравительстваПогодаТексты/изображенияСложность данныхРис.
2.24. Эволюция вычислительных систем приводитк увеличению доли неструктурированных данных.Источник: innovyt.com119Цифровая трансформация: анализ, тренды, мировой опытСкорость поступления и обработки информации (Velocity) указывает на то, что речь идет об обработке данных, поступающих с большой скоростью. То есть, чем быстрее поступают или меняются данные и чем менее они структурированы, тем меньший объем данныхможет приводить к необходимости применения технологии Big Dataдля обработки таких данных. Эту мысль иллюстрирует рисунок 2.25.Объем данных превышает границывертикального масштабированияВремя принятия решения невелико посравнению со скоростью изменения данныхМногообразие форматов делаетинтеграцию дорогойТрадиционные BI-решения перестаютработать на высоких значениях объемаи скорости поступления данныхBI (BUSINESS INTELLIGENCE) Скоростьбизнес-аналитика, автоматизированныесистемы управления, системы поддержкипринятия решений и т.
п.ƴǑǢǭПо мере того, как растет разнообразиеданных, инструменты Big Data становятсявсе более привлекательнымиǩǐǐ©ǓǏǴǤǑǑǷǓǏǴǡǐТРАДИЦИОННЫЕ BI©ǠǏǤǤǬǖОбъемРис. 2.25. Границы применения традиционных технологий BIи Big Data.Источник: ForresterДля решения проблемы «больших данных» предлагались разные решения, которые, собственно, и формировали технологии обработки больших данных.При наличии больших финансовых ресурсов задачу обработки все большего объема данных можно решать путем покупки все120Глава 2. Новые технологии, определяющие цифровую трансформациюболее мощных компьютеров с большим количеством процессоров,оперативной памяти, дискового пространства и т. д.
Такой подход носит название масштабированием по вертикали (Scale Up), то есть добавление ресурсов на один вычислительный узел. Но в случае, еслиданные накапливаются очень быстро, такой процесс становитсяслишком затратным. Если вертикальное масштабирование неприемлемо, то остается второй вариант — масштабировать горизонтально, то есть разносить вычисления на разные узлы. Горизонтальноемасштабирование (Scale Out) позволяет построить высоконадежноерешение с обеспечением должной степени резервирования на базенедорогих стандартных компьютеров, каждый из которых обладаетневысокой надежностью.Большой вклад в создание систем по обработке больших данныхвнесла компания Google, которая имеет одни из самых больших хранилищ данных в мире. Как было отмечено выше, в 2000 году Googleразработала распределенную файловую систему GFS, способнуюхранить и обрабатывать огромные объемы информации, базируясьна большом количестве недорогого оборудования, подверженногосбоям, а надежность функционирования системы обеспечиваласьвозможностью восстановления на основе мониторинга сбоев.
Всяинформация в GFS копируется и хранится в трех (или более) местаходновременно, при этом система способна очень быстро находитьреплицированные копии при выходе из строя машины, на которойпроизошел сбой.В 2004 году Google представила миру вычислительную модельMapReduce, используемую для параллельных вычислений над оченьбольшими наборами данных в компьютерных кластерах. Указанныеразработки Google помогли создать проект Hadoop (набор утилитдля разработки и выполнения распределенных программ, работающих на кластерах из тысяч узлов), который впоследствии для многихстал ассоциироваться с термином «большие данные».Начиная с 2008 года, платформа Hadoop активно развиваласьи к 2010 году де-факто стала основным стандартом для работыс «большими данными». В частности, на базе Hadoop реализованасистема поисковых механизмов высоконагруженных веб-сайтов таких компаний, как Yahoo и Facebook.
Коммерческую поддержку проекта Hadoop осуществляет компания Cloudera. В проекте участвуют разработчики со всего мира. Позднее на рынке появился целый121Цифровая трансформация: анализ, тренды, мировой опытряд решений, в которых использовались принципы, реализованныев MapReduce, — например, продукты компаний Teradata, Aster Data,Netezza, DATAllegro, Vertica, ParAccel, Neoview, Greenplum, Oracle(Exadata).В 2010–2011 годах крупнейшие вендоры, такие как IBM, HP, EMC,проявили интерес к технологии Big Data, совершив покупку компаний, специализирующихся в области «больших данных». В 2010 годуIBM купила Netezza, а EMC приобрела компанию Greenplum Software.В 2011 году HP приобрела компанию Vertica, а Oracle — компаниюEndeca Technologies, поставщика решений для управления неструктурированными данными.Одним из проявлений потребности в обработке неструктурированных и больших данных стал всплеск технологий NoSQL, под которыми понимаются упрощенные по сравнению с традиционнымиреляционными СУБД средства работы с данными, которые за счетотказа от принципов ACID (атомарность, консистентность, изоляция, долговечность) дают выигрыш в объеме, скорости и гибкости.Но после короткого периода эйфории интерес к «чистому» NoSQLстал угасать.
Одной из первых классических СУБД, которые продемонстрировали возможность догнать и перегнать NoSQL-решения наих поле, стал PostgreSQL, начавший предлагать поддержку неструктурированных данных с быстрым поиском в 2014 году.Как мы уже отметили, в ряде работ термин Big Data связываютс системами горизонтального масштабирования и нереляционнымиСУБД. Однако это не совсем верно. Действительно, распространенное мнение о том, что с помощью традиционных баз данных и программных методов решать задачи Big Data невозможно, привело к появлению целого ряда нереляционных баз данных (NoSQL), в которыхупор делается на высокую масштабируемость. Однако определениеBig Data нельзя напрямую связывать ни с Hadoop, ни с NoSQL.В своем определении Big Data аналитическая компания IDCподчеркивает, что технологии Big Data не следует однозначно связывать с конкретной структурой набора данных (структурированныхили неструктурированных) или с конкретной архитектурой обработки, поскольку существуют «большие данные» разного типа, а для иххранения и обработки могут использоваться вычислительные инфраструктуры разных типов, и все эти проекты могут относиться к категории Big Data.
IDC подчеркивает, что Hadoop является лишь одним122Глава 2. Новые технологии, определяющие цифровую трансформациюиз способов развертывания инфраструктуры Big Data с помощьюмодели open source на недорогом серверном оборудовании. Тем неменее это не означает, что, например, коммерческие варианты UNIXне могут быть использованы для построения систем Big Data.Определение термина Big Data, приводимое в технических документах, является весьма расплывчатым.