диссертация (1169170), страница 51
Текст из файла (страница 51)
Однако«неожиданные» падения котировок, несостоятельность и банкротство крупнейшихглобальных финансовых институтов застали врасплох и профессиональных и непрофессиональных инвесторов по всему миру. Всем своим ходом событий кризис поставил под сомнение профессиональные знания и навыки не только финансистов в256частном секторе, но и регуляторов. При этом обилие информации не только не защитило от наплыва «черных лебедей», но и усугубило ситуацию, ввергнув участников рынка в тупиковое состояние «симметрии заблуждений».Что же остается? Очевидно, если брать за основу пирамиду DIKW, то это ееисходная категория – данные. Внимание к проблеме больших данных позволяетисследователям и управленцам вернуться к первоисточникам информации, к базовым количественным и объективным индикаторам человеческой жизни, причем нетолько экономической. В случае с обработкой больших данных, речь идет о развитии технологий «записывания ежедневной публичной жизни»288.
То есть это даетвозможность отслеживать и фиксировать формирование человеческого опыта впроцессе онлайн мониторинга и измерения ежедневной и даже ежечасной активности множества людей. Именно поэтому представители общественной науки вполнеобоснованно видят в развитии феномена больших данных основу для формирования нового сдвига в глобальной экономике и обществе, аналогичного тем, которыепроизошли в результате возникновения паровых машин и электрической генерации289. Солидарные с ними предприниматели пытаются увидеть в технологиях обработки больших данных панацею от неопределенности и выправить информационную асимметрию.
Согласно прогнозному опросу, касающемуся финансированияисследований и разработок до 2018 года, относительная важность проблематики«Больших данных» оценена респондентами на уровне 25% (наибольший рейтингважности у проблематики информационных технологий – 31%)290.Проводимые исследования и опросы в отношении развития технологий обработки больших данных показывают, что свыше 90% финансовых институтовпризнают необходимость долгосрочных стратегий по внедрению этих технологийв своей деятельности291. Причем, число финансовых институтов, менеджмент ко-288Grimer J. We are all social scientists now: how Big Data, machine learning, and casual inferencework together // Political Science. January 2015. P. 80289New data for understanding human condition.
OECD. P. 8.290The 2016 Global R&D Funding Forecast. Winter 2016. A supplement to R&D Magazine. P. 14.291Big Data – Uncovering Hidden Business Value in the Financial Services Industry // GFT Technologies AG. 2014, September 2014. P. 8/38.257торых видит в развитии технологий обработки больших данных явное конкурентное преимущество, растет: только за 2010–2012 годы число респондентов, придерживающихся этой точки зрения увеличилось в два раза с 36 до 71%292. В 2014–2015годах компания NVP провела опрос руководства американских компаний, 73,2% изкоторых составляли финансовые организации, на предмет использования технологий сбора и обработки больших данных.
В результате опроса число респондентов,подтвердивших использование технологий «больших данных» в процессе оказанияуслуг, выросло с 48,2 до 62,5%293.Что такое большие данные? Существует разные точки зрения на происхождение термина Big Data (Большие данные). В каждой научной дисциплине и в сфередеятельности найдется тот, кто впервые использовал этот термин и ввел его в «отраслевую» деловую лексику. При этом, как выяснили дотошные этимологи, статистические и алгоритмические методы, которые используются при обработке больших данных, уходят своими корнями в «области экономического моделирования иWall Street»294.Наиболее серьезным исследованием происхождения термина «большие данные» можно считать работу экономиста Фрэнсиса Дайболда из Университета Пенсильвании295.
Дайболд приводит вполне объективные доводу тому факту, чтоименно его работа, посвященная динамическим факторным моделям для макроэкономических оценок и прогнозов (“Big Data” Dynamic Factor Models for Macroeconomic Measurement and Forecasting”), представленная на Восьмом международномконгрессе эконометрического общества в Сиэтле в августе 2000 года, впервые содержала в названии термин «Большие данные» в очень близком к сегодняшнемуупотреблению этого термина смысле. В этой статье Дайболд отмечает: «Большие292Analytics: The real-world use of big data in financial services. IBM Global Business Services.
Executive Report. 2013. P. 2.293Big data executive survey 2016. Boston: New Vantage Partners LLC, 2016. P. 5.294Lohr S. The origins of “Big Data”: An etymological detective story // The New York Times. February1, 2013.295Diebold F. A personal perspective on the origin(s) and development of “Big Data”: The phenomenon,the term, and the discipline. University of Pennsylvania, November 26, 2012.258данные отсылают нас к взрывному росту количества (а иногда и качества) доступных и потенциально релевантных данных, который является в значительной степени результатом беспрецедентного движения вперед способов и технологий ихзаписи и хранения»296.Факт роста мощностей для хранения данных уже в конце 1990-х годов привлекает внимание специалистов в области компьютерной техники.
Главный исследователь компании «Силикон графикс» Джон Мэши в 1998 году в подготовленнойим презентации указывает на вероятность возникновения в организациях, работающих с большими массивами данных, «инфраструктурного стресса», который поражает как технические средства хранения все возрастающего объема данных, таки менеджмент, и рядовых сотрудников компаний, вынужденных иметь дело сэтими данными297.
На эту работу как на наиболее ранний источник термина указывает и Дайболд. При этом он высказывает догадку, что термин «Большие данные»,родился в середине 1990-х годов во время одной из бесед за обеденным столом, вкоторой Мэши занимал видное место298.По мнению Дайболда основные канонические характеристики понятия«Большие данные», такие как объем (volume), вариативность или разнообразие(variety) и скорость возникновения (velocity), впервые были сформулированы в неопубликованной работе 2001 года Д. Лани о системе управления данными299.
Приэтом, справедливости ради, необходимо заметить, что в упомянутой презентацииМэши 1998 года можно найти наметки этих характеристик. Мэши представляет «4мультиплицируемые проблемы данных» (4*X Data Problems). Специфический формат презентации не раскрывает всех нюансов этих проблем, тем не менее общий их296Diebold F. “Big Data” Dynamic Factor Models for Macroeconomic Measurement and Forecasting.University of Pennsylvania and NBER. November 28, 2000.297Mashey J.R. Big Data and the next wave of infrastress.
April 25, 1998. URL: http://static.usenix.org/event/usenix99/invited_talks/mashey.pdf298Diebold F. A personal perspective on the origin(s) and development of “Big Data”: The phenomenon,the term, and the discipline. University of Pennsylvania. November 26, 2012.299Laney D. 3D Data Management: Controlling Data Volume, Velocity, and Variety. META GroupResearch Note.
February 6, 2001.259смысл сводится к следующему. Первая проблема состоит в том, что сотрудник организации, работающей с данными, имеет к ним доступ, получает их, но не можетв них разобраться. Вторая проблема – утрата содержания, смысла получаемых данных. В контексте презентации «данные» понимаются Мэши как наполненныесмыслом, по сути, как полезная информация, как то, что можно использовать. Извне поступают, так скажем, «сырые данные», исходные сигналы, которые становятся собственно данными в процессе обработки человеком, в силу его «креативности». В этом, как представляется, смысл краткой реплики Мэши: «невозможносоздать данные из вне». Третья проблема – технологии обработки данных лимитированы имеющимися в конкретный момент вычислительными и информационными мощностями. Четвертая проблема – собранные данные зачастую находятся внеподходящем формате или накапливаются в неподходящих местах, то есть этопроблема не правильной организации мест и форматов хранения и обработки данных.
Сравнивая указанные Мэши проблемы и способы их решения можно уловитьсмысловое сходство с характеристиками больших данных. Первая проблема отсылает нас к разнообразию больших данных (variety), ее решение Мэши видит в развитии сервисов навигации, организации и визуализации данных. Третья – возникает в силу большого объема данных (volume). Решение проблемы – повышениемощности компьютеров, емкости памяти, развития файловых систем хранения данных.
Четвертая отражает высокую скорость поступления и обновления данных(velocity), а ее решение возможно путем внедрения высокопроизводительных сетевых устройств, масштабируемых разветвлённых сетей передачи данных.Вторая проблема данных, выявленная Мэши, несколько выбивается из треххарактеристик, которые изначально были отмечены Лани. В ней закладываетсяидея различимости и достоверности данных, необходимости вкладывания в нихконкретного смысла, их распознавания в необходимом пользователю контексте. Внастоящее время к трем исходным характеристикам больших данных или трем «V»обычно добавляют четвертую «V» – veracity или достоверность300.
Стремительный,300Corrigan D. Integrating and governing big data. IBM Corporation. 2013.260высокоскоростной поток значительного объема самых разнообразных данных создает риск того, что данные могут оказаться недостоверными, ошибочными, то есть«информационным шумом», в них могут содержаться ошибки.
Все это еще большеусложняет процесс обработки данных повышает требование к используемым дляэтого технологиям и техническим средствам.Несмотря на те сложности, которые создают «большие данные» своим вольным или не вольным пользователям и владельцам, их обработка и анализ позволяетвыработать алгоритмы выявления скрытых тенденций, проследить причинно-следственные связи тех или иных явлений, выявить «экспоненциально масштабируемые события», то есть имеющие значимые и заметные последствия, способные оказать существенное влияние на многие социальные и экономические процессы вглобальном масштабе301. Большие данные способны видоизменить и внутренниесвязи между традиционными категориями теории управления знаниями, наполнивновым смыслом и понятие «информация», и понятие «знание».Согласным обзору компании МакКинзи, посвящённому проблематике больших данных, в США по объему накопленных данных на одну фирму первые двелидирующие позиции занимают институты, предоставляющие услуги на рынкеценных бумаг и банки (Рисунок 5.1).
Страховые компании оказались на шестомместе по объему данных на одну фирму. В среднем на одну фирму в трех сегментахфинансового рынка (операции с ценными бумагами, банковские услуги и страхование) приходилось свыше 1800 терабайт хранимых данных, что является максимальным значением для всех отраслей американской экономики.Преобладающая структура данных, накопленных в финансовых институтах,как следует из того же обзора – это преимущественно текстовые и цифровыефайлы, включающие информацию о клиентах, о сделках, математические моделии различные симуляторы рыночной конъюнктуры. Однако, наряду с этим, авторы301Миловидов В.Д.
Управление рисками в условиях асимметрии информации: отличай отличимое// Мировая экономика и международные отношения. 2015. № 8. C. 14–24.261обзора отмечают рост концентрации мультимедийных данных (аудио, видео, изображения) в банковском сегменте302.Источник: Big Data: The next frontier for innovation, competition, and productivity. McKinsey &Company. 2011. P. 19.Рисунок 5.1 – Накопленный объем данных на одну фирму в США, в терабайтах в 2008 годуРост мультимедийной составляющей в банковском сегменте данных происходит в силу динамики развития информационных услуг в целом, развития форматовмежличностного общения граждан и их взаимных коммуникаций, и, как следствие,в силу реагирования на эти изменения со стороны менеджмента банков. В практикувзаимодействия банков с клиентами активнее входят видео презентации новыхуслуг, видеоконференции, создание колл-центров.