Лекция 5. Практические кейсы “Больших данных” (1185413)
Текст из файла
Современные методыраспределенного хранения иобработки данныхЧасть 2.bigdata@cs.msu.ruБольшие данные: распределенноехранение и обработка данных спомощью модели вычисленийMapReduceЛекция №1. Практические кейсы “Больших данных”Когда они стали большимигигатерапетаэксаНачало цивилизациизеттайоттаэксабайтэксабайта в суткиПочему их стало многоДанные пользователяДействияСодержаниеДанныеСвязиПравило четырехобъемБольшие объемыданныхскоростьБыстротапоступления иобновленияданныхразнообразиеРазнообразныетипы данныхструктурированные данныенеструктурированные текстовыеграфы медиадостоверностьНизкое качествонедостоверностьанализируемыхданныхБольшие данныевремя отклика1.2.Сбор, хранение и запросы кданным в СУБДвысоконагруженныхмногопользовательскихинформационных системАнализ существующихмассивов данных с цельюоптимизации целевыхпоказателей и поддержки впринятии решениймного небольшихзапросовмного пользователеймного данныхмасштабированиеобработкимасштабированиехранилищанеструктурированныевыявлениеданныезакономерностей,полезных для с т.зр.пониманиецелевых показателейпроисходящего вданныхиспользованиевыявленныхстатистическиепоказателей взапросыавтоматическомпринятии решенийАнализ данныхПодходы к анализу данных●●Статистические запросы (SQL, MDX), визуализация найденных статистикМатематическая статистика, Machine Learning, Data Mining○○○Descriptive modelling (поиск интерпретируемых зависимостей в данных в виде деревьеврешений, кластеров, ассоциативных правил, визуализация найденных зависимостей)Predictive modelling (прогнозирование и классификация)Prescriptive modelling (рекомендации)данныеинформациязнанияКто владеет информацией тот владеет миромРотшильд•методы обнаружения в данных ранеенеизвестных нетривиальных практическиполезных и доступных интерпретации знанийнеобходимых для принятия решений в различныхсферах человеческой деятельности ПятецкийШапироМатематическаястатистикаТеориявероятностейМетодыоптимизацииЛинейнаяалгебраРазновидностиОбнаружение в данныхзаведомо неизвестных иполезных знанийЦель Найти новыезнанияАвтоматизированноепостроение точной моделиявления по данным с цельюее последующегоавтоматизированногоиспользованияЦель Автоматизацияпостроения и применениямоделиБазовая терминологияАтрибутыскоростьм секНаборданныхускорением сек••вертикальнаяскорость м секНепрерывные все из примераКатегориальные погодные условиянормальные осадки штормвысотамПрецедентКлассификацияскоростьм секускорением секвертикальнаяскорость м секвысотамТиплетательногосредстваобучающаявыборкаССобучениеССприменениеСССМодельКлассификацияЛогистическая регрессияПрогнозированиескоростьм секускорением секвертикальнаяскорость м секвысотамВремя нахожденияв зоне контролясекобучающаявыборкаобучениеприменениенепрерывенМодельКлассификация и прогнозированиеВходные признакиЦелевая переменная…Обучающая выборка…Классификация и прогнозированиеЗадачаПерсонификация контента пользователя соцсетиЛайки и контентРекомендованный контентРекомендация товаров и услугИстория покупок пользователялайкиНабор рекомендованныхтоваров и услугКарточный анти фродПоследние транзакцииРешение фрод нормаКредитный скоринг с использованием данныхсоцсетейАнкетные данные поведение иконтент связанный спользователем в соцсетяхРешение по кредитуПоиск взаимосвязей между физическойактивностью питанием и заболеваемостьюОбщая информация о пациентеданные диетологическихдневников показатели датчиковНабор вероятных диагнозовКластерный анализскоростьм секускорением секвертикальнаяскорость м секвысотамНайти группы похожих летательных аппаратов пролетающих над РЛСКластерный анализ результатОбнаружение аномалийНайти в наборе данных нетипичные прецедентырезюме• Бизнес кейсы → Математические задачи → Алгоритмы• Математические задачи– Классификация– Прогнозирование– Кластеризация– Обнаружение аномалий– …Кейсы “Анализа больших данных”Кейс #1.
Интернет-реклама$$$конверсия0.1%показы баннеров, sms/email-рассылкиконверсия0.2%клики по баннеру, звонки клиентовконверсия3%покупка услугиRTBСчетчикиDMPDSPbannerSSPuser data$$БаннерныесетиDSPDMPuser dataSupply-side-platformЦенообразование настороне “издателей”.Аукцион.DSP$Demand-side-platformsПрием ставок отрекломодателейАггрегаторы“Интернетследов”СоцсетиRTB●●●●Тренд “Персонализация рекламы”Mail.Ru vs. Яндекс :-)Огромные объемы данных (число пользователей(Ру)Интернет * число действий)Машинное обучение в таргетинге○○сегментыbusiness-specific сегментыКейс #2.
Кредитный скорингПо входным данным о клиенте определить вероятность кредитного“дефолта”1 поколение: экспертный подход2 поколение: скоринговые карты, основанные на соц.-дем. информации3 поколение: поведенчиский скоринг (внутрибанковское поведение и бюрокредитных историй)4 поколение: “биг дата” - внешние источники данных - Интернет, соц.-сети,телеком, e-commerce и др.Современный кредитный скорингСоц.-дем.ВнутрибанковскоеповедениеКредитныеисторииИнтернетОтсутствующие данные(matching rate)ТелекомКредитный скорингКредитная история:Дата последнего кредита 1995 г.Число просроченных кредитов 0Интернет-”след”:yandex.ru mail.ru odnoklassniki.ruРазная степень полноты данныхКредитный скорингПочему “большие”?●●●Число клиентов: десятки миллионовАнализ транзакций по картам: +3-4 порядкаСырые неструктурированные данные из внешних источниковКейс #3.
Астрофизика400 лет назад ...Астрофизика… и сегодня - времяцифровых обзоровнебаЦифровые обзоры неба∼109 небесныхобъектов (наизображениях)∼1015байт (Пб)сырых данных(изображения)∼102-3атрибутов в каталогахдля каждого объектаСырые данныеИзображения неба вшироком диапазоне∼109 объектовСпектры небесныхобъектов:∼0.5% (5млн.)объектовСырые данные: спектры●●точная классификация небесных объектовточное измерение расстояний (по “красномусмещению”)∼0.5% (5млн.) всех известных небесныхобъектовИзмерение расстояний до галактикПочему не просто математика, а большие данные?Время чтения 1 ТБ?План занятий1.2.3.HadoopHadoop стекSparkОценка1.
Практические задания для решения дома на кластере HDInsight2. Экзамен.
Характеристики
Тип файла PDF
PDF-формат наиболее широко используется для просмотра любого типа файлов на любом устройстве. В него можно сохранить документ, таблицы, презентацию, текст, чертежи, вычисления, графики и всё остальное, что можно показать на экране любого устройства. Именно его лучше всего использовать для печати.
Например, если Вам нужно распечатать чертёж из автокада, Вы сохраните чертёж на флешку, но будет ли автокад в пункте печати? А если будет, то нужная версия с нужными библиотеками? Именно для этого и нужен формат PDF - в нём точно будет показано верно вне зависимости от того, в какой программе создали PDF-файл и есть ли нужная программа для его просмотра.