Лекция 5. Практические кейсы “Больших данных” (2015 Лекции)
Описание файла
Файл "Лекция 5. Практические кейсы “Больших данных”" внутри архива находится в папке "2015 Лекции". PDF-файл из архива "2015 Лекции", который расположен в категории "". Всё это находится в предмете "(смрхиод) современные методы распределенного хранения и обработки данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст из PDF
Современные методыраспределенного хранения иобработки данныхЧасть 2.bigdata@cs.msu.ruБольшие данные: распределенноехранение и обработка данных спомощью модели вычисленийMapReduceЛекция №1. Практические кейсы “Больших данных”Когда они стали большимигигатерапетаэксаНачало цивилизациизеттайоттаэксабайтэксабайта в суткиПочему их стало многоДанные пользователяДействияСодержаниеДанныеСвязиПравило четырехобъемБольшие объемыданныхскоростьБыстротапоступления иобновленияданныхразнообразиеРазнообразныетипы данныхструктурированные данныенеструктурированные текстовыеграфы медиадостоверностьНизкое качествонедостоверностьанализируемыхданныхБольшие данныевремя отклика1.2.Сбор, хранение и запросы кданным в СУБДвысоконагруженныхмногопользовательскихинформационных системАнализ существующихмассивов данных с цельюоптимизации целевыхпоказателей и поддержки впринятии решениймного небольшихзапросовмного пользователеймного данныхмасштабированиеобработкимасштабированиехранилищанеструктурированныевыявлениеданныезакономерностей,полезных для с т.зр.пониманиецелевых показателейпроисходящего вданныхиспользованиевыявленныхстатистическиепоказателей взапросыавтоматическомпринятии решенийАнализ данныхПодходы к анализу данных●●Статистические запросы (SQL, MDX), визуализация найденных статистикМатематическая статистика, Machine Learning, Data Mining○○○Descriptive modelling (поиск интерпретируемых зависимостей в данных в виде деревьеврешений, кластеров, ассоциативных правил, визуализация найденных зависимостей)Predictive modelling (прогнозирование и классификация)Prescriptive modelling (рекомендации)данныеинформациязнанияКто владеет информацией тот владеет миромРотшильд•методы обнаружения в данных ранеенеизвестных нетривиальных практическиполезных и доступных интерпретации знанийнеобходимых для принятия решений в различныхсферах человеческой деятельности ПятецкийШапироМатематическаястатистикаТеориявероятностейМетодыоптимизацииЛинейнаяалгебраРазновидностиОбнаружение в данныхзаведомо неизвестных иполезных знанийЦель Найти новыезнанияАвтоматизированноепостроение точной моделиявления по данным с цельюее последующегоавтоматизированногоиспользованияЦель Автоматизацияпостроения и применениямоделиБазовая терминологияАтрибутыскоростьм секНаборданныхускорением сек••вертикальнаяскорость м секНепрерывные все из примераКатегориальные погодные условиянормальные осадки штормвысотамПрецедентКлассификацияскоростьм секускорением секвертикальнаяскорость м секвысотамТиплетательногосредстваобучающаявыборкаССобучениеССприменениеСССМодельКлассификацияЛогистическая регрессияПрогнозированиескоростьм секускорением секвертикальнаяскорость м секвысотамВремя нахожденияв зоне контролясекобучающаявыборкаобучениеприменениенепрерывенМодельКлассификация и прогнозированиеВходные признакиЦелевая переменная…Обучающая выборка…Классификация и прогнозированиеЗадачаПерсонификация контента пользователя соцсетиЛайки и контентРекомендованный контентРекомендация товаров и услугИстория покупок пользователялайкиНабор рекомендованныхтоваров и услугКарточный анти фродПоследние транзакцииРешение фрод нормаКредитный скоринг с использованием данныхсоцсетейАнкетные данные поведение иконтент связанный спользователем в соцсетяхРешение по кредитуПоиск взаимосвязей между физическойактивностью питанием и заболеваемостьюОбщая информация о пациентеданные диетологическихдневников показатели датчиковНабор вероятных диагнозовКластерный анализскоростьм секускорением секвертикальнаяскорость м секвысотамНайти группы похожих летательных аппаратов пролетающих над РЛСКластерный анализ результатОбнаружение аномалийНайти в наборе данных нетипичные прецедентырезюме• Бизнес кейсы → Математические задачи → Алгоритмы• Математические задачи– Классификация– Прогнозирование– Кластеризация– Обнаружение аномалий– …Кейсы “Анализа больших данных”Кейс #1.
Интернет-реклама$$$конверсия0.1%показы баннеров, sms/email-рассылкиконверсия0.2%клики по баннеру, звонки клиентовконверсия3%покупка услугиRTBСчетчикиDMPDSPbannerSSPuser data$$БаннерныесетиDSPDMPuser dataSupply-side-platformЦенообразование настороне “издателей”.Аукцион.DSP$Demand-side-platformsПрием ставок отрекломодателейАггрегаторы“Интернетследов”СоцсетиRTB●●●●Тренд “Персонализация рекламы”Mail.Ru vs. Яндекс :-)Огромные объемы данных (число пользователей(Ру)Интернет * число действий)Машинное обучение в таргетинге○○сегментыbusiness-specific сегментыКейс #2.
Кредитный скорингПо входным данным о клиенте определить вероятность кредитного“дефолта”1 поколение: экспертный подход2 поколение: скоринговые карты, основанные на соц.-дем. информации3 поколение: поведенчиский скоринг (внутрибанковское поведение и бюрокредитных историй)4 поколение: “биг дата” - внешние источники данных - Интернет, соц.-сети,телеком, e-commerce и др.Современный кредитный скорингСоц.-дем.ВнутрибанковскоеповедениеКредитныеисторииИнтернетОтсутствующие данные(matching rate)ТелекомКредитный скорингКредитная история:Дата последнего кредита 1995 г.Число просроченных кредитов 0Интернет-”след”:yandex.ru mail.ru odnoklassniki.ruРазная степень полноты данныхКредитный скорингПочему “большие”?●●●Число клиентов: десятки миллионовАнализ транзакций по картам: +3-4 порядкаСырые неструктурированные данные из внешних источниковКейс #3.
Астрофизика400 лет назад ...Астрофизика… и сегодня - времяцифровых обзоровнебаЦифровые обзоры неба∼109 небесныхобъектов (наизображениях)∼1015байт (Пб)сырых данных(изображения)∼102-3атрибутов в каталогахдля каждого объектаСырые данныеИзображения неба вшироком диапазоне∼109 объектовСпектры небесныхобъектов:∼0.5% (5млн.)объектовСырые данные: спектры●●точная классификация небесных объектовточное измерение расстояний (по “красномусмещению”)∼0.5% (5млн.) всех известных небесныхобъектовИзмерение расстояний до галактикПочему не просто математика, а большие данные?Время чтения 1 ТБ?План занятий1.2.3.HadoopHadoop стекSparkОценка1.
Практические задания для решения дома на кластере HDInsight2. Экзамен.