Главная » Все файлы » Просмотр файлов из архивов » PDF-файлы » Лекция 5. Практические кейсы “Больших данных”

Лекция 5. Практические кейсы “Больших данных” (2015 Лекции)

PDF-файл Лекция 5. Практические кейсы “Больших данных” (2015 Лекции) (СМРХиОД) Современные методы распределенного хранения и обработки данных (63230): Лекции - 10 семестр (2 семестр магистратуры)Лекция 5. Практические кейсы “Больших данных” (2015 Лекции) - PDF (63230) - СтудИзба2020-08-25СтудИзба

Описание файла

Файл "Лекция 5. Практические кейсы “Больших данных”" внутри архива находится в папке "2015 Лекции". PDF-файл из архива "2015 Лекции", который расположен в категории "". Всё это находится в предмете "(смрхиод) современные методы распределенного хранения и обработки данных" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .

Просмотр PDF-файла онлайн

Текст из PDF

Современные методыраспределенного хранения иобработки данныхЧасть 2.bigdata@cs.msu.ruБольшие данные: распределенноехранение и обработка данных спомощью модели вычисленийMapReduceЛекция №1. Практические кейсы “Больших данных”Когда они стали большимигигатерапетаэксаНачало цивилизациизеттайоттаэксабайтэксабайта в суткиПочему их стало многоДанные пользователяДействияСодержаниеДанныеСвязиПравило четырехобъемБольшие объемыданныхскоростьБыстротапоступления иобновленияданныхразнообразиеРазнообразныетипы данныхструктурированные данныенеструктурированные текстовыеграфы медиадостоверностьНизкое качествонедостоверностьанализируемыхданныхБольшие данныевремя отклика1.2.Сбор, хранение и запросы кданным в СУБДвысоконагруженныхмногопользовательскихинформационных системАнализ существующихмассивов данных с цельюоптимизации целевыхпоказателей и поддержки впринятии решениймного небольшихзапросовмного пользователеймного данныхмасштабированиеобработкимасштабированиехранилищанеструктурированныевыявлениеданныезакономерностей,полезных для с т.зр.пониманиецелевых показателейпроисходящего вданныхиспользованиевыявленныхстатистическиепоказателей взапросыавтоматическомпринятии решенийАнализ данныхПодходы к анализу данных●●Статистические запросы (SQL, MDX), визуализация найденных статистикМатематическая статистика, Machine Learning, Data Mining○○○Descriptive modelling (поиск интерпретируемых зависимостей в данных в виде деревьеврешений, кластеров, ассоциативных правил, визуализация найденных зависимостей)Predictive modelling (прогнозирование и классификация)Prescriptive modelling (рекомендации)данныеинформациязнанияКто владеет информацией тот владеет миромРотшильд•методы обнаружения в данных ранеенеизвестных нетривиальных практическиполезных и доступных интерпретации знанийнеобходимых для принятия решений в различныхсферах человеческой деятельности ПятецкийШапироМатематическаястатистикаТеориявероятностейМетодыоптимизацииЛинейнаяалгебраРазновидностиОбнаружение в данныхзаведомо неизвестных иполезных знанийЦель Найти новыезнанияАвтоматизированноепостроение точной моделиявления по данным с цельюее последующегоавтоматизированногоиспользованияЦель Автоматизацияпостроения и применениямоделиБазовая терминологияАтрибутыскоростьм секНаборданныхускорением сек••вертикальнаяскорость м секНепрерывные все из примераКатегориальные погодные условиянормальные осадки штормвысотамПрецедентКлассификацияскоростьм секускорением секвертикальнаяскорость м секвысотамТиплетательногосредстваобучающаявыборкаССобучениеССприменениеСССМодельКлассификацияЛогистическая регрессияПрогнозированиескоростьм секускорением секвертикальнаяскорость м секвысотамВремя нахожденияв зоне контролясекобучающаявыборкаобучениеприменениенепрерывенМодельКлассификация и прогнозированиеВходные признакиЦелевая переменная…Обучающая выборка…Классификация и прогнозированиеЗадачаПерсонификация контента пользователя соцсетиЛайки и контентРекомендованный контентРекомендация товаров и услугИстория покупок пользователялайкиНабор рекомендованныхтоваров и услугКарточный анти фродПоследние транзакцииРешение фрод нормаКредитный скоринг с использованием данныхсоцсетейАнкетные данные поведение иконтент связанный спользователем в соцсетяхРешение по кредитуПоиск взаимосвязей между физическойактивностью питанием и заболеваемостьюОбщая информация о пациентеданные диетологическихдневников показатели датчиковНабор вероятных диагнозовКластерный анализскоростьм секускорением секвертикальнаяскорость м секвысотамНайти группы похожих летательных аппаратов пролетающих над РЛСКластерный анализ результатОбнаружение аномалийНайти в наборе данных нетипичные прецедентырезюме• Бизнес кейсы → Математические задачи → Алгоритмы• Математические задачи– Классификация– Прогнозирование– Кластеризация– Обнаружение аномалий– …Кейсы “Анализа больших данных”Кейс #1.

Интернет-реклама$$$конверсия0.1%показы баннеров, sms/email-рассылкиконверсия0.2%клики по баннеру, звонки клиентовконверсия3%покупка услугиRTBСчетчикиDMPDSPbannerSSPuser data$$БаннерныесетиDSPDMPuser dataSupply-side-platformЦенообразование настороне “издателей”.Аукцион.DSP$Demand-side-platformsПрием ставок отрекломодателейАггрегаторы“Интернетследов”СоцсетиRTB●●●●Тренд “Персонализация рекламы”Mail.Ru vs. Яндекс :-)Огромные объемы данных (число пользователей(Ру)Интернет * число действий)Машинное обучение в таргетинге○○сегментыbusiness-specific сегментыКейс #2.

Кредитный скорингПо входным данным о клиенте определить вероятность кредитного“дефолта”1 поколение: экспертный подход2 поколение: скоринговые карты, основанные на соц.-дем. информации3 поколение: поведенчиский скоринг (внутрибанковское поведение и бюрокредитных историй)4 поколение: “биг дата” - внешние источники данных - Интернет, соц.-сети,телеком, e-commerce и др.Современный кредитный скорингСоц.-дем.ВнутрибанковскоеповедениеКредитныеисторииИнтернетОтсутствующие данные(matching rate)ТелекомКредитный скорингКредитная история:Дата последнего кредита 1995 г.Число просроченных кредитов 0Интернет-”след”:yandex.ru mail.ru odnoklassniki.ruРазная степень полноты данныхКредитный скорингПочему “большие”?●●●Число клиентов: десятки миллионовАнализ транзакций по картам: +3-4 порядкаСырые неструктурированные данные из внешних источниковКейс #3.

Астрофизика400 лет назад ...Астрофизика… и сегодня - времяцифровых обзоровнебаЦифровые обзоры неба∼109 небесныхобъектов (наизображениях)∼1015байт (Пб)сырых данных(изображения)∼102-3атрибутов в каталогахдля каждого объектаСырые данныеИзображения неба вшироком диапазоне∼109 объектовСпектры небесныхобъектов:∼0.5% (5млн.)объектовСырые данные: спектры●●точная классификация небесных объектовточное измерение расстояний (по “красномусмещению”)∼0.5% (5млн.) всех известных небесныхобъектовИзмерение расстояний до галактикПочему не просто математика, а большие данные?Время чтения 1 ТБ?План занятий1.2.3.HadoopHadoop стекSparkОценка1.

Практические задания для решения дома на кластере HDInsight2. Экзамен.

Свежие статьи
Популярно сейчас
Зачем заказывать выполнение своего задания, если оно уже было выполнено много много раз? Его можно просто купить или даже скачать бесплатно на СтудИзбе. Найдите нужный учебный материал у нас!
Ответы на популярные вопросы
Да! Наши авторы собирают и выкладывают те работы, которые сдаются в Вашем учебном заведении ежегодно и уже проверены преподавателями.
Да! У нас любой человек может выложить любую учебную работу и зарабатывать на её продажах! Но каждый учебный материал публикуется только после тщательной проверки администрацией.
Вернём деньги! А если быть более точными, то автору даётся немного времени на исправление, а если не исправит или выйдет время, то вернём деньги в полном объёме!
Да! На равне с готовыми студенческими работами у нас продаются услуги. Цены на услуги видны сразу, то есть Вам нужно только указать параметры и сразу можно оплачивать.
Отзывы студентов
Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.
Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.
Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.
Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.
Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.
Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.
Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.
Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.
Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.
Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.
Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.
Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.
Популярные преподаватели
Добавляйте материалы
и зарабатывайте!
Продажи идут автоматически
5137
Авторов
на СтудИзбе
440
Средний доход
с одного платного файла
Обучение Подробнее