2015 Методичка по ММО (сделана частично_ не все темы) (1185321), страница 2

Файл №1185321 2015 Методичка по ММО (сделана частично_ не все темы) (2015 Методичка по ММО (сделана частично_ не все темы)) 2 страница2015 Методичка по ММО (сделана частично_ не все темы) (1185321) страница 22020-08-252020-08-25СтудИзба

2015 Методичка по ММО (сделана частично_ не все темы)

Просмтор этого файла доступен только зарегистрированным пользователям. Но у нас супер быстрая регистрация: достаточно только электронной почты!

Регистрация/авторизация

Текст из файла (страница 2)

Необходимые технологии: базы данных, хранилища данных (warehouses), OLAP (online analytical processing), системы отчётности, ИАД (Data Mining, Machine Learning, ...)

Сбор данных -> проверка гипотез -> генерация гипотез

В машинном обучении часто мы не вольны выбирать выборку (например, мы не можем сказать "заразите мне ещё людей")

Методология анализа данных

Методология философии анализа данных:

Бизнес (управление) (снижение себестоимости, повышение производитльности труда, сохранение старых клиентов, привлечение новых, увеличение рыночной доли, освоение новых рынков…)
Индустрия (инженеры, технологи) (видят готовые решения, но не всегда класс задач)
Отраслевая наука
Прикладная наука
Фундаментальная наука (топологическое пространство, аналитическая функция, асимптотика распределения, локальный оптимум, электронная плотность, третичная структура белка…)

На каждом уровне:

Постановка в интересах верхнего уровня.

Метод решения на основе знаний нижнего уровня.

Использовать классы задач, которые понимают представители соседних уровней.

=> конкретные задачи верхних уровней превращаются в каскад всё более абстрактных задач нижнего уровня.

Уровни задач:

Предметная область - содержательные задачи
Прикладная наука - инструменты статистики и анализа, фундаментальные задачи ИАД
Фундаментальная наука - задачи по дисциплинам

Задача анализа данных, качество классификации

Постановка задачи обучения:

Каждому объекту сопоставляется унифицированное описание (description) (определяется признаковое описание объекта)

Например: признаковое описание объекта (feature-based description) или свободные переменные (multiple predictor/response/independent variables, multivariable data)

Каждому объекту сопоставляется значение целевого признака или зависимой переменной (target feature, outcome/dependent variable)
1. если множество значений целевого признака дискретное – задача классификации
2. если множество значений целевого признака непрерывное – задача восстановления регрессии
3. в простом случае целевого признака – это скаляр
Требуется найти отображение, переводящее описание объекта в значение целевого признака и действующее на генеральной совокупности объектов (feature extraction)

!!! не помню, к чему это, но смотрится важным

(Это что-то вроде процесса обучения - этапа Learning)

Sensor Level – «описание признаков», по которым можно сортировать и которые потом будут использоваться (датчики, измерения)
Sensor Fusion – «правила», по которым можно группировать в один признак объекты на входе (если есть несколько датчиков, то измерения должны проводиться в совокупности)

После первых двух этапов работаем с данными

Feature (descriptor) extraction – «выделение» признаков, которые будут использоваться алгоритмом для обработки в дальнейшем (применение дескрипторной функции, ряд определенных признаков)
1. Feature Fusion - объединение по каким-либо признакам
2. Score Fusion - объединение по каким либо оценкам признаков

После третьего этапа уже признаки

Распознавание/Оценки (Prediction Scoring)

Теперь оценки

Decision Making
1. Decision Fusion (формализация того, как проводить выбор/принятие решения)

На выходе решение

2 этапа функционирования системы:

Создание системы (Learning) (настройка системы)

В ходе «обучения» могут появляться различные «сущности».

Эксплуатация системы (Prediction)

Базовые понятия Анализа Данных (АД):

Описание объекта – то, что поступит на вход отображения. Бывает, что объект и его описание не всегда различаемы, потому что объект может быть с самого начала задан в виде своего описания.
Отображение описания объекта в значение целевой функции, в зависимости от контекста, принято называть классификатором (classifier, predictor), регрессией (predictor function), алгоритмом…
Информационная модель или модель данных – множество отображений, из которого выбираем ответ. Обычно модель – параметрическое семейство отображений: выбрать отображение – указать значения всех параметров.
Обучение, настройка алгоритма – процесс выбора конкретного отображения из модели. (!!!скорее всего это определение не совсем точное. Обучение - процесс настройки метода обучения, согласно известным данным (прецедентам и не только))
Метод обучения – процедура, которая выбирает из модели конкретное отображение.

Метод обучения зависит от некоторой дополнительной информации – частичное описание отображения, ограничения универсальные или локальные.

Для одной и той же модели и одной и той же информации можно предложить много разных методов обучения, которые могут дать разные ответы.

Пример:

объект: человек

признаковое описание: (возраст - x₁, рост - x₂)

целевой признак: вес

Задача восстановления регрессии: необходимо найти отображение, которое по возрасту и росту определяет вес

Пример универсального ограничения: с увеличением роста вес должен расти

Информационная модель: M={f:R²→R | f(x₁, x₂)=a₁x₁+a₂x₂+a₀} (это трёх-параметрическое семейство)

процесс обучения должен назначить значения параметрам a_i, значения можно выбрать как угодно.

Подход к процессу обучения с точки зрения оптимизации:

ввести понятие качества отображения (performance metrics)
указать модель
выбрать из модели отображение с наилучшим качеством

таким образом задача обучения сводится к задаче оптимизации

Классы задач прикладной статистики (в ней в отличие от ИАД задача классификации и восстановления регрессии устанавливается поэтапно, а не сразу):

Дисперсионный анализ - установить наличие влияния заданного фактора на изучаемый процесс
Корреляционный анализ - оценить силу такой связи
Регрессионный анализ - выбрать конкретную математическую модель связи, оценить адекватность отражения ею установленной взаимосвязи

(с точки зрения Майсурадзе - типичная ошибка, это взять метод решения не от той задачи)

Для задачи обучения по прецедентам, даны прецеденты (размеченная выборка - конечный набор объектов с описаниями и истинными значениями целевого признака) и некоторый функционал качества (который агрегирует результаты алгоритма для всех объектах (и предсказанных им целевых признаков)).

Значение функционала качества зависит и от отображения, и от размеченной выборки.

Для задачи восстановления регрессии (отражение на непрерывное множество), алгоритм не даст значения равного целевому признаку, поэтому вводится невязка на основе некоторой метрики на множестве значений целевого признака.

Типичный функционал качества агрегирует множество невязок, полученных на прецедентах

Для задач снижения размерности целевой признак отсутствует, в ней переходят от одних описаний к другим. Принято вводить невязку через метрику на пространстве описаний.

Типичный функционал качества агрегирует множество невязок между исходными и новыми описаниями (!!! а исходные данные тут причём?)

Для задачи классификации, множество значений целевых признаков дискретно и поэтому можно говорить о точном равенстве истинного ответа с результатом распознавания.

Корректный классификатор - классификатор, который на наборе прецедентов не даёт ни одной ошибки.

На практике требовать полной корректности классификатора - не самое удачное решение. Для большинства показателей качества, ответ даваемый в рамках оптимизационного подхода не будет корректным, да и проблему переобучения никто не отменял.

Матрица ошибок (МО) - двумерное аналитическое пространство (истинные ответы (actual) x результат распознавания (predicted)) (кажись это означает, что в клетках матрицы-таблицы стоят соответствующие этой клетке алгоритмы)

Матрица ошибок позволяет рассчитать различные показатели качества классификатора на размеченной выборке.

На главной диагонали - правильно распознанные прецеденты.

Прецеденты (S¹, c¹), …, (S^m, c^m), N - алгоритм, который предсказал имел истинный ответ j’, а предсказал j’’.

Бинарная классификация (важный частный случай классификации). так же о ней говорят, как о методе диагностики:

Классификация на два класса часто понимается как диагностики наличия (positive) / отсутствия (negative) какого-то свойства или состояния. В диагностике (особенно медицинской) сложилась своя терминология, параллельная анализу данных.

«положительный» ответ для объектов с наличием состояния - истинно положительные случаи - true positive
«положительный» ответ для объектов с отсутствием состояния - ложноположительные случаи - false positive - ошибка второго рода
«отрицательный» ответ для объектов с наличием состояния - ложноотрицательные случаи - false negative - ошибка первого рода
«отрицательный» ответ для объектов с отсутствием состояния - истинно отрицательные случаи - true negative

Важнейшие операционные характеристики метода диагностики:

Чувствительность (Se, sensitivity)
Специфичность (Sp, specificity)

Вспомогательные критерии информативности (эффективности) метода диагностики:

Общая точность (Ac, accuracy)
Прогностичность положительного результата (+VP, positive predictive value)
Прогностичность отрицательного результата (-VP, negative predictive value)

Чувствительность (recall, полнота) - вероятность положительного результата теста у лиц с заболеванием =TP/(TP+FN). Чем выше чувствительность, тем чаще выявляются патологии, тем больше ложных тревог. Высокая чувствительность полезна при массовом скрининге населения, чтобы отобрать возможных больных для дальнейшей диагностики.
Специфичность (specificity) - вероятность отрицательного результата теста у лиц без заболевания =TN/(TN+FP). Чем выше специфичность, тем надежнее подтверждается патология, тем больше пропусков цели. Высокая специфичность полезна на втором этапе диагностики, когда надо доказать наличие уже предполагаемой болезни из малого числа диагнозов.

Метод с высокой специфичностью называется дискриминатор.

Диагностическая точность (precision) - вероятность правильного ответа среди всех положительных ответов (какая доля действительно своих - странное высказывание, может его вообще убрать?) = TP/(TP+FP)
Общая точность (Aсcuracy) – доля правильных ответов = (TP+TN)/m (!!!) ;(m = TP + TN + FP + FN)

Чтобы объединить несколько критериев в один, чтобы потом можно было работать с одним числом, используется F-measure: 1/F = (1/P + 1/R) /2 !!!пояснения? F - …, P- …, R - ...

Можно добавлять веса, но они будут идти исключительно из предметной области.

Микроусреднение – когда мы сразу считаем показатель качества по всем показателям.

Макроусреднение – когда мы сначала группируем по группам, а потом уже по показателям групп выводим показатель качества.

С точки зрения бизнеса всегда нужно получить ответ, но иногда на выходе добавляют возможный вариант ответа «не знаю» . Часто обозначают Δ (a - для positive сказали “не знаю”).

Precision – диагностическая точность = TP/(TP+FP)

Recall – полнота = TP/(TP+FN) + a, но часто каждый раз придумывают по своему, могут добавить a/2, ...

Элементы принятия решений. Парадоксы

Парадокс Симпсона, Lion at the gate paradox

Модель принятия решений может быть чересчур опрощённой, в результате чего будет проигнорированная важная информация (например, если мы оцениваем кино, то лучше это делать отдельно для мужчин и женщин)

Парадокс Симпсона:

Явление в статистике, когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное.

Пример:

лекарство 1	лекарство 2
1 из 5 мужчин вылечился = 20%	3 из 10 вылечилось = 30%	3/4 = 75%	5/7 = 71%
4 из 9 женщин вылечилось = 44%	1 из 2 вылечился = 50%	2/7 = 28%	1/4 = 25%
в сумме 5 из 14 = 36%	в сумме 4 из 12 = 33%	5/11 = 45%	6/11 = 54%

Но как это возможно? Суть в том, что выборки были не одинакового размера, и есть 4 разных категории: маленькая выборка с плохим показателем, маленькая выборка с хорошим показателем, и аналогично для большой выборки, - а дальше, когда мы складываем выборки (мужчин и женщин), то к первой подмешивается вторая выборка и из-за относительного размера выборок (всех 4-х) выборка для лекарства 1 портится одним образом (например туда добавляется ), а выборка для лекарства 2 портится другим образом.

Lion at the gate paradox (!!! какое настоящее название парадокса, а то это не гуглится?):

Характеристики

Тип файла

Документ

Размер

267,93 Kb

Материал

2015 Методичка по ММО (сделана частично_ не все темы)

Тип материала

Книга

Предмет

(ММО) Методы машинного обучения

Высшее учебное заведение

МГУ им. Ломоносова

Список файлов книги

2015-metodichka-po-mmo-sdelana-chastichno_-ne-vse-temy.rar

2015 Методичка по ММО (сделана частично_ не все темы).docx

Поделитесь ссылкой:

Ставлю 10/10
Все нравится, очень удобный сайт, помогает в учебе. Кроме этого, можно заработать самому, выставляя готовые учебные материалы на продажу здесь. Рейтинги и отзывы на преподавателей очень помогают сориентироваться в начале нового семестра. Спасибо за такую функцию. Ставлю максимальную оценку.

Лучшая платформа для успешной сдачи сессии
Познакомился со СтудИзбой благодаря своему другу, очень нравится интерфейс, количество доступных файлов, цена, в общем, все прекрасно. Даже сам продаю какие-то свои работы.

Студизба ван лав ❤
Очень офигенный сайт для студентов. Много полезных учебных материалов. Пользуюсь студизбой с октября 2021 года. Серьёзных нареканий нет. Хотелось бы, что бы ввели подписочную модель и сделали материалы дешевле 300 рублей в рамках подписки бесплатными.

Отличный сайт
Лично меня всё устраивает - и покупка, и продажа; и цены, и возможность предпросмотра куска файла, и обилие бесплатных файлов (в подборках по авторам, читай, ВУЗам и факультетам). Есть определённые баги, но всё решаемо, да и администраторы реагируют в течение суток.

Маленький отзыв о большом помощнике!
Студизба спасает в те моменты, когда сроки горят, а работ накопилось достаточно. Довольно удобный сайт с простой навигацией и огромным количеством материалов.

Студ. Изба как крупнейший сборник работ для студентов
Тут дофига бывает всего полезного. Печально, что бывают предметы по которым даже одного бесплатного решения нет, но это скорее вопрос к студентам. В остальном всё здорово.

Спасательный островок
Если уже не успеваешь разобраться или застрял на каком-то задание поможет тебе быстро и недорого решить твою проблему.

Всё и так отлично
Всё очень удобно. Особенно круто, что есть система бонусов и можно выводить остатки денег. Очень много качественных бесплатных файлов.

Отзыв о системе "Студизба"
Отличная платформа для распространения работ, востребованных студентами. Хорошо налаженная и качественная работа сайта, огромная база заданий и аудитория.

Отличный помощник
Отличный сайт с кучей полезных файлов, позволяющий найти много методичек / учебников / отзывов о вузах и преподователях.

Отлично помогает студентам в любой момент для решения трудных и незамедлительных задач
Хотелось бы больше конкретной информации о преподавателях. А так в принципе хороший сайт, всегда им пользуюсь и ни разу не было желания прекратить. Хороший сайт для помощи студентам, удобный и приятный интерфейс. Из недостатков можно выделить только отсутствия небольшого количества файлов.

Спасибо за шикарный сайт
Великолепный сайт на котором студент за не большие деньги может найти помощь с дз, проектами курсовыми, лабораторными, а также узнать отзывы на преподавателей и бесплатно скачать пособия.

2015 Методичка по ММО (сделана частично_ не все темы) (1185321), страница 2

Текст из файла (страница 2)

Методология анализа данных

Задача анализа данных, качество классификации

Элементы принятия решений. Парадоксы

Парадокс Симпсона, Lion at the gate paradox

Характеристики

Список файлов книги