_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007) (_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf), страница 11
Описание файла
PDF-файл из архива "_пособие_ Ветров Д.П._ Кропотов Д.А. Байесовские методы машинного обучения_ учебное пособие (2007).pdf", который расположен в категории "". Всё это находится в предмете "(ммо) методы машинного обучения" из 10 семестр (2 семестр магистратуры), которые можно найти в файловом архиве МГУ им. Ломоносова. Не смотря на прямую связь этого архива с МГУ им. Ломоносова, его также можно найти и в других разделах. .
Просмотр PDF-файла онлайн
Текст 11 страницы из PDF
Значение критерия может расцениваться лишь как приблизительная характеристика обобщающей способности полученного решающего правила• Критерии разумно использовать когда все M настраиваемых параметров оказывают примерно одинаковое влияние на вид решающего правила, например, входят в него линейно.• Байесовский критерий сильнее штрафует сложные (с точки зрения дополнительных параметров)модели• В байесовский критерий входит значение правдоподобия в точке wM P , а в критерий Акаике — вточке wM LГлава 6Байесовский подход к теориивероятностей.
Примеры байесовскихрассужденийВ главе представлен байесовский подход к теории вероятностей, при котором вероятность интерпретируется как мера незнания, а не как объективная случайность. Приведены основные правила работы сусловными вероятностями. Демонстрируются различия между частотным и байесовским подходами. Показано, что байесовский подход к теории вероятностей можно рассматривать как обобщение классическойбулевой логики для проведения логических рассуждений в условиях неопределенностей.
В конце главыприведен пример байесовского вывода для ситуации, в которой классическая логика оказывается бессильна.67Глава 6. Байесовский подход к теории вероятностей. Примеры байесовских рассуждений6.168Ликбез: Формула Байеса6.1.1Sum- и Product- ruleУсловная вероятность• Пусть X и Y — случайные величины с плотностями p(x) и p(y) соответственно• В общем случае их совместная плотность p(x, y) 6= p(x)p(y). Если это равенство выполняется, величины называют независимыми• Условной плотностью называется величинаp(x|y) =p(x, y)p(y)• Смысл: как факт Y = y влияет на распределение X.RRЗаметим, что p(x|y)dx ≡ 1, но p(x|y)dy не обязан равняться единице, т.к.
относительно y это не плотность, афункция правдоподобия• Очевидная система тождеств p(x|y)p(y) = p(x, y) = p(y|x)p(x) позволяет легко переходить от p(x|y)к p(y|x)p(y|x)p(x)p(x|y) =p(y)Sum-rule• Все операции над вероятностями базируются на применении всего двух правил• Sum rule: Пусть A1 , . . . , Ak взаимоисключающие события, одно из которых всегда происходит.ТогдаkXP (Ai ∪ Aj ) = P (Ai ) + P (Aj )P (Ai ) = 1i=1• Очевидное следствие (формула полной вероятности): ∀B верноkXP (B|Ai )P (Ai )i=1P (B)• В интегральной форме=1P (B) =i=1P (Ai |B) = 1, откудаP (B|Ai )P (Ai )i=1Zp(b) =kXPkZp(b, a)da =p(b|a)p(a)daProduct-rule• Правило произведения (product rule) гласит, что любую совместную плотность всегда можно разбитьна множителиp(a, b) = p(a|b)p(b) P (A, B) = P (A|B)P (B)• Аналогично для многомерных совместных распределенийp(a1 , . .
. , an ) =p(a1 |a2 , . . . , an )p(a2 |a3 , . . . , an ) . . . p(an−1 |an )p(an )• Можно показать (Jaynes, 1995), что Sum- и Product- rule являются единственными возможными операциями, позволяющими рассматривать вероятности как промежуточную ступень между истинойи ложьюГлава 6. Байесовский подход к теории вероятностей. Примеры байесовских рассуждений6.1.269Формула БайесаАприорные и апостериорные суждения• Предположим, мы пытаемся изучить некоторое явление• У нас имеются некоторые знания, полученные до (лат. a priori) наблюдений/эксперимента. Это может быть опыт прошлых наблюдений, какие-то модельные гипотезы, ожидания• В процессе наблюдений эти знания подвергаются постепенному уточнению.
После (лат. a posteriori)наблюдений/эксперимента у нас формируются новые знания о явлении• Будем считать, что мы пытаемся оценить неизвестное значение величины θ посредством наблюденийнекоторых ее косвенных характеристик x|θФормула Байеса• Знаменитая формула Байеса (1763 г.) устанавливает правила, по которым происходит преобразование знаний в процессе наблюдений• Обозначим априорные знания о величине θ за p(θ)• В процессе наблюдений мы получаем серию значений x = (x1 , . . .
, xn ). При разных θ наблюдениевыборки x более или менее вероятно и определяется значением правдоподобия p(x|θ)• За счет наблюдений наши представления о значении θ меняются согласно формуле Байесаp(θ|x) =p(x|θ)p(θ)p(x|θ)p(θ)=Rp(x)p(x|θ)p(θ)dθ• Заметим, что знаменатель не зависит от θ и нужен исключительно для нормировки апостериорнойплотности6.2Два подхода к теории вероятностей6.2.1Частотный подходРазличия в подходах к теории вероятностей• В современной теории вероятностей существуют два подхода к тому, что называть случайностью• В частотном подходе предполагается, что случайность есть объективная неопределенностьВ жизни «объективные» неопределенности практически не встречаются. Чуть ли не единственным примером можетслужить радиоактивный распад (во всяком случае, по современным представлениям)• В байесовском подходе предполагается, что случайность есть мера нашего незнанияПочти любой случайный процесс можно так интерпретировать.
Например, случайность при бросании кости связанас незнанием динамических характеристик кубика, сукна, руки кидающего, сопротивления воздуха и т.п.Следствие частотного подхода• При интерпретации случайности как «объективной» неопределенности единственным возможнымсредством анализа является проведение серии испытаний• При этом вероятность события интерпретируется как предел частоты наступления этого события вn испытаниях при n → ∞• Исторически частотный подход возник из весьма важной практической задачи: анализа азартныхигр — области, в которой понятие серии испытаний имеет простой и ясный смыслГлава 6.
Байесовский подход к теории вероятностей. Примеры байесовских рассуждений70Особенности частотного подхода• Величины четко делятся на случайные и детерминированные• Теоретические результаты работают на практике при больших выборках, т.е. при n À 1• В качестве оценок неизвестных параметров выступают точечные, реже интервальные оценки• Основным методом статистического оценивания является метод максимального правдоподобия (Фишер, 1930ые гг.)6.2.2Байесовский подходАльтернативный подход• Далеко не всегда при оценке вероятности события удается провести серию испытаний.• Пример: оцените вероятность того, что человеческая цивилизация может быть уничтожена метеоритной атакой• Очевидно, что частотным методом задачу решить невозможно (точнее вероятность этого событиястрого равна нулю, ведь подобного еще не встречалось).
В то же время интерпретация вероятностикак меры нашего незнания позволяет получить отличный от нуля осмысленный ответ• Идея байесовского подхода заключается в переходе от априорных знаний (или точнее незнаний) капостериорным с учетом наблюдаемых явленийОсобенности байесовского подхода• Все величины и параметры считаются случайнымиТочное значение параметров распределения нам неизвестно, значит они случайны с точки зрения нашего незнания• Байесовские методы работают даже при объеме выборки 0! В этом случае апостериорное распределение равно априорному• В качестве оценок неизвестных параметров выступают апостериорные распределения, т.е. решитьзадачу оценивания некоторой величины, значит найти ее апостериорное распределение• Основным инструментом является формула Байеса, а также sum- и product- ruleНедостатки байесовского подхода• Начиная с 1930 гг.
байесовские методы подвергались резкой критике и практически не использовались по следующим причинам– В байесовских методах предполагается, что априорное распределение известно до начала наблюдений и не предлагается конструктивных способов его выбора– Принятие решения при использовании байесовских методов в нетривиальных случаях требуетколоссальных вычислительных затрат, связанных с численным интегрированием в многомерных пространствах– Фишером была показана оптимальность метода максимального правдоподобия, а следовательно — бессмысленность попыток придумать что-то лучшее• В настоящее время (с начала 1990 гг.) наблюдается возрождение байесовских методов, которыеоказались в состоянии решить многие серьезные проблемы статистики и машинного обученияГлава 6.
Байесовский подход к теории вероятностей. Примеры байесовских рассуждений71Точечные оценки при использовании метода Байеса• Математическое ожидание по апостериорному распределению. Весьма трудоемкая процедураZθ̂B = θp(θ|x)dθ• Максимум апостериорной плотности. Удобен в вычислительном планеθ̂M P = arg max P (θ|x) = arg max P (x|θ)P (θ) = arg max (log P (x|θ) + log P (θ))• Это фактически регуляризация метода максимального правдоподобия!6.36.3.1Байесовские рассужденияСвязь между байесовским подходом и булевой логикойПопытки обобщения булевой логики• Классическая булева логика плохо применима к жизненным ситуациям, которые далеко не всегдавыразимы в терминах «истина» и «ложь»• Неоднократно предпринимались попытки обобщить булеву логику, сохраняя при этом действие основных логических законов (Modus Ponens, Modus Tolens, правило де Моргана, закон двойного отрицания и пр.)• Наиболее известные примеры:– Многозначная логика, расширившая множество логических переменных до {0, 1, .
. . , k − 1}– Нечеткая логика, оперирующая континуумом значений между 0 и 1, характеризующими разную степень истинностиНедостатки нечеткой логики• Несмотря на кажущуюся привлекательность нечеткая логика обладает рядом существенных недостатков• Отсутствует строгое математическое обоснование ряду методов, использующихся в нечетких рассуждениях• Существует множество эвристических правил, определяющих как именно нужно строить нечеткийвывод. Все они приводят к различным результатам• Непонятна связь нечеткой логики с теорией вероятностиЛогическая интерпретация байесовского подхода• Байесовский вывод можно рассматривать как обобщение классической булевой логики.
Только вместо понятий «истина» и «ложь» вводится «истина с вероятностью p».• Обобщение классического правила Modus PonensA, A ⇒ BA&Bp(A), p(B|A)p(A&B)Глава 6. Байесовский подход к теории вероятностей. Примеры байесовских рассуждений• Теперь рассмотрим такую ситуацию72A ⇒ B, BA =?p(B|A), p(B), p(A)p(A|B)Формула Байеса позволяет рассчитать изменение степени истинности A с учетом информации о B• Это новый подход к синтезу экспертных систем• В отличие от нечеткой логики, он теоретически обоснован и математически корректен6.3.2Пример вероятностных рассужденийЖизненная ситуацияПредположим, что Джон установил у себя дома сигнализацию от воров.
Если к нему в дом проникаетвор (событие v), Джон получает СМС на свой мобильный (событие t). Сигнализация также может срабатывать от небольших землятрясений (событие z), которые иногда происходят в городе Джона. Пустьв один из дней в обед Джон получает сигнал тревоги. За обедом он встречает своего друга (событие d),который сообщает ему, что уровень преступности в квартале Джона в 10 раз выше среднего по говоду.Закончив обедать, Джон слышит сводку новостей по радио (событие r), в которой сообщается о толькочто произошедшем землятрясении.Символом ¬ будем обозначать событие, противоположное к исходномуВероятностная интерпретация• Технические характеристики сигнализации p(t|v, z) = p(t|v, ¬z) = 1, p(t|¬v, z) = 0.1, p(t|¬v, ¬z) = 0• Статистическая информация, набранная Джоном p(v) = 2 · 10−4 , p(z) = 0.01• Сообщение друга p(d) = 1, p(v|d) = 2 · 10−3• Мы предположим, что Джон полностью доверяет другу.